点击加载更多、瀑布流、滚动页面加载等动态页面布局,让基于翻页网址的批量采集方法失效。

本文将提供多个实用整站采集技巧,提供不同方向的思路,助你高效解决各类网页数据批量采集!

1. 技巧一:文章页链接有规律变化

如果文章页链接呈规律变化,常见为数字递增。

http://www.域名.com/atricle/1.html
http://www.域名.com/atricle/2.html
http://www.域名.com/atricle/3.html
...

可使用简数采集器 “详情页(零散采集)” 采集模式,直接批量生成文章页网址采集,跳过列表页获取文章链接环节。

简数采集器批量生成文章页网址配置

2. 技巧二:循环采集

简数的无限循环采集功能:采集每个文章页内容时,收集当前页里的 “上一条” 和 “下一条” 等其他文章链接,并添加到采集队列中,不断循环采集和收集,最终完成整站文章的批量采集。

简数循环采集每个文章页的下一篇等其他文章链接

3. 技巧三:网站地图

网站地图是网站的导航索引,基本列出所有页面的网址,在简数可作为列表页,轻松提取文章页链接进行批量采集。

网站地图地址通常为:域名/sitemap.xml 或者 域名/sitemap.html 。

网站地图采集配置

4. 技巧四:JSON数据采集

JSON数据格式,通常包含多个文章页的链接和内容,适合作为目标页进行批量采集。

简数采集器可自动遍历提取每条数据中的指定字段内容,配置全程可视化操作,简单便捷!

1)获取JSON数据地址

网站不一定有相应的JSON数据页面,可从浏览器的开发者工具 "Network" 处验证,并获取其完整地址(即Request URL值)。

快速获取JSON数据文件的地址技巧

2)JSON数据采集配置

简数有以下两种采集JSON数据的配置方式:

I)提取Json数据中的网址

如果JSON数据格式中仅包含文章的简要信息(如ID、标题和文章页链接等),详细的内容需通过访问文章页采集。

打开简数的列表页提取器,选择 “Json数据” 网址类型进行配置,提取对应的文章页链接进行批量采集。

简数采集器可快速提取取Json数据中的网址

II)采集Json数据中的内容

如果JSON数据页面中已包含多个文章页的主要信息:标题、正文、时间、描述和关键词等,则可使用简数的 “JSON数据源” 采集模式,可视化配置并自动遍历采集每篇文章中的指定字段内容,简单高效!

比如下方示例图为采集导航网站的名称、网址和描述内容。

3)JSON数据采集结果

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐