采集Sitemap(网站地图)数据
智能快速采集网站地图(sitemap)中的文章数据,使用简数采集器一键转换采集模式即可,非常简单快捷!
·
网站地图(站点地图、Sitemap)通常包含了该网站的大部分文章链接,是一种指明信息资源方位与联系,并且具有导航功能的可视化工具。
网站地图网址一般为:域名/sitemap.xml
或域名/sitemap.html
简数采集器支持快速采集网站地图(sitemap)中的文章数据,而且有两种方式,二选一即可。
1. 网站地图采集模式
1)在某个简数采集任务,打开【列表提取器】配置页面;
2)点击【配置为SiteMap】按钮,简数便会自动切换为专门适配网站地图的采集设置,十分简单快捷,保存。
3)正常配置文章页采集规则,完成后即可开始采集;
2. 特殊网页正则提取网址
1)打开某个采集任务的【列表提取器】配置页面;
2)【列表页网址类型】处选择【特殊网页(如xml、txt等用正则获取链接)】,系统便会切换为正则获取链接模式,自动识别并获取网站地图页面中的全部网址链接,保存即可。
3)正常配置文章页采集规则,完成后即可开始采集;

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)