网站地图(站点地图、Sitemap)通常包含了该网站的大部分文章链接,是一种指明信息资源方位与联系,并且具有导航功能的可视化工具。

网站地图网址一般为:域名/sitemap.xml域名/sitemap.html

简数采集器支持快速采集网站地图(sitemap)中的文章数据,而且有两种方式,二选一即可。

1. 网站地图采集模式

        1)在某个简数采集任务,打开【列表提取器】配置页面;

        2)点击【配置为SiteMap】按钮,简数便会自动切换为专门适配网站地图的采集设置,十分简单快捷,保存。

        3)正常配置文章页采集规则,完成后即可开始采集;

2. 特殊网页正则提取网址

        1)打开某个采集任务的【列表提取器】配置页面;

        2)【列表页网址类型】处选择【特殊网页(如xml、txt等用正则获取链接)】,系统便会切换为正则获取链接模式,自动识别并获取网站地图页面中的全部网址链接,保存即可。

        3)正常配置文章页采集规则,完成后即可开始采集;

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐