Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、淘宝、天猫、亚马逊等电商网站商品信息、博客文章列表等等。

前提你已安装web scraper(Google,FireBox商店都有)。
说明:安装后右键查看元素或检查即可看到web scraper,简介如图.
 刚开始只能点第一个(显示你自己建的要爬的所有网站)和第三个(可以创建或导入)
(导入可以查看网站http://www.iwebscraper.com/category/%e6%a8%a1%e6%9d%bf/)

  1. 建一个sitemap

  2. 建好后点击你建的sitemap就可以创建你要抓去的数据了
     3. 这个时候创建一个获取所有元素。
    选择元素

    后面就可以创建需要的数据了。我只写一个

    这就完了。
    最简单就是导入
    例子

{"_id":"keepallcourses","startUrl":["https://www.gotokeep.com/all_courses/"],"selectors":[{"id":"element","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"li","multiple":true,"delay":"2000"},{"id":"name","type":"SelectorText","parentSelectors":["element"],"selector":"div.name","multiple":false,"regex":"","delay":0},{"id":"classnumber","type":"SelectorText","parentSelectors":["element"],"selector":"span:nth-of-type(1)","multiple":false,"regex":"","delay":0},{"id":"bodypart","type":"SelectorText","parentSelectors":["element"],"selector":"span:nth-of-type(2)","multiple":false,"regex":"","delay":0},{"id":"difficult","type":"SelectorText","parentSelectors":["element"],"selector":"div.level","multiple":false,"regex":"","delay":0},{"id":"apparatus","type":"SelectorText","parentSelectors":["element"],"selector":"div.equipment","multiple":false,"regex":"","delay":0},{"id":"trainnumber","type":"SelectorText","parentSelectors":["element"],"selector":"div.pioneer","multiple":false,"regex":"","delay":0}]}
  • 1


第一次写就这这样吧!


有关webscraper的问题,看这个就够了https://www.jianshu.com/p/cd5124ac0871


web scraper 抓取分页数据和二级页面内容https://www.cnblogs.com/fengzheng/p/9328481.html

往期推荐

2020最新python学习资料,全套源码无加密网盘下载

跨平台即将终结!

2020最新java学习资料,全套源码无加密网盘下载

CSDN中的MARKDOWN编辑器如何快速复制粘贴图片?

2020最新抖音素材资源网盘下载

送福利了!关注下方的公众号:“优派编程”,搜索关键词“下载”,即可获得软件app下载资源和python、java等编程学习资料~

更多课程和学习资料请登录“方包博客”---------http://fang1688.cn

更多资源请关注公众号或点击下方“阅读原文”,回复关键词获取

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐