21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息，windows7 32位上测试，目前每24个小时，可收集数据为10万左右。设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。14. QQSpider – QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条

weixin-Vip1104z

1550人浏览 · 2024-04-20 00:51:59

weixin-Vip1104z · 2024-04-20 00:51:59 发布

7. CnkiSpider – 中国知网爬虫。

设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。

部分代码截图：

8. LianJiaSpider – 链家网爬虫。

爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码，包括链家模拟登录代码。

部分代码截图：

9. scrapy_jingdong – 京东爬虫。

基于scrapy的京东网站爬虫，保存格式为csv。

部分代码截图：

10. QQ-Groups-Spider – QQ 群爬虫。

批量抓取 QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，最终生成 XLS(X) / CSV 结果文件。

部分代码截图：

11. wooyun_public -乌云爬虫。

乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使用了Flask作为web server，bootstrap作为前端。

部分代码：

12. spider – hao123网站爬虫。

以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息，windows7 32位上测试，目前每24个小时，可收集数据为10万左右

部分代码：

13. findtrip – 机票爬虫（去哪儿和携程网）。

Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）。

部分代码：

14. QQSpider – QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条数据。

部分代码：

15. baidu-music-spider – 百度mp3全站爬虫，使用redis支持断点续传。

部分代码：

16. tbcrawler – 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息，数据存储在mongodb。

部分代码：

17. stockholm – 一个股票数据（沪深）爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

部分代码：

18. BaiduyunSpider - 百度云盘爬虫。

部分代码：

19. Spider - 社交数据爬虫。支持微博,知乎,豆瓣。

部分代码：

20. proxy pool - Python爬虫代理IP池(proxy pool)。

部分代码：

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

7b8a67243c1008edf79.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

ABB机器人离线仿真工作站：开启机器人编程新世界

DAMO开发者矩阵

cover

2026年上半年热门EI学术会议推荐！！！

DAMO开发者矩阵

cover

UR5机器人在MATLAB中的仿真探索

DAMO开发者矩阵

所有评论(0)

查看更多评论

weixin-Vip1104z

已为社区贡献1条内容