影刀PRA做小红书商品数据的批量采集
ps:因为里面有我调试的数据,所以很多重复的,文件是追加写入的方式。
·
一、整体思路
读取文件的商品url--进行商品信息采集---采集信息保存到文件
【主流程里面调用单个商品采集】

二、详细拆解
1、先做单个商品的采集

1、测试网址获取到,打开网页,录入url(或者url以流程参数形式展示)


2、元素库进行捕获新元素操作

3、获取你需要的元素信息保存到变量中


我这边就保存了三个关键信息,商品名称、价格、已售
4、对保存的信息进行数据处理
1、已售的数据进行处理,因为获取的是‘已售299’这种,需要的只是299
2、设置字典,将抓取的信息保存为字典的格式

3、最后将字典转换为文本
4、文本保存到文件里

2、进行读取文件地址--进行商品循环采集--将商品信息保存到文件
1、将文件里面写入要采集的商品的网址

2、读文件输出为列表

3、列表循环获取url

4、调用单个商品采集的工作流进行工作

3、最后成果展示
ps:因为里面有我调试的数据,所以很多重复的,文件是追加写入的方式
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)