最近,针对马蜂窝网站数据进行了爬取,主要有个人资料,游记,图片等信息。

问题一:马蜂窝网站加速乐问题解决,正常第一次访问会返回一段js ,如下图,这个时候你如果不是专业的js开发者的话,简单的方式就是把前后的script标签去掉。然后在最前面价格function,再把代码的后个eval替换成return,控制台执行的话,会返回下一个js,

 返回的js类似于,下面带红框的部分

 再次提取js中的函数,修改后为

最后为获取的值,拼接__jsl_clearance参数,当然如果上述js文本中带有浏览器信息的话,类似于下图蓝色框内的话,可直接把参数写死,红色框内部分示例

 为此。加速乐破解完成

问题二,ip问题,这里的话,注意的是ip和cookie是绑定的,一个ip获取的cookie,必须用这个ip请求,我这里用的是阿布云代理经典版失效的话切换

最后附上难点代码,我这里因为先把用户的链接下载到redis,根据社区,群组爬用户连接,所以执行测代码可以先手动取链接测试,记得修改阿布云的代理!谢谢

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐