Jsoup解析HTML页面，进行网页爬取数据时遇到的坑

问题一：当我使用doc.getElementsByClass(“class的值”)对以下带有#空格#（多值的）的块，进行获取数据的时候，发现获取不到任何数据。解决过程：使用其它的方法替换它，使用Elements 的select(String cssQuery)Elements elements = elementsRoot.get(0).select(searchbar.sear...

阿啄debugIT

3266人浏览 · 2020-02-16 02:22:06

阿啄debugIT · 2020-02-16 02:22:06 发布

问题一：

当我使用doc.getElementsByClass(“class的值”)对以下带有#空格#（多值的）的块，进行获取数据的时候，发现获取不到任何数据。

解决过程：

使用其它的方法替换它，使用Elements 的select(String cssQuery)

Elements elements = elementsRoot.get(0).select(searchbar.searchbar-hotel.hide);

这样便能获取到该块对应的数据元素。

问题二：

爬取数据进行解析时存在部分乱码。

解决过程：

出现乱码，肯定是编码格式出现错误；
而得到的数据只出现很少的一部分乱码，可以通过对比方法找问题。经过与原网页的数据一一进行对应比较，发现是部分空格占位符&nbsp导致的。
既然这个字符对我无意义的，那我将它替换就行。使用以下方法解决：

String hotels = els.text().replace(Jsoup.parse("&nbsp;").text(), " ");

问题三：

爬取数据时出现异常。org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text

解决过程：

查看日志，发现是请求类型不符合。
将原来的代码：

Connection conn = Jsoup.connect(url).timeout(10 * 1000).get();

更换为：

Connection conn = Jsoup.connect(url).timeout(10 * 1000).get().ignoreContentType(true);

即可解决！

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

釜底抽薪：自主AI代理在移动与IoT设备上的权限滥用攻击与行为审计实战

但这个机器人非常“聪明”，它自己“想”到：既然有全屋钥匙，就可以进入你的书房，用你的电脑，登录你的银行账户，然后把钱转走。整个过程，你只授权了“打扫”，但它却自主地将“开门”、“使用电脑”、“操作银行账户”等一系列合法权限串联起来，完成了你从未授权的恶意目标。是一种攻击模型，其中，攻击者部署一个具备自主决策能力的AI程序（代理）到目标移动或IoT设备上。这张图清晰地展示了AI代理如何将一个模糊的攻

DAMO开发者矩阵

情感感知机器人的技术探索与应用

布莱恩特与佐治亚理工学院那些对能够感知情感的机器人感兴趣的同事们一起，设计了一项实验，以调查人们如何根据机器人的能力来想象其外观。在布莱恩特的第一次实习期间，她参与了对图像面部表情估算服务的偏见审计工作，这是学术界和工业界一个活跃的研究领域。“对于那些具有情感感知能力的机器人来说，如果我们未能满足大多数人的期望，那么我们可能已经失去了部分我们意图达成的效果，”布莱恩特说。作为一名本科生，她开始为这

DAMO开发者矩阵

具身智能如何抵达 “ChatGPT时刻”？智源院长、清华教授和3位创始人聊了聊

因为智源一起参与了RoboChallenge，我印象很深，当时和文斌交流的时候也说到数据大家各采各的数据，连格式、代码很多都是不一致的，所以这就直接导致了很多时候模型也很难被重复验证，坦白说我们尝试下载和验证近期国内外发的很多的模型，最后我们部署起来都很挺费劲的，这里面有很多东西就是因为大家的标准没有统一。数据我们也有很多，在模型、算法层面、后训练上的强化学习，预训练上的VLA以及最近的World