计算两段文本的相似度

简单的计算关键词在文本中出现的频率，也就是计算词频（Term Frequency, TF），这会带来一个问题：有些单词是在整个语料库里面很普遍的，但是他并不稀缺，CountVectorizer对常见词和罕见词一视同仁，高词频的常见词在特征向量中占有很大的权重，可能淹没真正重要的主题词。一般计算两段文本相似度，会通过两段文本的矩阵向量的cosθ值，值越接近1就越相似，那么矩阵向量怎么合理的表示就很关

soputasmile11

203人浏览 · 2025-06-26 10:30:46

soputasmile11 · 2025-06-26 10:30:46 发布

一般计算两段文本相似度，会通过两段文本的矩阵向量的cosθ值，值越接近1就越相似，那么矩阵向量怎么合理的表示就很关键。

一般想到的是通过CountVectorizer或者TfidfVectorizer来提取向量矩阵，两者有一些不同，谁更合适呢？

1、CountVectorizer
简单的计算关键词在文本中出现的频率，也就是计算词频（Term Frequency, TF），这会带来一个问题：有些单词是在整个语料库里面很普遍的，但是他并不稀缺，CountVectorizer对常见词和罕见词一视同仁，高词频的常见词在特征向量中占有很大的权重，可能淹没真正重要的主题词。

2、TfidfVectorizer
TfidfVectorizer除了计算TF之外，还引入了IDF（Inverse Document Frequency，逆向文档频率）的概念：

云享研发中心 > （三）计算两段文本的相似度 > image2025-6-25_14-20-12.png

TF * IDF更能反应当前语料库中某个文档片段的特征

综上所述，要计算两段文本的相似度，使用TfidfVectorizer更合适。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ESXi 8.0安装后网络不通？3步排查vSwitch/IP/VLAN，新手也能搞定

优先排查vSwitch是否绑定有效物理网卡，再核对vmkernel端口IP与网关、网段是否匹配，最后检查VLAN标签是否与物理网络一致。这三个步骤层层递进，覆盖了90%以上的网络不通场景，操作简单、逻辑清晰，新手只要跟着步骤排查、纠正错误，就能快速恢复网络连通。本文详细拆解了前期准备、分步排查、连通性测试、异常处理及常见误区，格式与之前ESXi系列教程保持一致，降低新手学习成本。

DAMO开发者矩阵

电商客服机器人选型实战：从知识库、转人工到自动解决率的能力对比

DAMO开发者矩阵

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。