Python数据分析工具Jieba用法示例

Jieba允许用户添加自己的自定义词典来提高分词精度。jieba.load_userdict('path/to/your/dict.txt') # 指定自定义词典的路径自定义词典的格式是一个以utf-8编码的.txt文件，每行描述一个单词及其相应的参数（如词频、词性等）。

编程零零七

962人浏览 · 2024-10-16 16:05:45

编程零零七 · 2024-10-16 16:05:45 发布

Python数据分析工具Jieba是一款用于中文文本分词的第三方库，它支持三种分词模式，并提供了词性标注、关键词提取等功能。以下是Jieba的具体用法示例：

一、安装Jieba

首先，确保已安装Jieba库。可以使用以下命令进行安装：

pip install jieba

二、分词功能

Jieba提供了三种分词模式：精确模式、全模式和搜索引擎模式。

精确模式：试图将句子最精确地切开，适合文本分析。

import jieba  
sentence = "我喜欢上海东方明珠"  
words = jieba.cut(sentence, cut_all=False)  # 或者使用 jieba.cut(sentence)，因为默认是精确模式  
print("精确模式:", '/ '.join(words))

输出：

精确模式: 我/ 喜欢/ 上海/ 东方明珠

全模式：把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

words = jieba.cut(sentence, cut_all=True)  
print("全模式:", '/ '.join(words))

输出：

全模式: 我/ 喜欢/ 上海/ 上海东方/ 海东/ 东方/ 东方明珠/ 方明/ 明珠

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

words = jieba.cut_for_search(sentence)  
print("搜索引擎模式:", '/ '.join(words))

输出：

搜索引擎模式: 我/ 喜欢/ 上海/ 东方/ 方明/ 明珠/ 东方明珠

三、词性标注

Jieba提供了词性标注功能，可以标记单词在句子中的语法角色。

import jieba.posseg as pseg  
sentence = "我爱北京天安门"  
words = pseg.cut(sentence)  
for word, flag in words:  
    print('%s %s' % (word, flag))

输出：

我 r  
爱 v  
北京 LOC  
天安门 LOC

四、关键词提取

Jieba提供了基于TF-IDF和TextRank算法的关键词提取功能。

from jieba import analyse  
sentence = "你好，我是来自中国的小明"  
keywords = analyse.extract_tags(sentence, 3)  # 提取3个关键词  
print(keywords)

输出：

['小明', '中国', '你好']

注意：实际输出的关键词可能会根据算法的实现和文本内容有所不同。

五、添加自定义词典

Jieba允许用户添加自己的自定义词典来提高分词精度。

jieba.load_userdict('path/to/your/dict.txt')  # 指定自定义词典的路径

自定义词典的格式是一个以utf-8编码的.txt文件，每行描述一个单词及其相应的参数（如词频、词性等）。

六、统计词频

可以使用Jieba结合Python的collections模块来统计文本中每个词的词频。

from collections import defaultdict  
text = "mississippi"  
d = defaultdict(int)  
for k in text:  
    d[k] += 1  
print(list(d.items()))

输出：

[('m', 1), ('i', 4), ('s', 4), ('p', 2)]

以上示例展示了Jieba在Python数据分析中的基本用法，包括分词、词性标注、关键词提取等功能。通过结合其他Python模块和工具，可以进一步拓展Jieba的应用场景和数据处理能力。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

工业AMR场景融合设计原理8——任务阶段与跃迁守卫

DAMO开发者矩阵

【论文自动阅读】SiLRI：Real-world Reinforcement Learning from Suboptimal Interventions

本文提出了一种名为SiLRI的算法，旨在让机器人在现实世界中通过学习人类不完美的干预操作来加速学习，同时利用强化学习超越人类的操作水平。

DAMO开发者矩阵

科技行业必看！这10家头部媒体公司，你关注了几个？

DAMO开发者矩阵

所有评论(0)

查看更多评论

编程零零七

@2401_85737382

已为社区贡献6条内容