3、Python 中文分词组件Jieba

3、Python 中文分词组件Jieba

2024-12-26 23:13

在自然语言处理中，分词是一项最基本的技术。中文分词与英文分词有很大的不同，对英文而言，一个单词就是一个词，而汉语以字为基本书写单位，词语之间没有明显的区分标记，需要人为切分。现在开源的中文分词工具有 SnowNLP、THULAC、Jieba 和 HanLP 等，这里梳理下 Jieba 组件的内容。

中文分词技术是中文信息处理的基础，有着极其广泛的实际应用，比如：汉语语言理解、机器翻译、语音合成、自动分类、自动摘要、数据挖掘和搜索引擎等，都需要对中文信息进行分词处理。因此，一个中文分词算法的好坏，会对其后续的应用产生极大的影响。

1、算法

Jieba 是一个立志于做最好的 Python 中文分词组件，主要涉及的算法有：

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)；
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；
对于未登录词，采用基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法。

2、分词模式

Jieba 支持4种模式的分词：精准模式、全模式、搜索引擎模式及 paddle 模式，特点如下：

精确模式：试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
paddle模式：利用 PaddlePaddle 深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。

请注意，paddle 模式使用需安装 paddlepaddle-tiny。目前 paddle 模式支持 jieba v0.40 及以上版本，如果是 jieba v0.40 以下版本，需要升级 jieba，命令如下：

此外，Jieba 还支持中文繁体分词、自定义词典、关键词提取、词性标注、并行分词、ChineseAnalyzer for Whoosh搜索引擎等功能。

1、安装

给出了多种的安装方式及说明，参考如下：

我采用的是 pip 命令下载，安装的最新版本是 v-0.42.1：

2、分词模式的使用

jieba 分词常用的函数，如下：

jieba.Tokenizer(dictionary=DEFAULT_DICT) 是新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射，通过源码可以看到：

下面，用前3种的分词模式为例，演示如下：

测试1：精准模式

测试2：全模式

测试3：搜索引擎模式

从上面的结果可以看出，对于文本类型，精准模式分词是最准确的。

3、调整分词

有时候，我们更需要把文本里的"灰树叶"当成一个词语看待，jieba 提供了 add_word() 方法，可以实现分词的调整。新增如下代码：

重新执行代码，精准模式的测试结果如下：

4、词性分析

在汉语中，词性就是词语的分类，比如名词，形容词，动词等。前面说过 jieba 默认的分词器是 jieba.dt，即 jieba.Tokenizer()，所有全局分词相关函数都是该分词器的映射。而 jieba.posseg.dt 为默认的词性标注分词器。

我们可以通过词性标注分词器，查看词语的词性，如下：

结果（不带分词调整）：

每个词语后面的字符就是词性了，如果加上分词调整的话，对应的词性也会发生变化，如下：

jieba 默认的分词词性还是很丰富的，默认词性标注对照表，梳理如下：

标注解释标注解释标注解释a形容词mq数量词tg时语素ad副形词n名词u助词ag形语素ng例：义乳亭ud例：得an名形词nr人名ug例：过b区别词nrfg人名uj例：的c连词nrt人名ul例：了d副词ns地名uv例：地df例：不要nt机构团体uz例：着dg副语素nz其他专名

动词e叹词o拟声词vd副动词f方位词p介词vg动语素g语素q量词vi例：沉溺于等同于h前接成分r代词vn名动词i成语rg例：兹vq例：去浄去过唸过j简称略语rr人称代词x非语素字k后接成分rz例：这位y语气词l习用语s处所词z状态词m数词t时间zg例：且丗丟

5、使用自定义词典

在利用 Jieba 分词时，调用的词库是它自带的一个 dict.txt 字典，使用的是默认分词器 jieba.dt，通常位于 Python 存放包文件的目录下 Libsite-packagesjieba。

而默认的词库往往是不能满足我们的需求，分词效果也不太好，因此我们需要添加新词。开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词，虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。

<1>. 自定义词典

第一步定义自己的词典文件，与 dict.txt 格式相同。每个单词占一行，且每行是由单词+词频+词性组成，用空格分割，顺序不能错乱，其中词频和词性是可省略的。

首先，参考 dict.txt 前几行内容，如下：

接着，找一段最近的新闻文本作为测试

最后，进行定义自己的词典 wxx_dt.txt，如下：

<2>. 使用自定义词典

通过 jieba.load_userdict(filename) 加载自定义词典，其中 filename 为词典的路径，测试如下：

使用默认词典的效果：

使用自定义词典的效果：

<3>、调整词频词性

使用自定义词典，基本上可以将放在词典内词语进行组词，但可能会存在例外，比如曾经定义"国际环境"这个词，虽然调整了词频、词性仍然不能按照预想的结果输出/国际环境/，而输出的是/国际/环境/，此时可以通过 add_word() 调整分词，而/万里长征/ 我想拆开两个词语/万里/长征/，则可以通过 del_word() 调整分词。

词频也是影响词语的重要因素，如果不使用 add_word() 方式调整分词的话，那需要知道输出 /国际环境/ 的词频是怎样的？

我们可以使用 jieba.suggest_freq(segment, tune=True) 调节单个词语的词频，使其能（或不能）被分出来：

注意：自动计算的词频在启用 HMM 新词发现功能时可能会失效，为了避免这一偶发情况，可以关闭HMM功能（默认 HMM 是开启的）：

词典会受到分词词语，词频，词性的影响，而通过自定义词典、调整分词词语、调整词频、调整词性等方式，用户可以增强分词词语的歧义纠错功能。

随着信息科学技术的快速发展及互联网的普及，网络文本资源呈几何级数不断增长。面对更新日益频繁和规模庞大的文本数据，如何高效准确地实现关键词提取成为影响信息检索系统性能的关键。提取关键词是文本分类、文本聚类、信息检索等技术的基础，在NLP领域应用广泛。

jieba 提供了两种算法支持关键词的提取：一是基于 TF-IDF 算法的关键词抽取，二是基于 TextRank 算法的关键词抽取。

<1>、基于 TF-IDF 算法的关键词抽取

TF-IDF : Term Frequency-Inverse DocumentFrequency的简称，意思是词频-逆文件频率，是一种信息检索的加权算法，用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。词语的重要程度与它在文件中出现的次数成正比，与它在语料库出现的频率成反比，简单的理解就是，一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该文章了。

TF词频，表达的是一个词语在文本中出现的频率。实际情况中，一些通用的词语对主题并没有太大作用，反倒是一些出现频率较少的词语才能够表达文章的主题。因此，单纯使用TF是不合适的，需要使用加权算法的思想，即一个词预测主题的能力越强，权重越大，否则，权重越小！

IDF逆文件频率，则表达的是基于权重的一个词语在语料库中出现的频率，即语料库中出现该词语越少，IDF越大。因此，TF与IDF组合才能真正反映提取的关键词重要性。

明白了原理之后，可以实操了，实操之前了解下源码， jieba 提供的 TF-IDF 算法位于 jieba.analyse 包，看下 __init__.py 源码：

这里，有几个概念需要区分下：

语料库：汇集并存放语言材料的地方；
IDF语料库：体现特定词语预测主题能力的权重而设置的逆频率文件；
停用词语料库：进行信息检索时而设置忽略词语的语料库，比如标点符号，拟声词，语气词等。

1.1. extract_tags() 方法

参数说明，源码里注释已经很清晰了，如下：

接下来，演示使用 TFIDF 算法提取关键字，测试代码如下：

1.2.自定义IDF文件语料库

jieba 官网提供了一份可以下载使用，有两种方式可以设置：

1.3.自定义停用词语料库

这里，有几份不错的中文常用的停用词表，可以使用

<2>、基于 TextRank 算法的关键词抽取

TextRank：是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法，即通过把文本分割成若干组成单元（单词、句子）并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词提取、文摘提取。和LDA、HMM等模型不同，TextRank不需要事先对多篇文档进行学习训练，因其简洁有效而得到广泛应用。

jieba.analyse.TextRank()的流程为：

（1）将待抽取关键词的文本进行分词；
（2）以固定窗口（默认为5），完成词之间的共现关系；
（3）计算每个顶点间的权重，完成无向带权图。

共现关系，将文本进行分词，去除停用词或词性筛选等之后，设定窗口长度为K，即最多只能出现K个词，而后进行窗口滑动，在窗口中共同出现的词之间即可建立起无向边。

TextRank算法是利用局部词汇之间关系（共现窗口）对后续关键词进行排序，直接从文本本身抽取。关键词抽取的任务，就是从一段给定的文本中自动抽取出若干有意义的词语或词组。

1.1. textrank() 方法

参数说明，源码里注释也已经很清晰了，如下：

使用 TextRank 算法提取关键字，测试代码如下：

1.2. 自定义停用词语料库

<3>、两种算法进行关键词抽取的总结

TextRank 算法提取是依据词语之间的贡献关系来构建图，计算图中节点的 Rank；而 TF-IDF 算法跟 Jieba 分词一样，首先自己有一个默认词库，内含相应的词语与词频，更多的是依据 dict.txt 来计算词频与逆向词频权重。

<4>、生成词云

上面实现了对文本文件的数据进行处理，并提取了关键词。如果把 topK 参数调节成50或者100个进行输出的话，此时借助词云则可以更直观的展示文本的内容。

首先，需要下载相关依赖：

接着，介绍下使用词云的步骤：

文本分词处理：比如，精准模式/全模式等分词的结果，通过 TF-IDF 或 TextRank 等提取的关键词的结果等，将作为词云对象的生成器入参使用；
构造词云对象 WordCloud：通过词云对象调整参数配置；
输出显示：通过 matplotlib 的子模块 pyplot 显示词云。

请注意，根据需求调节对应的参数，词云对象 WordCloud 参数，如下：

接下来，以 TextRank 算法提取关键词为例，代码如下：

当然，也可以使用带有图片背景的词云（百度找一张照片即可），我们通过调节词云对象的 color_func 、mask 和 scale 等参数即可，新增如下代码：

Python 中文分词组件 Jieba 的使用就演示到这里了。