分享好友 最新动态首页 最新动态分类 切换频道
4. 文本数据可视化 的几个方法
2024-12-26 22:31

图片发自简书App

中文NLP一般流程

1. 获取语料

语料,是NLP任务所研究的内容

通常用一个文本集合作为语料库(Corpus

来源

已有语料

积累的文档

下载语料

搜狗语料、人民日报语料

抓取语料

2. 语料预处理

  • 1.语料清洗

    留下有用的,删掉噪音数据

常见的数据清洗方式 :

人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

  • 2.分词

    将文本分成词语

常见的分词算法 :

基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法

  • 3.词性标注

    给词语打词类标签,如形容词、动词、名词等

    在情感分析、知识推理等任务中需要

常见的词性标注方法

基于规则

基于统计

如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。

  • 4.去停用词

    去掉对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等

3.特征工程
把分词表示成计算机能够计算的类型,一般为向量

常用的表示模型 :

词袋模型(Bag of Word, BOW)

 
 

词向量

 

4. 特征选择

选择合适的、表达能力强的特征

常见的特征选择方法 :

有 DF、 MI、 IG、 CHI、WLLR、WFO

5. 模型训练

机器学习模型 :

KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等

深度学习模型

CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN

注意过拟合、欠拟合问题

过拟合:在训练集上表现很好,但是在测试集上表现很差。

 

增大数据的训练量

增加正则化项,如 L1 正则和 L2 正则

特征选取不合理,人工筛选特征和使用特征选择算法

采用 Dropout 方法等。

欠拟合:就是模型不能够很好地拟合数据

 

添加其他特征项

增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强

减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

注意梯度消失和梯度爆炸问题

6. 评价指标

错误率、精度、准确率、精确度、召回率、F1 衡量。

ROC 曲线、AUC 曲线

7. 模型上线应用

第一就是线下训练模型,然后将模型做线上部署

第二种就是在线训练,在线训练完成之后把模型 pickle 持久化

中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等


其中 jieba 分词可以做下面这些事情

1. 精确分词

试图将句子最精确地切开

2. 全模式

把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义

3. 搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

4. 用 lcut 生成 list

jieba.lcut 对 cut 的结果做了封装,l 代表 list,即返回的结果是一个 list 集合

5. 获取词性

jieba.posseg 模块实现词性标注

6. 获取分词结果中词列表的 top n

7. 自定义添加词和字典

使用默认分词,是识别不出一句话中的新词,需要添加新词到字典

8. 还可以做

关键词提取、自动摘要、依存句法分析、情感分析等任务

在文献检索、自动文摘、文本聚类/分类等任务中有重要的应用


主要有2种提取方法

1. 关键词分配

在一个已有的关键词库中匹配几个词语作为这篇文档的关键词。

2. 关键词提取

通过算法分析,提取文档中一些词语作为关键词。


其中第二种,关键词提取的常用算法有以下几个

1. 基于 TF-IDF 算法进行关键词提取

TF-IDF :用于反映一个词对于某篇文档的重要性。过滤掉常见的词语,保留重要的词语

如果某个词在一篇文档中出现的频率高,则TF 高;并且在其他文档中很少出现,则 IDF 高,TF-IDF 就是将二者相乘为 TF * IDF, 这样这个词具有很好的类别区分能力。

在 jieba 用以下代码实现

 

2. 基于 TextRank 算法进行关键词提取

由 PageRank 改进而来,将文本中的词看作图中的节点,通过边相互连接,权重高的节点作为关键词。

在 jieba 用以下代码实现

 

3. 基于 LDA 主题模型进行关键词提取

一般步骤为:文件加载 -> jieba 分词 -> 去停用词 -> 构建词袋模型 -> LDA 模型训练 -> 结果可视化。

4. 基于 pyhanlp 进行关键词提取

可以用 HanLP 的 TextRankKeyword 实现

 
 

文本数据可视化 有下面三种

  1. 基于文本内容的可视化

基于词频的可视化和基于词汇分布的可视化

常用的有词云、分布图和 Document Cards

  1. 基于文本关系的可视化

研究文本内外关系,帮助人们理解文本内容和发现规律

常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等

  1. 基于多层面信息的可视化

研究如何结合信息的多个方面,帮助用户更深层次理解文本

常用的有地理热力图、ThemeRiver、SparkClouds、TextFlow 和基于矩阵视图的情感分析可视化等


代码举例

  1. 词云
 
  1. 关系图

用连线图来表示事物相互关系的一种方法。

安装 Matplotlib、NetworkX

 
  1. 地理热力图

通过分词得到城市名称后,将地理名词通过转换成经纬度

使用 Folium 库进行热力图绘制地图

 
 
 

中文情感分析

什么是情感分析

即分析主体对某一客体的主观喜恶和评价

由两个方面来衡量

情感倾向方向

情感倾向度

情感分析的方法主要分为两类

基于情感词典的方法

需要用到标注好的情感词典

基于机器学习的方法

需要大量的人工标注的语料作为训练集,提取文本特征,构建分类器,进行情感的分类。

分析粒度可以是词语、句子、段落或篇章

段落篇章级

如电影评论的分析

需要构建电影行业自己的情感词典,这样效果会比通用情感词典更好

也可以通过人工标注大量电影评论来构建分类器

也可以通过聚合篇章中所有的句子的情感倾向来计算得出

句子级

大多通过计算句子里包含的所有情感词的值来得到

中文情感分析的一些难点

句子是由词语根据一定规则构成的,应该把词语的依存关系纳入到情感的计算过程中去

不同的依存关系,进行情感计算是不一样的

最新文章
抖音付费推广有几种方式?有什么效果?
在抖音这个庞大的短视频平台上,付费推广成为了许多品牌和创作者快速提升曝光和影响力的有效手段。本文将详细介绍抖音付费推广的几种方式及其效果。一、抖音付费推广有几种方式?1.Dou+推广Dou+是抖音官方推出的付费推广工具,可以让视频获
招聘海外广告优化师
招海外广告投放(赤子城广州分)12-20K1、负责海外社交产品在Facebook/Google/Tiktok等及网盟等广告渠道的账户搭建,用户定位,数据监控及分析,优化广告数据,对广告效果负责2、制定海外社交产品项目整体的投放策略,负责素材方向及预算把控
哥普顿热水器快速售后24小时人工400-(问题解决) - 生活 - 百科知识-蓝心网
哥普顿热水器售后24小时维修服务热线:400-658-8618。哥普顿热水器全市各区售后服务点热线号码。☎:400-658-8618哥普顿热水器售后服务,秉承“诚信为本、客户至上”的服务态度和“以客户为中心”的服务指导思想,不仅真诚地为用户提供先进
爬虫大全:从零开始学习爬虫的基础知识,小白也能学
爬虫的实现原理其实很简单,就是模拟浏览器发送请求、获取响应、解析HTML代码、保存数据的过程。具体来说,可以分为以下几个步骤:我们在浏览器里输入网址访问网页时,其实就是在向服务器发送一条请求。在爬虫中&#
谷歌账号购买 谷歌邮箱批发 24小时自动发货
在当今数字化时代,谷歌账户(Google Account)已成为用户进入互联网世界的重要工具。无论是使用Gmail进行日常通信,还是通过YouTube获取丰富的娱乐内容,谷歌账户的影响力无处不在。对于希望在海外市场拓展业务或个人用户而言,购买谷歌账
网页转二维码:简单实用的在线工具
在如今的信息时代,二维码已经成为人们生活中不可或缺的一部分。二维码可以承载大量的信息,并且可以通过扫描进行快速的读取。在网页设计和推广中,将网页转为二维码是一项非常重要的工作。本文将介绍一种简单实用的在线工具,帮助用户将网
水排的汉语大词典
水排的汉语大词典是:古代一种利用水力推动革囊鼓风的冶铁装置。《三国志·魏志·韩暨传》:“旧时冶,作马排,每一熟石用马百匹;更作人排,又费功力;暨乃因长流为水排,计其利益,三倍于前。”明徐光启《农政全书》卷十八:“水排,韦囊
PyTorch深度学习模型训练加速指南2021
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:LORENZ KUHN 编译:ronghuaiyang导读简要介绍在PyTorch中加速深度学习模型训练的一些最小改动、影响最大的方法。我既喜欢效率又喜欢ML,所
网站怎么优化电池推荐
优化您的网站以推荐电池产品涉及几个方面,包括SEO(搜索引擎优化)、用户体验和内容策略。以下是一些关键步骤: 1. 关键词和SEO优化- 关键词研究: 使用工具如Google Keyword Planner、Ahrefs或SEMrush来识别与电池相关的高搜索量关键词,
虾皮店铺转让多少钱?如何转让?
现在很多卖家选择在跨境平台虾皮上注册开店,但是由于平台上的店铺是非常激烈的,很多卖家无法继续将店铺经营下去,就会想要将店铺进行转让,那么虾皮店铺转让是多少钱了?shopee店铺转让价格并不是一定的,主要还是看店铺的运营情况。一般
相关文章
推荐文章
发表评论
0评