以下两个实战使用python3.7实现,编译软件为Jupyter Notebook,相关的数据可以自行搜索并免费下载。资源链接
评论爬取
App Store 已经给出一个软件评论接口
我们再统计一下标题和内容中出现最多的一些关键词。可以用pandas里面的方法
结果:
词云分析
结果:
1.前期准备
主要用途是将文本数据中出现频率较高的关键词以可视化的形式展现出来,使人一眼就可以领略文本数据的主要表达意思。词云图中,词的大小代表了其词频,越大的字代表其出现频率更高。
那生成一张词云图的主要步骤有哪些?过程中又需要用到哪些Python库呢?
1.首先需要一份待分析的文本数据,由于文本数据都是一段一段的,所以第一步要将这些句子或者段落划分成词,这个过程称之为分词,需要用到Python中的分词库jieba。
2.分词之后,就需要根据分词结果生成词云,这个过程需要用到wordcloud库
3.最后需要将生成的词云展现出来,用到大家比较熟悉的matplotlib
理清了词云图绘制的主要脉络之后,下面就用代码操作起来。
2.牛刀小试
明天就过年了,所以我也特地去找了几首新年歌,将它们的歌词汇总起来作为本次展示用的文本数据,大家可以看看新年歌中哪些词的出现频率比较高。我们先绘制一个比较简单的词云图:
结果: 一张简单的词云图就成功生成啦,但看起来好像并没有特别好看,怎么生成带特定形状的词云呢?
3.登堂入室
想生成带特定形状的词云,首先得准备一张该形状的图片,且除了目标形状外,其他地方都是空白的。准备好后就上代码。
结果:
代码部分和普通的图基本一致,区别在于要导入相应形状的图片,并在wordcloud设置了mask参数。