本文共 1038 字,大约阅读时间需要 3 分钟。
*首先绘制词云需要安装一个pip的第三方库wordcloud 打开cmd命令行输入:**pip install wordcloud** 或者直接在pypi官网下载相应的.whl文件,然后手动安装。
wordcloud库提供了三个最主要的方法生成词云,
一个是wordcloud.WordCloud( font_path=” “,/ #字体风格 width=1000,height=1000,/ #生成像素为1000*1000的词云图片 ) 另一个是wordcloud.generate() ,即生成词云图片, 最后一个是wordcloud.to_file(” path”),即将生成的词云保存在地址里。jieba 库提供了一个最主要的功能,那就是分词功能。
用法f1=open("chat.txt","r",encoding="utf-8").read()list=[]list=jieba.lcut(f1) #此时的列表为chat文本分词后的列表
我想要查看一篇中文文章的侧重点是什么,但是我又不想去阅读。这时候,我们可以使用我们的python脚本进行对其产生词云处理,可以很快地知道文章的重点要讲什么。下面,我们对百度百科随便选取一篇人物传记进行词云处理。
百度搜索一篇人物传记:
完整代码如下:
import jiebaimport wordcloudf=open("d:\wenzhang.txt","r",encoding="utf-8")t=f.read()f.close()ls=jieba.lcut(t)txt="".join(ls)w=wordcloud.WordCloud(font_path="msyh.ttc",\ width=1000,height=700,background_color="white",\ )w.generate(txt)w.to_file("d:\ciyun.png")
在我们的电脑D盘根目录下寻找我们生成的词云分析图片
最终得到我们想要的词云图片,可以看出文章在全国上映的电影有很多,失恋33天为其居榜首。通过python提供的第三方库jieba库,对中文分词具有很强的能力,以及wordcloud库生成词云,我们可以用短短十行代码分析一篇文章的重点。