Python数据挖掘 您所在的位置:网站首页 文字数据挖掘 Python数据挖掘

Python数据挖掘

2023-03-24 04:31| 来源: 网络整理| 查看: 265

互联网集市收集整理的这篇技术教程文章主要介绍了Python数据挖掘-词云美化,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2660字,纯文字阅读大概需要4分钟。

1、语料库构建

由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件;

只需使用codecs.open()打开相应的文件,(记得close);

然后使用jieba模块中的load_userdict()方法导入词库

import jieba import numpy import codecs import pandas file=codecs.open( "C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\2.5\\红楼梦.txt", "r",encoding="utf-8") content=file.read() file.close jieba.load_userdict("C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\2.5\\红楼梦词库.txt") segments=[] segs=jieba.cut(content) for seg in segs: if len(seg)>1: segments.append(seg) segmentDF=pandas.DataFrame({ "segment":segments})

 

2、移除停用词

首先是读出停用词库,然后通过DataFrame中isin(),取反~的方法来移除停用词

将筛选后的分词进行统计

stopwords=pandas.read_csv( "D:\\Python\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.5\\StopwordsCN.txt", encoding="utf-8", index_col=False, quoting=3, sep="\t") segmentDF=segmentDF[ ~segmentDF.segment.isin(stopwords.stopword)] segStat=segmentDF.groupby( by=["segment"] )["segment"].agg({ "计数":numpy.size }).reset_index().sort( columns=["计数"], ascending=False) segStat.head(100)

 

3、普通词云的绘制

from wordcloud import WordCloud import matplotlib.pyplot as plt wordcloud=WordCloud( font_path="D:\\Python\\爱数圈书籍\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.4\\simhei.ttf", background_color="black") words=segStat.set_index("segment").to_dict() wordcloud=wordcloud.fit_words(words["计数"]) plt.imshow(wordcloud) plt.close()

 

4、词云美化

导入scipy.misc中的imread函数,该函数时导入图片,用于词云

从wordcloud模块中导入WordCloud,ImageColorGenerator函数

ImageColorGenerator是提取图片颜色

from scipy.misc import imread import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator #导入图片 bimg=imread("D:\\Python\\爱数圈书籍\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.5\\贾宝玉.png") wordcloud=WordCloud( background_color="white", mask=bimg,font_path="D:\\Python\\爱数圈书籍\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.4\\simhei.ttf") #适配词云图 wordcloud=wordcloud.fit_words(words["计数"]) #图云颜色 bimgColors=ImageColorGenerator(bimg) plt.axis("off") plt.imshow(wordcloud.recolor(color_func=bimgColors)) plt.show() bimg=imread("D:\\Python\\爱数圈书籍\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.5\\贾宝玉2.png") wordcloud=WordCloud( background_color="white", mask=bimg,font_path="D:\\Python\\爱数圈书籍\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.4\\simhei.ttf") wordcloud = wordcloud.fit_words(words['计数']) plt.figure( num=None,figsize=(8,6),dpi=80,facecolor="w",edgecolor="k") bimgColors=ImageColorGenerator(bimg) plt.axis("off") plt.imshow(wordcloud.recolor(color_func=bimgColors)) plt.show()

 

以上是互联网集市为您收集整理的Python数据挖掘-词云美化全部内容,希望文章能够帮你解决Python数据挖掘-词云美化所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

扫描二维码推送至手机访问。

本文链接:https://www.qyyshop.com/info/855136.html



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有