文文本分析也称为文本挖掘,是从文本数据中获得高质量和可操作信息和见解所遵循的方法和过程。包括:
- 文本分类
- 文本聚类
- 文本摘要
- 情感分析
- 实体抽取与识别
- 相似性分析与关系建模
上次的文章对每年的人民日报文章画了个词云图,但结果貌似不是按词频来的。我就先计算词频再画词云图吧。
1 | # 统计词频 |
然后画词云图
1 | # 生成图云 |
现在看起来就差不多了。本来想做个动态词频图,但字体出问题,没弄出来。再尝试一下文本聚类,每年的分词结果作为一个文档。
以下参考这里。
分词前面已经完成了,直接读取结果然后计算Tf-idf矩阵。
把每年的分词结果作为单独的一行,组成列表来聚类。
1 | # 文本聚类 |
看看聚类结果
最大的两个分类里,除了一处例外,1980之前跟1980之后基本是分在了两个不同的类别里,还是蛮准的。
源代码: https://github.com/zwdnet/text/blob/main/text.py
我发文章的三个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的微信个人订阅号:赵瑜敏的口腔医学学习园地