量化投资学习笔记189——文本分析实操1:分词制作词云图

最近在学历史,想看下当时的《人民日报》。一搜,在知乎上找到了:
https://zhuanlan.zhihu.com/p/359977753
1957年到2002年的全文
感谢@Evan
把数据down下来,文件名是按”日期-版面-序号”的方式排列的。
按年份读取文本,合并到一个列表里。排除停用词后,用jieba分词处理。再按年份保存为文本文件。

在服务器上跑,花了一夜时间。
每年一个文件

然后用WordCloud画词云图,合并。

结果

接下来打算跟着《Python文本分析》实操一把。

源代码: https://github.com/zwdnet/text/blob/main/text.py

我发文章的三个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。

我的个人博客地址:https://zwdnet.github.io

我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts

我的微信个人订阅号:赵瑜敏的口腔医学学习园地

欢迎打赏!感谢支持!