量化投资学习笔记189——文本分析实操1:分词制作词云图

发表于 2022-02-13 | 分类于量化投资

| 字数统计: 235 | 阅读时长 ≈ 1

最近在学历史，想看下当时的《人民日报》。一搜，在知乎上找到了:
https://zhuanlan.zhihu.com/p/359977753
1957年到2002年的全文
感谢@Evan
把数据down下来，文件名是按”日期-版面-序号”的方式排列的。
按年份读取文本，合并到一个列表里。排除停用词后，用jieba分词处理。再按年份保存为文本文件。

在服务器上跑，花了一夜时间。
每年一个文件

然后用WordCloud画词云图，合并。

结果

接下来打算跟着《Python文本分析》实操一把。

源代码: https://github.com/zwdnet/text/blob/main/text.py

我发文章的三个地方，欢迎大家在朋友圈等地方分享，欢迎点“在看”。

我的个人博客地址：https://zwdnet.github.io

我的知乎文章地址： https://www.zhihu.com/people/zhao-you-min/posts

我的微信个人订阅号：赵瑜敏的口腔医学学习园地

欢迎打赏！感谢支持！