最近在学历史,想看下当时的《人民日报》。一搜,在知乎上找到了:
https://zhuanlan.zhihu.com/p/359977753
1957年到2002年的全文
感谢@Evan
把数据down下来,文件名是按”日期-版面-序号”的方式排列的。
按年份读取文本,合并到一个列表里。排除停用词后,用jieba分词处理。再按年份保存为文本文件。
在服务器上跑,花了一夜时间。
每年一个文件
然后用WordCloud画词云图,合并。
结果
接下来打算跟着《Python文本分析》实操一把。
源代码: https://github.com/zwdnet/text/blob/main/text.py
我发文章的三个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的微信个人订阅号:赵瑜敏的口腔医学学习园地