目录
一、前言
二、词频统计概述
三、词频率统计技术路线
四、具体实现
>>>环境搭建
>>>代码实现
五、分词测试结果
六、致谢
近年来,大数据金融越来越火热,其金融数据的分析也变成非常重要的一部分。金融数据分析中,年报的数据分析参考意义不菲。年报数据可以做以下分析:
(1)、统计年度财务数据,横向与纵向分析公司的的经营情况
(2)、统计大量上市公司的财务数据,分析行业在历史各个年代的起伏兴衰
(3)、统计年报中表述的措辞,分析公司乃至行业的未来发展方向和趋势
(4)、统计年报数据,探索财务报表和会计政策、市场监管政策之间的关系作用......
词频率统计主要是统计一篇文章中某些关键词出现的次数即频率,包括:
(1)、统计同一公司不同年份的关键词频率统计
(2)、统计同一年份不同公司的关键词频率统计
(3)、分行业统计对比关键词频率
这些统计方法还有很多,通过统计词频为金融数据的进一步分析做好数据准备。做统计我们都会遇到一个棘手的问题,即那么多的数据,人工整理的话那要整理到天荒地老了。感谢伟大的计算机发明者,也感谢伟大的计算机语言开发者,为我们解决这个问题,节省数据分析的时间。
一般而言,python在大数据分析中运用比较广泛,也提供很多功能包,python统计词频率主要用到的包:
(1)、os >>>python自带包,用于文件路径处理
(2)、pdfplumber >>>pdf文件处理包,用于转.PDF文件为.TXT文件格式
(3)、openpyxl >>>excel文件处理包,用于输出数据整理
(4)、re >>>正则表达式处理包,用于一些过滤处理
(5)、jieba >>>分词包,用于分词处理,为统计关键词准备
那么我们统计词频率的技术路线就明了了:
【第一步:pdfplumber包转PDF为TXT文件】
【第二步:读取TXT文件并用jieba分词处理】
【第三步:对分词完成的字符统计关键词】
【第四步:利用openpyxl包输出整理统计结果】
1、windows下安装python开发环境
a、下载安装文件
win64位:https://www.python.org/ftp/python/3.8.10/python-3.8.10-amd64.exe
win32位: https://www.python.org/ftp/python/3.8.10/python-3.8.10.exe
b、然后双击安装包,选择默认路径安装即可,如果C盘太满了,可以选择其他路径,不过需要将安转路径添加到系统Path变量,可参考这里,非计算机专业建议采用默认安装方式
2、pip安装依赖包
a、pip更新
python -m pip install --upgrade pip
b、安装pdfplumber包
pip install pdfplumber
c、安装openpyxl依赖包
pip install openpyxl
d、安装jieba分词依赖包
pip install jieba
a、PDF转TXT
with open(txt_path, "w") as txt_file:
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
text_tmp=page.extract_words(x_tolerance=5)
if text_tmp is None:
continue
txt_file.write(text_tmp)
txt_file.close()
b、jieba分词
with open(txt_file, "r") as f:
txt = f.read()
f.close()
words = jieba.lcut(str(txt)) # 使用精确模式对文本进行分词
c、统计分词
for word in words:
counts[word]=counts.get(word, 0) + 1 ##字典dict
d、输出结果
list_result=[] ##统计结果输出
for ret in keywords_list: ##关键词列表
list_result.append(counts_ret[ret])
ws=key_wb['key_out'] ##Sheet
ws.append(list_result) ##写入excel
key_wb.save(excel_file) ##保存excel
1、PDF文件一批如下
2、转成TXT文件如下
3、分词命令行输出结果如下
4、分词excel输出
效果还不错,接下来可以开始自己对数据的统计分析了。写成一个工具整理出来词频统计工具
感谢技术
感谢伙伴们的支持和博客伙伴们的分享
感谢伙伴的阅读关注
欢迎伙伴们留言交流