金融数据分析之PDF年报中词频率统计

目录

一、前言

二、词频统计概述

三、词频率统计技术路线

四、具体实现

>>>环境搭建

>>>代码实现

五、分词测试结果

六、致谢


一、前言

近年来,大数据金融越来越火热,其金融数据的分析也变成非常重要的一部分。金融数据分析中,年报的数据分析参考意义不菲。年报数据可以做以下分析:

(1)、统计年度财务数据,横向与纵向分析公司的的经营情况

(2)、统计大量上市公司的财务数据,分析行业在历史各个年代的起伏兴衰

(3)、统计年报中表述的措辞,分析公司乃至行业的未来发展方向和趋势

(4)、统计年报数据,探索财务报表和会计政策、市场监管政策之间的关系作用......


二、词频统计概述

词频率统计主要是统计一篇文章中某些关键词出现的次数即频率,包括:

(1)、统计同一公司不同年份的关键词频率统计

(2)、统计同一年份不同公司的关键词频率统计

(3)、分行业统计对比关键词频率

这些统计方法还有很多,通过统计词频为金融数据的进一步分析做好数据准备。做统计我们都会遇到一个棘手的问题,即那么多的数据,人工整理的话那要整理到天荒地老了。感谢伟大的计算机发明者,也感谢伟大的计算机语言开发者,为我们解决这个问题,节省数据分析的时间。


三、词频率统计技术路线

一般而言,python在大数据分析中运用比较广泛,也提供很多功能包,python统计词频率主要用到的包:

(1)、os >>>python自带包,用于文件路径处理

(2)、pdfplumber >>>pdf文件处理包,用于转.PDF文件为.TXT文件格式

(3)、openpyxl >>>excel文件处理包,用于输出数据整理

(4)、re >>>正则表达式处理包,用于一些过滤处理

(5)、jieba >>>分词包,用于分词处理,为统计关键词准备

那么我们统计词频率的技术路线就明了了:

【第一步:pdfplumber包转PDF为TXT文件】

【第二步:读取TXT文件并用jieba分词处理】

【第三步:对分词完成的字符统计关键词】

【第四步:利用openpyxl包输出整理统计结果】


四、具体实现

>>>环境搭建

1、windows下安装python开发环境

a、下载安装文件


win64位:https://www.python.org/ftp/python/3.8.10/python-3.8.10-amd64.exe

win32位: https://www.python.org/ftp/python/3.8.10/python-3.8.10.exe


b、然后双击安装包,选择默认路径安装即可,如果C盘太满了,可以选择其他路径,不过需要将安转路径添加到系统Path变量,可参考这里,非计算机专业建议采用默认安装方式

2、pip安装依赖包

a、pip更新

python -m pip install --upgrade pip

b、安装pdfplumber包

pip install pdfplumber

c、安装openpyxl依赖包

pip install openpyxl

d、安装jieba分词依赖包

pip install jieba

>>>代码实现

a、PDF转TXT

with open(txt_path, "w") as txt_file:
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text_tmp=page.extract_words(x_tolerance=5)
            if text_tmp is None:
                continue
            txt_file.write(text_tmp)
        txt_file.close()

b、jieba分词

with open(txt_file, "r") as f:
    txt = f.read()
    f.close()
    words = jieba.lcut(str(txt))     # 使用精确模式对文本进行分词

c、统计分词

for word in words:
    counts[word]=counts.get(word, 0) + 1 ##字典dict

d、输出结果

list_result=[] ##统计结果输出
for ret in keywords_list: ##关键词列表
    list_result.append(counts_ret[ret])
ws=key_wb['key_out'] ##Sheet
ws.append(list_result) ##写入excel
key_wb.save(excel_file) ##保存excel

五、分词测试结果

1、PDF文件一批如下

金融数据分析之PDF年报中词频率统计_第1张图片

2、转成TXT文件如下

金融数据分析之PDF年报中词频率统计_第2张图片

3、分词命令行输出结果如下

金融数据分析之PDF年报中词频率统计_第3张图片

4、分词excel输出

金融数据分析之PDF年报中词频率统计_第4张图片

效果还不错,接下来可以开始自己对数据的统计分析了。写成一个工具整理出来词频统计工具

六、致谢

感谢技术

感谢伙伴们的支持和博客伙伴们的分享

感谢伙伴的阅读关注

欢迎伙伴们留言交流

你可能感兴趣的:(微森投资理财与数据服务,Python,开发记录,金融大数据,年报词频统计,PDF转TXT,TXT词频统计,PDF年报词频统计)