数学分析-税务法规关键字提取分析

目的：希望自己能够通过数学，财务，计算机技书，能看到不一样的世界。此次为第一篇，以后会不定期带来通过数学分析来建模，看到不一样的世界。我本人是对计算机，税务相当感兴趣的人，所以的分析手段都是通过看论文得到的，如果你有什么很好的建议或者想做这个，可以联系我，qq：1421074836

1.准备工作

1.1 数据准备

从国家税务总局法规库收集到法规：4827

1.2 算法介绍

算法的选取直接造成结果的不一样，以及细微的差距。首先我们先了解二种算法：TFIDF与textrank，我们并用这二种算法在提取关键字的效果进行分析

1.2.1 TF-IDF数学表达

TF=（词语在文章中出现的此处）/(文章总词数)

IDF=log（词料库文档总数）/(包含该次的文档数+1)

TF-IDF=TF*IDF（最终值）

1.2.2 textrank数学表达

TextRank用于关键词提取的算法如下：

　　1)把给定的文本T按照完整句子进行分割，即

2)对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中 ti,j 是保留后的候选关键词。

　　3)构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

　　4)根据上面公式，迭代传播各节点的权重，直至收敛。

　　5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

　　6)由5得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

公式

2. 具体实现

2.1 对第一篇法规进行提取关键字进行分析

约定规则：对同一法规取十个关键字，我习惯叫做价值保留三位

法规名称：中国银行保险监督管理委员会中华人民共和国财政部中华人民共和国人力资源和社会保障部国家税务总局关于印发《个人税收递延型商业养老保险产品开发指引》的通知

文号：银保监发〔2018〕20号

textrank结果：产品 1.0，保险公司 0.919，参保 0.723，养老保险 0.56，领取 0.5075562509675344，保险 0.507，收取 0.400，账户 0.388，机能 0.368，收益 0.358

TF-IDF结果：参保 0.264，保险公司 0.237，养老 0.222，领取 0.216，产品 0.194，养老保险 0.161，给付 0.130，税延 0.1188，递延 0.1138，保险合同 0.104

从对一篇的法规分析我们可以得到 TF-IDF在一定的层次上优于TextRank，

2.0 对所以法规进行提取关键字

约定规则：每篇文章只提取价值最高的前十个关键字，统计所有关键字提取前十个

2.1运用TF-IDF：

统计结果为：企业, 1495，国家税务总局, 1060，所得税, 915，增值税, 865，税务机关, 720，纳税, 540，纳税人, 536，通知, 418，出口, 404，营业税, 369

生成的饼状图为：

TF-IDF关键字统计

2.2运用textrank得到的关键字饼状图：

统计结果：企业, 2260，所得税, 916，规定, 900，增值税, 893，有关, 767，通知, 636，纳税, 597，税务机关, 568，问题, 521，废止, 513

textrank关键字统计

3. 结论

二种算法都不是很完善当都从侧面反映了一下问题，如果你对税务法规感兴趣的话，你可以发现问题所在。如果你对这个这些感兴趣的话-可以去应用市场下载下《丁香税通》我独自开发的一个小的app，我会第一时间在那个app里面发布最新的分析结果。

4.最后

所有的分析结果都是仁者见仁智者见智，所以不必纠结结果，应该关注数据分析给我们带来的新理解，新天地。