数学分析-税务法规关键字提取分析

            目的:希望自己能够通过数学,财务,计算机技书,能看到不一样的世界。此次为第一篇,以后会不定期带来通过数学分析来建模,看到不一样的世界。我本人是对计算机,税务相当感兴趣的人,所以的分析手段都是通过看论文得到的,如果你有什么很好的建议或者想做这个,可以联系我,qq:1421074836

1.准备工作

1.1 数据准备

        从国家税务总局法规库收集到法规:4827

1.2  算法介绍

        算法的选取直接造成结果的不一样,以及细微的差距。首先我们先了解二种算法:TFIDF与textrank,我们并用这二种算法在提取关键字的效果进行分析

1.2.1 TF-IDF数学表达

            TF=(词语在文章中出现的此处)/(文章总词数)

            IDF=log(词料库文档总数)/(包含该次的文档数+1)

            TF-IDF=TF*IDF(最终值)

1.2.2 textrank数学表达

TextRank用于关键词提取的算法如下:

  1)把给定的文本T按照完整句子进行分割,即

        2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中 ti,j 是保留后的候选关键词。

  3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

  4)根据上面公式,迭代传播各节点的权重,直至收敛。

  5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

  6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

公式

2. 具体实现

2.1 对第一篇法规进行提取关键字进行分析

        约定规则:对同一法规取十个关键字,我习惯叫做价值保留三位

        法规名称:中国银行保险监督管理委员会 中华人民共和国财政部 中华人民共和国人力资源和社会保障部 国家税务总局关于印发《个人税收递延型商业养老保险产品开发指引》的通知

        文号:银保监发〔2018〕20号

        textrank结果:产品 1.0,保险公司 0.919,参保 0.723,养老保险 0.56,领取 0.5075562509675344,保险 0.507,收取 0.400,账户 0.388,机能 0.368,收益 0.358

        TF-IDF结果:参保 0.264,保险公司 0.237,养老 0.222,领取 0.216,产品 0.194,养老保险 0.161,给付 0.130,税延 0.1188,递延 0.1138,保险合同 0.104

        从对一篇的法规分析我们可以得到 TF-IDF在一定的层次上优于TextRank,

2.0 对所以法规进行提取关键字

        约定规则:每篇文章只提取价值最高的前十个关键字,统计所有关键字提取前十个

2.1运用TF-IDF:

        统计结果为:企业, 1495,国家税务总局, 1060,所得税, 915,增值税, 865,税务机关, 720,纳税, 540,纳税人, 536,通知, 418,出口, 404,营业税, 369

生成的饼状图为:


TF-IDF关键字统计

2.2运用textrank得到的关键字饼状图:

        统计结果:企业, 2260,所得税, 916,规定, 900,增值税, 893,有关, 767,通知, 636,纳税, 597,税务机关, 568,问题, 521,废止, 513


textrank关键字统计

3. 结论

        二种算法都不是很完善当都从侧面反映了一下问题,如果你对税务法规感兴趣的话,你可以发现问题所在。如果你对这个这些感兴趣的话-可以去应用市场下载下《丁香税通》我独自开发的一个小的app,我会第一时间在那个app里面发布最新的分析结果。

4.最后

         所有的分析结果都是仁者见仁智者见智,所以不必纠结结果,应该关注数据分析给我们带来的新理解,新天地。

你可能感兴趣的:(数学分析-税务法规关键字提取分析)