快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第1张图片

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本


QuickNLP:一款面向中文政务信息的自然语言处理工具包说明书

Genix

[email protected]

(南京快文信息科技有限公司  江苏南京  210000)

 

摘要:[目的/意义]面对中文政府文献,如何使用户快速、精准地掌握知识,是优化政府服务的关键课题。中文政务文献中大量固定表达,严重影响了知识的自动识别与提取,但由于政务文献的识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究。[方法/过程]在自然语言处理理论的指导下,展开相关规则的研究,开发了词法分析器,并构建了5个资源库:“消息库”,指政府公文中通知类信息;2“固定词汇表”,指政府公文中的固定表达;“停用词库”,指政府公文中的特殊字符和字,删除后不影响阅读的理解;“未处理词库”,指政府公文中未处理的词语,保留原始字符串;“实体库”,指根据政府公文结合人工已经清洗后生成的实体词库。[结果/结论]通过资源库的建设,得出5条消解规则。初步成果供相关学者使用。

关键词:自然语言处理 政务信息

中图分类号:G350


QuickNLP: A Natural Language Processing Toolkit for Chinese Government Information

Genix

[email protected]

(Quicktext Infotech Co., Ltd NanJing  210000)


Abstract: [Purpose/Meaning] In the face of Chinese government literature, how to enable users to master knowledge quickly and accurately is a key issue in optimizing patent services. A large number of fixed expressions in Chinese government literature seriously affect the automatic identification and extraction of knowledge. However, because the identification and resolution of government documents involves many text analysis techniques and specific resource construction, no targeted research has been found yet.

[Methods/Processes] Under the guidance of natural language processing theory, the research of relevant rules was carried out, lexical analysis was developed, and five resource libraries were constructed: 1 .message library, which refers to notification information in government documents; 2.fixed vocabulary refers to the fixed expression in the government official document; 3.stop lexicon, refers to the special characters and words in the government official documents, does not affect the understanding of reading after deletion; 4. unprocessed thesaurus, refers to The unprocessed words in the government official documents retain the original string; 5.physical library refers to the entity vocabulary generated after the official document has been cleaned according to the government official document. [Results/Conclusions] Through the construction of the resource pool, five rules for digestion were obtained. Preliminary results are available to relevant scholars.

Keywords: natural language processing, government information

CLC number: G350

1. 

2. 背景

政府信息公开制度,是确保关联方及时获悉和学习国家方针政策,了解政府工作动态,进而有效执行的前提和基础。鉴于该制度的重要性,国务院于2007年4月5日成文国务院492号令,即《中华人民共和国政府信息公开条例》[1]。该条例于2008年3月28日发布,从2008年5月1日实施。

国务院法制办公室李盛指出:“如果政府和群众之间的信息沟通渠道不畅通, 就会给小道消息的传播留下空间, 对公众心理和社会的正常生活秩序造成重大影响。 特别是自然灾害、事故灾难、 公共卫生事件等突发事件危害大、 影响面广,如果传递的信息不够真实、 不准确或者发布了虚假的信息, 就可能引发社会恐慌, 甚至造成严重的社会危机。”[2]

面对中文政务文献,如何使用户快速、精准地掌握知识,是优化政府公开信息服务的关键课题。中文政务文献中大量固定表达,严重影响了知识的自动识别与提取,但由于政务文献的识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究。

3. 实验数据

根据江华丽[3]论文的定义: “文的政府公文实验数据来自国务院官方网站的“政府信息公开”专栏。国务院公文数据分为公文元数据和公文全文数据。公文元数据包含索引号、主题分类、发文机关、标题、发文字号、发布日期、成文日期、主题词七中类别。本文在研究中发现公文的索引号并不是唯一标识符,如对于国函〔2016〕64号和国办函〔1992〕4号,两份公文的索引号均为000014349/2016-00057。但是发文字号是唯一标识符。发文字号主要分为国令、国发、国函、国发明电、国办发、国办函、国办发明电和其他类别,共计八种类别。从发文机构上说分为国务院和国务院办公厅,如国发代表国务院发文,国办发代表国务院办公厅发文。国务院发文的权威性高于国务院办公厅发文。从发文类别上,对于国务院的发文,分为国令、国发、国函和国发明电四类。

国发和国函的区别是国发往往针对全国,而国函往往针对行业或者地域,不具备全国性。如国发〔2018〕38号为《国务院关于支持自由贸易试验区深化改革创新若干措施的通知》,同样是自贸区公文文件,针对地方的公文文件《国务院关于同意设立中国(海南)自由贸易试验区的批复》则属于国函〔2018〕119号。一份国令往往对应多份国务院文件或者国务院办公厅文件含,如国令492号《中华人民共和国政府信息公开条例》相关的国办有国办发〔2018〕10号《国务院办公厅关于推进社会公益事业建设领域政府信息公开的意见》、国办发〔2017〕97号《国务院办公厅关于推进公共资源配置领域政府信息公开的意见》和国办发〔2017〕94号《国务院办公厅关于推进重大建设项目批准和实施领域政府信息公开的意见》。分别是政府信息公开条例在社会公益社会、公共资源配置和重大建设项目领域的细则。明电属于一般不具备保密属性的政府公文,如国办发明电〔2018〕15号为《国务院办公厅关于2019年部分节假日安排的通知》。对于国务院办公厅的文件的规则也类似。”[3]

4. 词库抽取流程

本文的实验参考了吴洁明等人的研究。吴洁明[4]等人设计的流程图和标引流程图如图所示:

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第2张图片

图1 吴洁明绘制的新闻出版行业标准碎片化标引方案总体框架[4]


快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第3张图片

图2 标准自动标引流程[4]

5. 词库定义

本文将词库分为五类,分别是消息词库、固定词汇类词库、停用词库、未处理词库和实体词库:

 消息词库:指政府公文中通知类信息,一般用于提醒和公示,如“放假通知”,对应词典为“notice.dict”,简称为“notice”,词库索引为“-3”;

 固定词汇词库:指政府公文中的固定表达,一般用于和规划对应,如“一带一路”,对应词典为“glossary.dic”,简称为“glossary”,词库索引为“-2”;

 停用词库:指政府公文中的特殊字符和字,删除后不影响阅读的理解,如书名号“《》”,对应词典为“stopword.dic”,简称“stopword”,词库索引为“-1”;

 未处理词库:指政府公文中未处理的词语,保留原始字符串,如“你好”,无对英国词典,简称“unknown”,词库索引为“0”;

 实体词库:指根据政府公文结合人工已经清洗后生成的实体词库,分为以下9类:

 跨区域词库:指公文中特定跨区域表达,如“环渤海地区”,对应词典为“area.dict”,简称“area”,词库索引为“1”;

 军队系统词库:指公文中特定跨区域表达,如“总参谋部”,对应词典为“army.dict”,简称“army”,词库索引为“2”;

 建筑词库:指公文中特定跨区域表达,如“陆军讲武堂旧址”,对应词典为“building.dict”,简称“building”,词库索引为“3”;

 城市词库:指公文中特定跨区域表达,如“武汉市”,对应词典为“city.dict”,简称“city”,词库索引为“4”;

 重要会议词库:指公文中特定跨区域表达,如“全国农业机械化会议”,对应词典为“conference.dict”,简称“conference”,词库索引为“5”;

 部委词库:指公文中特定跨区域表达,如“科学技术部”,对应词典为“deparment.dict”,简称“deparment”,词库索引为“6”;

 企业词库:指公文中特定跨区域表达,如“中国农业银行”,对应词典为“enterprise.dict”,简称“enterprise”,词库索引为“7”;

 林区词库:指公文中特定跨区域表达,如“大兴安岭林区”,对应词典为“forest.dict”,简称“forest”,词库索引为“8”;

 人名及身份词库:指公文中特定跨区域表达,如“杨纪珂同志”,对应词典为“person.dict”,简称“person”,词库索引为“9”;

 港口词库:指公文中特定跨区域表达,如“天津港”,对应词典为“port.dict”,简称“port”,词库索引为“10”;

 省份词库:指公文中特定跨区域表达,如“新疆维吾尔自治区”,对应词典为“province.dict”,简称“province”,词库索引为“11”;

 河道词库:指公文中特定跨区域表达,如“松花江流域”,对应词典为“river.dict”,简称“river”,词库索引为“12”;

6. 接口定义与使用

接口类问文件为ApiUtil的api方法:

public String api(String src, int[] showType);

其中src为带分割的字符串,showType为int[]数组,int指为词库索引。

测试代码如图3所示:

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第4张图片

图3:测试代码

程序运行截图如图4所示:

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第5张图片

图4:程序运行截图

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本_第6张图片

图5:程序运行Web截图

7. 参考文献

[1]《中华人民共和国政府信息公开条例》首次修订[J]. 电子政务, 2017(7):117.

[2] 李盛.《中华人民共和国政府信息公开条例》的制定背景、主要内容及目录编制[J]. 电子政务, 2008(05):21-26.

[3] 江华丽, 曹祺, 陈刚. 政府公开信息自动标引的设计与实现[J]. 数字图书馆论坛, 2018

[4] 吴洁明, 赵文丽. 新闻出版行业标准碎片化标引的研究与实现[J]. 计算机工程与设计, 2017(08):2281-2286.







你可能感兴趣的:(快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本)