1、为工业专有名词添加词性标注 - nin
*(1)在不修改源码的基础上,对工业名字词典添加词性、词频,以及如下内容
始##始 begin 2324388
末##末 end 2324388
未##串 x 130296
未##人 nr 607718 nrf 113445
未##团 nt 112253 ntc 25517 nto 18894 ntu 5426 nth 2556 ntcb 1846 nts 677 ntch 568 ntcf 118
未##地 ns 595380 nsf 124178
未##它 xx 1000
未##数 mq 753456 m 733982
未##时 t 757118
(2)修改 hanlp.properties 文件。更换核心词典(CoreDictionaryPath)为工业自定义词典,将核心词典路径加入到自定义词典(CustomDictionaryPath)中,并将优先级置于 CustomDictionary.txt 之前。
(3)测试效果
[输入]:
自紧式钻夹头是机床附件产品中的一种,着,主要用来夹持钻具钻孔的,可装在车床,铣床,钻床,木工刨床,手电钻,冲击电钻上使用。自紧式钻夹头是一种钻头持工具,广泛应用于机械制造、建筑装修等领域。、
韶关冶炼厂始建于1966年,是国内首家采用英国帝国熔炼公司密闭鼓风炉炼铅锌专利技术(简称ISP工艺)的大型铅锌冶炼厂。
《互换性与技术测量实验指导书(含实验报告)》是2014年西安电子科技大学出版社出版的图书,作者是杨武成、孙俊茹。
[输出]:
[自紧式钻夹头/nin, 是/vshi, 机床附件/nin, 产品/n, 中的/v, 一/m, 种/q, ,/w, 着/uzhe, ,/w, 主要/b, 用来/v, 夹持/nin, 钻具/n, 钻孔/vi, 的/ude1, ,/w, 可装在/n, 车床/n, ,/w, 铣床/n, ,/w, 钻床/n, ,/w, 木工刨床/nin, ,/w, 手电钻/nin, ,/w, 冲击电钻/nin, 上/f, 使用/v, 。/w, 自紧式钻夹头/nin, 是/vshi, 一/m, 种/q, 钻头/n, 持/v, 工具/n, ,/w, 广泛/a, 应用于/v, 机械制造/nin, 、/w, 建筑/n, 装修/vn, 等/udeng, 领域/n, 。、/w]
[韶关冶炼厂/nin, 始建于/v, 1966年/nin, ,/w, 是/vshi, 国内/s, 首家/n, 采用/v, 英/b, 国帝国/n, 熔炼/v, 公司/nis, 密闭/vi, 鼓风炉/n, 炼/v, 铅锌/nz, 专利/n, 技术/n, (/w, 简称/v, ISP/nx, 工艺/n, )/w, 的/ude1, 大型/b, 铅锌/nz, 冶炼厂/nis, 。/w]
[《/w, 互换性与技术测量实验指导书(含实验报告)/nin, 》/w, 是/vshi, 201/nin, 4/m, 年/qt, 西安电子科技大学出版社/nin, 出版的/n, 图书/n, ,/w, 作者/nnt, 是/vshi, 杨武成/n, 、/w, 孙俊茹/n, 。/w]
【自定义词典还需做以优化】
2、为 HanLp.java 添加新参数 - Profession
- (1)Profession = true 时,将工业名词词典当作核心词典,能够对工业名词进行识别;原核心词典作为用于自定义词典存在;
- (2)Profession = false(Default)时,则正常分词,不能识别专业的工业名词
- (3)参数设置
// 该操作需要在 HanLp.Config 之前执行。
HanLp.Profession = true;
// 显示词性
HanLp.Config.ShowTermNature = true;
// 开启命名实体识别
Segment segment = HanLP.newSegment().enableAllNamedEntityRecognize(true);;
List termList = segment.seg("str");