组织机构实体主要指企事业单位、公司、组织、网站等。我的主要是从文本中识别出组织机构实体名称来。鉴于条件随机场在序列标注方面的优势,以及处理词语特征包括上下文环境特征方面,这次工作采用了条件随机场,具体工具为CRF++。
1.语料预处理
采用的语料是1998年1月份的《人民日报》语料,这个语料资源是公开的,从网上可以下载到。语料的格式如下所示:
语料中已经做好标注,其中nt表示组织机构实体,简单实体通过/分割词语与标注结果,复合实体通过[]来标示,里面每个词语再做单的标注。根据自己的要求对语料最好预处理工作,转换成自己需要的格式。
2.构建前后缀词典
组织机构实体词语一般都有明显的前后缀词语,比如前缀词语:中国、国家、各省市地区词语等,后缀词语包括集团、公司、总厂、分厂、研究所、研究院、大学等的,构建这些词典,用于后面词语匹配,提取特征。
3.模型训练过程。
读入训练语料,对于每一个词语提取词语特征,包括词语、词性、是否前后缀、字在词语中的位置等,将基于词语的标注方式转换为基于字的标注方式,生成CRF++输入文件。具体所需要提取的特征可以根据自己的需要开操作,生成的格式如下图所示。
采用CRF++对输入的训练语料迭代,生成CRF模型。windows下的执行代码为:
StringBuffer buffer = new StringBuffer(""); buffer.append("cmd /k start CRF++-0.58/crf_learn.exe ");//弹出命令行界面 "cmd /k start CRF++-0.58/crf_learn.exe -f 10" // buffer.append("CRF++-0.58/crf_learn.exe");//不弹出命令行界面 buffer.append(" "); buffer.append(template).append(" "); buffer.append(dataFile).append(" "); buffer.append(modelFile); Runtime rt = Runtime.getRuntime(); try { rt.exec(buffer.toString()); logger.info("训练完成,生成CFR模型"); } catch (IOException e) { logger.error(e.getMessage(),e); }
对于新语料的识别处理类似,读取语料,进行分段、分句、词性识别等,对每一个词语标注特征,最终生成与训练过程中的输入语料格式一致的文件,采用步骤3中训练的模型进行识别抽取。一下代码调用CRF++进行识别,并最终产生识别文件。
buffer.append("CRF++-0.58/crf_test.exe"); buffer.append(" "); // buffer.append("-v1 -m").append(" ");//识别结果以v1形式显示 buffer.append("-m").append(" "); buffer.append(modelFile).append(" "); buffer.append(testdataFile).append(" "); Runtime rt = Runtime.getRuntime(); Process proc = null; OutputStream os = null; try { proc = rt.exec(buffer.toString()); InputStream processIn = proc.getInputStream(); File file = new File(recognitionTxt); if(file.exists() == false){ file.createNewFile(); } os = new FileOutputStream(file); byte buf[] = new byte[100*1024]; int l; while((l = processIn.read(buf)) != -1){ os.write(buf,0,l); } processIn.close(); os.flush(); os.close(); } catch (IOException e) { logger.error(e.getMessage(),e); }finally{ proc.destroy(); logger.info("根据模型文件对测试语料识别结束"); }