standford vs opennlp

  重新训练的模型主要针对短角色,即词串数不大于3的角色,这是因为考虑到在实际环境下一般人难以输入长句,一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而,使用stanford parser为基础的语义分析有一个致命的缺点:分析严重受制于stanford parser的结果,而stanford parser是将分词、词性标注都集成在一起,难以使用第三方的分词器和词性标注器,从而导致parser结果不可控。因而我的想法是放弃使用stanford parser,而采用shallow parser。shallow parser如果是在gold pos前提下的准确率要高于stanford parser。shallow parser的主要问题是必须在之前先进行分词与词性标注(POS)。
   目前我主要关注两个POS tagger,一是stanford tagger(使用ME模型);二是opennlp(使用ME模型)。stanford tagger是一个比较大而全的tagger,支持标注、训练等任务,而且不经任何加工即可直接使用(模型已经被训练获得),因而是一个富项目。opennlp的tagger代码则比较简单,使用前必须先经过加工训练。这两个项目的缺点在于缺乏必要的文档,stanford tagger难以明白用到哪些特征,而opennlp难以一下子入手。
   另外,这个工作在当前的项目中到底有多大的价值本身也难以评估,就怕花了时间,效果却不甚明显。

你可能感兴趣的:(工作)