1.中文分词、词性标注
中科院:ictclas
http://www.ictclas.org/sub_1_1.html
具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。
哈工大信息检索实验室:LTP 语言技术平台
http://ir.hit.edu.cn/
http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
在分词词性标注命名实体语义消歧方面效果都不错
stanford parser
http://nlp.stanford.edu/software/tagger.shtml#About
2.英文词性标注
Stanford Log-linear Part-Of-Speech Tagger
http://nlp.stanford.edu/software/tagger.shtml
POS tagger(词性标注工具)
Jesus Gimenez, Lluis Marquez开发的使用SVM进行英文词性标注的工具,有C++、Perl语言的软件包。
相关论文:
SVMTool: A general POS tagger generator based on Support Vector Machines (2004)
工具主页:
http://www.lsi.upc.es/~nlp/SVMTool/
CLAWS POS tagger (只能在线试用)
http://ucrel.lancs.ac.uk/claws/trial.html
PosTagger
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/
工具:BrillWin?
该工具可以用来对英文语料进行词性标注,不过标注后的语料好像标点符号和NNP及NN有点问题,可以手工修改,问题不大。
使用方法说明:
语料格式:一篇文章。
可以正常的对英语进行词性标注,执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
注意以上的各个参数的顺序不能调换。
工具:geniatagger
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/tagger/
该工具除了词性标注和获取因为词的原型外,好像还可以进行命名实体识别,具体没试过,不过既然可以词性标注,那么提取命名实体,其实也不难了。而且这个针对于
生物语料效果不错。同时其原型提取效果也不错。
使用方法:
在geniatagger所在的文件夹下,直接命令行执行: .\geniatagger.exe <输入文件路径> 输出文件路径
注意:一定要有< >尖括号。
语料格式:Prepare a text file containing one sentence per line
Porter Stemming Algorithm
http://tartarus.org/~martin/PorterStemmer/
提供多种语言版本的源码
【tokenization、Stemming、 lemmatization】