波特词干算法

Stem意思是词干,Stemming是提取词干。
Stemming是指,除去英文单词分词变换形式的结尾,提取出单词的词干的过程。
Stemming用于信息检索系统中的Term规范化过程。

Wikipedia的Stemming条目上说,
词干没有必要和语法上的词根完全相同。
相关的单词都映射到同一个词干就足够了。

应用最为广泛的,中等复杂程度的,基于后缀剥离的词干提取算法是:
波特词干算法,也叫作波特词干器(Port Stemmer)
官方网站参见:
http://www.tartarus.org/martin/PorterStemmer/

波特词干算法的历史:
马丁.波特博士(Dr. Martin Porter)于1979年,在英国剑桥大学,计算机实验室,发明了波特词干算法。
波特词干算法当时是作为一个大型IR项目的一部分被提出的。它的原始论文为:
C.J. van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic
information retrieval. London: British Library. (British Library Research and Development
Report, no. 5587).
最初的波特词干提取算法是使用BCPL语言编写的。作者在其网站上公布了各种语言的实现版本,其中C语言的版本是作者编写的最权威的版本。
波 特词干器适用于涉及到提取词干的IR研究工作,其实验结果是可重复的,言外之意是说,波特词干器的输出结果是确定性的,不是随机的。(还有基于随机的高级 词干提取算法,虽然会更准确,但同时也更加复杂)。

词干提取算法无法达到100%的准确程度,因为语言单词本身的变化存在着许多例外的情况,无法概括到一 般的规则中。使用词干提取算法能够帮助提高IR的性能。

 

 

 

 

 


你可能感兴趣的:(c,工作,算法,report,语言,library)