搜索词汇对照

  1. Lucene
中文 英文  中文解释  
文档 Document    
  Document Frequency, df 有多少文档包含次Term。df 越大说明越不重要  
全文检索 Full-text Search    
索引创建 Indexing    
  lemmatization 将单词转变为词根形式  
语言处理组件 Linguistic Processor    
小写 Lowercase    
倒排表 Posting List    
相关性 relevance    
打分 scoring    
搜索索引 Search    
顺序扫描法 Serial Scanning    
  stemming 将单词缩减为词根形式  
停词 Stop word 一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词,因而创建索引时,这种词会被去掉而减少索引的大小  
Term    
  Term Frequency, tf 此Term在此文档中出现了多少次。tf 越大说明越重要  
词的权重 Term weight 表示此词在此文档中的重要程度,越重要的词有越大的权重  
词元 Token    
  Tokenize

1. 将文档分成一个一个单独的单词。

2. 去除标点符号。

3. 去除停词

 
分词组件,分词  Tokenizer    
向量空间模型的算法 Vector Space Model    
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       

 

 

你可能感兴趣的:(算法,Lucene,全文检索)