data-intensive text processing with mapreduce-Inverted Indexing for Text Retrieval
InvertedIndexingforTextRetrievalInvertedIndexingBaselineAlgorithm MainIdea:map的输入为文档编号和文档的内容,输出为[词,(文档编号,词频)],reduce将同一个词的所有文档编号和词频聚集,然后按文档编号排序,最后输出的是按文档编号由小到大排序的项。Discussion:存在规模瓶颈,一个词的所有(文档,词频)项可能不足