【简单文本相似度分析】( LCS | Trie | DP | 词频统计 | hash | 单词分割 )
两个文本的相似度的指标有很多,常见的有词袋分析,词向量余弦,LCS(子串,子序列),Jaccard相似度分析(单词集合的对称差和最小全集比值),编辑距离等等我在自己的程序里只定义两个指标:1单词重复度2最长公共子序列长度首先用c++builtin的字符输入流对象istringstream做单词分割然后用我自己写的patriacatrie树当作词袋,把词量小的string做映射集合(类似重链合并),