文本相似度第15页

自己实现文本相似度算法（余弦定理）

余弦定理实现比较文本相似度算法。

初雪之音·2014-04-08 19:00

JavaScript: 实现简单的中文分词

它不仅被广泛用于专业的中文搜索引擎中，而且在关键词屏蔽、黑白名单以及文本相似度等方面也能大显身手。

陈亦·2014-02-21 01:00

移动平均 - IGod接口

期间，发现这个游戏一定是基于某个数学模型，试了很多方法，比如，文本相似度，曲线相似度等等，都不能很好的预测，最后，采用移动平均

IGod接口·2014-02-13 14:00

文本相似度——编辑距离算法&java简单实现

从问题出发，来学算法~问题：找出字符串的编辑距离，即把一个字符串s1最少经过多少步操作变成字符串s2？操作有三种，添加一个字符，删除一个字符，修改一个字符。分析：核心就是Function——edit（i,j），它表示字符串s1的长度为i的子串到字符串s2的长度为j的子串的编辑距离。可以有如下动态规划公式：#ifi==0且j==0，edit(i,j)=0#ifi==0且j>0，edit(i,j)=j

ssjjy·2014-02-13 10:03

文本相似度算法

文本相似度算法文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则（公式1.1-

HappyBKs·2014-01-08 20:00

[转][转]文本相似度算法

来源：http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency

heiyeshuwu·2013-12-11 02:00

[转]文本相似度算法

来源：http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency

heiyeshuwu·2013-12-10 18:00

[转][转]文本相似度算法

来源：http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency

heiyeshuwu·2013-12-10 18:00

关于论文的些许想法

提取文本特征的方法：VSM，VSM经过SVD改进之后的LSI，LDA计算文本相似度的方法：余弦相似度法最长公共子段最长公共子序列进行分类的方法：决策树随机森林，梯度增强树weka自带的那些方法进行聚类的方法

·2013-10-23 22:00

文本相似度计算-JaccardSimilarity和哈希签名函数

文本相似度计算的应用场景过滤相似度很高的新闻，或者网页去重考试防作弊系统论文抄袭检查光第一项的应用就非常广泛。文本相似度计算的基本方法

ygrx·2013-10-15 13:00

simhash与Google的网页去重

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦，其主要思想是根据一个文章中出现词的词频构成一个向量，然后计算两篇文章对应向量的向量夹角。

rabbit9898·2013-08-29 14:00

LCS算法实现简单中文文本相似度分析

原文转自：http://williamx.blog.51cto.com/3629295/747485 算法原理：(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同，如相同则为1。(3)通过找出值为1的最长对角线即可得到最长公共子串。人民共和时代中0,0,0,0,0,0华0,0,0,0,0,0人1,0,0,0,0,0民0,1,0,0,0,0共0,0,1,0,0,0和0,0,

huangxia73·2013-07-25 17:00

大文本相似度比较

这个月一直在做文本匹配研究，大到一篇文章，现在小到一个字段。处于自由散漫的探索，而且时间较短，所以可能较为肤浅，感兴趣的可以一起交流。 1.查找一篇重复文本。前一段时间做过测试，Google的SimHash算法效果还是不错的，文本长度与一篇论文长度差不多。步骤为：a.给整篇文档分词term，分词用的是IKAnalyzer。 b.计算每个分词term的MD5哈希值。由于比较的文本

huangxia73·2013-07-17 18:00

文本相似度计算

思路是：把字符串的字符放入一个字典中,计算他们(相同的个数/开平方(字符串1的个数*字符串2的个数),得到相似度比如要比较 "中国"和 "中"则字典中存放的是中国0(第一个字符串)1(存在)1(存在)1(第二个字符串)1(存在)0（不存在）计算相同的个数: 计算中字： [中][0]*[中][1]=1*1=1 计算国字：[国][0]*[国][1]=1*0=0 则相同的个

q383965374·2013-05-20 15:00

文本相似度结合PageRank算法

目标尝试了一下把PageRank算法结合了文本相似度计算。直觉上是想把一个list里，和大家都比较靠拢的文本可能最后的PageRank值会比较大。

zbf8441372·2013-04-25 00:00

java 相似度算法

/** * 文本相似度算法 * （据说）由俄国人Vladimir Levenshtein在1965年发明 * 原理：返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数

lya041·2013-04-14 10:57

java 相似度算法

/** * 文本相似度算法 * （据说）由俄国人Vladimir Levenshtein在1965年发明 * 原理：返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数。

lya041·2013-04-14 10:57

文本相似度计算基本方法小结

适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等。Shingling：k-shingle是指文档中连续出现的任意k个字符。

zbf8441372·2013-03-30 22:00

余弦定理的应用：基于文字的文本相似度计算

余弦定理的应用：基于文字的文本相似度计算最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法

leoleocmm·2013-03-26 15:00

余弦定理的应用：基于文字的文本相似度计算

最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法 Blog写的非常好，受益匪浅。于是我决定把它用到项目中，来判断两个文本的相似度。但后来实际操作发现有一些问题：直接说就是查询一本书中的相似章节花了我7、8分钟；这是我不能接受…… 于是停下来仔细分析发现，这种

xrzs·2013-03-24 03:00

文本语义分析整理进度—2013/3/15

由于项目要求，最近一直在看文本相似度的检测和计算。虽然进展不大，还是把最近做的整理一下，以便以后的学习用。

caiye917015406·2013-03-15 16:00

Simhash 网页重复

Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦，其主要思想是根据一个文章中出现词的词频构成一个向量，然后计算两篇文章对应向量的向量夹角。

vergilwang·2013-03-11 12:00

文本相似度算法

文本相似度算法1.信息检索中的重要发明TF-IDF1.1TF Termfrequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则（公式1.1-1）为该关键词在这篇文章中的词频

chenglinhust·2013-01-13 15:00

TAC中评价文本相似度的4种方法

First:Rouge-N,基于N-gram同现统计事实上，Rouge-N是用候选文档和参考文档比较的召回方法，计算公式如下：对于分母是计算每个参考文献句子中匹配Gram-N的数目，对于分子是计算每个参考文献句子中能够匹配Gram-N的数目。其中的n代表n-gram和gram（n）的长度，Count(match)(gram(n))表示在候选文档和参考文档中同现词串的数目。由于机器出问题了

wangzhiqing3·2012-11-29 22:00

实现文本相似度算法（余弦定理

【转】来自http://my.oschina.net/BreathL/blog/42477 Lucene中的评分机制，也是算一个相似度的问题，不过它采用的是计算向量间的夹角（余弦公式），在google黑板报中的：数学之美（余弦定理和新闻分类）也有说明，可以通过余弦定理来判断相似度；于是决定自己动手试试。首相选

yuanzhen·2012-08-28 10:00

LCS算法实现简单中文文本相似度分析

LCS(LongestCommonSubsequence)算法实现的文本相似度分析：算法原理：(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同，如相同则为1。

xiaoxiaokuang·2012-03-05 10:00

自己实现文本相似度算法（余弦定理）

最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法 Blog写的非常好，受益匪浅。于是我决定把它用到项目中，来判断两个文本的相似度。但后来实际操作发现有一些问题：直接说就是查询一本书中的相似章节花了我7、8分钟；这是我不能接受…… 于是停下来仔细分析发现

Breath_L·2012-03-04 16:00

文本相似度的计算-向量空间模型

在向量空间模型中，文本泛指各种机器可读的记录。用D（Document）表示，特征项（Term，用t表示）是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1，T2，…，Tn)，其中Tk是特征项，1<=k<=N。例如一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示为D(a，b，c，d)。对含有n个特征项的文本而言，通常会给每个特征

lixuemei504·2012-02-22 10:00

文本相似度计算-Levenshtein

参见网址http://www.merriampark.com/ld.htm#JAVA import java.util.BitSet; public class Distance { public static void main(String[] args) { Distance distance = new Distance() ; int i =

ansjsun·2012-01-13 11:00

高亮显示与拼音汉字互转及文本相似度匹配

中文分词这个分词算法是基于网上一个叫IK分词算法（这里并没有使用我的那个敏感词过滤算法）！我只是将它的词表进行了优化和补充。在这个IK算法基础上主要做的就是将Lucene部分去除，只留下核心的分词逻辑。相关词搜索这个部分是使用敏感词查找算法的理念，但算法上不同！所谓相关词搜索，就是从指定的词中查找出词库中所有与这些词相关的词，也就是从一个词的集合中查找另一个词的集合！这个逻辑与场

hellohank·2012-01-10 16:00

Levenshtein Distance算法实现简单文本相似度分析

前一篇使用了LCS算法实现了文本相似度分析，使用过程中发现运行效率并不是太好，瓶颈主要体现在逐字比较的算法上，对于长一点的文本，其消耗的时间成倍增加。

william_xu·2011-12-28 10:48

LCS算法实现简单中文文本相似度分析

LCS(LongestCommonSubsequence)算法实现的文本相似度分析：算法原理：(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同，如相同则为1。

william_xu·2011-12-21 14:36

lwm_1985·2011-11-23 15:00

[C#]文本相似度检测（4) 初步成果

文本相似度检测的程序算是编出了一个初步的原型，这是我第一次编出了一个算是能用的程序。

lhyan792·2011-01-28 14:00

[C#]文本相似度识别(3)

做了一天好虚呀。目前实现了两步，都对两篇文章而言的对文章的每一段进行进行相似度识别，初步判断相似的段落；对可疑的相似段落，进一步识别哪些句子雷同，并输出结果。目前还是单线程的，而且算法优化做的比较少。遇到了一些麻烦： 1，多线程的传参问题，到目前为止依然没有解决，所以还是单线程的；2，关于引用类型问题，比如（1）我把每次的结果记录在一个in[2]里面，并把每个int[2]添加到一个A

lhyan792·2011-01-24 17:00

[C#]文本相似度识别(2)

目前完成了K均值的聚类的程序发现了以下问题：1，速度太慢：当文本长度较长时，在读入文本、转码的时候，速度太慢；2，对于文献相似度识别应用在作业时，整篇的检测不是很恰当，因为作业本来就是高度相似的。有以下想法：1，MD5这个转码没有研究过，但认为是这个的速度太慢了，不适合整个文本的检验；2，考虑按句子比较，先对句子进行聚类，然后比较句子的相似度

lhyan792·2011-01-21 22:00

[C#]文本相似度检测(1)

任务：完成一个反作弊的网络程序（或单机版的.exe），能够在多篇文本的作业中识别出最相似的若干对文本。进度：借助MD5，初步实现了两篇文档的相似度检验；完成K均值聚类的实现；目标：MD5的速度很慢，所以在完成原型的实现后，要进一步更新算法；实现聚类以及最后结果的输出；实现软件的.exe以及网络版。最近正在解决的是多线程的问题，想在文档录入以及转码过程中实现多线程关于thread

lhyan792·2011-01-17 19:00

一个简单的simhash算法

simhash是个很常用的计算文本相似度的算法，网上一般说用64bit的签名，这里采用times33作为普通hash函数，用32bit的签名，算法如下：#!

suwei19870312·2010-11-08 11:00

文本相似度计算--余弦定理和广义Jaccard系数

在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算文本相似度。下面是利用余弦定理和广义Jaccard系数来计算文本相似度。

chaishen10000·2010-10-12 22:00

文本聚类算法Java实现

这里会用到TF/IDF权重，用余弦夹角计算文本相似度，用方差计算两个数据间欧式距离，用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google，或者参考文本后的参考链接。

java2king·2010-01-08 10:00

文本聚类算法Java实现

这里会用到TF/IDF权重，用余弦夹角计算文本相似度，用方差计算两个数据间欧式距离，用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google，或者参考文本后的参考链接。

Java2King·2010-01-08 10:00

文本向量表示及TFIDF词汇权值

文本相似度的常用计算方法有余弦定理和Jaccard系数。

cowboy_wz·2009-10-27 22:00

文本向量表示及TFIDF词汇权值

文本相似度的常用计算方法有余弦定理和Jaccard系数。

chl033·2009-10-27 22:00

大规模网页快速消重中网页特征的提取

1、一般处理的方法（1）最原始的使用文本相似度判别，相当准确，但是计算速度慢，提高的方法无非是先索引进行预处理，或者用SVD来降维减少矩阵运算时间（2）文本摘要为文本特征，进行特征重复判别（3）抽取文本关键词

yy8354·2009-04-09 09:00

文本相似度计算--余弦定理和广义Jaccard系数

在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算文本相似度。下面是利用余弦定理和广义Jaccard系数来计算文本相似度。

Xiao_Qiang_·2009-02-27 09:00

初探文本聚类

这里会用到TF/IDF权重，用余弦夹角计算文本相似度，用方差计算两个数据间欧式距离，用k-means进行数据聚类等数学和统计知识。

一路拾遗·2008-08-23 16:00

搜索引擎学习之二:文本匹配

我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从文本相似度匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人

hzxdark·2006-11-08 15:00

推荐频道

文本相似度

自己实现文本相似度算法（余弦定理）

JavaScript: 实现简单的中文分词

移动平均 - IGod接口

文本相似度——编辑距离算法&java简单实现

文本相似度算法

[转][转]文本相似度算法

[转]文本相似度算法

[转][转]文本相似度算法

关于论文的些许想法

文本相似度计算-JaccardSimilarity和哈希签名函数

simhash与Google的网页去重

LCS算法实现简单中文文本相似度分析

大文本相似度比较

文本相似度计算

文本相似度结合PageRank算法

java 相似度算法

java 相似度算法

文本相似度计算基本方法小结

余弦定理的应用：基于文字的文本相似度计算

余弦定理的应用：基于文字的文本相似度计算

文本语义分析整理进度—2013/3/15

Simhash 网页重复

文本相似度算法

TAC中评价文本相似度的4种方法

实现文本相似度算法（余弦定理

LCS算法实现简单中文文本相似度分析

自己实现文本相似度算法（余弦定理）

文本相似度的计算-向量空间模型

文本相似度计算-Levenshtein

高亮显示与拼音汉字互转及文本相似度匹配

Levenshtein Distance算法实现简单文本相似度分析

LCS算法实现简单中文文本相似度分析

蛙蛙推荐：蛙蛙教你文本聚类

[C#]文本相似度检测（4) 初步成果

[C#]文本相似度识别(3)

[C#]文本相似度识别(2)

[C#]文本相似度检测(1)

一个简单的simhash算法

文本相似度计算--余弦定理和广义Jaccard系数

文本聚类算法Java实现

文本聚类算法Java实现

文本向量表示及TFIDF词汇权值

文本向量表示及TFIDF词汇权值

大规模网页快速消重中网页特征的提取

文本相似度计算--余弦定理和广义Jaccard系数

初探文本聚类

搜索引擎学习之二:文本匹配