E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
文本相似度
自己实现
文本相似度
算法(余弦定理)
余弦定理实现比较
文本相似度
算法。
初雪之音
·
2014-04-08 19:00
JavaScript: 实现简单的中文分词
它不仅被广泛用于专业的中文搜索引擎中,而且在关键词屏蔽、黑白名单以及
文本相似度
等方面也能大显身手。
陈亦
·
2014-02-21 01:00
JavaScript
中文分词
trie
移动平均 - IGod接口
期间,发现这个游戏一定是基于某个数学模型,试了很多方法,比如,
文本相似度
,曲线相似度等等,都不能很好的预测,最后,采用移动平均
IGod接口
·
2014-02-13 14:00
接口
移动平均
igod
文本相似度
——编辑距离算法&java简单实现
从问题出发,来学算法~问题:找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成字符串s2?操作有三种,添加一个字符,删除一个字符,修改一个字符。分析:核心就是Function——edit(i,j),它表示字符串s1的长度为i的子串到字符串s2的长度为j的子串的编辑距离。可以有如下动态规划公式:#ifi==0且j==0,edit(i,j)=0#ifi==0且j>0,edit(i,j)=j
ssjjy
·
2014-02-13 10:03
算法&java
动态规划
算法
文本相似度
算法
文本相似度
算法
文本相似度
算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-
HappyBKs
·
2014-01-08 20:00
文本相似度算法
[转][转]
文本相似度
算法
来源:http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html
文本相似度
算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency
heiyeshuwu
·
2013-12-11 02:00
[转]
文本相似度
算法
来源:http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html
文本相似度
算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency
heiyeshuwu
·
2013-12-10 18:00
[转][转]
文本相似度
算法
来源:http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html
文本相似度
算法1.信息检索中的重要发明TF-IDF1.1TFTermfrequency
heiyeshuwu
·
2013-12-10 18:00
关于论文的些许想法
提取文本特征的方法:VSM,VSM经过SVD改进之后的LSI,LDA计算
文本相似度
的方法:余弦相似度法最长公共子段最长公共子序列进行分类的方法:决策树随机森林,梯度增强树weka自带的那些方法进行聚类的方法
·
2013-10-23 22:00
文本相似度
计算-JaccardSimilarity和哈希签名函数
文本相似度
计算的应用场景过滤相似度很高的新闻,或者网页去重考试防作弊系统论文抄袭检查光第一项的应用就非常广泛。
文本相似度
计算的基本方法
ygrx
·
2013-10-15 13:00
算法
python
数据
数学
文本相似度
simhash与Google的网页去重
Simhash 传统IR领域内
文本相似度
比较所采用的经典方法是
文本相似度
的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。
rabbit9898
·
2013-08-29 14:00
Google
LCS算法实现简单中文
文本相似度
分析
原文转自:http://williamx.blog.51cto.com/3629295/747485 算法原理:(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同,如相同则为1。(3)通过找出值为1的最长对角线即可得到最长公共子串。人民共和时代中0,0,0,0,0,0华0,0,0,0,0,0人1,0,0,0,0,0民0,1,0,0,0,0共0,0,1,0,0,0和0,0,
huangxia73
·
2013-07-25 17:00
文本相似度
lcs
大
文本相似度
比较
这个月一直在做文本匹配研究,大到一篇文章,现在小到一个字段。处于自由散漫的探索,而且时间较短,所以可能较为肤浅,感兴趣的可以一起交流。 1.查找一篇重复文本。前一段时间做过测试,Google的SimHash算法效果还是不错的,文本长度与一篇论文长度差不多。 步骤为:a.给整篇文档分词term,分词用的是IKAnalyzer。 b.计算每个分词term的MD5哈希值。由于比较的文本
huangxia73
·
2013-07-17 18:00
文本相似度
计算
思路是:把字符串的字符放入一个字典中,计算他们(相同的个数/开平方(字符串1的个数*字符串2的个数),得到相似度 比如要比较 "中国"和 "中"则字典中存放的是 中国0(第一个字符串)1(存在)1(存在)1(第二个字符串)1(存在)0(不存在)计算相同的个数: 计算中字: [中][0]*[中][1]=1*1=1 计算国字:[国][0]*[国][1]=1*0=0 则相同的个
q383965374
·
2013-05-20 15:00
文本相似度
文本相似度
结合PageRank算法
目标尝试了一下把PageRank算法结合了
文本相似度
计算。直觉上是想把一个list里,和大家都比较靠拢的文本可能最后的PageRank值会比较大。
zbf8441372
·
2013-04-25 00:00
相似度计算
pagerank
java 相似度算法
/** *
文本相似度
算法 * (据说)由俄国人Vladimir Levenshtein在1965年发明 * 原理:返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数
lya041
·
2013-04-14 10:57
java
算法
相似度
java 相似度算法
/** *
文本相似度
算法 * (据说)由俄国人Vladimir Levenshtein在1965年发明 * 原理:返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数。
lya041
·
2013-04-14 10:57
JAVA
算法
相似度
J2EE研发经验
文本相似度
计算基本方法小结
适合的应用包括文档
文本相似度
以及顾客购物习惯的相似度计算等。Shingling:k-shingle是指文档中连续出现的任意k个字符。
zbf8441372
·
2013-03-30 22:00
相似度计算
余弦定理的应用:基于文字的
文本相似度
计算
余弦定理的应用:基于文字的
文本相似度
计算 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法
leoleocmm
·
2013-03-26 15:00
余弦定理的应用:基于文字的
文本相似度
计算
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… 于是停下来仔细分析发现,这种
xrzs
·
2013-03-24 03:00
文本语义分析整理进度—2013/3/15
由于项目要求,最近一直在看
文本相似度
的检测和计算。虽然进展不大,还是把最近做的整理一下,以便以后的学习用。
caiye917015406
·
2013-03-15 16:00
Simhash 网页重复
Simhash传统IR领域内
文本相似度
比较所采用的经典方法是
文本相似度
的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。
vergilwang
·
2013-03-11 12:00
hash
文本相似度
算法
文本相似度
算法1.信息检索中的重要发明TF-IDF1.1TF Termfrequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频
chenglinhust
·
2013-01-13 15:00
TAC中评价
文本相似度
的4种方法
First:Rouge-N,基于N-gram同现统计 事实上,Rouge-N是用候选文档和参考文档比较的召回方法,计算公式如下: 对于分母是计算每个参考文献句子中匹配Gram-N的数目,对于分子是计算每个参考文献句子中能够匹配Gram-N的数目。其中的n代表n-gram和gram(n)的长度,Count(match)(gram(n))表示在候选文档和参考文档中同现词串的数目。由于机器出问题了
wangzhiqing3
·
2012-11-29 22:00
实现
文本相似度
算法(余弦定理
【转】来自http://my.oschina.net/BreathL/blog/42477 Lucene中的评分机制,也是算一个相似度的问题,不过它采用的是计算向量间的夹角(余弦公式),在google黑板报中的:数学之美(余弦定理和新闻分类) 也有说明,可以通过余弦定理来判断相似度;于是决定自己动手试试。 首相选
yuanzhen
·
2012-08-28 10:00
java
算法
相似度
LCS算法实现简单中文
文本相似度
分析
LCS(LongestCommonSubsequence)算法实现的
文本相似度
分析:算法原理:(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同,如相同则为1。
xiaoxiaokuang
·
2012-03-05 10:00
算法
common
subsequence
自己实现
文本相似度
算法(余弦定理)
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… 于是停下来仔细分析发现
Breath_L
·
2012-03-04 16:00
java
算法
相似度
距离编辑
余弦定理
文本相似度
的计算-向量空间模型
在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征
lixuemei504
·
2012-02-22 10:00
c
文档
语言
n2
文本相似度
计算-Levenshtein
参见网址http://www.merriampark.com/ld.htm#JAVA import java.util.BitSet; public class Distance { public static void main(String[] args) { Distance distance = new Distance() ; int i =
ansjsun
·
2012-01-13 11:00
文本相似度
高亮显示与拼音汉字互转及
文本相似度
匹配
中文分词 这个分词算法是基于网上一个叫IK分词算法(这里并没有使用我的那个敏感词过滤算法)!我只是将它的词表进行了优化和补充。在这个IK算法基础上主要做的就是将Lucene部分去除,只留下核心的分词逻辑。 相关词搜索 这个部分是使用敏感词查找算法的理念,但算法上不同!所谓相关词搜索,就是从指定的词中查找出词库中所有与这些词相关的词,也就是从一个词的集合中查找另一个词的集合!这个逻辑与场
hellohank
·
2012-01-10 16:00
文本相似度
Levenshtein Distance算法实现简单
文本相似度
分析
前一篇使用了LCS算法实现了
文本相似度
分析,使用过程中发现运行效率并不是太好,瓶颈主要体现在逐字比较的算法上,对于长一点的文本,其消耗的时间成倍增加。
william_xu
·
2011-12-28 10:48
职场
文本相似度
编辑距离
levenshtein
休闲
distance
LCS算法实现简单中文
文本相似度
分析
LCS(LongestCommonSubsequence)算法实现的
文本相似度
分析:算法原理:(1)将两个字符串分别以行和列组成矩阵。(2)计算每个节点行列字符是否相同,如相同则为1。
william_xu
·
2011-12-21 14:36
职场
文本相似度
休闲
lcs
相似度分析
蛙蛙推荐:蛙蛙教你文本聚类
这里会用到TF/IDF权重,用余弦夹角计算
文本相似度
,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
lwm_1985
·
2011-11-23 15:00
算法
String
Random
asp.net
文档
regex
[C#]
文本相似度
检测(4) 初步成果
文本相似度
检测的程序算是编出了一个初步的原型,这是我第一次编出了一个算是能用的程序。
lhyan792
·
2011-01-28 14:00
多线程
工作
C#
[C#]
文本相似度
识别(3)
做了一天好虚呀。 目前实现了两步,都对两篇文章而言的 对文章的每一段进行进行相似度识别,初步判断相似的段落;对可疑的相似段落,进一步识别哪些句子雷同,并输出结果。 目前还是单线程的,而且算法优化做的比较少。 遇到了一些麻烦: 1,多线程的传参问题,到目前为止依然没有解决,所以还是单线程的;2,关于引用类型问题,比如 (1)我把每次的结果记录在一个in[2]里面,并把每个int[2]添加到一个A
lhyan792
·
2011-01-24 17:00
多线程
算法
优化
object
String
C#
[C#]
文本相似度
识别(2)
目前完成了K均值的聚类的程序 发现了以下问题:1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。 有以下想法:1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度
lhyan792
·
2011-01-21 22:00
[C#]
文本相似度
检测(1)
任务: 完成一个反作弊的网络程序(或单机版的.exe),能够在多篇文本的作业中识别出最相似的若干对文本。 进度: 借助MD5,初步实现了两篇文档的相似度检验;完成K均值聚类的实现; 目标:MD5的速度很慢,所以在完成原型的实现后,要进一步更新算法;实现聚类以及最后结果的输出;实现软件的.exe以及网络版。 最近正在解决的是多线程的问题,想在文档录入以及转码过程中实现多线程 关于thread
lhyan792
·
2011-01-17 19:00
thread
多线程
网络
C#
文档
作业
一个简单的simhash算法
simhash是个很常用的计算
文本相似度
的算法,网上一般说用64bit的签名,这里采用times33作为普通hash函数,用32bit的签名,算法如下:#!
suwei19870312
·
2010-11-08 11:00
算法
input
64bit
文本相似度
计算--余弦定理和广义Jaccard系数
在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算
文本相似度
。下面是利用余弦定理和广义Jaccard系数来计算
文本相似度
。
chaishen10000
·
2010-10-12 22:00
算法
互联网
网络
Class
文档
360
文本聚类算法Java实现
这里会用到TF/IDF权重,用余弦夹角计算
文本相似度
,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
java2king
·
2010-01-08 10:00
搜索引擎
数据挖掘&机器学习
文本聚类算法Java实现
这里会用到TF/IDF权重,用余弦夹角计算
文本相似度
,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
Java2King
·
2010-01-08 10:00
java
算法
String
asp.net
文档
input
文本向量表示及TFIDF词汇权值
文本相似度
的常用计算方法有余弦定理和Jaccard系数。
cowboy_wz
·
2009-10-27 22:00
文本分类
文本向量表示及TFIDF词汇权值
文本相似度
的常用计算方法有余弦定理和Jaccard系数。
chl033
·
2009-10-27 22:00
c
算法
数据挖掘
文档
token
大规模网页快速消重中网页特征的提取
1、一般处理的方法(1)最原始的使用
文本相似度
判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间(2)文本摘要为文本特征,进行特征重复判别(3)抽取文本关键词
yy8354
·
2009-04-09 09:00
算法
文本相似度
计算--余弦定理和广义Jaccard系数
在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算
文本相似度
。下面是利用余弦定理和广义Jaccard系数来计算
文本相似度
。
Xiao_Qiang_
·
2009-02-27 09:00
初探文本聚类
这里会用到TF/IDF权重,用余弦夹角计算
文本相似度
,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。
一路拾遗
·
2008-08-23 16:00
搜索引擎学习之二:文本匹配
我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从
文本相似度
匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人
hzxdark
·
2006-11-08 15:00
技术人生
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他