eric509

去重算法——SpotSig算法详解(转）

原帖地址：http://blog.sina.com.cn/s/blog_67914f2901019xdt.html

一、算法思想

对文档集合进行预处理，根据比较粗的一种划分方式将文档集合进行分类。只比较同一类中的文档，从而缩短比较时间，减少运算次数。

二、算法流程

对于一篇文档，先对其进行预处理，获得其spot signature集，该集合是一个多重集合。根据集合长度将所有文档映射到划分好的分隔中去，该映射满足相似度高的文档映射在同一分隔或相邻分隔中，相似度低的文档映射在不同的分隔中，并且划分要在满足条件的情况下尽量细。进行文档相似度比较时，只需比较在同一分隔或相邻分隔中的文档，利用多重集合的 Jaccard相似度公式，将Jaccard相似度大于某个阈值的两篇文档视为相似文档。文档最后返回相似文档对的集合。

三、具体方法

（注：算法中|di|和pk都是大于1的整数，在第（三）部划分中可以将pk和|di|放在直线上进行可视化，会更容易理解。）

（一）文档预处理（提取每篇文档的spot signature集）

定义一个先行词集合（先行词即为在文章中频繁出现的词，一般为停用词：is,the等），对一篇文档从头开始检查，每遇到一个定义在先行词集合中的词a，便从该先行词后面的第一个词开始取相对距离为d的一个词，直到取到规定个数c。比如is(2,3)即为从a后面第一个词开始，取相对距离为2的词，一共取 3个。若在取词过程中遇到另一个先行词，则跳过该先行词从后面第一个非先行词为开始继续取词。举个例子，现有一句话为At a rally to kick off a weeklong campaign for the South Carolina primary.先行词集为{a,is,the,to}，取d=2,c=2，则a(2,2)={off,weeklong},to(2,2)={off,weeklong}等等。如此执行便可得到对应该文档的一个spot signature集合。对同一篇文档，还可以取不同的d和c，以得到更大的spot signature集，但其他文档也必须对应的取不同的d和c。比如文档1取d=1,c=3和d=2,c=4两种，则其他文档也必须取这两种，而不能只取一种。

（二）文档相似度匹配（Jaccard相似度公式）

普通集合的Jaccard相似度公式定义如下所示：

显然的，会有如下不等式成立：

（1）

因此，会有如下不等式成立：

以上集合A和B为普通集合，而上一步生成的spot signature集是多重集合，即集合中会有重复元素。因此，定义对应的多重集合的Jaccard相似度如下：

注意此处的集合A和B均为多重集合，因此A和B中元素会有对应的出现次数。而freqA(sj)即为元素sj在集合A中出现的次数。因此，上式分子表示A和B中相同的spot signature的较小个数之和，即A交B的元素个数。假如A和B中共有的一个s，若s在A中出现3次，在B中出现5次，则分子加和中的对应s的加项就是3。分母表示A和B中所有spot signature中较大个数之和，即A并B的元素个数。对于A和B中独有的元素s1，s1 的个数即为分母中一个加项，对于A和B中共有的元素s2，取s2在A和B中出现次数较多的次数为分母中的一个加项。比如A= {1,1,2,2,2,3},B={2,2,3,3,4,4}，则A交B={2,2,3}，分子为2+1=3，A并B= {1,1,2,2,2,3,3,4,4}，分母为2+3+2+2=9。

由上可知，多重集合和普通集合的Jaccard相似度本质上是一样的。

这里有一个距离成为Jaccard相似意义上的距离，与下面要讲的向量长度意义上的距离不同。详见下文。

由上可知会有下面不等式成立：

（2）

该不等式可参考不等式（1）及其说明，两者本质上是一样的。

以及下面不等式成立：

在上面不等式中，d1和d2分别设定如下：

对于|d1|<=|d2|的情形来说，不等式（2）中分子=|d1|，分母=|d2|。

（三）最优划分（将文档向量映射到分隔中）

根据上节中定义的Jaccard相似度公式，有如下不等式：

可以看到对于两个文档d1和d2，若|d1|/|d2|<

，

为定义的阈值，则d1与d2的Jaccard相似度会小于阈值

，则d1和d2不满足相似的条件，可以不予比较。所以，在使用Jaccard相似度公式进行相似度计算之前，可以先比较文档向量的长度，长度之比小于阈值的两文档不予比较。注意，此处定义的文档距离便是向量长度意义上的距离。相应的，在哈希映射中，这样的文档不应该映射到同一个分隔中。实际上，最优化的分隔应该满足以下三个条件：

（1）对于所有的两两文档对，如果满足|di|<=|dj|且|di|/|dj|>=

，则应该将文档di和dj映射到同一个分隔或者相邻的分隔中。

（2）对于文档对|di|和|dj|，如果满足|di|<=|dj|且|di|/|dj|<

，则文档di和dj不能映射到同一个分隔中。

（3）在满足（1）和（2）的基础上，分隔应该尽可能的小，即分隔数应该尽可能的大。

具体划分方法如下：

设

=max(|di|)，则待分隔的区域为[1,

]，文章提出的分隔方法是：将区域分隔成区间[pk,pk+1)的形式，从p0=1开始，对于任何得到的pk，选取pk+1为满足以下两个条件的最小整数：

（1）

> pk+1 > pk

（2）pk+1 - pk < （1-

）pk+1，即pk/pk+1 >

下面验证这种划分方法满足上述三个条件：

先看条件（1），若文档di映射在pk上，对于文档di'， |di|<=|di'|且|di|/|di'|>=

，有|di'|-|di|<(1-

)|di'|，而(pk+1 - pk) < (1-

)pk+1，因此有|di'| < pk+1，故|di'|在区间[pk,pk+1)中。若文档di映射在区间[pk,pk+1)内，因为(pk+2 - pk+1) < (1-

)pk+2，所以对满足上面条件的di'一定有|di'| < pk+1。对于小于|di|的文档di'，同理可证。因此，条件（1）满足。

再看条件2，若两文档di和di'满足：|di| <= |di'|且|di'|-|di| > (1-

)|di'|，若|di|=pk，即文档di映射在pk上，因为pk+1 - pk < (1-

)pk+1，则|di'| > pk+1，故di与di'映射到不同的区间内。故条件（2）满足。

再看条件3，这种方法并不能严格的满足条件3的要求，因为条件3提出的是一种最优化，而这种最优化是不能用解析式来表示的（not in closed-form），这是种近似的方法。从这种分隔方法中可以看到，分隔端点的计算只与

有关，因此只要给定了

，从p0=1开始，就可以计算出后面的端点。因此，在得知文档数据信息之前，就可以预先进行区间的划分。最优的方法是使划分的分隔在满足条件（1）和（2）的情况下尽可能小，而在条件（1）的限定下，分隔不能无限的小。该划分方法距离最优化方法有多远是由数据集的属性决定的。当文档向量的长度|di|密集到遍布在[1,

]的每一个整数值，即对|di|=1,2,…,

，都能找到对应长度的文档向量。此时，该划分方法达到最优，因为如果再细分，就会发生违背（1）的情形。会这样的原因是，这种划分的过程中就是以阈值

为导向的，对每个区间[pk,pk+1)，都有pk/pk+1 >

，若文档足够密集以至于文档向量长度值填满了整个区域[1,

]，则在任何位置插入新的端点以细化分隔的操作都会违背条件（1）。举例说明，按上述方法进行划分后有两个区间为[20,30)和[30,45)，则按假设，文档向量长度值填满了整个区域，则在这个区间内有长度为20,21,22,23,24,25,26,27,28,29的向量。若细化该分隔，插入了端点 25，将[20,30)划分为[20,25)和[25,30)，根据条件（1），区间[30,45)中可能存在需要与区间[20,30)中文档进行比较的文档，而插入端点25后，区间[20,25)即被视为与[30,45)无关的区间，则违背了条件（1）。所以，此时（文档向量长度值布满整个区域[1,

]）上述划分方法为最优方法。

（四）建立倒排索引（通过筛选进一步减少需要进行Jaccard相似度计算的文档数）

建立倒排索引的方法是这样的：对每个分隔，不妨设为[pk,pk+1)，对该分隔中的每个文档，不妨设为di，对该文档对应文档向量中的每个spot signature，不妨设为s[i][j]，将指向分隔中所有包含s[i][j]的文档的指针存入一个集合中，即生成倒排索引集。具体使用方法见（五）算法。

（五）算法（SpotSigs Deduplication Algorithm）

具体算法及其详细解释请在百度文库中搜索： SpotSig算法（含详细注释）。

在论文SpotSigs Robust and Efficient Near Duplicate Detection in large web collections中，其定义的算法如下图所示：

注：以下有两种意义上的距离：Jaccard相似度意义上和向量长度意义上。前者意义上的距离主要体现在文档向量元素差异上，后者意义上的距离主要体现在文档向量长度差异上。具体情况参见博客：
http://blog.sina.com.cn/s/blog_67914f2901019xdt.html
算法流程：
    输入：对所有文档d提取完其spot signature集并存放在一个多重集合中，
根据要求划分好间隔，还有一个空集合存储倒排索引集。
    输出：所有相似度满足高于阈值τ的文档对的集合。
    过程：对每个文档，特定的，对文档d[i]，取出d[i]所在间隔的所有文档D，
对文档d[i]中的每个spot signature，特定的，对s[i][j]，找出D中spot signature中含有s[i][j]的所有文档D’，依次比较d[i]与D’中的每个文档，经过一些筛选条件，将符合条件的d[i’]∈D’与d[i]计算其Jaccard相似度，若相似度大于某个阈值，则将文档对存入结果对集合中。
    算法本身不难，难点在于筛选条件的考虑上。
以下为详细注释（以下标号对应图中行号）：
1、输入：所有的文档向量d[i]，记其向量元素为s[i][j]
         所有分隔[pk,pk+1)，分隔中的所有倒排索引表list[k][j] 2、建空pairs用于存储结果
3、使用t个线程对所有d[i]并行进行如下操作（次序随机） 4、将|d[i]|所在分隔中的所有文档标识存入partition[k]中
5、将d[i]中所有spot signature(s[i][j])按其在文档中的出现频率升序排序 6、定义变量δ1，用于记录d[i]与尚未比较的文档d[i']之间最小距离（Jaccard相似度意义上的距离）。
7、为每个d[i]定义一个集合变量checked[i]，标记已经和d[i]比较过的文档向量，防止重复比较。
8、对d[i]中spot signature集中含的所有spotsig，即s[i][j]进行如下操作。 9、将分隔(pk,pk+1)中所有spot signature中含s[i][j]的文档存入list[k][j]中。（具体实现时存放的是指向对应文档的指针）
10、定义变量δ2，用于记录d[i]与d[i’]的长度意义上的距离。注意，此处与δ1记录的距离意义不同。
11、对list[k][j]中指向的所有文档向量按文档向量的长度从大到小进行如下操作。
13-14、如果两文档向量相同（因为填充list[k][j]时也将d[i]存入其中了）或者d[i']已经检查过（d[i']存在于checked[i]中），跳过取下一个d[i']。
15-16、若theta2<0且theta1-theta2>(1-τ)|d[i']|
       对应的条件即为文档d[i]的向量长度小于d[i']，且
|d[i']|-|d[i]|>(1-tao)|d[i']|
       即|d[i]|/|d[i']| < tao，故d[i]与d[i']不符合相似的条件，跳过取
下一个d[i']

17-18、若theta2 >= 0且theta1 + theta2 > (1-tao)|d[i]|
       对应的条件即为文档d[i]的向量长度大于d[i']，且|d[i]|-|d[i']| >
(1-tao)|d[i]|
       即|d[i']|/|d[i]| < tao，故d[i]与d[i']不符合相似的条件        因为d[i']是按长度从大到小取来比较的，而|d[i']|<|d[i]|且
|d[i']|/|d[i]| < tao
       则之后取的|d[i'']| < |d[i']| < |d[i]|，必有|d[i'']|/|d[i]| < tao        故之后的d[i']必然不符合条件，故此处break，跳出取d[i']的循环。
19-22、如果取出的d[i']与d[i]不同并且长度符合条件，则为符
合条件的对，要加入输出的对集中。
       d[i']已经与d[i]比较过，加入checked[i]中以做标记，防止重复比较。
23、停止循环比较分隔[pk,pk+1]中所有与d[i]共有s[i][j]的文档d[i']。
24-27、theta1表示文档d[i]中已经检查过的所有s[i][j]大小之和，若该值大
于未检查过的那些文档向量（设为d[i']）长度的(1-tao)倍
       则那些文档不必再检查了
       因为d[i']为不包含theta1中计算过的s[i][j]，即d[i']与d[i]至少
有theta1的长度是不同的
       根据原文章中的多重集合Jaccard相似度的计算公式，就算d[i']与d[i]
除theta1计算过的那些s[i][j]之外完全相同
       其Jaccard相似度也小于tao，因此不必检查。
28、结束循环d[i]中的spot signature（按在文档中出现的频率从小到大循环）
29-32、如果|d[i]|落在pk与pk+1之间，则有可能跟|d[i]|满足比较条件的文
档向量落在分隔[pk+1,pk+2)中
    此时将这个右边的分隔中的文档向量中的元素添加到表partition[k]中。     此处只考虑右边向量是因为由于所有的文档对以上程序都执行了一遍，所
以若d[i]所在分隔的左边分隔有d[i’]满足条件，则在考虑d[i’]的时候d[i]作为d[i’]所在分隔的右边分隔内文档向量，已经被考虑了。由于这种对称性，所以只考虑右边文档，防止重复。
33、结束循环所有文档向量。 34、返回结果。

（六）两种意义上的距离

1、文档向量长度意义上的距离：距离D(di,dj)=|di|-|dj|，for |di| >= |dj|

这种距离在算法中主要用在将文档映射到具体分隔上。具体参见 （三）最优划分

2、Jaccard相似度意义上的距离。这种距离主要用在 （五）算法中，用于设置筛选条件。

因为每个文档向量都是个spot signature集，这是个多重集合，因此每个元素存在个数，这种意义的距离下，如果文档di的向量中有spot signature s，对应个数为

，文档di'的向量中没有spot signature s,在文档di和di'在这种意义上的距离至少是

，虽然从向量长度意义上的距离来讲，两者有可能很接近甚至相同。

这种距离之所以成为Jaccard相似度意义上的距离，是因为这种距离影响着文档的Jaccard相似度。 Jaccard相似度描述的是两篇文档对应的文档向量中相同的spot signature个数与所有spot signature个数之比，比如di={s1:3,s2:4,s4:2}，di'={s1:2,s3:3,s4:1}，则di与di'的Jaccard相似度为sim(di,di')= (2+1)/(3+4+3+2)=25%。而其向量长度上的距离为|di| - |di'| = 2，与Jaccard相似度计算的相似性相比，由向量长度意义上反应的相似性要更强一些。这就是为什么落在同一分隔内的文档仍然要进行Jaccard相似性计算的原因。

另外，如果di中含有

个s，而di'中不含s，则di与di'在Jaccard相似度意义上的距离至少为

，假设di和 di'其余的spot signature及其个数都相同，此时计算出来的Jaccard相似度最大，为 sim(di,di')=|di'|/|di|=|di'|/(

+|dj|)，若令sim(di,di')<

，则得到

> (1/

- 1)|dj|（3），即当

满足这个不等式时，di与di'的Jaccard相似度小于

，即若两篇文档的Jaccard相似度意义上的距离至少为

时，一定不满足相似度要求，即可不比进行Jaccard相似度计算。在文章内提出的算法中，用该条件来筛选候选文档（原文中为

> (1 -

)|dj|，由于有

> (1/

- 1 )|dj| > (1 -

)|dj|，原文可能进一步进行了缩放以增加速度，不过这只是个人理解，至于其他有说服力的理由实在想不到，文中的不等式会筛选掉更多的文本，有Jaccard相似度大于

的文本也会被筛选掉）。上面讨论的用在算法的第24到第26行，第15行到第 18行也用到了Jaccard相似度意义下距离的有关知识。

百度困境剖析：业务、技术与市场多维度洞察萧十一郎@ 深度研究百度搜索引擎人工智能
一、引言1.1研究背景与意义百度作为中国互联网行业的先驱和领军企业之一，在搜索引擎、人工智能、信息流等多个领域占据着重要地位。自2000年成立以来，百度凭借其强大的搜索引擎技术，迅速崛起并成为中国最大的搜索引擎服务提供商，改变了人们获取信息的方式，在互联网信息检索市场长期占据主导地位。随着技术的不断进步和市场环境的日益复杂，百度近年来面临着诸多严峻的挑战和困境。在搜索引擎市场，尽管百度目前仍占据较
AI赋能教育：深度解析大模型在教育场景中的应用与架构设计【无标题】和老莫一起学AI 人工智能语言模型产品经理 ai 自然语言处理大模型程序员
随着人工智能技术的飞速发展，尤其是大模型的崛起，教育行业迎来了全新的机遇和挑战。教学模式的变革、个性化学习的深化、教育管理的智能化，大模型正以不可忽视的力量推动着教育的数字化升级。在这篇文章中，我们将基于一张完整的应用设计架构图，从应用场景到AI核心能力、训练标注平台、智能处理引擎以及业务数据，全方位剖析大模型如何助力教育行业实现突破，真正实现“AI赋能教育，重塑未来”。一、应用场景：从传统教育到
【人工智能】人工智能学习基础知识汇总奋力向前123 人工智能 python 开发语言人工智能
第1章初识人工智能本章主要介绍人工智能的概念、诞生和发展历程。具体包括人工智能概念的提出和涉及的相关重要人物，以及人工智能发展过程中的几个阶段，包括诞生、两次浪潮与寒冬、稳健阶段和ABC新时代。本章的主要知识点如下：人工智能概念1.人工智能英文名为“ArtificialIntelligence”,简称Al。它是用人工的方法在机器(计算机)上实现的智能；或者说是人们使机器具有类似于人的智能。2.人工
Python+DeepSeek，奔跑吧大模型 Bj陈默 python 开发语言
在当今数字化浪潮中，人工智能与编程语言的融合正以前所未有的速度重塑着技术生态。Python作为最受欢迎的编程语言之一，以其简洁易读的语法、丰富的库和广泛的应用场景，成为了无数开发者的首选。而DeepSeek，作为人工智能领域的一颗新星，凭借其强大的大模型能力，为开发者们打开了一扇通往全新世界的大门。当Python遇上DeepSeek，一场技术的盛宴就此拉开帷幕。一、为什么选择Python与Deep
线性代数导引：张量与张量空间 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
线性代数，张量，张量空间，深度学习，机器学习，人工智能1.背景介绍在现代人工智能领域，深度学习和机器学习算法的蓬勃发展，使得对数据的高效处理和表示能力提出了更高的要求。线性代数作为数学基础，为理解和构建这些算法提供了坚实的基础。而张量，作为一种高维数组的表示形式，成为了深度学习和机器学习的核心数据结构。本篇文章将从线性代数的角度出发，深入探讨张量与张量空间的概念，并阐述其在深度学习和机器学习中的重
Elasticsearch详解久梦歌行 elasticsearch jenkins 大数据
Elasticsearch是什么Elasticsearch是使用Lucene为基础建立的开源可用全文搜索引擎，它可以快速地储存、搜索和分析海量数据Elasticsearch的特点和传统的关系数据库对比关系型数据库查询性能，数据量超过百万级千万级之后下降厉害，本质是索引的算法效率不行，B+树算法不如倒排索引算法高效。关系型数据库索引最左原则限制，查询条件字段不能任意组合，否则索引失效，相反Elast
List把特定元素排在第一位 inner_peace8 Java 总结集合 List把特定元素排在第一位
人工智能，零基础入门！http://www.captainbed.net/inner有的时候会有这样的需求，就是从数据库查出来的list要做一些处理，比如部门成员列表，产品要求你把部门经理排在第一位，这个时候就可以用集合工具类下的自带方法，做法：需要遍历集合，找到这个元素在集合中的位置，然后使用Collections.swap(list,o,i)（O：为元素目前所在位置，i：为要放置的位置）方法来
AIGC从入门到实战：揭秘 Midjourney 的提示词写作技巧 AI架构设计之禅 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：揭秘Midjourney的提示词写作技巧作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，人工智能生成内容（AIGC）逐渐成为可能。AIGC指的是利用人工智能技术自动生成文本、图像、音乐等内容。在AIGC领域，Midjourney是一个备受关注的技术，它能够根据用户输入的提示
DeepSeek对AI领域的变革性影响分析报告芝士AI吃鱼人工智能 DeepSeek OpenAI
一、引言近年来，人工智能（AI）技术加速演进，而中国开源大模型DeepSeek的崛起，标志着全球AI竞争进入新阶段。其凭借低成本、高性能、开源生态三大核心优势，迅速成为行业焦点。本报告从技术、产业、投资、就业及未来趋势等维度，全面解析DeepSeek对AI领域的深远影响，为集团战略布局提供参考。二、技术突破：算法效率与成本革命架构创新：MOE与MLA技术优化DeepSeek采用混合专家系统（MoE
关于 Kibana 、Elasticsearch 奇怪的知识点，一般人可能永远遇不到极客日常极客日常 kibana elk java elasticsearch
最近在公司折腾Kibana的时候遇到了个还挺有意思的问题，估计正常情况下几乎没人遇到。先简单说说Kibana和Elasticsearch，Elasticsearch是个分布式、RESTful风格、非常强大的搜索引擎，被广泛地使用于各个IT公司。与Logstash及Kibana开源项目组合在一起，形成了ELK软件栈。Elasticsearch常年霸占DB-Engines搜索引擎排名的榜首，且与第二名
《DeepSeek训练算法：开启高效学习的新大门》人工智能深度学习
在人工智能的浪潮中，大语言模型的发展日新月异。DeepSeek作为其中的佼佼者，凭借其独特的训练算法和高效的学习能力，吸引了众多目光。今天，就让我们深入探究DeepSeek训练算法的独特之处，以及它是如何保证模型实现高效学习的。一、独特的架构基础DeepSeek以Transformer架构为基石，但并非简单沿用，而是进行了深度创新。Transformer架构的核心是注意力机制，这让模型在处理序列数
《探秘AI绿色计算：降低人工智能硬件能耗的热点技术》程序猿阿伟人工智能
在人工智能飞速发展的当下，其硬件能耗问题愈发凸显。据国际能源署预测，人工智能的能源消耗可能大幅增长。因此，降低人工智能硬件能耗，实现绿色计算，已成为行业关键课题。以下是一些正在崭露头角的热点技术。新型硬件架构与材料计算随机存取内存（CRAM）：明尼苏达大学的研究团队开发的CRAM，能让数据完全在内存阵列内处理，无需离开计算机存储信息的网格，打破了传统冯·诺依曼体系结构中计算与内存之间的壁垒，可将人
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南 m0_57781768 python langchain easyui
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南在现代人工智能应用中，大语言模型（LLM）扮演着越来越重要的角色，尤其是在对话系统、智能助理和其他自然语言处理任务中。然而，所有的模型都有一个有限的上下文窗口，意味着它们可以处理的输入令牌（tokens）数量是有限的。当我们需要处理较长的对话历史或复杂的任务链时，如何管理传递给模型的消息长度变得至关重要。在这篇文章
DeepSeek R1 vs ChatGPT o1 实测 7 大场景终极对决网络安全我来了人工智能 AI chatgpt
R1vso1：7大场景终极对决引言你需要的不是「最好」，而是「最合适」想象一下，你面前有两把瑞士军刀：一把刀锋锐利但功能单一，另一把功能繁多但需要时间磨合。你会怎么选？人工智能模型的选择也是如此。DeepSeekR1和ChatGPTo1就像这两把军刀，它们的胜负不在绝对强弱，而在场景适配。根据实测数据，我们将通过编程、教育、创意等7个战场，解剖这两大AI巨头的真实战斗力。一、语言战场当AI成为「读
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
从取代到增强：AI如何与人类协作，共同创造未来海棠AI实验室人工智能理论与学术深度学习人工智能
人工智能（AI）的飞速发展正在改变全球各行各业。它不仅承诺提高效率、加速创新，还带来了前所未有的可能性。然而，随着这一技术的崛起，许多人开始担心：AI是否会取代人类？这个疑问在很多传统上被认为是“人类专属”的领域中尤为突出，尤其是在创意、决策和情感交流等方面。但如果我们将AI的发展方向从“取代”转向“增强”呢？如果我们将AI视为人类的强大协作伙伴，而不是冷冰冰的竞争对手，会有什么样的未来？这是我们
用AI提升电商平台的客户体验：从个性化推荐到智能客服 Echo_Wish 人工智能前沿技术人工智能
用AI提升电商平台的客户体验：从个性化推荐到智能客服随着电商行业的竞争日益激烈，如何在海量商品中脱颖而出，吸引和保持客户的关注，成为平台生存和发展的关键。而在这场竞争中，人工智能（AI）正在发挥着越来越重要的作用。AI不仅可以优化电商平台的后台操作，还能在前端提供更为个性化、智能化的客户体验，让消费者感受到前所未有的便捷与高效。本文将从个性化推荐、智能客服、智能搜索等方面，详细探讨如何通过AI技术
Ai时代，搞钱的6种方法大耳朵爱学习人工智能 AI大模型大模型产品经理自然语言处理深度学习语言模型
随着人工智能（Ai）技术的迅速发展，越来越多的人意识到它不仅是一种前沿科技，更是一种变革性力量，为我们打开了赚钱的新大门。无论你是创业者、自由职业者，还是打算给自己的业务注入新活力，利用Ai赚钱都是一种值得尝试的选择。本文将结合当前最热门的Ai工具，为你提供6种高效、实用的搞钱思路。——1——内容创作：用Ai做你的创意助手1.1自媒体内容创作利用Ai模型，你可以轻松撰写公众号文章、知乎回答、短视频
微信DeepSeek王炸组合金枝玉叶9 程序员知识储备1 程序员知识储备2 vue.js
1.背景信息微信：腾讯旗下的超级社交应用，涵盖通讯、支付、小程序生态等，月活用户超10亿。DeepSeek：专注AGI（通用人工智能）的中国公司，核心产品包括大模型（如DeepSeek-R1、DeepSeek-Chat）、多模态技术及行业解决方案。“王炸组合”：通常指强强联合的顶级合作，可能暗示技术互补或场景融合。2.可能的合作方向AI功能嵌入微信生态：DeepSeek的大模型能力（如对话、搜索、
机器学习相关基础星辰瑞云机器学习
1.预备知识人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。2.日常生活中的机器学习:①称为RGB(由红色，绿色，蓝色组成)，这种是欠拟合欠拟合和过拟合区别:•欠拟合（Underfitting）：模型在训练数据上表现不佳，无法很好地捕捉数据中的规律。通
《传统教培机构的痛点：数字化转型如何破局？》
数字化浪潮下的困境在当今时代，数字化浪潮正以前所未有的速度席卷全球，深刻地改变着人们的生活、工作和学习方式。这是一个数据爆炸的时代，数据成为了驱动社会发展的核心要素之一。据统计，全球每天产生的数据量高达数万亿字节，这些数据涵盖了人们生活的方方面面，从购物习惯到社交行为，从健康状况到学习偏好，都被数字化记录下来。[]()数字化时代的技术创新日新月异，人工智能、大数据、云计算、物联网等新兴技术不断涌现
AIMv2：多模态自回归预训练的视觉新突破人工智能
AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】导言视觉模型在人工智能领域的地位愈发重要，从图像识别、目标检测到多模态理解，其应用场景不断拓展。在大规模数据集上进行预训练，能助力模型学习丰富的视觉特
AIGC与AICG的区别解析倔强的小石头_ AIGC
目录一、AIGC（人工智能生成内容）（一）定义与内涵（二）核心技术与应用场景（三）优势与挑战二、AICG（计算机图形学中的人工智能）（一）定义与内涵（二）核心技术与应用场景（三）优势与挑战三、AIGC与AICG的区别（一）侧重点不同（二）应用领域不同（三）技术重点不同在当今快速发展的人工智能领域，新的概念和术语不断涌现。其中，AIGC和AICG这两个看似相近的术语引起了广泛的关注。尽管它们仅有字母
AI 发展的第一驱动力：人才引领变革倔强的小石头_ 热点时事人工智能
在科技蓬勃发展的当下，AI成为了时代的焦点，然而其发展并非一帆风顺，究竟什么才是推动AI持续前行的关键力量呢？目录AI发展现状剖析期望与现实的落差落地困境根源人才：AI发展的核心动力编辑技术突破的引领者行业融合的推动者人才驱动下的AI多元赋能创新应用场景加速产业升级培育AI人才的战略路径教育体系革新企业人才战略AI发展现状剖析期望与现实的落差近年来，全球科技大厂纷纷将目光聚焦于人工智能领域，对其寄
掌握AI Prompt的艺术：如何有效引导智能助手黑金IT langchain 人工智能 prompt langchain AI编程
开头叙述：在人工智能的世界里，Prompt（提示）是沟通人类意图与机器理解之间的桥梁。它不仅是一串简单的文字，而是一把钥匙，能够解锁AI模型的潜力，引导它们执行复杂的任务。本文将探讨Prompt的重要性，并展示如何通过精心设计的Prompt来提升AI助手的效率和准确性。无论是在聊天、会议总结还是日程管理中，正确的Prompt都能让AI助手成为你工作中的得力助手。让我们一起深入了解Prompt的力量
AIGC开启人工智能新时代靖节先生人工智能
AIGC：开启智能生成内容的全新时代在数字化技术飞速发展的当下，AIGC（ArtificialIntelligence-GeneratedContent）横空出世，宛如一颗璀璨的新星照亮了内容创作领域的天空。它正以不可阻挡之势重塑着我们的生活、工作与娱乐方式，成为众多行业创新发展的重要驱动力。一、AIGC的概念AIGC，即人工智能生成内容，是指利用人工智能技术自动生成各类内容的过程。它依托机器学习
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
深入了解与全面使用DeepSeek：从基础到高级应用一位卑微的码农人工智能大数据 java-ee spring boot
引言随着AI技术的发展，DeepSeek作为一款先进的智能助手，为用户提供了强大的文本生成、代码分析、数学公式处理等能力。本文将详细介绍DeepSeek的基础知识、安装配置、API调用方法以及高级应用技巧，帮助你充分挖掘这一工具的潜力。一、认识DeepSeek1.1DeepSeek简介DeepSeek是由深度求索公司开发的人工智能平台，它支持三种主要模式：基础模型（V3）、深度思考（R1）和联网搜
人工智能的发展领域之GPU加速计算的应用概述、架构介绍与教学过程 m0_74824592 面试学习路线阿里巴巴人工智能架构
文章目录一、架构介绍GPU算力平台概述优势与特点二、注册与登录账号注册流程GPU服务器类型配置选择指南内存和存储容量网络带宽CPU配置三、创建实例实例创建步骤镜像选择与设置四、连接实例SSH连接方法远程桌面配置一、架构介绍GPU算力平台概述一个专注于GPU加速计算的专业云服务平台，隶属于软件和信息技术服务业。主要面向高校、科研机构和企业用户。该平台提供多种NVIDIAGPU选择，适用于机器学习、人
【深度学习基础】什么是注意力机制我的青春不太冷深度学习人工智能注意力机制
文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism）的引入堪称一场革命。它不仅解决了传统模型的根本性缺陷，更通过动态聚焦关键信息的能力，重塑了人工智能处理复杂任务的范式。本文
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

去重算法——SpotSig算法详解(转）

你可能感兴趣的:(搜索引擎,人工智能)