蓝星潮

文档聚类概述

前面我简单介绍了NMF在文档聚类上的应用。这次我会系统介绍一下文档聚类的一些内容，让大家有一个整体的印象。

1 绪论

文档聚类（或文本聚类）是更大领域的数据聚类的一个子集，从信息检索（IR）、自然语言处理（NLP）和机器学习(ML) 等领域借用概念。

一个好的文档聚类方法，计算机可以自动地将文档语料库组织成一个有意义的群集层次结构，从而使语料库高效浏览和导航。文档聚类可以产生不相交的或者重叠划分（软划分）。在重叠划分中，一个文档可能出现在多个类中，这种划分可以产生一个更好的聚类，因为一个文档通常会涉及多个主题。

要进行聚类首先必须考虑如何处理数据。大部分已存在的文档聚类方法选择将每一个文档表示为一个向量，这样就可以将文档聚类简化成为一个简单的数据聚类。向量模型的一个潜在缺点是没有考虑单词的出现次序。近来出现另外一种表示方法，在定义相似性时不仅考虑术语的出现还考虑术语一起或者序列出现的频率。第3部分会详细介绍文档模型。

Nicholas O.Andrews and Edward A. Fox（2007） [1] 将文档聚类算法分为区别（discriminative）和生成（generative）类型。广泛的说，区别算法在每一个文档之间的相似性上操作，然后基于这些相似性优化一个条件（目标）函数来产生一个最优聚类。而生成算法假定一个数据分布，最大化分布的匹配来产生聚类质心。第4和5部分会详细介绍两类算法。

从term-document矩阵得到的向量空间的另一个角度是相似度矩阵。在图论中，相似度矩阵定义了图中顶点之间的连通性。利用文档向量可以产生一个带权重的图。然后利用图的多路分割来产生一个聚类结果。这些方法会在第6部分中介绍。

选择向量来表示一个文档，那么 term-document 矩阵可能会变得很大。所以人们开始注意到降维聚类。第 7 部分会介绍几种代表性的降维方法。

2 评测

文档聚类已经利用多种方法评估了，但是并没有一致的意见说明哪个是最好的。评估的选择取决于研究领域。如AI领域通常选择mutual information，而IR领域选择F-measure。

两种直观的标准是准确率（precision）和召回率（recall）。在IR领域通常是将这两种标准结合在一起，即F-measure。R代表召回率，P代表准确率，一般化的F-measure可以表示为：

其中表示R和P的权重（重要性），可以取1,0.5,2等值。

为了将F-measure扩展到聚类中，我们假定存在一个由聚类算法输出的聚类结果（clusters）和引用类（classes，正确结果）集合。对于class i和cluster j，在聚类中定义F-measure：

其中n表示文档的数量。

另外两个测量是聚类purity和entropy。Purity测量在给定聚类中支配类成员的百分比（越大越好），entropy看的是在聚类（clusters）中每一个引用类（class）的文档分布（越小越好）。

其中P（i，j）表示聚类j（cluster）的成员属于一个类i（class）的概率。

上述给出的评估方法都是假设聚类的个数和引用类的个数相同，但是通常情况它们的数目不同，这种情况下mutual information比purity和entropy更好。在实际应用中MI正规化为单位长度（NMI）。表示class h中文档的数目，表示cluster 中样本的数目，表示在class h和cluster 中样本的数目，那么：

NMI的范围是[0,1]，1代表引用类和聚类之间完全匹配。NMI是对引用类个数和聚类个数之间不匹配容忍的一种准确度测量。

另一种对聚类算法质量的视角是划分的稳定性。一个直观的测量稳定性的方法是看平均性能。就mutual information来说，让表示r个聚类的集合，表示一个聚类，那么平均NMI（ANMI）可以定义为：

另外一种不常出现在文献的测量方法是冲突矩阵，它是一种可视化工具来提供误分类总结。如：

表1：类 A (4个元素), B (4个元素), 和 C (8个元素)的冲突矩阵

上面所描述的测量都是为不相交聚类的。评估模糊聚类的通常方法时从模糊输出中产生一个硬聚类。通常是利用一个阈值来确定一个文档属于哪个类，如果一个文档在两个类或者多个类中的可能性均大于阈值那么这个文档将出现在多个类中。

3 数据处理模型

3.1 向量空间模型

在向量空间模型下，n个文档，m个术语被表示成为一个mn的term-document矩阵，每一个文档是一个m维的向量。

3.2 基于短语的模型

考虑短语“the dog chased a cat”和“the cat chased adog”。如果转化为向量的话，都是{chase，cat，dog}但是它们的意义明显不一样。所以有的人就假设将单词的次序信息加入到聚类中能改善聚类的准确率。

下面我们介绍一种基于短语的模型。

文档索引图（DIG）在2004年由K. M.Hammouda 和 M. S.Kamel[18]提出，是基于单词次序匹配来定义相似度的。

DIG是一个多路有向图，每一个顶点表示一个单词。图的边表示单词的序列，每一个顶点都维护出现该词的文档列表，以及通过记录边的连续性来维护句子信息。如果一个单词在一个文档中出现多次，那么它在图中对应顶点的频率次数也相应增加。如图1是一个DIG例子。

图1：文档1包含“catchased rat” 和 “dogchased cat”。文档2包含“angrydog chased fat mailman” 和“mailman ran”。文档3包含“littledogchased rat”。有向边表示一个句子。

DIG将单词作为顶点存储，并在每个顶点维护频率信息,从而避免存储冗余信息。DIG不是一种聚类算法，只是一个利用有向边存储单词次序信息的文档模型。在这种模型下，基于重叠子图的相似度可以得到计算进而获得一个相似度矩阵。这种相似度矩阵可以利用任何一种谱算法或者区分算法进行聚类。

结合单词次序信息与单词频率可以改进聚类的精确性，根据研究大概有20%的提高。然而，应该指出是关联这两种信息是有一定的花销的。如果可以预计算相似性矩阵，那么这种混合方法在效率上是相当于传统方法。另一方面，如果联机检索文档，DIG的建立是有一点昂贵的。

4 区分算法

区分算法是基于文档向量两两相似度的一类算法，其中层次聚类算法和划分算法是主要的聚类方法。

层次聚类算法又称为树聚类算法[3,4,19]，它使用数据的联接规则，透过一种层次架构方式，反复将数据进行分裂或聚合，以形成一个层次序列的聚类问题解。层次算法的计算复杂性为，适合于小型数据集的分类。层次聚类算法又可以分为凝聚的方法(agglomerative)，也称自底向上（bottom-up）和分裂的方法（divisive），也称自顶向下（top-down）。图2是对层次聚类的表示。

层次方法应用于需要层次结构的应用，能够产生较高质量的聚类。

但是层次算法的时间复杂度和空间复杂度很高，严重限制了数据集的大小；缺乏全局目标函数；所有合并都是最终的，无法撤销，对于噪声、高维数据可能造成问题。

图2：层次聚类

划分式聚类算法需要预先指定聚类数目或聚类中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数值收敛时，得到最终聚类结果。如对包含n个文档的文本集合，划分将生成k个分组，k<=n，每一个分组代表一个聚类。划分算法比层次算法要有更好的性能。典型的划分方法包括k-means及其变形等。

图3：k-means聚类过程

K-means中相似度是根据欧氏距离，而对于文档聚类中cosine相似度要好于欧式距离，这种算法称作sphericalkmeans[5]。

k-means实现简单，可用于多种类型，空间需求适度，时间复杂度也适度，复杂度是，n是文档的数目，k是聚类数目，l是迭代次数。

kmeans算法有着一些问题：它依赖于随机的初始化；它可能收敛于局域最小值；易受到离群点和噪音的影响；对数据点的分布有一定的假设，不适合用于发现非凸形状（非球形）的聚类，或具有各种不同大小（不同尺寸、不同密度）的聚类。

5 生成算法

生成算法，基于模型方法为每个聚类假设一个模型，然后再去发现符合相应模型的数据对象。一个基于模型的算法可以通过构造一个描述数据点空间分布的密度函数来确定具体聚类。它利用迭代过程在模型估计与文档分配步骤之间交替变换。

每一种模型都提供了文档属于每一个类的概率计算（密度函数）方法。通常使用的模型有高斯模型和冯米塞斯费舍尔模型。

为了最大化总概率我们通常利用em算法[6]。EM算法是一种高效的解决模型中最大似然函数的迭代过程。它包含两个过程：E-step和M-step。E-step利用已知的数据和模型（聚类）的当前评估来计算丢失的数据（计算概率），M-step最大化似然函数，并调整参数。

在生成算法中，E-step只要是利用模型中给出的文档属于每一个类的概率（等式11和等式17）来计算似然概率P，M-step只要是调整参数来得到最大化概率的效果。

基于模型的算法根据标准统计方法并考虑到“噪声”或异常数据，可以自动确定聚类个数；模型多种多样，可供选择性高；可以发现不同大小和椭球形状簇；许多实际的数据是随机的，因此很大程度上满足模型的统计假设。

EM算法可能很慢，对于具有大量分量的模型不适合；当簇只包含少量数据点，或者数据点近似协线性时，也无法很好处理；如何选择正确模型存在问题。

6 谱聚类

顶点之间的相似信息可以自然地表示为一个矩阵，向量模型可以解释成为一个图。谱聚类涉及在图中寻找一个切割来产生好的聚类。如图4和5。

图4：一个多路分割示意图

图5：二分图分割。虚线表示一个分割，产生一个同时对term-document的行和列联合聚类。

问题是如何在图中寻找到好的分割？这就出现了大量的准则函数，谱聚类算法需要最优化它们来得到好的分割。其中最常用的包括多路ratio cut，normalized cut（NCut）和max-min cut。这些不同目标函数的求解可能会用到特征值（特征向量）或者奇异值（奇异向量）。

对于ratio cut，normalized cut（NCut）和max-min cut，如果集群是很好的分离,所有三个不同的分割都会给出一个非常相似的和准确的结果；当集群是略微分开的，NCut和max-min cut会给出更好的结果；当集群明显地重叠，max-min cut往往给更紧凑平衡集群[7]。

7 降维

尽管预处理可以实现向量空间的大小显著减少,但后检索应用程序要求更高的效率。因此我们需要更好的降维算法。这部分我们介绍三种最常用的降维技术，它们不仅可以显著地减少文档向量的大小，还能提高聚类的准确率。实际上这些方法本身也可以看作是聚类方法。

7.1 主成分分析（PCA）

PCA[8]是一个著名的维度降低算法，离散K-L装换是它的理论基础。

主成分分析有两个重要的属性,这些属性使它适合聚类:近似和可区别性。近似是说PCA在降维的同时，引进了一个可控制的误差使得近似最优化。另外实验表明PCA使得相似的文档更加相似，不相似的文档更加不相似，增加了可区分性这使得聚类更加容易。

当然PCA也有一系列的问题。（1）近似得到结果中包含负值,所以降维的空间不能直接解释为一个聚类，但是可以在降维的空间上执行传统的聚类方法(如k-means)产生最后的聚类结果,而且它实际上生产聚类比直接在原来的向量空间上进行更准确；（2）另一个问题是,主成分是正交的。这是对于文本数据是有问题的,如文档可能跨越多个主题,所以在这种情况潜在的语义变量将不会是正交的；（3）计算协方差矩阵的特征值和特征向量时间花销是很大的，而且不能迭代的进行求解，使得奇异值分解的求解不是一个优化过程也无法产生一个中间值。

7.2 奇异值分解（SVD）

可以看出SVD与PCA相似[9]，只是在计算特征空间上略有区别，所以它和PCA有着共同的优点和问题。

7.3 非负矩阵分解（NMF）

非负矩阵分解(NMF)[10],原本为计算机视觉应用,已经被有效地用于文档聚类[2]。NMF产生的近似矩阵只包含非负的因素,这意味着可以从降维的空间直接得到一个可解释的聚类而不需要进一步的后处理。

和上述两种降维方法相比，NMF不需要派生的潜在语义空间是正交的，并且保证每个文档在所有潜在语义方向上都取非负值。并且NMF有以下优点：

（1）当聚类之间存在重叠，NMF 仍然可以为每个聚类找到潜在的语义方向，而由奇异值分解的正交要求或特征向量计算使得派生潜在语义的方向，不太可能对应于每个聚类。

（2）利用NMF，一个文档是基础潜在语义的加法的组合，使得在文本域中更有意义。

（3）每个文档的聚类成员可以直接从 NMF的结果中得到，而从谱聚类所得的潜在语义空间对每个数据点的分布不提供直接指示，因此，必须利用传统的数据聚类 K-均值等方法来找到最终的文档聚类结果。

8 总结

文档聚类算法有多种多样，每一种算法都有自己的优缺点，并不能说哪一种算法是最好的，哪一种算法是最坏的，根据不同的应用选择适合的算法才是正确的。比如小规模的聚类，由于它的简单易于实现等特点选择k-means会更好，又比如对于大规模的数据聚类，先对元数据进行降维处理会取得更好的效率和准确率。

参考文献：

[1] Andrews, Nicholas O. and Fox, Edward A. Recent Developments inDocument Clustering.Technical Report TR-07-35, Computer Science, VirginiaTech, 2007.

[2] Wei Xu, Xin Liu, YihongGong.Document Clustering Based On Non-negative Matrix factorization .In Proceedings of the 26th annualinternational ACM SIGIR conference on Research and development in informaionretrieval, 2003, pp. 267-273.

[3] Marques JP,Written; Wu YF, Trans. Pattern Recognition Concepts, Methods and Applications.2nd ed., Beijing: Tsinghua University Press, 2002. 51−74 (in Chinese).

[4] Fred ALN, LeitãoJMN. Partitional vs hierarchical clustering using a minimum grammar complexityapproach. In: Proc. of the SSPR&SPR 2000. LNCS 1876, 2000, pp. 193−202.

[5] Inderjit S.Dhillon and Dharmendra S. Modha. Concept decompositions for large sparse textdata using clustering. Mach. Learn., 2001, 42(1-2):143–175.

[6] R. Neal and G.Hinton. A view of the em algorithm that justifies incremental, sparse, andother variants.In M. I. Jordan, editor, Learning in Graphical Models. Kluwer,1998.

[7] Chris H. Q.Ding, Xiaofeng He, Hongyuan Zha, Ming Gu, and Horst D. Simon. A min-max cutalgorithm for graph partitioning and data clustering. In ICDM ’01: Proceedingsof the 2001 IEEE International Conference on Data Mining, pages 107–114,Washington, DC, USA, 2001. IEEE Computer Society.

[8] M. Turk and A.Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, vol.26, 2004, pp. 71-86.

[9]Wall, Michael E., Andreas Rechtsteiner, LuisM. Rocha. Singular value decompositionand principal component analysis. In D.P. Berrar, W. Dubitzky, M. Granzow. APractical Approach to Microarray Data Analysis. Norwell, MA: Kluwer. 2003, pp.91–109.

[10] Daniel D. Leeand Sebastian H. Seung. Learning the parts of objects by non-negative matrixfactorization. Nature, 401(6755):788–791, October 1999.

[11] Dee, D.D. &Seung, H.S.. Algorithms for Non-negative Matrix Factorization. Advances inNeural Information Processing, 13, 2001.

[12] Kim, H. &Park, K.. Non-negative Matrix Factorization Based on Alternating Non-negativityConstrained Least Squares and Active Set Method. SIAM J. Matrix Anal. Appl.,30(2), 2008, pp.713–730.

[13] Cichocki, A.,Zdunek, R. & Amari, S.. Hierarchical ALS Algorithms for Nonnegative Matrixand 3D Tensor Factorization. Lecture Notes in Computer Science, Springer, 4666,2007, pp.169–176.

[14] Cichocki, A.,Zdunek, R. & Amari, S.. Non-negative Matrix Factorization with Quasi-NewtonOptimization. Lecture Notes in Artificial Intelligence, Springer, 4029, 2006,pp.870–879.

[15] Lin, C.-J..Projected Gradient Methods for Nonnegative Matrix Factorization. NeuralComputation,MIT press, 19, 2007, pp.2756–2779.

[16]Gillis, N.. Nonnegative Matrix Factorization:Complexity, Algorithms and Applications. Université catholique de Louvain, PhDThesis, 2011.

[17] NicolasGillis1an,Francois Glineur. Accelerated Multiplicative Updates and HierarchicalALS Algorithms for Nonnegative Matrix Factorization. Neural Computation,2011.

[18] K. M. Hammouda and M. S. Kamel. Efficient phrase-baseddocument indexing for web document clustering. IEEE Transactions on knowledgeand data engineering, 16(10):1279–1296, 2004.

数据重放和数据倒灌的意思一样吗赛恩斯 android
数据重放与数据倒灌在机制上有相似性，但设计目的和适用场景存在本质差异：‌1.核心定义对比‌‌维度‌‌数据倒灌‌‌数据重放‌‌技术场景‌LiveData特有的现象，新观察者自动接收最后一次数据更新‌78通用异步流机制（如Flow的StateFlow/SharedFlow），允许新订阅者获取历史数据‌45‌设计意图‌LiveData的默认行为，旨在确保观察者始终获取最新数据‌38开发者主动配置的数据保
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
面对对象（对象，类，属性以及三大特征）码农彭于晏1号面向对象编程
1.面对对象的基本概念：是一种把面向对象的思想应用于软件开发过程中，指导开发活动的系统方法，简称OO(Object-Oriented)方法，是建立在"对象"概念基础上的方法学。对象是由数据和容许的操作组成的封装体，与客观实体有直接对应关系，一个对象类定义了具有相似性质的一组对象。而类的继承性是对具有层次关系的类的属性和操作进行共享的一种方式。所谓面向对象就是基于对象概念，以对象为中心，以类和继承为
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
模拟退火算法详解琛哥的程序算法模拟退火算法机器学习
一、引言模拟退火算法（SimulatedAnnealing，简称SA）是一种通用概率型优化算法，用来在一个大的搜寻空间内找寻问题的最优解。其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。模拟退火算法从某一较高初温出发，伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。二、算法原理物理退火过程加温过程
向量存储与检索器小码农0912 AI应用开发向量存储与检索器向量存储检索器 langchain
文章目录向量存储如何创建和查询向量存储相似性搜索按向量进行相似性搜索异步操作检索器如何使用向量存储作为检索器从向量存储创建检索器最大边际相关性检索传递搜索参数相似性得分阈值检索指定前k案例案例1案例2langchain支持从向量数据库和其他来源检索数据，以便与LLM（大型语言模型）工作流程集成。它们对于应用程序来说非常重要，这些应用程序需要获取数据以作为模型推理的一部分进行推理，就像检索增强生成（
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
【ISP】对于ISP的关键算法补充白码思算法计算机视觉
本篇是对于ISP的关键算法进行补充说明，后面我们将开始逐渐深入讨论ISP的pipeline1.非局部均值（NLM,Non-LocalMeans）原理非局部均值（NLM）是一种基于块匹配（PatchMatching）的去噪算法，它利用了图像的自相似性（Self-Similarity）来进行降噪。核心思想是：一幅图像中的某个像素，其最佳去噪值可能不是简单地来自邻域均值，而是来自整幅图像中与它相似的区域
C#控制台应用程序学习——3.8 宣宣猪的小花园. C#控制台应用程序 c#开发语言无人机
一、语言概述1、平台相关性C#主要运行在.NET平台上。.NET提供了一个庞大的类库，C#程序可以方便地调用这些类库来实现各种功能，如文件操作、数据库访问、网络通信等。2、语法风格C#的语法与C、C++和Java有一定的相似性。例如，它使用大括号{}来定义代码块，使用分号;结束语句。二、C#程序的基本结构1、命名空间（Namespace）命名空间用于组织代码，避免命名冲突。例如：usingSyst
Triplet Loss原理及 Python实现 AIGC_ZY Diffusion Models python 深度学习机器学习
Tripletloss最初是谷歌在FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering论文中提出的，可以学到较好的人脸的embeddingTripletLoss是一种用于训练特征嵌入（featureembedding）的损失函数，广泛应用于人脸识别、图像检索等需要度量相似性的任务。其核心思想是通过学习将同类样本的嵌入距离拉近，不同类样本的
【微服务】SpringBoot 整合Redis Stack 构建本地向量数据库相似性查询小码农叔叔 AI大模型实战与应用 springboot 入门到精通向量数据库 redis stack java使用向量数据库
目录一、前言二、向量数据库介绍2.1什么是向量数据库2.2向量数据库特点2.3向量数据库使用场景三、常用的向量数据库解决方案3.1Milvus3.1.1Milvus是什么3.1.2Milvus主要特点3.2Faiss3.2.1Faiss是什么3.2.2Faiss主要特点3.3Pinecone3.3.1Pinecone是什么3.3.2Pinecone主要特点3.4Weaviate3.4.1Weavi
向量数据库（二）：Qdrant J_D_Chi 数据库数据库
写在前面我们借助Qdrant来了解向量数据库的一些内容内容什么是Qdrant？Qdrant是一个开源的针对向量相似性搜索的引擎，它提供了一系列的API用于对向量数据进行存储、搜索和管理等功能。下面是来自Qdrant官网的一个架构图：初步了解Qdrant里的一些概念以Qdrant的架构图为背景，我们需要初步了解下里面涉及到的一些概念名词，后面我们再对这些概念做进一步的了解。
AI语言模型的技术之争：DeepSeek与ChatGPT的架构与训练揭秘 m0_74825466 面试学习路线阿里巴巴 chatgpt 人工智能语言模型
-CSDN博客目录第一章：DeepSeek与ChatGPT的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章：模型架构对比2.1Transformer架构：核心相似性2.2模型规模与参数第三章：训练方法与技术3.1预训练与微调：基础训练方法3.2强化学习与奖励建模3.3知识蒸馏与量化技术第四章：训练数据与应用4.1训练数据集：数据源的差异4.2特定领域任务：应用场景的差异第五章：代
搜广推校招面经三十六 Y1nhl 搜广推面经机器学习人工智能算法 python 深度学习 pytorch 推荐算法
快手推荐算法一、有10亿个数据量如何快速做召回在推荐系统的召回阶段，面对海量数据（如10亿条记录），需要快速筛选出与目标用户相关的候选物品集合。由于数据规模巨大，直接对所有数据进行计算是不现实的，因此需要设计高效的召回策略。1.1.核心挑战数据规模大:10亿级别的数据无法直接加载到内存中。实时性要求高:召回过程通常需要在毫秒级完成。稀疏性问题:用户行为数据通常是稀疏的，导致相似性计算复杂度增加。多
JavaOOP02——继承、重载与重写搬码红绿灯 java 开发语言
目录一、继承的概念及其重要性二、继承关键字使用三、访问修饰符的作用及应用四、Object类的重要性及其方法五、this与super的理解六、方法重载与重写的区别一、继承的概念及其重要性在我们的日常生活中，有很多东西是彼此之间具有相似性的。比如，轿车和卡车都是车辆的一种，它们都具有轮胎、引擎等共同特征。在软件开发中，如果每当我们遇到类似的问题就需要从头开始编写代码的话，将会非常低效。因此，继承的概念
数字免疫系统：现代网络安全的生物启发式重构 Bruce_xiaowei 笔记总结经验 web安全重构网络
数字免疫系统：现代网络安全的生物启发式重构引言在生物进化史上，人类免疫系统完成了对数千种病原体的精准识别与防御；在数字世界，网络安全系统正面临相似的挑战。这种跨维度的相似性为技术架构师提供了独特的认知框架——通过将免疫系统的动态防御机制映射到网络安全领域，我们不仅能构建更直观的安全模型，更能从生命科学四十亿年的进化智慧中汲取灵感。一、免疫系统的数字化映射1.物理防御层的生物学解构网络安全中的防火墙
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
使用pytorch和opencv根据颜色相似性提取图像深蓝海拓机器视觉和人工智能学习 opencv学习笔记 pytorch opencv 人工智能
需求：将下图中的花朵提取出来。代码：importcv2importtorchimportnumpyasnpimporttimedefget_similar_colors(image,color_list,threshold):#将图像和颜色列表转换为torch张量device=torch.device('cuda'iftorch.cuda.is_available()else'cpu')image
使用 SK 进行向量操作后端
使用SK进行向量操作先祝大家2025新年好。在2024年落地的LLM应用来看，基本上都是结合RAG技术来使用的。因为绝大多数人跟公司是没有fine-turning的能力的。不管是在难度还是成本的角度看RAG技术都友好的多。在RAG（Retrieval-AugmentedGeneration）中，向量的意义在于将文本数据转换为高维向量表示，以便进行高效的相似性搜索和信息检索。具体来说，向量在RAG中
环境会影响你的决策：K近邻算法（KNN) AOIWB 机器学习基础近邻算法人工智能算法
环境会影响你的决策：K近邻算法（KNN)1.核心思想与流程KNN是一种基于局部相似性的分类算法，核心思想是“近朱者赤”：待测样本的类别由其最近的k个邻居的多数类别决定。关键步骤：定义空间与距离：通常采用欧式空间，计算两点间直线距离：dis(a,b)=∑i=1n(ai−bi)2\text{dis}(a,b)=\sqrt{\sum_{i=1}^n(a_i-b_i)^2}dis(a,b)=i=1∑n(a
用Meta的开源工具打造AI驱动的应用：LASER、Faiss与聊天加载器示例 dgay_hua 人工智能 faiss python
MetaPlatforms（原Facebook）在AI技术领域持续创新，推出了多个优秀的开源工具，比如用于多语言句子嵌入的LASER、用于高效相似性搜索的Faiss，以及用于加载和处理Messenger和WhatsApp聊天记录的工具。这些工具可以帮助开发者快速构建AI驱动的应用。在本文中，我们将深入介绍这些工具的功能，并通过可运行的代码示例展示如何将它们应用到实际项目中。技术背景介绍LASER（
借助知识图谱和Llama-Index实现基于大模型的RAG 爱吃牛油果的璐璐知识图谱 llama oracle 语言模型 chatgpt transformer 人工智能
幻觉是在处理大型语言模型（LLMs）时常见的问题。LLMs生成流畅连贯的文本，但经常产生不准确或不一致的信息。防止LLMs中出现幻觉的一种方法是使用外部知识源，如提供事实信息的数据库或知识图谱。矢量数据库和知识图谱使用不同的方法来存储和表示数据。矢量数据库适合基于相似性的操作，知识图谱旨在捕捉和分析复杂的关系和依赖关系。对于LLM中的幻觉问题，知识图谱是一个比向量数据库更好的解决方案。知识图谱为L
注意力机制中的查询Q、键K、值V与态势感知人机与认知实验室机器学习人工智能
注意力机制中的查询（Q）、键（K）、值（V）与态势感知中的态、势、感、知之间存在一定的对应关系。可以把查询对应于态和势，键对应于感，值对应于知，这种对应关系体现了两者在信息处理过程中的相似性，即从大量信息中提取出对当前任务最有用的部分，为决策提供支持。但是，注意力机制中的查询（Query,Q）、键（Key,K）、值（Value,V）与态势感知中的“态、势、感、知”之间并没有严格的直接对应关系，因为
KNN 算法优化实战分享轻口味算法与实践算法
KNN算法优化实战分享KNN算法优化实战分享一、引言1.KNN算法的核心思想与特点KNN（K-NearestNeighbors）算法是一种基于距离的相似性分类与回归算法。其核心原理是：对于一个待预测样本，计算其与训练集中所有样本的距离，选取距离最近的K个样本，根据这K个样本的标签进行投票（分类）或均值计算（回归），从而得到待预测样本的标签。KNN算法具有以下核心优势：无需训练：与其他需要通过大量数
人工智能深度学习系列—深入探索KL散度：度量概率分布差异的关键工具学步_技术自动驾驶人工智能人工智能深度学习自动驾驶机器学习
人工智能深度学习系列—深度解析：交叉熵损失（Cross-EntropyLoss）在分类问题中的应用人工智能深度学习系列—深入解析：均方误差损失（MSELoss）在深度学习中的应用与实践人工智能深度学习系列—深入探索KL散度：度量概率分布差异的关键工具人工智能深度学习系列—探索余弦相似度损失：深度学习中的相似性度量神器人工智能深度学习系列—深度学习中的边界框回归新贵：GHM（GeneralizedH
花卉相似性分析的多元应用行业剖析黑金IT 知识图谱人工智能知识图谱
花卉相似性分析作为一项具有深度价值的技术手段，凭借对花卉各类属性的精准剖析，广泛渗透于众多行业领域，切实推动着各行业的蓬勃发展，为其注入创新活力，带来诸多效益。一、电商行业商品推荐：在竞争白热化的电商市场中，花卉相似性分析成为提升用户购物体验的关键利器。它聚焦花卉的多元属性，涵盖种类、价格、分类，乃至花瓣形态、花期时长、花香浓郁程度等细节。当用户在电商平台浏览特定花卉时，系统依托精准的相似性算法，
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

文档聚类概述

你可能感兴趣的:(相似性)