Wis4e

数据挖掘导论——第七章：聚类

什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？

聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）

理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。

以下内容由AI生成：

余弦相似度 （Cosine Similarity）是一种衡量两个向量在方向上相似程度的指标，通过计算它们之间夹角的余弦值来实现。它在文本分析、推荐系统、图像识别等领域广泛应用，尤其适用于高维数据（如词向量、用户行为特征等）。

核心思想

忽略向量的绝对大小 ，仅关注方向是否一致。
例如：在文本分析中，即使两篇文档长度差异很大，只要主题关键词的分布比例相似，余弦相似度仍然可能很高。

数学公式

对于两个向量 A 和 B ，余弦相似度计算公式为：

余弦相似度=∥A∥⋅∥B∥A⋅B=∑i=1nAi2⋅∑i=1nBi2∑i=1nAiBi

分子：向量 A 和 B 的点积（内积）。
分母：向量 A 和 B 的模长（欧氏范数）的乘积。
取值范围 ：[−1,1]
- 1 ：方向完全相同。
- 0 ：正交（无相关性）。
- -1 ：方向完全相反。

几何解释

通过夹角判断相似性：
- 夹角越小 （接近0°），余弦值越接近1，相似度越高。
- 夹角越大 （接近180°），余弦值越接近-1，相似度越低。
与向量长度无关：即使两个向量长度差异很大，只要方向一致，相似度仍为1。

应用场景

文本相似度
- 将文档表示为词频向量（如TF-IDF），计算余弦相似度判断主题相似性。
- 例如：判断两篇新闻是否属于同一类别。
推荐系统
- 用户行为向量化后，通过余弦相似度找到兴趣相似的用户或物品。
- 例如：电影评分向量的相似度用于推荐用户可能喜欢的电影。
图像识别
- 将图像特征编码为向量，通过余弦相似度匹配相似图像。
自然语言处理（NLP）
- 词向量（如Word2Vec、GloVe）的余弦相似度衡量词语义相似性。
- 例如：“国王”和“女王”的余弦相似度可能较高。

与欧氏距离的区别

欧氏距离 ：衡量两点在空间中的绝对距离，受向量长度影响。
余弦相似度 ：仅关注方向差异，对长度不敏感。
示例：
- 向量A=(3,4)，向量B=(6,8)：
  - 欧氏距离较大（相差5），但余弦相似度为1（方向相同）。
- 向量C=(3,4)，向量D=(-4,3)：
  - 欧氏距离较小（约7.07），但余弦相似度为0（正交）。

优缺点

优点：
- 对高维稀疏数据（如文本）鲁棒。
- 计算效率高，适合大规模数据。
缺点：
- 忽略向量的绝对大小（如用户评分的尺度差异）。
- 对噪声敏感（可通过归一化或调整余弦相似度改进）。

皮尔逊相关系数 （Pearson Correlation Coefficient）是统计学中衡量两个变量之间线性相关程度 的指标，由卡尔·皮尔逊提出。其取值范围在 [-1, 1] 之间，能够反映变量间的正相关、负相关或无相关性。

核心思想

线性关系 ：仅衡量变量间的线性关联强度，无法捕捉非线性关系（如二次函数、指数关系）。
标准化 ：通过协方差标准化为无量纲值，消除变量量纲和量级的影响。

数学公式

对于变量 X 和 Y，其观测值为 (x1,y1),(x2,y2),…,(xn,yn)，皮尔逊相关系数 r 的计算公式为：

r=标准差(X)⋅标准差(Y)协方差(X,Y)=∑i=1n(xi−xˉ)2⋅∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)

其中：

xˉ 和 yˉ 分别是 X 和 Y 的均值。
协方差 ：衡量 X 和 Y 的联合变化趋势。
标准差 ：标准化协方差，使结果不受变量尺度影响。

取值范围与意义

相关系数 r	相关性	解释
1	完全正相关	Y随X线性递增
0	无线性相关性	变量间无明显线性关系
-1	完全负相关	Y随X线性递减

绝对值大小 ：
- ( |r| > 0.7 )：强相关
- ( 0.4 < |r| \leq 0.7 )：中等相关
- ( |r| \leq 0.4 )：弱相关

与余弦相似度的联系

数学形式相似 ：
皮尔逊相关系数等价于对中心化后的数据 （减去均值）计算余弦相似度。r=余弦相似度(X−xˉ,Y−yˉ)
关键区别 ：
- 余弦相似度关注向量方向，皮尔逊系数关注线性相关性。
- 皮尔逊系数对数据进行了中心化（消除均值影响）。

1. 欧氏距离（Euclidean Distance）

定义：
欧氏距离是衡量两个点在多维空间中绝对距离的指标，即两点之间的直线距离。
公式：
对于两个点 A=(a1,a2,…,an) 和 B=(b1,b2,…,bn)，欧氏距离为：

d=i=1∑n(ai−bi)2

特点：

直观易懂，符合几何直觉。
对量纲敏感 ：若特征单位或范围差异大（如“身高（cm）”与“体重（kg）”），量级大的特征会主导距离计算。

2. 为什么需要归一化？

问题：
假设两个特征：

特征1：身高（范围：150-200 cm）
特征2：体重（范围：50-100 kg）

计算欧氏距离时，身高差异（如50 cm）会远大于体重差异（如50 kg），导致距离主要由身高决定，而体重的影响被弱化。
解决方法 ：
通过归一化 （Normalization）将不同特征的取值范围统一，消除量纲和量级的影响。

3. 常用的归一化方法

(1) 最小-最大归一化（Min-Max Scaling）

将数据缩放到固定区间（如[0, 1]）：

xnorm=xmax−xminx−xmin

适用场景 ：

数据分布均匀，且已知最大/最小值。
如图像像素值（0-255）归一化到[0, 1]。

(2) Z-Score 标准化（Standardization）

将数据转换为均值为0、标准差为1的分布：

xstd=σx−μ

适用场景 ：

数据近似正态分布，或存在异常值（对异常值鲁棒性较强）。
如金融数据、自然语言处理中的词向量。

(3) 其他方法

小数定标归一化 ：按小数位数缩放（如除以1000）。
稳健标准化 ：使用中位数和四分位距（IQR），适合有离群值的数据。

4. 归一化对欧氏距离的影响

归一化前 ：

特征量级差异大时，距离被量级大的特征主导。
归一化后 ：
所有特征对距离的贡献被均衡化，模型能更公平地捕捉不同特征的关系。

示例：
假设有两个样本：

样本1：身高=180 cm，体重=70 kg
样本2：身高=160 cm，体重=60 kg

归一化前 ：
欧氏距离 = (180−160)2+(70−60)2=400+100=500≈22.36

归一化后 （假设身高缩放到[0,1]，体重缩放到[0,1]）：

身高：180→1，160→0.5
体重：70→1，60→0
归一化后距离 = (1−0.5)2+(1−0)2=0.25+1=1.25≈1.12

归一化后，身高和体重对距离的贡献权重相同。

5. 实际应用中的注意事项

选择归一化方法 ：
- 若数据有明显边界（如像素值），用Min-Max。
- 若数据分布接近正态或有离群值，用Z-Score。
训练集与测试集 ：
- 归一化的参数（如均值、标准差）应基于训练集计算，再应用于测试集。
动态数据 ：
- 对于实时数据流，可能需要定期更新归一化参数。

6. 何时需要归一化？

需要计算距离的算法 ：KNN、K-Means、SVM（使用RBF核时）等。
特征量纲差异大时 （如“销售额”与“用户评分”）。
梯度下降优化 ：归一化能加速收敛（如神经网络）。

欧氏距离的相关性矩阵 通常指的是通过计算样本之间的欧氏距离，生成一个对称矩阵，用于表示样本间的相似性或差异性。虽然“相关性矩阵”一般指变量间的线性相关性（如皮尔逊相关系数），但欧氏距离矩阵在功能上类似，主要用于衡量样本间的绝对距离 而非相关性。以下是详细解释：

1. 欧氏距离矩阵的定义

对于 n 个样本，每个样本有 m 个特征，欧氏距离矩阵是一个 n×n 的对称矩阵，其中每个元素 Dij 表示样本 i 和样本 j 之间的欧氏距离：

Dij=k=1∑m(xik−xjk)2

特点：

对角线元素为0（样本与自身的距离为0）。
对称性：Dij=Dji。

2. 欧氏距离矩阵 vs. 相关性矩阵

对比项	欧氏距离矩阵	相关性矩阵
衡量内容	样本间的绝对距离	变量间的线性相关性
输入数据	样本（行）之间的关系	变量（列）之间的关系
取值范围	[0,+∞)	[−1,1]
应用场景	聚类、分类、异常检测	特征选择、关系分析

3. 构建欧氏距离矩阵的步骤

4. 应用场景

聚类分析（如K-Means） ：
通过距离矩阵衡量样本间相似性，将相似样本归为一类。
多维标度分析（MDS） ：
将高维数据降维到低维空间，保留样本间距离关系。
异常检测 ：
远离其他样本的点可能为异常值（如距离矩阵中某行数值普遍较大）。
推荐系统 ：
计算用户或物品间的相似性（需结合其他方法，如协同过滤）。

5. 注意事项

归一化的重要性 ：
若特征量纲差异大（如“价格”与“销量”），需先归一化（如Z-Score或Min-Max），避免某些特征主导距离计算。
高维数据的稀疏性 ：
在高维空间中，欧氏距离可能失效（距离趋近相似），需结合降维技术（如PCA）。
计算复杂度 ：
数据量较大时（如10万样本），计算 n2 的距离矩阵会占用大量内存，需优化算法或采样。

6. 可视化

可通过热图（Heatmap）直观展示距离矩阵

闵可夫斯基距离 （Minkowski Distance）是欧氏距离和曼哈顿距离的泛化形式 ，通过一个参数 p 控制距离计算的敏感度。它在机器学习和数据分析中广泛用于衡量样本间的相似性或差异性。

1. 数学定义

对于两个点 A=(a1,a2,…,an) 和 B=(b1,b2,…,bn)，闵可夫斯基距离公式为：

d(A,B)=(i=1∑n∣ai−bi∣p)1/p

其中：

p 是一个正实数（( p \geq 1 )），控制距离的敏感度。
当 p=1 时，退化为曼哈顿距离 （Manhattan Distance）。
当 p=2 时，退化为欧氏距离 （Euclidean Distance）。
当 p→∞ 时，退化为切比雪夫距离 （Chebyshev Distance）。

2. 不同 p 值的影响

曼哈顿距离（( p = 1 )） ：
计算坐标差的绝对值之和，适用于网格状路径（如城市街区）。
d=∣a1−b1∣+∣a2−b2∣+⋯+∣an−bn∣
欧氏距离（( p = 2 )） ：
直线距离，适用于连续空间中的几何分析。
d=(a1−b1)2+(a2−b2)2+⋯+(an−bn)2
切比雪夫距离（( p \to \infty )） ：
取坐标差的最大绝对值，适用于维度间重要性差异大的场景。
d=max(∣a1−b1∣,∣a2−b2∣,…,∣an−bn∣)

3. 闵可夫斯基距离的特点

灵活性 ：通过调整 p，适应不同数据分布和任务需求。
量纲敏感 ：若特征单位或范围差异大，需先归一化 （如Z-Score或Min-Max）。
高维问题 ：在高维空间中，所有距离度量可能趋近相似（“维度灾难”），需结合降维技术。

应用场景

机器学习算法 ：
- K近邻（KNN）分类/回归。
- K-Means聚类（需选择合适的 ( p )）。
图像识别 ：
像素特征间的相似性度量（常选择 ( p = 2 )）。
异常检测 ：
通过设定阈值，筛选远离大多数样本的点。

4.马哈拉诺比斯距离

马哈拉诺比斯距离（Mahalanobis Distance）是一种统计度量方法，用于衡量数据点与分布中心或不同分布之间的相似性。与欧氏距离不同，它考虑了数据各维度之间的相关性 和尺度差异 ，因此在多维数据分析中更为有效。

1. 核心思想

欧氏距离的局限性 ：
欧氏距离直接计算两点之间的几何距离，但假设所有维度相互独立且方差相同。若数据存在相关性或不同维度的量纲差异（如身高和体重），欧氏距离可能失真。
马哈拉诺比斯距离的改进 ：
通过引入协方差矩阵 ，标准化数据并消除维度间的相关性，使距离度量更符合数据的实际分布。

2. 数学公式

对于数据点 x 和分布中心 μ （或另一点 y ），马哈拉诺比斯距离定义为：

DM=(x−μ)TS−1(x−μ)

其中：

S 是数据的协方差矩阵，
S−1 是其逆矩阵，
(x−μ) 是向量差。

3. 关键特性

尺度不变性 ：通过协方差矩阵标准化，消除量纲影响。
相关性考量 ：协方差矩阵的逆会调整维度间相关性，例如：
- 若两维度正相关，它们的差异会被“削弱”；
- 若方差大，该维度的权重会被降低。
几何意义 ：将数据空间“扭曲”为各向同性（各维度独立且方差相同）的超球面，再计算欧氏距离。

4. 应用场景

异常检测 ：识别偏离分布中心的点（距离越大越可能是异常）。
分类问题 ：如KNN算法中，替代欧氏距离以提升分类效果。
数据预处理 ：评估样本是否符合某一分布（如多元正态分布）。

5. 示例说明

如何比较分差？在两场不同的考试中，分差相当于多少个标准差？

6. 注意事项

协方差矩阵可逆性 ：若特征高度相关或样本数少于维度，需正则化（如岭回归）或降维（如PCA）。
分布假设 ：默认数据符合多元正态分布，否则结果可能不准确。

层次聚类

层次聚类的步骤是，计算相似度或距离矩阵，让每个点成为一个集群，合并最相似的集群，更新相似度或距离矩阵，继续合并最相似的矩阵，直到只剩下一个集群。

合并集群后如何更新相似度或距离矩阵？最小值/最大值/群组各点距离的平均值/中心点之间的距离

层次聚类（Hierarchical Clustering）和分区聚类（Partitional Clustering）是两种主要的聚类分析方法，它们在算法逻辑、应用场景和结果形式上有显著差异。以下是详细解释和对比：

1. 核心概念

层次聚类

定义：通过树状结构（Dendrogram）表示数据的层次化分组，分为两种类型：
- 聚合层次聚类 （Agglomerative）：自底向上，初始每个样本为一个簇，逐步合并最相似的簇。
- 分裂层次聚类 （Divisive）：自顶向下，初始所有样本为一个簇，逐步分裂为更小的簇。
结果：生成一棵树状图，可灵活选择聚类数目。

分区聚类

定义：将数据划分为互不重叠的子集（簇），每个样本仅属于一个簇。
典型算法 ：K-means、K-medoids、模糊C-means。
核心思想 ：通过迭代优化（如最小化簇内误差）确定最终划分。

2. 算法流程对比

步骤	层次聚类	分区聚类（以K-means为例）
初始化	每个样本为独立簇（聚合）或一个大簇（分裂）	随机选择K个初始中心点
相似度计算	基于簇间距离（如单链接、全链接、平均链接）	基于样本到中心点的距离（如欧氏距离）
迭代方式	逐步合并或分裂，形成树状结构	迭代更新中心点和簇分配，直到收敛
结果输出	树状图（需手动选择切割点确定簇数）	直接输出K个簇的标签

3. 关键区别

维度	层次聚类	分区聚类
簇数选择	无需预先指定，通过树状图动态选择	需预先指定K值（如K-means）
计算复杂度	高（O(n²)或O(n³)），适合小数据集	低（O(n·K·d·iter)），适合大数据集
对噪声/异常值敏感度	较敏感（尤其是单链接）	较敏感（可通过K-medoids改进）
结果可解释性	树状图直观展示层次关系	直接输出簇标签，缺乏层次信息
数据分布假设	无严格假设（依赖链接准则）	通常假设簇是凸形（如K-means假设球形）

4. 优缺点对比

层次聚类

优点：
- 无需预先指定簇数。
- 结果可视化强（树状图）。
- 适合探索数据的潜在层次结构。
缺点：
- 计算成本高，不适合大数据集。
- 对噪声和离群值敏感。
- 合并/分裂步骤不可逆，可能影响最终结果。

分区聚类

优点：
- 计算效率高，适合高维大数据。
- 实现简单（如K-means）。
缺点：
- 需预先指定K值（可通过肘部法则或轮廓系数优化）。
- 对初始中心点敏感，可能收敛到局部最优。
- 假设簇是凸形，难以处理复杂形状。

5. 应用场景

层次聚类 ：
- 生物信息学（如基因表达数据分析）。
- 社交网络分析（社区发现）。
- 需要层次化结果的场景（如市场细分中的多级分类）。
分区聚类 ：
- 图像分割（如基于像素颜色聚类）。
- 客户细分（已知大致客户类别数）。
- 实时数据处理（如传感器数据分析）。

生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
今日播报！庆衍书院郭庆旺被骗黑幕曝光，KSD2.0光伏市场不能出金不要再次踏入！法律咨询维权
社交平台有这样一种群，群里都是“理财专家”“炒股大神”“操盘高手”，不仅每天免费授课、推荐牛股，还有助理“一对一”指导具体操作。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。咨询顾问：182--71402640（电微同号）数字经济数字体育数字农业慈善投票大赛
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
量子生成对抗网络：量子计算与生成模型的融合革命牧之112 量子计算生成对抗网络人工智能
引言：当生成对抗网络遇上量子计算在人工智能与量子计算双重浪潮的交汇处，量子生成对抗网络（QuantumGenerativeAdversarialNetworks,QGAN）正成为突破经典算力瓶颈的关键技术。传统生成对抗网络（GAN）在图像生成、数据增强等领域已取得辉煌成就，但其参数规模与计算复杂度随着数据维度呈指数级增长。量子计算的叠加性、纠缠性和并行性，为解决这一矛盾提供了全新思路。2025年，
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
骗局套路：卧虎藏隆应天书府隆国强被骗无法提现！讲述背后事实！正义青天
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！近期作者接触到了很多投资者被所谓的“隆国强”（骗子假冒）在卧虎藏隆应天书府带单的案例。这些新平台打着
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
假冒振我中华第六届内部操盘群毛振华不正规!未来低碳项目不能提现难友真实经历告诉你! 法律咨询维权
随着互联网的普及和金融科技的发展，越来越多的人开始使用线上平台进行投资、交易等活动。然而，一些不法分子也利用这些平台实施诈骗行为，给投资者带来了巨大的损失。本文将介绍一种常见的骗局——黑平台无法出金，以帮助大家提高警惕性，避免上当受骗。推荐网上投资理财、数字经济、数字体育、人工智能，数字农业慈善投票网站买数字的等等都是，广大市民对此要提高警惕，遇到此类情况一概不要相信。（注明：该文章出现名字为网上
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
生成式 AI：从 “理解” 到 “创造” 的突破田园Coder 人工智能科普人工智能科普
1.生成式AI的定义：让AI从“识别”走向“创造”1.1什么是生成式AI生成式AI是一类能自主生成新内容（文本、图像、音频、视频等）的人工智能技术。与传统“判别式AI”（如人脸识别、垃圾邮件过滤，专注于分类和判断）不同，生成式AI的核心是“创造”——它能基于学习的规律，生成与训练数据相似但全新的内容。例如，判别式AI能判断“这是一幅梵高的画”，而生成式AI能模仿梵高的风格创作一幅全新的油画；判别式
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
计算机视觉：人工智能的“眼睛” 人工智能教程人工智能计算机视觉机器学习算法 pytorch python 数据结构
前言在人工智能的众多领域中，计算机视觉（ComputerVision）无疑是其中最为引人注目的方向之一。它赋予了机器“看”的能力，使计算机能够像人类一样理解和解释视觉信息。从自动驾驶汽车到医疗影像诊断，从安防监控到虚拟现实，计算机视觉的应用场景无处不在，深刻地改变着我们的生活和工作方式。本文将深入探讨计算机视觉的核心技术、应用场景以及未来的发展趋势，帮助您全面了解这一充满活力的领域。一、计算机视觉
计算机视觉：打开机器之眼看世界 LeafyJee_ 人工智能人工智能深度学习计算机视觉
计算机视觉是人工智能领域中备受关注的一部分，它的目标是赋予计算机类似于人类眼睛的功能，让机器能够感知和理解周围的世界。通过图像和视频数据，计算机视觉技术将信息转化为可理解和可操作的数据，为各种应用领域提供了强大的支持。一、计算机视觉的起源和发展计算机视觉起源于20世纪50年代，当时科学家们开始研究如何让计算机能够识别和理解图像。随着技术的不断进步，计算机视觉逐渐发展成为一门独立的学科，并广泛应用于
山东大学软件学院2024-2025人工智能导论期末复习简答题整理飘去数星星多元人工智能
写在前面给我的往年题整理引个流嘿嘿山东大学软件学院2024-2025人工智能导论期末回顾-CSDN博客个人观点：这次考试给我的感觉是意料之外又是意料之中，怎么说呢，意料之中的是这次的题跟往年题不一样，因为我们上一级的期末考试题就跟前几年的非常不一样，所以其实还是有所准备的，但是又是意料之外的，因为他考的也太不一样了，考的非常细节，还是招架不太住哈哈哈以下是我自己整理的一些知识点，仅供参考~需要的可
2024年第六届振我中华资金分仓方案毛振华低碳未来碳交易市场被骗无法出金,真相令人毛骨悚然! 法律咨询维权
日常生活中，经常有陌生电话号称免费拉人进股票群；网络平台上，也经常有各种股票讲课的广告。很多人抱着不花钱只是进群看看、听听课的心态，没想到却一步步陷入被骗的漩涡，损失惨重。这些股票群里所谓的“老师”首先推荐股票，取得信任后，就会推荐自行发行平台，来骗取投资者钱财。数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。若你
开源模型应用落地-OpenAI Agents SDK-集成多个MCP Servers与Qwen3-8B模型的创新应用探索（九）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术迅猛发展的今天，如何让AI代理更高效地理解和操作外部资源成为行业关注的焦点。模型上下文协议（MCP）应运而生，作为一项由Anthropic推出的开源标准，它为AI系统提供了一种统一的方式来发现、检索和理解数据。与此同时，OpenAIAgents通过支持多种MCP服务器的集成，为开发者提供了更大的灵活性和扩展性。结合强大的Qwen3-8B模型，其不仅具备快速响应的能力，还能在复
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

数据挖掘导论——第七章：聚类

核心思想

数学公式

几何解释

应用场景

与欧氏距离的区别

优缺点

核心思想

数学公式

取值范围与意义

与余弦相似度的联系

1. 欧氏距离（Euclidean Distance）

2. 为什么需要归一化？

3. 常用的归一化方法

(1) 最小-最大归一化（Min-Max Scaling）

(2) Z-Score 标准化（Standardization）

(3) 其他方法

4. 归一化对欧氏距离的影响

5. 实际应用中的注意事项

6. 何时需要归一化？

1. 欧氏距离矩阵的定义

2. 欧氏距离矩阵 vs. 相关性矩阵

3. 构建欧氏距离矩阵的步骤

4. 应用场景

5. 注意事项

6. 可视化

1. 数学定义

2. 不同 p 值的影响

3. 闵可夫斯基距离的特点

应用场景

1. 核心思想

2. 数学公式

3. 关键特性

4. 应用场景

5. 示例说明

6. 注意事项

1. 核心概念

层次聚类

分区聚类

2. 算法流程对比

3. 关键区别

4. 优缺点对比

层次聚类

分区聚类

5. 应用场景

你可能感兴趣的:(数据挖掘,聚类,人工智能)