无水先生

【机器学习】奇异值分解（SVD）和主成分分析（PCA）

一、说明

在机器学习（ML）中，一些最重要的线性代数概念是奇异值分解（SVD）和主成分分析（PCA）。收集到所有原始数据后，我们如何发现结构？例如，通过过去 6 天的利率，我们能否了解其构成以发现趋势？

对于高维原始数据，这变得更加困难。这就像大海捞针。SVD允许我们提取和解开信息。在本文中，我们将详细介绍 SVD 和 PCA。我们假设您具有基本的线性代数知识，包括秩和特征向量。如果您在阅读本文时遇到困难，我建议您先刷新这些概念。在文章的最后，我们将回答上面的利率示例中的一些问题。本文还包含可选部分。请根据您的兴趣水平随意跳过它。

二、误解（初学者可选）

我意识到非初学者可能会问的一些常见问题。让我先谈谈房间里的大象。PCA尺寸是否减小？PCA减少了尺寸，但它远不止于此。我喜欢 Wiki 的描述（但如果你不知道 PCA，这只是胡言乱语）：

主成分分析（PCA）是一种统计过程，它使用正交变换将一组可能相关的变量（每个实体都具有各种数值）的观测值转换为一组线性不相关的变量值，称为主成分。

从简化的角度来看，PCA 将数据线性转换为彼此不相关的新属性。对于ML，将PCA定位为特征提取可能使我们能够比降维更好地探索其潜力。

SVD 和 PCA 有什么区别？SVD 为您提供了将矩阵对角化为易于操作和分析的特殊矩阵的整个九码。它为将数据解开为独立组件奠定了基础。PCA 跳过不太重要的组件。显然，我们可以使用 SVD 通过截断原始 SVD 矩阵中不太重要的基向量来查找 PCA。

四、矩阵对角化

在关于特征值和特征向量的文章中，我们描述了一种将 n × n 方阵 A 分解为

例如

如果 A 是方阵，A 具有 n 个线性独立的特征向量，则矩阵可以对角化。现在，是时候使用 SVD 为所有矩阵开发解决方案了。

五、奇异向量和奇异值

矩阵AAT和ATA在线性代数中非常特殊。考虑任何m×n矩阵A，我们可以将其与AT相乘，分别形成AAT和ATA。这些矩阵是

对称
广场
至少为正半定（特征值为零或正），
两个矩阵具有相同的正特征值，并且
两者都具有与 A 相同的等级 r。

此外，我们在 ML 中经常使用的协方差矩阵采用这种形式。由于它们是对称的，我们可以选择其特征向量是正交的（以单位长度彼此垂直）——这是对称矩阵的基本属性。

让我们介绍一些SVD中经常使用的术语。我们将 AAT 的特征向量命名为 ui 和 ATA 为 vi，并将这些特征向量集 u 和 v 称为 A 的奇异向量。两个矩阵具有相同的正特征值。这些特征值的平方根称为奇异值。

到目前为止没有太多的解释，但让我们先把所有东西放在一起，接下来会解释。我们将向量 ui 连接成 U，将 vi 连接到 V 以形成正交矩阵。

由于这些向量是正交的，因此很容易证明 U 和 V 服从

六、SVD

让我们先从困难的部分开始。SVD 指出任何矩阵 A 都可以分解为：

其中 U 和 V 是正交矩阵，正交特征向量分别从 AAT 和 ATA 中选择。S 是一个对角矩阵，其中 r 元素等于 AAT 或 AT A 的正特征值的根（无论如何，两个矩阵具有相同的正特征值）。对角线元素由奇异值组成。

i.e. an m× n matrix can be factorized as:

我们可以按不同的顺序排列特征向量以产生 U 和 V。为了标准化解决方案，我们对特征向量进行排序，使特征值较高的向量优先于特征值较小的向量。

与特征分解相比，SVD 适用于非平方矩阵。U 和 V 对于 SVD 中的任何矩阵都是可逆的，它们是我们喜欢的正交矩阵。如果没有证据，我们还告诉您奇异值比特征值更稳定。

示例（示例来源）

在走得太远之前，让我们用一个简单的例子来演示它。这将使事情变得非常容易理解。

我们计算：

这些矩阵至少是正半定的（所有特征值都是正数或零）。如图所示，它们具有相同的正特征值（25 和 9）。下图还显示了它们对应的特征向量。

奇异值是正特征值的平方根，即 5 和 3。因此，SVD 组成是

七、证明（可选）

为了证明 SVD，我们希望用以下公式求解 U、S 和 V：

我们有 3 个未知数。希望我们能用上面的 3 个方程来解决它们。A 的转置是

会意

我们计算 ATA，

最后一个方程等效于矩阵（ATA）的特征向量定义。我们只是将所有特征向量放在一个矩阵中。

与 VS² 等于

V 保存 ATA 的所有特征向量 vi，S 保存 ATA 所有特征值的平方根。我们可以对AAT重复相同的过程，并返回类似的等式。

现在，我们只需求解 U、V 和 S

并证明定理。

八、回顾

以下是 SVD 的回顾。

哪里

九、重新制定 SVD

由于矩阵 V 是正交的，因此 VTV 等于 I。我们可以将 SVD 方程重写为：

这个等式在ui和vi之间建立了重要的关系。

召回

应用 AV = US，

这可以概括为

等同于

和

SVD分解可以识别为ui和vi的一系列外积。

SVD的这种公式化是理解A的组成部分的关键。它提供了一种将 m × n 个纠缠数据数组分解为 r 个组件的重要方法。由于 ui 和 vi 是单位向量，我们甚至可以忽略奇异值 σi 非常小的项（σiuiviT）。（我们稍后会回到这个问题。

让我们首先重用之前的示例并展示它是如何工作的。

上面的矩阵 A 可以分解为

十、列空间、行空间、左空空间和空空间（可选 - 适用于高级用户）

接下来，我们将看看U&V由什么组成。假设 A 是秩 r 的 m × n 矩阵。ATA 将是一个 n×n 对称矩阵。所有对称矩阵都可以选择 n 个正交特征向量 vj。由于 Avi = σiui 和 vj 是 ATA 的正交特征向量，我们可以将 uiTuj 的值计算为

它等于零。即 UI 和 uj 彼此正交。如前所述，它们也是AAT的特征向量。

从 Avi = σui，我们可以认识到 ui 是 A 的列向量。

因为 A 的秩为 r，我们可以选择这些 r ui 向量作为正交向量。那么AAT剩余的m-r正交特征向量是什么？由于 A 的左零空间与列空间正交，因此选择它们作为剩余的特征向量是很自然的。（左边的零点 N（AT） 是 ATx=0 中 x 的空间跨度。类似的参数也适用于 ATA 的特征向量。因此

回到以前的 SVD 方程，从

我们只是将特征向量放回左零空间和零空间中。

十一、摩尔-彭罗斯伪逆

对于线性方程组，我们可以计算方阵 A 的逆函数来求解 x。

但并非所有矩阵都是可逆的。此外，在 ML 中，在数据中存在噪声的情况下，不太可能找到精确的解决方案。我们的目标是找到最适合数据的模型。为了找到最合适的解决方案，我们计算了一个伪逆

这最大限度地减少了下面的最小二乘误差。

x的解可以估计为，

在线性回归问题中，x 是我们的线性模型，A 包含训练数据，b 包含相应的标签。我们可以通过以下方式解决 x

下面是一个示例。

十二、方差和协方差

在 ML 中，我们识别模式和关系。我们如何识别数据中属性的相关性？让我们从一个例子开始讨论。我们对 12 人的身高和体重进行抽样并计算他们的平均值。我们通过用其平均值减去原始值来将其归零。例如，下面的矩阵 A 保存调整后的零中心高度和体重。

当我们绘制数据点时，我们可以认识到身高和体重是正相关的。但是，我们如何量化这种关系呢？

首先，房产有何不同？我们可能从高中开始学习差异。让我们介绍一下它的表弟。样本方差定义为：

请注意，它在方差中除以 n-1 而不是 n。在样本大小有限的情况下，样本均值存在偏差并与样本相关。与该均值的平均平方距离将小于与一般总体的平均平方距离。样本协方差 S² 除以 n-1 补偿较小的值，并且可以证明是方差 σ² 的无偏估计。（证明不是很重要，所以我在这里简单地提供一个证明的链接。

十三、协方差矩阵

方差衡量变量在自身之间如何变化，而协方差在两个变量（a 和 b）之间变化。

我们可以将所有这些可能的协方差组合保存在一个称为协方差矩阵 Σ 的矩阵中。

我们可以用简单的矩阵形式重写它。

对角元素保存各个变量（如高度）的方差，非对角元素保存两个变量之间的协方差。现在让我们计算样本协方差。

正样本协方差表示体重和身高呈正相关。如果它们负相关，则为负，如果它们是独立的，则为零。

协方差矩阵和SVD

我们可以使用 SVD 来分解样本协方差矩阵。由于σ₂与σ₁相比相对较小，我们甚至可以忽略σ₂项。当我们训练 ML 模型时，我们可以对体重和身高执行线性回归以形成一个新属性，而不是将它们视为两个分离且相关的属性（纠缠数据通常会使模型训练更加困难）。

U₁ 具有一个重要的重要性。它是 S 的主要成分。

SVD 上下文中的样本协方差矩阵有几个属性：

数据的总方差等于样本协方差矩阵 S 的迹线，该迹线等于 S 奇异值的平方和。有了这个，我们可以计算如果我们去掉较小的σi项，损失的方差比率。这反映了如果我们消除它们会丢失多少信息。

S 的第一个特征向量 u₁ 指向数据最重要的方向。在我们的示例中，它量化了体重和身高之间的典型比例。

垂直最小二乘法

误差计算为从采样点到 u₁ 的垂直平方距离之和，是使用 SVD 时的最小值。

财产

协方差矩阵不仅是对称的，而且是正半定的。由于方差为正或零，因此下面的uTVu始终大于或等于零。通过能量测试，V是正半定的。

因此

通常，在一些线性变换 A 之后，我们想知道转换后数据的协方差。这可以使用转换矩阵 A 和原始数据的协方差来计算。

相关矩阵

相关矩阵是协方差矩阵的缩放版本。相关矩阵将变量标准化（缩放）为标准差为 1。

如果变量的尺度非常不同，则将使用相关矩阵。不良缩放可能会损害梯度下降等 ML 算法。

十四、可视化

到目前为止，我们有很多方程式。让我们可视化 SVD 的作用并逐步开发洞察力。SVD 将矩阵 A 分解为 USVT。 将 A 应用于矢量 x （Ax）可以可视化为在 x 上执行旋转（VT）、缩放（S）和另一个旋转（U）。

如上所示，V 的特征向量 vi 转换为：

或以全矩阵形式

演示 r = m < n

十五、SVD的见解

如前所述，SVD 可以表述为

由于 ui 和 vi 具有单位长度，因此决定每个项的重要性的最主要因素是奇异值 σi。我们特意按降序对σi进行排序。如果特征值变得太小，我们可以忽略剩余的项（+σiuiviT + ...）。

这种公式化有一些有趣的含义。例如，我们有一个矩阵，其中包含不同投资者交易的股票收益率的回报。

作为基金经理，我们可以从中得到什么信息？寻找模式和结构将是第一步。也许，我们可以确定收益率最高的股票和投资者的组合。SVD 将 n × n 个矩阵分解为 r 个分量，奇异值 σi 表明其显著性。将此视为一种将纠缠和相关属性提取到较少的主方向上且没有相关性的方法。

如果数据高度相关，我们应该期望许多σi值很小并且可以忽略。

在我们前面的示例中，体重和身高高度相关。如果我们有一个包含 1000 人的体重和身高的矩阵，SVD 分解中的第一个分量将占主导地位。u₁ 矢量确实展示了我们之前讨论过的这 1000 人中体重和身高之间的比率。

十六、主成分分析

从技术上讲，SVD 分别在方差最大的方向上提取数据。PCA 是将 m 维输入特征映射到 k 维潜在因子（k 个主成分）的线性模型。如果我们忽略不太重要的项，我们将删除不太关心的组件，但保留具有最高方差（最大信息）的主方向。

考虑下面显示为蓝点的三维数据点。它可以很容易地用飞机近似。

源

您可能很快意识到，我们可以使用 SVD 来查找矩阵 W。考虑下面位于二维空间上的数据点。

SVD 选择最大化其输出方差的投影。因此，如果方差较高，PCA 将选择蓝线而不是绿线。

As indicated below, we keep the eigenvectors that have the top kth highest singular value.

利率

让我们通过追溯来自美国财政部的利率数据来更深入地说明这个概念。9种不同利率的基点（从3个月，6个月，...至 20 年）收集连续 6 个工作日以上，A 存储与前一个日期的差额。在此期间，A 的元素也已经减去其平均值。即它是以零为中心的（跨其行）。

样本协方差矩阵等于 S = AAT/（5–1）。

现在我们有了想要分解的协方差矩阵 S。SVD 分解为

从 SVD 分解中，我们意识到我们可以专注于前三个主组件。

如图所示，第一个主成分与所有到期期限的每日变化的加权平均值相关。第二个主成分调整对债券到期期限敏感的每日变化。（第三个主成分可能是曲率——二阶导数。

我们在日常生活中非常了解利率变化与到期日之间的关系。因此，主要成分再次证实了我们对利率行为的看法。但是，当我们看到不熟悉的原始数据时，PCA对于提取数据的主要组成部分以找到底层信息结构非常有帮助。这可能会回答一些关于如何在大海捞针中找到针的问题。

十七、技巧

在执行 SVD 之前缩放要素。

比如说，我们想保留 99% 的方差，我们可以选择 k 这样

小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章耶耶Norsea 网络杂烩人工智能深度学习
摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。MMAU评测基准包含10000条音频样本，涵盖语音、环境声和音乐等多种类型，难度极高。即便如此，该模型的表现已超越人类专家的82.2%识别准确率，展现出卓越的音频理解能力。关键词小米音频突破,DeepSeek-R1算法,7B模型进展,MMAU评测基准,
TRS收益互换系统开发为何敢称“无限拓展”？模块化架构+弹性集群揭秘！ Ashlee_code 架构 python java c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行业游戏规
24小时响应+零宕机！TRS收益互换系统售后如何成为券商“救命稻草”？ Ashlee_code 架构 java python c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！令克软件TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
深入理解C++编程：从内存管理到多态与算法实现嵌入式Jerry C++c++算法开发语言
C++是一门功能强大的编程语言，广泛应用于系统编程、游戏开发和高性能计算等领域。本文将通过一系列经典问题，深入探讨C++的核心知识点，包括内存管理、多态（结合函数重载与覆盖）、多线程、TCP/IP模型、软链接与硬链接的区别，以及常见算法实现。每个知识点都配有详细的代码示例和解释，帮助你更好地理解和掌握。1.内存管理：内存泄露与检测什么是内存泄露？内存泄露是指程序在动态分配内存后，未能正确释放已不再
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
C/C++每日一练：实现冒泡排序風清掦 C/C++~每日一练算法 c语言 c++排序算法
题目要求编写一个程序，实现冒泡排序算法。给定一个由n个整数组成的数组，要求通过冒泡排序对数组从小到大进行排序。输入：一个整数数组，长度为n，数组中的元素可能是正数或负数。输出：按照升序排序后的数组。做题思路冒泡排序是一种简单直观的排序算法。其基本思想是通过多次遍历数组，逐步将未排序部分中的最大或最小元素“冒泡”到数组的一端，直到整个数组有序。冒泡排序的步骤如下：从数组的第一个元素开始，依次比较相邻
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
Day65 | 灵神 | 二分查找：红蓝染色法为了前进而后退，为了走直路而走弯路刷题记录数据结构算法学习笔记二分查找 c++
Day65|灵神|二分查找：红蓝染色法灵神讲解的非常好建议大家去听听灵神的，二分查找就是常忘常学常新，我之前学过很多次二分，但这次还是有新的理解，我把可能比较难理解的点写到了下面，大家没看懂视频的地方可以看看我写的当然主要的其实是check函数，在本题中就是大于等于target这个条件，估计灵神下个视频会讲吧二分查找红蓝染色法【基础算法精讲04】_哔哩哔哩_bilibili文章目录Day65|灵神
算法每日一练 (13) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(13)全排列II题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(13)全排列II题目地址：全排列II题目描述给定一个可包含重复数字的序列nums，按任意顺序返回所有不重复的全排列。示例1：输入：nums
【常见的排序算法有哪些】 F_windy 排序算法算法
一、冒泡排序（BubbleSort）设计思想：像气泡上浮，两两比较相邻元素，顺序错误就交换，直到整个数组有序。Java代码：publicstaticvoidbubbleSort(int[]arr){for(inti=0;iarr[j+1]){inttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;}}}}复杂度：•时间：平均/最坏O(n²)，最好O(n)（已有序时
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
数据结构与算法——二叉树，多叉树的递归遍历、层序遍历，DFS与BFS Book_熬夜！数据结构与算法深度优先宽度优先算法数据结构广度优先
文章目录二叉树1.递归遍历2.层序遍历3.多叉树遍历二叉树【子节点】：每个节点下方相连的节点【父节点】：每个节点上方相连的节点【根节点】：最上方没有父节点的节点【叶子节点】：最下方没有子节点的节点【最大深度】：树的最大层数【高度】：节点数减一，即枝数。【满二叉树(PerfectBinaryTree)】：深度为h，则总节点数：2^h-1FullBinaryTree是指一棵二叉树的所有节点要么没有孩子
Spring Boot 集成高德地图电子围栏 Cloud_. spring boot 后端 java
摘要：本文手把手教你通过SpringBoot调用高德地图API实现电子围栏功能，涵盖云端围栏创建、设备位置监控与本地算法校验，附带完整代码和避坑经验！一、电子围栏核心原理1.1什么是电子围栏？虚拟地理边界：在地图上划定区域（圆形/多边形），触发进出事件应用场景：员工考勤、物流围栏、儿童安全区域监控技术核心：基于GPS/北斗坐标的位置判断（射线法或API调用）1.2高德地图API能力云端围栏管理：创
数据结构与算法——二叉搜索树，使用TreeMap将键值对存储在一棵二叉搜索树的节点 Book_熬夜！数据结构与算法算法 javascript 数据结构
二叉搜索树【二叉搜索树（BST）】：对于树中的每个节点，其左子树的每个节点的值都要小于这个节点的值，右子树的每个节点的值都要大于这个节点的值。左小右大。中序遍历结果是有序的，会从小到大排序。7/\49/\\1810（不符合）可以使用TreeMap把键值对存储在一棵二叉搜索树的节点里通过遍历这棵二叉搜索树，比遍历普通的二叉树能更快实现增删查改classTreeNode{constructor(key
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Dijkstra算法例题及解析 _gxd_ 算法
最短路算法（2）——Dijkstra算法本章一共有三道例题。1.最短路2.TiltheCowsComeHome3.成语接龙1.最短路Description在每年的校赛里，所有进入决赛的同学都会获得一件很漂亮的t-shirt。但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候，却是非常累的！所以现在他们想要寻找最短的从商店到赛场的路线，你可以帮助他们吗？FormatInput输入包括多组数据
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
蓝桥杯网络安全春秋赛 Crypto RSA 叁Three 蓝桥杯密码学
蓝桥杯网络安全春秋赛CryptoRSA题目某公司为了保护其重要数据，使用了RSA加密算法。该公司以同一个N为模数，为Alice和Bob分别生成了不同的公钥和与之相应的私钥。Alice和Bob都使用自己的公钥对同一条明文m进行加密，分别得到密文c1和c2。假设你是一名密码安全研究者，你已获取了N值、两个密文和公钥，能否使用RSA的相关知识还原出明文m呢？#!python3.9fromCrypto.U
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
基于内容分块（CDC）的重删算法详解：原理、实现与优化这个懒人算法
引言在数据爆炸式增长的时代，存储资源优化成为技术领域的重要课题。重复数据删除（Deduplication）技术通过消除冗余数据副本，可将存储需求降低90%以上。其中基于内容分块（Content-DefinedChunking,CDC）算法凭借其对数据局部修改的强适应性，成为企业级备份系统、云存储服务的核心技术。一、CDC算法核心原理1.1动态分块vs静态分块传统固定分块算法将数据按固定大小（如4K
算法-找到字符串中所有字母异位词程序员南飞算法数据结构开发语言 java
力扣题目：438.找到字符串中所有字母异位词-力扣（LeetCode）题目描述:给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="aba
【面试经验】华为 AI软开计算产品线（面经+时间线） litterfinger 面试华为人工智能
一.岗位：AI软开二.时间线：投递08.09，机试08.28，测评08.29；面试均线上，一面09.12，二面09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft具体的工作AI的一个发展历史流程和相关算法的引进知识图谱建设的总体流程回顾机试：老鼠
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
MVC/MVP/MVVM框架学习总结（二）每次的天空 mvc 学习 java
上次已经了解到MVC的知识，现在是扩展实现MVP/MVVM的框架改进本身项目MVVM框架即Model-View-ViewModel框架，是一种软件架构设计模式，以下是具体介绍：核心组件Model（模型）：代表应用程序的数据结构和业务逻辑，负责数据的存储、检索、验证和处理，定义业务规则和算法，是应用程序的数据核心。比如在一个电商应用中，商品数据、用户订单数据等的存储和相关逻辑处理都属于Model层。
【时间复杂度常见的计算】 xihongshi547 算法 leetcode 数据结构
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档时间复杂度的简单介绍前言一、时间复杂度是什么？二、时间复杂度的计算1.基本步骤2.常见的时间复杂度总结前言对于判断一段代码的好坏，取决于该代码运行的时间与占用的空间，也就是时间复杂度与空间复杂度，本章就先讲一下时间复杂度，主要包含常见的时间复杂度的计算。一、时间复杂度是什么？时间复杂度是衡量算法运行效率的一个重要指标，它表示随着输入规
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

【机器学习】 奇异值分解 （SVD） 和主成分分析 （PCA）