水花

【BI学习心得05-SVD矩阵分解与基于内容的推荐】

内容目录

- 写在前面的话
- 1.矩阵的几种分解方式
- - 1.1共轭转置 Conjugate transpose
  - 1.2Hermitian
  - 1.3正定 positive definite
  - 1.4正交矩阵 orthogonal matrix
  - 1.5酉矩阵 unitary matrix
  - 1.6正规矩阵 normal matrix
  - 1.7类比
  - 1.8分解
  - 1.9Cholesky 分解
  - 1.10QR分解
  - 1.11特征分解/频谱分解 Eigendecomposition / spectral decomposition
  - 1.12理论基础
  - 1.13实对称矩阵
  - 1.14正规矩阵
  - 1.15奇异值分解
- 2.EVD矩阵
- - 2.1为什么要做SVD?
  - 2.2特征值分解EVD
  - 2.3普通矩阵的矩阵分解
  - 2.4用numpy计算特征值和特征向量
- 3.奇异值分解（SVD）原理详解
- - 3.1正交变换
  - 3.2特征值分解的含义
  - 3.3SVD分解推导
  - 3.4奇异值分解的原理小结
  - 3.5奇异值分解的例子
  - 3.6行降维和列降维
  - 3.7SVD矩阵分解的应用场景
  - 3.8 SVD总结
- 4.funkSVD, BiasSVD，SVD++算法
- - 4.1原始SVD
  - - 4.1.1Surprise工具中的SVD
  - 4.2FunkSVD
  - - 4.2.1Surprise工具中的FunkSVD
  - 4.3BiasSVD
  - - 4.3.1Surprise工具中的BiasSVD
  - 4.4SVD++
  - - 4.4.1Surprise工具中的SVD++
  - 4.5funkSVD, BiasSVD，SVD++算法图像在上的应用
- 5.推荐系统中的NLP
- - 5.1什么是 Word2vec?
  - 5.2Skip-gram 和 CBOW 模型
  - - 5.2.1 Skip-gram 和 CBOW 的简单情形
    - 5.2.2Skip-gram更一般的情形
    - 5.2.3CBOW更一般的情形
  - 5.3Word2vec的训练trick
  - 5.4NLP推荐资料
- 参考资料

写在前面的话

随着人工智能的爆火，越来越多的人加入了这波学习人工智能的热潮。高校开设相关课程，但是拦在很多人面前的第一道难关不是编程，是数学。当然不例外的，要想深入理解并掌握SVD，我们需要弄清楚它的数学原理。通过数学原理不断扩充并延展出了SVD，以及相关变种。

1.矩阵的几种分解方式

1.1共轭转置 Conjugate transpose

如果我们有一个复数矩阵A：
$\begin{bmatrix} 1 & -2-i & 5\\ 1+i & i & 4-2i \end{bmatrix} \quad$

A的转置为 $A^T$ :
$\begin{bmatrix} 1 & 1+i \\ -2-i & i\\ 5 & 4-2i\end{bmatrix} \quad$

共轭转置为 $\overline{A^T}$
$\begin{bmatrix} 1 & 1-i \\ -2+i & -i\\ 5 & 4+2i\end{bmatrix} \quad$

共轭转置也经常记为： $A^*$ ， $A^H$ （这个写法跟下面的 Hermitian 定义有关）, $\overline{A^T}$

1.2Hermitian

Hermitian matrix 埃尔米特矩阵：埃尔米特矩阵中每一个第i行第j列的元素都与第j行第i列的元素的复共轭。也就是这个矩阵等于它的共轭转置。

我们知道复数 $z=a+ib\in C$ ，共轭复数 $z=a-ib\in C$
$\begin{aligned} A Hermitian \iff a_{ij}=\overline{a_{ji}}\\ A Hermitian \iff A=\overline{A^H} \end{aligned}$

如果 $\in R^{n*n}$ 是实数矩阵，并且是Hermitian，那么 $a_{ij}=a_{ji}$ 就是对称矩阵。实对称矩阵我们一般就说它是实对称矩阵，同时它也是Hermitian。

如果我们有一个复数矩阵A，那么它需要等于它的共轭转置，比如：
$\begin{bmatrix} 2 & 2+i & 4\\ 2-i & 3 & i\\ 4 & -i & 1\end{bmatrix} \quad$

其实Hermitian也暗示了我们这个矩阵需要是方阵，至少我们转置之后的维度要跟原来的相等。

1.3正定 positive definite

一个 $n * n$ 的实对称矩阵M是正定的，当且仅当对于所有的非零实系数向量z，都有 $z^TMz>0$ 。其中 $z^T$ 表示z的转置。
$\ positive \ definite \iff x^Mx>0 \ for \ all \ x\in R^n$

首先，实对称矩阵 M 不一定是正定的，比如 M = -1：
$\begin{matrix} [ 1 & 0 & 1] \end{matrix} \begin{vmatrix} -1 & 0 & 0\\ 0 & -1 & 0\\ 0 & 0 & -1 \end{vmatrix} \begin{vmatrix} 1 \\ 0 \\ 1 \end{vmatrix} = -2 < 0$
对于复数，一个 $n * n$ 的埃尔米特矩阵M是正定的当且仅当对于每个非零的负向量z，都有 $z * M z$ >0。其中 $z *$ 表示z的共轭转置。由于M是埃尔米特矩阵，经计算可知，对于任意的复向量z， $z * M z$ 必然是实数，从而可以与0比较大小。因此这个定义是自洽的。
$\ positive \ definite \iff x*Mx>0 \ for \ all \ x\in C^n$

Hermitian 也当然不一定正定，我们可以有一些判定方法：

矩阵M的所有的特征值 $\lambda_i$ 都是正的

1.4正交矩阵 orthogonal matrix

$Q^T=Q^{1} \iff Q^TQ=QQ^T=I$
$1=det(I)=det(Q^TQ)=det(Q^T)det(Q)=(det(Q))^2=>det(Q)=±1$

作为一个线性映射（变换矩阵），正交矩阵保持距离不变，所以它是一个保距映射，具体例子为旋转与镜射。
行列式值为+1的正交矩阵，称为特殊正交矩阵（special orthogonal group），它是一个旋转矩阵。
行列式值为-1的正交矩阵，称为瑕旋转矩阵。瑕旋转矩阵是旋转加上镜射。镜射也是一种瑕旋转。
所有 $n * n$ 的正交矩阵形成一个群 $O (n)$ ，称为正交群。同样的，正交矩阵与正交矩阵的乘积也是一个正交矩阵。
所有特殊正交矩阵形成一个子群 $S O (n)$ ，称为特殊正交群。同样的，旋转矩阵与旋转矩阵的乘积也是一个旋转矩阵。

1.5酉矩阵 unitary matrix

酉矩阵/幺正矩阵：
$UU=UU=I_n$

就是 U 和其共轭转置 $U^*$ 乘积为单位矩阵。它是正交矩阵在复数上的推广。

酉（汉语拼音：yǒu）为地支的第十位，其前为申、其后为戌。酉月为农历八月，酉时为二十四小时制的17:00至19:00，在方向上指正西方。五行里酉代表金，阴阳学说里酉为阴。

说实话，这个字之前还没注意过它怎么念。unitary 作为 unit 的形容词，单位的、一元的，鉴于单位矩阵这个已经被 take 了，被翻成幺正矩阵也和不错，也大概有一元那么个意思。翻成酉矩阵大概也是文化人才能做到吧。

酉矩阵有很多很好的性质：

$U^{-1}=U^*$ ，酉矩阵必定可逆，且逆矩阵等于其共轭转置
$|\lambda_n|=1$ ，酉矩阵U的所有特征值 $\lambda_n$ ，其绝对值都是等于1的复数
$∣ d e t (U) ∣ = 1$ ，酉矩阵U行列式的绝对值也是1
$(U\overline{x})·(U\overline{y})=\overline{x}·\overline{y}$ ，酉矩阵U不会改变两个复向量 $\overline{x}$ 和 $\overline{y}$ 的点积

1.6正规矩阵 normal matrix

正规矩阵（英语：normal matrix）A 是与自己的共轭转置满足交换律的复系数方块矩阵，也就是说，A 满足
$A^*A=AA^*$

$A^*$ 是A的共轭转置。

如果A是实系数矩阵，则 $A^*=A^T$ ，从而条件简化为 $AA^T=A^TA$ 。

正规矩阵的概念十分重要，因为它们正是能使谱定理成立的对象：矩阵 A 正规当且仅当它可以被成 $A=U\Lambda U^*$ 的形式。其中的 $\Lambda = diag(\lambda_1, \lambda_2, \dots)$ 为对角矩阵，U 为酉矩阵。

总而言之，就是正规矩阵一定可以特征分解/频谱分解/谱定理。

1.7类比

不同种类的正规矩阵可以与各种复数建立对应的类比关系。比如：

可逆矩阵类似于非零的复数。
矩阵的共轭转置类似于复数的共轭
酉矩阵类似于模等于1的复数。
埃尔米特矩阵类似于实数。
埃尔米特矩阵中的正定矩阵类似于正实数。

1.8分解

$A = P L U$

适用：方阵
分解： A = PLU, L 是下三角阵， U 是上三角阵，而 P 则是 permutation 行变换，单位矩阵变换可得，如果没有行变换，A 就直接分解成 LU. PLU 分解源自高斯消元法。

1.9Cholesky 分解

适用：方阵、hermitian、正定 positive definite
分解： A=LL^*

A 是正定的 Hermitian阵， L 是下三角矩阵， $L^*$ 是 L 的共轭转置，是一个上三角。

1.10QR分解

适用于：列向量线性无关的矩阵m*n， $m\ge n$
分解：A=QR，Q是 $m * n$ 的酉矩阵，又叫做幺正矩阵（unitary matrix）, R 是一个上三角矩阵

对于方阵的QR分解我比较熟悉

如果A不是方阵的话，那么三角矩阵只会占据一部分，下面会都是0，所以经常也这样写 QR 分解：
$A=QR=Q\begin{vmatrix}R_1 \\ 0 \end{vmatrix} =\begin{matrix}[Q_1,Q_2 ]\end{matrix}\begin{vmatrix}R_1 \\ 0 \end{vmatrix}=Q_1R_1$

where R1 is an n×n upper triangular matrix, 0 is an (m − n)×n zero matrix, Q1 is m×n, Q2 is m×(m − n), and Q1 and Q2 both have orthogonal columns.

计算 QR 分解我们可以用 Gram–Schmidt 或者 Householder reflections.

1.11特征分解/频谱分解 Eigendecomposition / spectral decomposition

适用于：具有线性独立特征向量（不一定是不同特征值）的方阵 A
分解： $A=Q\Lambda Q^{-1}$

Q 是 n x n 的矩阵，第 i 列是 A 的特征向量 $\overline{q_i},\Lambda$ 是对角阵，其中第 i个对角元素 $\Lambda_{ii}=\lambda_i$ ，是跟特征向量 $\overline{q_i}$ 对应的特征值 $\lambda_i$ . 这里需要注意只有可对角化矩阵才可以作特征分解。比如 $\begin{vmatrix}1 & 1 \\ 0 & 1\end{vmatrix}$ 不能被对角化，也就不能特征分解。

一般来说，特征向量 $\overline{q_i},(i=1,...,N)$ 一般被单位化（但这不是必须的）。未被单位化的特征向量组 $\overline{q_i},(i=1,...,N)$ 也可以作为Q的列向量。这一事实可以这样理解：Q中向量的长度都被Q^1抵消了。

这里我们虽然用了Q这个字母，但是我们并没有说它是一个正交阵，因为之前写特征分解的手也提到过：

对于任意矩阵，其对应于不同特征值的特征向量线性无关，但不一定正交，而对于实对称矩阵，其对应于不同特征值的特征向量是相互正交的。

特征分解很容易推导：
${\begin{aligned}\mathbf {A} \mathbf {v} &=\lambda \mathbf {v} \\\mathbf {A} \mathbf {Q} &=\mathbf {Q} \mathbf {\Lambda } \\\mathbf {A} &=\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{-1}.\end{aligned}}$

1.12理论基础

$A\vec{v} = \lambda \vec{v} \\ p(\lambda) = det(A - \lambda I) = 0$

由代数基本定理（Fundamental theorem of algebra）我们知道 [公式] 有 N 个解。这些解的解集也就是特征值的集合，有时也称为“谱”（Spectrum）。

代数基本定理: 任何一个非零的一元n次复系数多项式，都正好有n个复数根（重根视为多个根）。

因式分解：
$p(\lambda)=(\lambda-\lambda_1)^{n1}(\lambda-\lambda_2)^{n2}...(\lambda-\lambda_k)^{nk}=0$

其中：
$\sum^k_{i=1}n_i=N$

对每一个特征值 $\lambda_i$ ，我们都有下式成立：
$(A-\lambda_iI)v=0$

对每一个特征方程，都会有 $m_i(1\le m_i \le n_i)$ 个线性无关的解。这 $m_i$ 个向量与一个特征值 $\lambda_i$ 相对应。这里，整数 [公式] 称为特征值 [公式] 的几何重数（geometric multiplicity），而 $n_i$ 称为代数重数（algebraic multiplicity）。这里需要注意的是几何重数与代数重数可以相等，但也可以不相等。一种最简单的情况是 $m_i=n_i=1$ 。特征向量的极大线性无关向量组中向量的个数可以由所有特征值的几何重数之和来确定。

这也是之前我们强调适用条件是 “具有线性独立特征向量（不一定是不同特征值）的方阵 A”，也就是看 n x n 的方阵 A 是否可以特征分解主要是看几何重数之和是否为 n 了。

1.13实对称矩阵

对于任意的 n x n 实对称矩阵都有 n 个线性无关的特征向量，并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。所以：
$\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{T}$

其中Q为正交矩阵， $\Lambda$ 为对角矩阵。

1.14正规矩阵

一个复正规矩阵具有一组正交特征向量基，故正规矩阵可以被分解成
$\mathbf{A}=\mathbf{U}\mathbf{\Lambda}\mathbf{U}^{*}$

其中U是酉矩阵。

特征分解对于理解线性常微分方程或线性差分方程组的解很有用。例如，差分方程 $x_t+1=Ax_t$ 初始条件开始 $x_0=c$ 到 $x_t=A^tc$ ，相当于 $x_t=VD^tV^{-1}c$ ，其中V和D是由A的特征向量和特征值形成的矩阵。由于D是对角线，D 的 t 次幂 $D^t$ 只是涉及将对角线上的每个元素的 t 次幂。这与 A 的 t的次幂相比，更容易实现和理解，因为A通常不是对角线。

这里就直接点出了一个特征分解的应用场景。解线性方程常微分方程或线性差分方程组。

1.15奇异值分解

适用于： m x n 矩阵A
分解： $A=U\sum V^*$ ，U和V都是酉矩阵/幺正矩阵，也就是满足 $U^*U=V^*V=I$ ， $\sum$ 是对角阵，对角上的元素称为A的奇异值，U和V并不一定是唯一的。

2.EVD矩阵

矩阵分解模型在推荐系统中有非常不错的表现，相对于传统的协同过滤方法，它不仅能通过降维增加模型的泛化能力，也方便加入其他因素（如数据偏差、时间、隐反馈等）对问题建模，从而产生更佳的推荐结果。

先来说说矩阵分解几个明显的特点，它具有协同过滤的 “集体智慧”，隐语义的 “深层关系”，以及机器学习的 “以目标为导向的有监督学习”。在了解了基于邻域的协同过滤算法后，集体智慧自不必多说，我们依次从 “隐因子” 和 “有监督学习” 的角度来了解矩阵分解的基本思路。

基于矩阵分解的推荐算法的核心假设是用隐语义（隐变量）来表达用户和物品，他们的乘积关系就成为了原始的元素。这种假设之所以成立，是因为我们认为实际的交互数据是由一系列的隐变量的影响下产生的（通常隐变量带有统计分布的假设，就是隐变量之间，或者隐变量和显式变量之间的关系，我们往往认为是由某种分布产生的。），这些隐变量代表了用户和物品一部分共有的特征，在物品身上表现为属性特征，在用户身上表现为偏好特征，只不过这些因子并不具有实际意义，也不一定具有非常好的可解释性，每一个维度也没有确定的标签名字，所以才会叫做 “隐变量”。而矩阵分解后得到的两个包含隐变量的小矩阵，一个代表用户的隐含特征，一个代表物品的隐含特征，矩阵的元素值代表着相应用户或物品对各项隐因子的符合程度，有正面的也有负面的。

随着人们的不断探索和研究，衍生出了矩阵分解的一系列算法，接下来的时间，分别讲讲矩阵分解的几种方法。

2.1为什么要做SVD?

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的K个的奇异值和对应的左右奇异向量来近似描述矩阵。其中K要比n小很多，也就是一个大的矩阵A可以用三个小的矩阵来表示。数学之美中有说，会减少很大的存储资源。

K怎么确定？
多启发式的算法，当然，最直接的是直接用肉眼观察。除此之外，一个典型做法是保留矩阵中90%的能量信息。具体来讲，我们可以对奇异值求平方和。于是可以对奇异值的平方和累加直至总和的90%为止。

2.2特征值分解EVD

在讨论SVD之前先讨论矩阵的特征值分解（EVD）(eigenvalue decomposition)，对称阵有一个很优美的性质：它总能相似对角化，对称阵特征值对应的特征向量两两正交。
$A=V*D*V^T$

其中A的对称矩阵，D是对角矩阵，对角元素是A的特征值(几何意义：变换时的缩放)，V的列是A的特征向量(几何意义：特征向量经过矩阵A的变换，只进行缩放(特征值的大小)，不改变其方向)，特征向量两两正交，可以理解为一个高维的空间。

我们看看上面的公式怎么得来的：

设特征值为 $\lambda$ ，单位特征向量为x，那么所有的特征值和单位特征向量有： $Av=\lambda v$

λ为特征值（标量），v为特征值 λ对应的特征向量。特征向量被施以线性变换 A 只会使向量伸长或缩短，而方向保持不变

2.3普通矩阵的矩阵分解

我们在学线性代数的时候，都会学到怎么求解特征值和特征向量。通常把|A-λI|=0，这个式子也称为特征方程。

令p(λ):=|A-λI|称为矩阵的特征多项式
特征多项式是关于的N次多项式，特征方程有N个解
对多项式 $p(\lambda)$ 进行因式分解，可得 $p(\lambda)=(\lambda-\lambda_1)^{n_1}(\lambda-\lambda_2)^{n_2}...(\lambda-\lambda_k)^{n_k}=0$ ，其中 $\sum_{i=1}^kn_i=N$ ，而对于每一个特征值 $\lambda_i$ ，都可以使得 $(A-\lambda_iI)v=0$

计算矩阵A的特征值和特征向量：
$A=\begin{bmatrix} 4 & 2 & -5 \\ 6 & 4 & -9 \\ 5 & 3 & -7 \\ \end{bmatrix}$
求解特征方程 $|\lambda I -A|=\begin{bmatrix} \lambda-4 & -2 & 5 \\ -6 & \lambda-4 & 9 \\ -5 & -3 & \lambda+7\\ \end{bmatrix}=0$
$p(\lambda):=|\lambda I -A|=\lambda^2*(\lambda - 1)$ ， $\lambda^2*(\lambda - 1)=0$ 求解得 $\lambda_1=1$ ， $\lambda_2=\lambda_3=0$

当 $\lambda_1=1$ ， $|\lambda_1 I -A|=\begin{bmatrix} -3 & -2 & 5 \\ -6 & -3 & 9 \\ -5 & -3 & 8\\ \end{bmatrix}$

简化得到 $\begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0 & 0\\ \end{bmatrix}$

所以 $(E-A)x=\begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0 & 0\\ \end{bmatrix}\begin{bmatrix} x_1\\ x_2 \\ x_3\\ \end{bmatrix}=0$

即 $\begin{cases} x_1-x_3=0\\ x_2-x_3=0\\ \end{cases}$ ，令 $x_1=1$ ，得到特征矩阵 $\zeta_1=\begin{bmatrix}1 \\ 1 \\ 1\end{bmatrix}$

同理，当 $\lambda_2=\lambda_3=0$ ，计算可得特征矩阵 $\zeta_2=\zeta_3=\begin{bmatrix}1 \\ 3 \\ 2\end{bmatrix}$

A是MxN维的方阵，对矩阵A进行特征分解： $A=U\Sigma U^{-1}$

$U$ 是列向量是A的特征向量
$\Sigma$ 是对角矩阵，元素是特征向量的特征值

特征值5.64575131对应的特征向量为[0.97760877 0.21043072]
特征值0.35424869对应的特征向量为[-0.54247681 0.84007078]
结论：特征向量之间一定线性无关

如果A 是对称方阵，那么 $U^T = u^{-1}\\ A=U\Sigma U^T$

$U$ 是列向量是A的特征向量
$\Sigma$ 是对角矩阵，元素是特征向量的特征值

特征值5.23606798对应的特征向量为[0.97324899 0.22975292]
特征值0.76393202对应的特征向量为[-0.22975292 0.97324899]
结论：不仅线性无关，而且还正交，即
0.97324899*-0.22975292+0.22975292*0.97324899=0

2.4用numpy计算特征值和特征向量

import numpy as np
A = np.array([[5,3],
	        [1,1]])
lamda, U = np.linalg.eig(A)
print('矩阵A: ')
print(A)
print('特征值: ',lamda)
print('特征向量')
print(U)

3.奇异值分解（SVD）原理详解

3.1正交变换

正交变换公式：
$X = U Y$

上式表示：X是Y的正交变换，其中U是正交矩阵，X和Y为列向量。下面用一个例子说明正交变换的含义：
假设有两个单位列向量a和b，两向量的夹角为θ，如下图所示：

现对向量a，b进行正交变换：
$\vec{a}=U*\vec{a}\\ \vec{b}=U*\vec{b}$

$\vec{a},\vec{b}$ 的模：
$||\vec{a}||=||U*\vec{a}||=||U||*||\vec{a}||=||\vec{a}||=1\\ ||\vec{b}||=||U*\vec{b}||=||U||*||\vec{b}||=||\vec{b}||=1\\$
有上式可知 $\vec{a},\vec{b}$ 的模都为1。
$\vec{a}和\vec{b}$ 的內积：
$\vec{a}^T*\vec{b}=(U*\vec{a})^T*(U*\vec{b})=\vec{a}^TU^TU\vec{b}\\ \Rightarrow\vec{a}^T*\vec{b}=\vec{a}^T*\vec{b}（1）$
由上式可知，正交变换前后的內积相等。
$\vec{a}和\vec{b}$ 的夹角 $θ^{' }$ ：
$cosθ^{' }=\frac{\vec{a}^T*\vec{b}}{||\vec{a}||*||\vec{b}||}（2）\\ cosθ=\frac{\vec{a}^T*\vec{b}}{||\vec{a}||*||\vec{b}||}（3）\\$
比较（2）式和（3）式可得：正交变换前后的夹角相等，即 $θ=θ^{' }$ 。因此，正交变换的性质可用下图来表示：

正交变换的两个重要性质：

正交变换不改变向量的模；
正交变换不改变向量的夹角；

如果向量 $\vec{a}和\vec{b}$ 是基向量，那么正交变换的结果如下图所示：

上图可以得到重要结论： $\color{red}基向量正交变换后的结果仍是基向量$ 。基向量是表示向量最简洁的办法，向量在基向量的投影就是基向量的坐标，我们通过这种思想去理解特征值分解和推导SVD分解。

3.2特征值分解的含义

对称方阵A的特征值分解为：
$A=U\Sigma U^{-1}（2.1）$

其中U是正交矩阵， $\Sigma$ 是对角矩阵。
为了可视化特征值分解，假设A是2x2的对称矩阵， $U = (u 1, u 2)$ ， $\Sigma=(λ1,λ2)$ 。（2.1）式展开为：
$Au_1=λ_1u_1 \\ Au_2=λ_2u_2$
用图形表示为：

$\color{red}由上图可知，矩阵A没有旋转特征向量，它只是对特征向量进行了拉伸或\\ 缩短（取决于特征值的大小），因此，对称矩阵对其特征向量（基向量）的变换\\ 仍然是基向量（单位化）$ 。

特征向量和特征值的几何意义：若向量经过矩阵变换后保持方向不变，只是进行长度上的伸缩，那么该向量是矩阵的特征向量，伸缩倍数是特征值。

3.3SVD分解推导

我们考虑了当基向量是对称矩阵的特征向量时，矩阵变换后仍是基向量， $\color{red}但是，我们在实际项目中遇到的大都是行和列不相等的矩阵$ ，如统计每个学生的科目乘积，行数为学生个数，列数为科目数，这种形成的矩阵很难是方阵， $\color{red}因此SVD分解是更普遍的矩阵分解方法$ 。

先回顾一下正交变换的思想来推导SVD分解：假设A是M*N的矩阵，秩为K，Rank(A)=k。

存在一组正交基V：
$V=(v_1,v_2,...,v_k)$
矩阵对其变换后仍是正交基，记为U：
$U=(Av_1,Av_2,...,Av_k)$
由正交基定义，得：
$Av_i)^T(Av_i)=0（3.1）$

上式展开：
$v_{i}^TA^Tv_j=0（3.2）$
当v_t是A^TA的特征向量时，有：
$A^TA)v_i=λv_i$
所以，（3.2）式得：
$λv_i^{T}v_j=0$
即假设成立。

图形表示如下：

正交向量的模：
$||Av_i||^2=(Av_i)^T*(Av_i) \\ \Rightarrow ||Av_i||^2=v_i^T*A^TAv \\ \Rightarrow ||Av_i||^2=λ_iv_i^Tv=λ_i \\ \therefore ||Av_i||=\sqrt{λ_i}$
单位化正交向量，得到：
$u_i=\frac{Av_i}{||Av_i||}=\frac{1}{\sqrt{λ_i}}=Av_i \\ \Rightarrow Av_i=\sqrt{λ_i}*u_i （3.3）$
用矩阵的形式表示（3.3）式：
$AV=U\Sigma（3.4）$

V是NK矩阵，U是MK矩阵， $\sum$ 是MK的矩阵，需要扩展成方阵形式：
将正交基 $U=(u_1,u_2,...,u_k)$ 扩展 $u_1,u_2,...,u_m)R^m$ 空间的正交基，即U是MM方阵。将正交基 $V=（v_1,v_2,...,v_k）$ 扩展成 $v_1,v_2,...,v_n)R^n$ 空间的正交基，其中 $v_{k+1},v_{k+2},...,v_n)$ 是矩阵A的零空间，即：
$Av_i=0，i>k$

对应的特征值 $\sigma_i=0$ ， $\Sigma$ 是MN对角矩阵，V是NN方阵，因此（3.4）式写成向量形式为：

得出：
$AV=U\Sigma$
两式右乘 $V^T$ ，可得矩阵的奇异值分解：
$A=U\Sigma V^T（3.5）$
（3.5）式写成向量形式：

令

则： $A = X Y$
因为X和Y分别是列满秩和行满秩，所以上式是A的满秩分解。

（3.5）式的奇异矩阵 $\sum$ 的值 $\sigma$ 是 $A^TA$ 特征值的平方根，下面推导奇异值分解的U和V：
$\begin{array}{lcl} A^TA &=& (U\Sigma V^T)^T(U\Sigma V^T) \\ &=& V\Sigma U^T *V\Sigma U^T\\ &=& U\Sigma^2 U^T \end{array}$
即U是 $AA^T$ 的特征向量构成的矩阵，称为左奇异矩阵。

3.4奇异值分解的原理小结

矩阵A的奇异值分解是 $A=U\Sigma V^T$ ,其中U是 $AA^T$ 的特征向量构成的矩阵，V是 $AA^T$ 的特征向量构成的矩阵，奇异值矩阵 $\Sigma$ 的值是 $A^TA$ 特征值的平方根。

3.5奇异值分解的例子

接下来我们用一个简单的例子来说明矩阵是如何进行奇异值分解的。矩阵A定义为： $\begin{pmatrix} 1 & 1 \\ 1 & 1 \\ 1 & 0 \end{pmatrix}$

首先求出 $A^TA和AA^T$ ：
$A^TA=\begin{pmatrix} 1 & 1 & 1\\ 1 & 1 & 0\\ \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 1 \\ 1 & 0 \end{pmatrix} =\begin{pmatrix} 2 & 1 \\ 1 & 2 \\ \end{pmatrix}$
$AA^T=\begin{pmatrix} 0 & 1 \\ 1 & 1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 1\\ 1 & 1 & 0\\ \end{pmatrix} =\begin{pmatrix} 1 & 1 & 0\\ 1 & 2 & 1\\ 0 & 1 & 1 \end{pmatrix}$
接下来，求 $AA^T$ 的特征向量V和特征值 $\lambda$ ：
$\begin{pmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix}$ ，对应的特征值： $\lambda_1=3,\lambda_2=1$
奇异值是特征值的平方根： $\sigma_1=3,\sigma_2=1$
再求 $AA^T$ 的特征向量U：
$U=\begin{pmatrix} \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}}\\ \frac{2}{\sqrt{6}} & 0 &\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{6}} & -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}}\\ \end{pmatrix}$
最后得到A矩阵的奇异值分解：
$U\Sigma V^T \begin{pmatrix} \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}}\\ \frac{2}{\sqrt{6}} & 0 &\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{6}} & -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}}\\ \end{pmatrix} \begin{pmatrix} \sqrt{3} & 0 \\ 0 & 1 \\ 0 & 0 \\ \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \end{pmatrix}$

3.6行降维和列降维

通过上面的简单例子，相信大家已经比较了解SVD的求解过程，可能也会有人问过你，SVD这个高大上的东西，有没有更加通俗易懂的理解。本小节站在协方差的角度去理解行降维和列降维，我们先来探讨协方差的含义。协方差里面又分为单变量和多变量的向量之间的计算。

单个变量用方差描述，无偏方差公式：
$D(x)=\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2$

n是样本数， $\overline{x}=\frac{1}{n}\sum^n_{i=1}x$

两个变量用协方差描述，协方差公式：
$cov(x,y)=\frac{1}{n}\sum^n_{i=1}(x_i-\overline{x})(y_i-\overline(y))$
多个变量（如三个变量）之间的关系可以用协方差矩阵描述：
$cov(x,y,z)=\begin{pmatrix} cov(x,x) & cov(x,y) & cov(x,z) \\ cov(y,y) & cov(y,x) & cov(y,z) \\ cov(z,x) & cov(z,y) & cov(z,z) \\ \end{pmatrix}$
相关系数公式：
$\rho=\frac{cov(x,y)}{\sqrt{D(x)}\sqrt{D(y)}}$

由上式可知， $\color{red}协方差是描述变量间的相关关系程度$ ：
1）协方差cov(x,y) > 0时，变量x与y正相关；

2）协方差cov(x,y)<0时，变量x与y负相关；

3）协方差cov(x,y)=0时，变量x与y不相关；

变量与协方差关系的定性分析图：

现在开始谈论 $A^TA和AA^T$ 的含义：假设数据集是n维的，共有m个数据，每一行表示一例数据，即：
$A=\begin{pmatrix} (x^{(1)})^T \\ (x^{(2)})^T \\ ... \\ (x^{(m)})^T \end{pmatrix}$

$x^{(i)}$ 表示第i个样本， $x_j$ 表示第j维特征， $x_j^{(i)}$ 表示第i个样本的第j维特征

$A^TA=(x^{(1)},x^{(2)},...,x^{(m)})\begin{pmatrix} (x^{(1)})^T \\ (x^{(2)})^T \\ ... \\ (x^{(m)})^T \end{pmatrix} =x^{(1)}(x^{(1)})^T+x^{(2)}(x^{(2)})^T+...+x^{(m)}(x^{(m)})^T \\ \Rightarrow A^TA=\begin{pmatrix} cov(x_1,x_1) & cov(x_1,x_2) & cov(x_1,x_n) \\ cov(x_2,x_1) & cov(x_2,x_2) & cov(x_2,x_n) \\ cov(x_n,x_1) & cov(x_n,x_2) & cov(x_n,x_n) \\ \end{pmatrix}$
由上式可知， $A^TA$ 是描述各个特征间关系的矩阵，所以 $A^TA$ 的正交基V是以数据集的特征空间进行展开的。

数据集A在特征空间展开为：
$X_{M*N}=A_{M*N}V_{N*N}（4.1）$

之前我们说过，特征值表示了 $A^TA$ 在相应特征向量的信息分量。特征值越大，包含矩阵 $A^TA$ 的信息分量越大。

若我们选择前r个特征值来表示原始数据集，数据集A在特征空间展开为：
$X_{M*r}^{\prime}=A_{M*N}V_{N*r}（4.2）$
$\color{red}（4.2）式对列进行了降维，即右奇异矩阵V可以用于列数的压缩，与PCA降维算法一致。$

行降维：
$AA^T=\begin{pmatrix} (x^{(1)})^T \\ (x^{(2)})^T \\ ... \\ (x^{(m)})^T \end{pmatrix} (x^{(1)},x^{(2)},...,x^{(m)}) =\begin{pmatrix} (x^{(1)})^Tx^{(1)} & (x^{(1)})^Tx^{(2)} & (x^{(1)})^Tx^{(m)} \\ (x^{(2)})^Tx^{(1)} & (x^{(2)})^Tx^{(2)} & (x^{(2)})^Tx^{(m)} \\ (x^{(m)})^Tx^{(1)} & (x^{(m)})^Tx^{(2)} & (x^{(m)})^Tx^{(m)} \end{pmatrix} \Rightarrow AA^T=\begin{pmatrix} cov(x_1,x_1) & cov(x_1,x_2) & cov(x_1,x_n) \\ cov(x_2,x_1) & cov(x_2,x_2) & cov(x_2,x_n) \\ cov(x_n,x_1) & cov(x_n,x_2) & cov(x_n,x_n) \\ \end{pmatrix}$

由上式可知： $AA^T$ 是描述样本数据间相关关系的矩阵，因此，左奇异矩阵U是以样本空间进行展开，原理与列降维一致。

若我们选择前r个特征值来表示原始数据集，数据集A在样本空间展开为：
$Y_{r*N}=U_{r*M}A_{M*N}$
因此，上式实现了行降维，即左奇异矩阵可以用于行数的压缩。

3.7SVD矩阵分解的应用场景

推荐系统中，我们会面临很多场景，其中有一个问题就是存进数据矩阵是稀疏的，因为用户的很多喜好我们还没有弄明白，留下了很多空白。SVD矩阵分解主要的应用场景就是做数据压缩，比如，图像压缩。为了解决这个问题，我们来看两个数据压缩的方法。

本节介绍两种数据压缩方法：满秩分解和近似分解
矩阵A的秩为k，A的满秩分解：
$A_{M*N}=X_{M*K}Y_{K*N}$

满秩分解图形如下：

由上图可知，存储X和Y的矩阵比存储A矩阵占用的空间小，因此满秩分解起到了数据压缩作用。

若对数据再次进行压缩，需要用到矩阵的近似分解。

矩阵A的奇异值分解：
$A_{M*N}= U_{M*M}V_{M*N}V^T_{N*N}$

$A_{M*N}\simeq U_{M*r}V_{r*N}^T$

如下图：

我们用灰色部分的三个小矩阵近似表示矩阵A，存储空间大大的降低了。

3.8 SVD总结

任何矩阵都能进行SVD分解，SVD可以用于行降维和列降维，SVD在数据压缩、推荐系统和语义分析有广泛的应用，SVD与PCA的缺点一样，分解出的矩阵解释性不强。

4.funkSVD, BiasSVD，SVD++算法

4.1原始SVD

对于任意 $m \times n$ 矩阵A ，通过奇异值分解，有严格等式
$A=P\Sigma Q^T$

其中，P 和Q是方阵， $\Sigma$ 是对角矩阵。

进一步的，P的列向量是 $m \times m$ 方阵 $AA^T$ 的特征向量；Q的列向量是 $n \times n$ 方阵 $A^TA$ 的特征向量； $m \times n$ 矩阵 $\Sigma$ 的对角元素是A的特征值。

通过上面的奇异值分解，我们可以将用户-评分矩阵R RR分解为三个矩阵的乘积。

虽然SVD能够将评分矩阵R RR分解，但是存在以下问题

原始SVD过程要求评分矩阵R RR是稠密的，但是通常评分矩阵是很稀疏的，这就无法做SVD
可以通过填充来让评分矩阵稠密，但是，无论如何填充，都会引入噪音

4.1.1Surprise工具中的SVD

n_factors: k值，默认为100
n_epochs：迭代次数，默认为20
biased：是否使用biasSVD，默认为True
verbose:输出当前epoch，默认为False
reg_all:所有正则化项的统一参数，默认为0.02
reg_bu：bu的正则化参数，reg_bi：bi的正则化参数
reg_pu：pu的正则化参数，reg_qi：qi的正则化参数

4.2FunkSVD

用户-评分矩阵R RR通常是很稀疏的，原始SVD无法使用，因此，我们提出一个近似的矩阵分解算法，FunkSVD。

与MF类似，对于 $m \times n$ 评分矩阵R，我们假设由两个矩阵 $P_{k×m}$ 和 $Q_{k×n}$ 的乘积近似得到，这就意味着下式的成立
$R\approx P^TQ$

对于上面的式子，我们可以这样理解

评分矩阵 $R$ 是 $m \times n$ 的，这就是说，有 $m$ 个用户和 $n$ 个商品，每个用户不可能使用所有商品，因此仅仅能对其中少量的商品进行打分，这也就是评分矩阵稀疏的原因
$P$ 是 $k \times m$ 维的，这就是说，我们可以把第 $i$ 列向量当做用户 $i$ 的特征 $p_i$ ，这个特征 $p_i$ 是 $k$ 维的。
$Q$ 是 $k \times n$ 维的，这就是说，我们可以把第 $j$ 列向量当做用户 $j$ 的特征 $q_j$ ，这个特征 $q_j$ 是 $k$ 维的。

知道了FunkSVD的原理，我们来讲一个比较通俗的例子：

我们有100个用户和1000部电影，用户对看过的电影打分，从而形成用户-商品评分矩阵 $R_{100×100}$ ;
现在，为了更好的区分不同用户和电影，我们给出3种特征 $（ k = 3 ）$ ，分别为动作，爱情，悬疑；
第1个用户的特征 $p_1 = [ 0.8 , 0.2 , 0.1 ]^T$ ，意思就是这个用户更加偏爱动作，第2部电影的特征 $q_2=[0.3, 0.2, 0.6]^T$ ，意思是这个电影更加偏向于悬疑；
那么，第一个用户看完第二部电影之后的评分，我们预测为 $p_1^T *q 2 = =0.34$ ，这就是一个综合的喜爱程度

我们想得到这样的 $P$ 和 $Q$ ，并使得 $P^TQ$ 尽量接近R。注意， $R$ 中仅有少量位置存在值，我们求的 $P^TQ$ 就是尽量接近这些值。

假设 $R$ 中非空位置集合为 $K$ ，我们有如下最优化问题
$min_{P,Q}L=\frac{1}{2}\sum_{(i,j)\in K}(R_{i,j}-P_i^{T}q_j)^2+\frac{\lambda}{2}(\sum_{i=1}^m|p_i|^2+\sum_{j=1}^m|q_j|^2)$
直接对损失函数求导，我们有
$\begin{array}{lcl} \frac{\partial L}{\partial p_i} &=& \sum_j(p_i^{T}q_j-R_{i,j})q_j+\lambda p_i \\ & =& (\sum_j q_jq_j^{T}+\lambda I)p_i-\sum_jR_{i,j}q_j \end{array}$
和 $\begin{array}{lcl} \frac{\partial L}{\partial q_j} &=& \sum_i(p_i^{T}q_j-R_{i,j})p_i+\lambda q_j \\ & =& (\sum_i p_ip_i^{T}+\lambda I)q_j-\sum_iR_{i,j}p_i \end{array}$

因此，更新策略就是：
$p_i \leftarrow p_i - \alpha \frac{\partial L}{\partial p_i} \\ q_j \leftarrow q_j - \alpha \frac{\partial L}{\partial q_j} \\$

$\alpha 是学习率$
通过以上迭代更新，可以得到 $P$ 和 $Q$ ，从而得到近似的评分矩阵 $P^TQ$ ，从而补全评分矩阵。

4.2.1Surprise工具中的FunkSVD

n_factors: k值，默认为100
n_epochs：迭代次数，默认为20
biased：是否使用biasSVD，设置为True
verbose:输出当前epoch，默认为False
reg_all:所有正则化项的统一参数，默认为0.02
reg_bu：bu的正则化参数，reg_bi：bi的正则化参数
reg_pu：pu的正则化参数，reg_qi：qi的正则化参数

4.3BiasSVD

在FunkSVD的基础上，我们进一步考虑用户偏好和商品偏好。

比如，对于某些用户而言，他们打分一向比较高，而对于较为苛刻的用户，他们打分又偏低；对于某些高质量商品而言，给它们的评分一般偏高，比如泰坦尼克电影评分4.9，可能这部电影没有那么好，被高估了。

基于以上观察，我们有，不同用户有自己的打分习惯，或者偏高或者偏低；不同电影也有自己的分数倾向，或者倾向于低分或者倾向于高分。我们需要在模型中加以体现。

令 $μ$ 为评分的平均值， $b_i$ 为用户 $i$ 的偏好带来的评分偏置， $b_j$ 为商品 $j$ 的质量带来的评分偏置。这样，用户 $i$ 对商品 $j$ 的评分可以写为
$μ+b_i+b_j+p_i^{T}q_j$

因此，我们的目标函数可以写为
$min_{P,Q,b_i,b_j}L=\frac{1}{2}\sum_{(i,j)\in K}(R_{i,j}-μ-b_i-b_j-p_i^{T}q_j)^2+\frac{\lambda}{2}(\sum_{i=1}^m|b_i|^2+\sum_{j=1}^n|b_j|^2+\sum_{i=1}^{m}|p_i|^2+\sum_{i=1}^{m}|q_j|^2)$

4.3.1Surprise工具中的BiasSVD

n_factors: k值，默认为100
n_epochs：迭代次数，默认为20
biased：是否使用biasSVD，设置为False
verbose:输出当前epoch，默认为False
reg_all:所有正则化项的统一参数，默认为0.02
reg_bu：bu的正则化参数，reg_bi：bi的正则化参数
reg_pu：pu的正则化参数，reg_qi：qi的正则化参数

4.4SVD++

在BiasSVD的基础上，我们进一步考虑用户隐式反馈的影响。

用户除了对商品有评分这一显式反馈之外，还有诸如浏览、点击等隐式反馈。一个用户可能对许多商品有隐式反馈，我们将用户 $i$ 有过隐式反馈的商品集合记为 $N (i)$ ，每一次对于特定商品 $s\in N(i)$ 的点击或者浏览，都带来对于用户特征 $p_i$ 的某些偏置 $y_s$ 。

这样，对于用户 $i$ ，最终他的特征 $p_i$ 可以写为
$p_i+\sum_{s\in N(i)}y_s$
因此，用户 $i$ 对商品 $j$ 的评分可以写为
$μ+b_i+b_j+q_j^{T}(p_i+\sum_{s\in N(i)}y_s)$

这样，我们的目标函数可以写为
$min_{P,Q,b_i,b_j,y_s}L=\frac{1}{2}\sum_{(i,j)\in K}(R_{i,j}-μ-b_i-b_j-q_j^{T}(p_i+\sum_{s\in N(i)}y_s))^2+\frac{\lambda}{2}(\sum_{i=1}^m|b_i|^2+\sum_{j=1}^n|b_j|^2+\sum_{i=1}^{m}|p_i|^2+\sum_{i=1}^{m}|q_j|^2+\sum_{i=1}^{m}\sum_{s\in N(i)}|y_s|^2)$

你可能感兴趣的:(python学习,matrix,矩阵分解,SVD,推荐系统)

【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
Python打卡：Day24 剑桥折刀s python打卡 python
importpandasaspdimportnumpyasnpimportreimportxgboostasxgbfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportclassification_report,confusion_matrix,accuracy_score,precision_score
Python学习打卡：day13 胜天半子祁厅 Python python 学习 java
day13笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day1397、初识对象98、类的成员方法类的定义和使用成员变量和成员方法成员方法的定义语法99、类和对象在程序中通过类来描述基于类创建对象100、构造方法课后练习101、魔术方法\_\_str\_\_字符串方法\_\_lt\_\_小于符号比较方法\_\_le\_\_小于等于比较符号方法\
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
从零理解鱼眼相机的标定与矫正（含 OpenCV 代码与原理讲解）
本文适合初学者系统掌握鱼眼镜头的标定与矫正原理，图文结合，带你从0到1理解K,D,u,v等参数的真实含义。一句话总结鱼眼相机由于镜头视角宽、畸变大，拍出来的画面会“鼓起来”或者变形。通过标定得到的参数，可以让计算机“理解”这种变形是怎么发生的，并据此把图像“拉回正形”。一、什么是内参矩阵K？定义在OpenCV中，内参矩阵（CameraIntrinsicMatrix）通常是一个3x3的矩阵：cfg.
腾讯混元API调用优化实战：用API网关实现流量控制+缓存+监控
1大模型API的调用挑战在接入腾讯混元大模型API的电商推荐系统项目中，我们面临三个核心挑战：突发流量冲击：促销活动期间API调用量激增300%，触发腾讯云限流策略（429错误）响应延迟波动：文本生成长内容时P99延迟高达2.8秒，影响用户体验异常诊断困难：错误日志分散在多台服务器，故障定位平均耗时47分钟传统解决方案如Nginx限流和Redis缓存存在配置分散、维护成本高等问题。API网关作为流
python学习笔记（深度学习）天水幼麟 python 学习笔记
文章目录1、概述2、学习内容2.1、pytorch常见语法2.1.1、sum2.1.2、广播机制2.1.3、张量1、概述本篇博客用来记录，在深度学习过程中，常用的python语法内容2、学习内容2.1、pytorch常见语法2.1.1、sum在PyTorch中，torch.sum()是一个非常常用的函数，用于对张量（Tensor）进行求和操作。它的核心作用是沿着指定的维度对张量元素进行累加，支持灵
Python爬取TMDB电影数据：从登录到数据存储的全过程 Eqwaak00 爬虫 Python python 开发语言人工智能自动化
在当今数据驱动的时代，获取电影数据对于推荐系统、市场分析和个人项目都至关重要。本文将详细介绍如何使用Python构建一个完整的TMDB（TheMovieDatabase）爬虫，从登录认证到数据解析和存储的全过程。（本来博主也想在CSDN里面上白嫖结果没有一篇文章，然后......）1.项目概述TMDB是一个广受欢迎的电影数据库网站，包含了丰富的电影信息、演员数据和用户评分。我们的目标是构建一个爬虫
Python学习之——装饰器 selfsongs Python 学习记录 python 学习开发语言
Python学习之——装饰器参考基础闭包概念装饰器系统自带的装饰器@property@staticmethod@classmethod自定义装饰器函数的装饰器无参数有参数类的装饰器无参数有参数@functools.wraps装饰器类装饰器实现单例模式参考python装饰器的4种类型：函数装饰函数、函数装饰类、类装饰函数、类装饰类9.4定义一个带参数的装饰器Python–在装饰器中获取原始函数参数基
Python学习Day42 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行defhandle_result(result):"""处理计算结果的回调函数"""print(f"计算结果是:{result}")defcalculate(a,b,callback):"""这个函数接受两个数值和一个回调函数，用于处理计算结果。执行计算并调用回调函数"""result=a+bcallback(result)calculate(3,5,handle_resul
Python学习Day33 m0_64472246 python打卡学习 python
学习来源：浙大疏锦行一、PyTorch和CUDA的安装：给电脑装“超级计算器”通俗解释PyTorch：是一个专门用于深度学习的“工具箱”，类似程序员的“智能积木”，能快速搭建神经网络。CUDA：是NVIDIA显卡的“加速引擎”，相当于给电脑的显卡装了一个“超级计算器”，让它能快速计算复杂的数学问题（如图像识别、数据训练）。安装逻辑：先装CUDA（显卡的“计算器驱动”），再装PyTorch（用这个计
Python学习Day29 m0_64472246 python打卡学习学习
学习来源：@浙大疏锦行类装饰器是Python中用于动态修改或增强类定义的高级工具，其核心在于接收一个类作为输入并返回一个新类，从而在不修改原始类代码的前提下扩展功能。以下是类装饰器的系统解析：一、类装饰器的核心机制基本结构类装饰器是一个高阶函数，接收类参数cls，通过继承或直接修改返回新类：defclass_decorator(cls):classWrappedClass(cls):#继承原始类d
Python学习Day10 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行知识点：数据集的划分机器学习模型建模的三行代码机器学习模型分类问题的评估对心脏病数据集采用机器学习模型建模和评估importpandasaspdfile_path="heart.csv"data=pd.read_csv(file_path)data.info()data.isnull().sum()#划分训练集和测试机fromsklearn.model_selectionim
Python学习Day14 m0_64472246 python 学习开发语言
学习来源：@浙大疏锦行SHAP（SHapleyAdditiveexPlanations）库是一个用于解释机器学习模型预测结果的开源Python库。**一、核心概念**1.**Shapley值***它来源于合作博弈论。在机器学习模型解释的语境下，可以这样理解：对于一个模型的预测结果，每个特征都看作是一个“玩家”，模型的输出是这些“玩家”合作的结果。Shapley值表示每个特征对预测结果的平均边际贡献
Python学习Day34 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行优化耗时：importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScalerimpo
拷贝漫画网页版网址，Copymanga漫画官方网站入口及APP下载
拷贝漫画是一个专为漫画爱好者打造的在线阅读平台，提供海量漫画资源，涵盖日漫、韩漫、美漫、国漫及轻小说等多种类型，满足不同读者的口味需求。平台界面简洁友好，支持多设备同步阅读（如手机、电脑、平板），并提供高清画质与个性化设置，如亮度调节、字体大小、夜间模式等，确保阅读体验舒适。此外，平台具备智能推荐系统，根据用户浏览历史、收藏记录和偏好推荐漫画，帮助用户发现新内容。社区互动功能也十分活跃，用户可分享
如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型：业界首次公开非英伟达体系下解决此类技术难题的论文猫头虎猫头虎 AI 探索之路计算机视觉人工智能 tensorflow 深度学习机器学习语言模型 chatgpt
本文基于华为团队与硅基流动（SiliconFlow）联合署名的论文《ServingLargeLanguageModelsonHuaweiCloudMatrix384》的简要解说与技术分析文章，深入剖析了CloudMatrix384架构设计、CloudMatrix-Infer推理引擎实现及其在DeepSeek-R1模型上的性能表现。文章目录1.引言2.背景与动机2.1LLM发展趋势与部署挑战2.2非
Python学习—10大高阶调试方法！第⑦颗VC小铁树 python 学习数据库开发语言数据分析 ipython
在Python开发过程中，调试是一项核心技能。无论是初级开发者还是资深工程师，掌握高效的调试技巧都能显著提升开发效率。本文将介绍10个实用的调试方法，帮助开发者更有效地定位和解决问题。包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！1、Python内置调试器pdb的应用Python的内置调试器pdb是一个功能强大的调试工具。它能够在程序执行过程中设置断点，检查变量状态，并支持单步
60天python训练营打卡day20 tan90�= python60天打卡 python 开发语言
学习目标：60天python训练营打卡学习内容：DAY20奇异值SVD分解奇异值分解这个理论，对于你未来无论是做图像处理、信号处理、特征提取、推荐系统等都非常重要，所以需要单独抽出来说一下这个思想。—甚至我在非常多文章中都看到单独用它来做特征提取（伪造的很高大上），学会这个思想并不复杂没学过线代的不必在意，推导可以不掌握，关注输入输出即可。今天这期有点类似于帮助大家形成闭环—考研数学不是白考的知识
贝叶斯算法：从概率推断到智能决策的基石 weixin_47233946 算法算法
##引言在人工智能与机器学习的蓬勃发展中，贝叶斯算法以其独特的概率推理方式和动态更新的特性，在垃圾邮件过滤、疾病诊断、推荐系统等关键领域展现出强大的应用价值。本文将从概率论基础出发，深入解析贝叶斯算法的核心思想及其实现方式，揭示这一统计学方法如何演变为现代智能系统的决策利器。---##一、贝叶斯定理：概率之门的钥匙###1.1基本公式表述贝叶斯定理的数学表达式揭示事件间的关联关系：$$P(A|B)
Python学习Day40 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderimportmatplotlib.pyplotaspltimportnumpyasnp##设置中文字体支持plt.rcP
用 DeepSeek 打造智能高考志愿填报推荐系统摆烂大大王 deepseek 高考 deepseek 人工智能数据库 AIGC
告别选择困难！基于大模型的精准志愿推荐方案一、背景痛点：高考志愿填报的困境每年高考结束后，数百万考生面临共同难题：如何用有限的分数选择最优的院校和专业？传统方式依赖手册翻阅、经验咨询，存在三大痛点：信息过载：全国近3000所高校、上万个专业组合动态复杂：历年分数线波动、招生计划变化匹配低效：个人兴趣与院校资源难以精准对接二、解决方案：DeepSeek-R1智能推荐系统架构系统核心流程
python25-递归算法文人sec python自动化算法 python
课程：B站大学记录python学习，直到学会基本的爬虫，使用python搭建接口自动化测试就算学会了，在进阶webui自动化，app自动化递归算法递归的基本原则递归的使用作业小tips：斐波那契数列阶乘快速排序实践是检验真理的唯一标准递归的基本原则递归函数通常遵循以下原则：定义基本情况确定一个或多个输入的特殊情况，当满足这些条件时，递归函数将直接返回结果而不再调用自身。减小问题规模通过调用自身来解
c++_矩阵转置惊讶的猫算法数据结构
什么是矩阵转置？一个n×n的方阵matrix，其转置矩阵是：将原矩阵的行变为列，列变为行。也就是说，matrix[i][j]→matrix[j][i]。举个例子：原始矩阵：123456789转置后应该变成：147258369你可以看到：matrix[0][1]=2→matrix[1][0]=2matrix[2][1]=8→matrix[1][2]=8等等。我们要怎么用代码实现它呢？请看下面的代码：
零基础入门Python：30天从小白到实战高手（附完整代码+项目案例）全息架构师 Python 实战项目大揭秘 python 开发语言
零基础入门Python：30天从小白到实战高手（附完整代码+项目案例）摘要：本文为技术小白量身打造Python学习路线，包含环境搭建、基础语法、核心库使用、实战项目开发全流程。每日学习计划+代码案例+避坑指南，助你快速掌握编程核心技能！关键词：Python入门、零基础编程、实战项目、学习路线、避坑指南一、为什么选择Python作为第一门编程语言？1.1Python的四大核心优势语法简洁：print
华为OD机考-上班之路/是否能到达公司-DFS（JAVA 2025B卷）小猫咪怎么会有坏心思呢华为机考华为od 宽度优先算法
importjava.util.*;publicclassGoWork{privatestaticfinalint[][]directions={{0,1,1},{0,-1,2},{1,0,3},{-1,0,4}};privatestaticintmaxTurns,maxClears,rows,cols;privatestaticchar[][]matrix;publicstaticvoidmai
Milvus 向量数据库详解与实践指南 JJJ@666 基础知识(人工智能AI)milvus 向量数据库图像检索推荐系统
一、Milvus核心介绍1.什么是Milvus？Milvus是一款开源、高性能、可扩展的向量数据库，专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、语义搜索、智能问答、多模态数据处理等AI应用场景。它能够高效处理：嵌入向量（Embeddings）特征向量（FeatureVectors）任何高维数值向量2.核心特性特性说明
python学习记录16 彤银浦学习
字符串总结python程序使用unicode编码，中文字符与英文字符都占一个字符，但英文字符只占一个字节，中文字符若按照utf-8格式编码占3个字节。（1）字符串常用方法1）大小写转化string.upper()#将所有字母转换为大写string.lower()#将所有字母转换为小写2）字符串分割string.split(sep='')#将字符串按照sep进行分割3）字符串的检索string.co
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc