大数据文摘

还在用PCA降维？快学学大牛最爱的t-SNE算法吧（附Python/R代码）

大数据文摘作品

编译：寒小阳、蒋宝尚、Sheila、赖小娟、钱天培

假设你有一个包含数百个特征（变量）的数据集，却对数据所属的领域几乎没有什么了解。你需要去识别数据中的隐藏模式，探索和分析数据集。不仅如此，你还必须找出数据中是否存在模式－－用以判定数据是有用信号还是噪音？

这是否让你感到不知所措？当我第一次遇到这种情况，我简直全身发麻。想知道如何挖掘一个多维数据集？这是许多数据科学家经常问的问题之一。该篇文章中，我将带你通过一个强有力的方式来实现这一点。用PCA怎么样？

现在，一定会有很多人心里想着“我会使用PCA来降维和可视化”。好吧，你是对的！ PCA绝对是具有大量特征的数据集的降维和可视化的不错选择。但是，假如你能使用比PCA更先进的东西将会怎样呢？

如果你可以很容易地找出非线性的模式呢？在本文中，我将告诉你一个比PCA（1933）更有效、被称为t-SNE（2008）的新算法。首先我会介绍t-SNE算法的基础知识，然后说明为什么t-SNE是非常适合的降维算法。

你还将获得在R代码和Python语句中使用t-SNE的实践知识。

来吧来吧！

目录

1.什么是t-SNE？

2.什么是降维？

3.t-SNE与其他降维算法

4.t-SNE的算法细节

4.1 算法

4.2 时间和空间复杂性

5.t-SNE实际上做什么？

6.用例

7.t-SNE与其他降维算法相比

8.案例实践

8.1 使用R代码

-超参数调试

-代码

-执行时间

-结果解读

8.2 使用python语句

-超参数调试

-代码

-执行时间

9.何时何地去使用

9.1 数据科学家

9.2 机器学习竞赛爱好者

9.3 数据科学爱好者

10.常见误区

1.什么是t-SNE

（t-SNE）t-分布式随机邻域嵌入是一种用于挖掘高维数据的非线性降维算法。它将多维数据映射到适合于人类观察的两个或多个维度。在t-SNE算法的帮助下，你下一次使用高维数据时，可能就不需要绘制很多探索性数据分析图了。

2.什么是降维？

为了理解t-SNE如何工作，让我们先了解什么是降维？

简而言之，降维是在2维或3维中展现多维数据（具有多个特征的数据，且彼此具有相关性）的技术。

有些人可能会问，当我们可以使用散点图、直方图和盒图绘制数据，并用描述性统计搞清数据模式的时候为什么还需要降低维度。

好吧，即使你可以理解数据中的模式并将其呈现在简单的图表上，但是对于没有统计背景的人来说，仍然很难理解它。此外，如果你有数百个特征值，你必须研究数千张图表，然后才能搞懂这些数据。

在降维算法的帮助下，您将能够清晰地表达数据。

3. t-SNE与其他降维算法

现在你已经了解什么是降维，让我们看看我们如何使用t-SNE算法来降维。

以下是几个你可以查找到的降维算法：

1.主成分分析（线性）

2.t-SNE（非参数/非线性）

3.萨蒙映射（非线性）

4.等距映射（非线性）

5.局部线性嵌入(非线性)

6.规范相关分析（非线性）

7.SNE(非线性)

8.最小方差无偏估计（非线性）

9.拉普拉斯特征图（非线性）

好消息是，你只需要学习上述算法中的其中两种，就可以有效地在较低维度上使数据可视化 - PCA和t-SNE。

PCA的局限性

PCA是一种线性算法。它不能解释特征之间的复杂多项式关系。另一方面，t-SNE是基于在邻域图上随机游走的概率分布，可以在数据中找到其结构关系。

线性降维算法的一个主要问题是它们集中将不相似的数据点放置在较低维度区域时，数据点相距甚远。但是为了在低维、非线性流型上表示高维数据，我们也需要把相似的数据点靠近在一起展示，这并不是线性降维算法所能做的。

现在，你对PCA应该有了一个简短的了解。

局部方法寻求将流型上的附近点映射到低维表示中的附近点。另一方面，全局方法试图保留所有尺度的几何形状，即将附近的点映射到附近的点，将远处的点映射到远处的点

要知道，除t-SNE之外的大多数非线性技术都不能同时保留数据的局部和全局结构。

4. t-SNE的算法细节（选读）

该部分是为有兴趣深入理解算法的人准备的。如果您不想了解数学上面的细节，可以放心地跳过本节。

4.1算法

步骤1

随机邻近嵌入（SNE）首先通过将数据点之间的高维欧几里得距离转换为表示相似性的条件概率。数据点与数据点的相似性是条件概率——如果邻域被选择与在以为中心的正态分布的概率密度成比例，将选择作为其邻域的概率。

其中是以数据点为中心的正态分布的方差，如果你对数学不感兴趣，以这种方式思考它，算法开始于将点之间的最短距离（直线）转换成点的相似度的概率。其中，点之间的相似性是：如果在以为中心的高斯（正态分布）下与邻域的概率密度成比例地选取邻域，则会选择作为其邻居的条件概率。

步骤2

对于低维数据点和的高维对应点和，可以计算类似的条件概率，其由表示。

需要注意的是，pi | i和pj | j被设置为零，因为我们只想对成对的相似性进行建模。

简单来说，步骤1和步骤2计算一对点之间的相似性的条件概率。这对点存在于：

1.高维空间中

2.低维空间中

为了简单起见，尝试详细了解这一点。

让我们把3D空间映射到2D空间。步骤1和步骤2正在做的是计算3D空间中的点的相似性的概率，并计算相应的2D空间中的点的相似性的概率。

逻辑上，条件概率和必须相等，以便把具有相似性的不同维空间中的数据点进行完美表示。即，和之间的差必须为零，以便在高维和低维中完美复制图。

通过该逻辑，SNE试图使条件概率的这种差异最小化。

步骤3

现在讲讲SNE和t-SNE算法之间的区别。

为了测量条件概率SNE差值的总和的最小化，在全体数据点中使用梯度下降法使所有数据点的Kullback-Leibler散度总和减小到最小。我们必须知道，K-L散度本质上是不对称的。

换句话说，SNE代价函数重点在映射中保留数据的局部结构（为了高斯方差在高维空间的合理性，）。

除此之外，优化该代价函数是非常困难的（计算效率低）。

因此，t-SNE也尝试最小化条件概率之差的总和值。但它通过使用对称版本的SNE代价函数，使用简单的梯度。此外，t-SNE在低维空间中采用长尾分布，以减轻拥挤问题（参考下面译者解释）和SNE的优化问题。

＊译者注：

拥挤问题是提出t-SNE算法的文章（Visualizing Data using t-SNE，08年发表在Journal of Machine Learning Research，大神Hinton的文章）重点讨论的问题（文章的3.2节）。译者的理解是，如果想象在一个三维的球里面有均匀分布的点，如果把这些点投影到一个二维的圆上一定会有很多点是重合的。所以在二维的圆上想尽可能表达出三维里的点的信息，把由于投影所重合的点用不同的距离（差别很小）表示，这样就会占用原来在那些距离上的点，原来那些点会被赶到更远一点的地方。t分布是长尾的，意味着距离更远的点依然能给出和高斯分布下距离小的点相同的概率值。从而达到高维空间和低维空间对应的点概率相同的目的。

步骤4

如果我们看到计算条件概率的方程，我们忽略了现在的讨论的方差。要选择的剩余参数是学生的t-分布的方差，其中心在每个高维数据点的中心。不可能存在对于数据集中的所有数据点最优的单个值，因为数据的密度可能变化。在密集区域中，较小的值通常与较稀疏的区域相比更合适。任何特定值在所有其他数据点上诱发概率分布。这个分布有一个

该分布具有随着增加而增加的熵。 t-SNE对的值执行二进制搜索，产生具有由用户指定具有困惑度的2。该困惑度定义为

其中H（）是以比特字节测量的香农熵

困惑度可以被解释为对邻域的有效数量的平滑测量。 SNE的性能对于茫然性的变化是相当稳固的，并且典型值在5和50之间。

代价函数的最小化是使用梯度下降法来执行的。并且从物理上，梯度可以被解释为由图上定位点和所有其他图上定位点之间的一组弹簧产生的合力。所有弹簧沿着方向（ - ）施加力。弹簧在和定位点之间的排斥或吸引，取决于图中的两点之间的距离是太远还是太近 (太远和太近都不能表示两个高维数据点之间的相似性。)由弹簧在和之间施加的力与其长度成比例，并且还与其刚度成比例，刚度是数据的成对相似性之间的失配（pj | i-qj | i + pi | j-qi | j）点和地图点。

＊译者补充：

步骤3和4都在讲述SNE 与t-SNE之间的区别，总结如下：

区别一：将不对称的代价函数改成对称的代价函数。

将代价函数修改为

，其中，

则可避免上述不对称的代价函数所带来的问题。

区别二：在低维空间中使用学生t-分布而不是高斯分布来计算点与点之间的相似度。

t-SNE在低维空间中采用长尾的学生t-分布，

，

以减轻拥挤问题和SNE的优化问题。

4.2 时间和空间复杂度

现在我们已经了解了算法，是分析其性能的时候了。正如你可能已经观察到的，该算法计算成对的条件概率，并试图最小化较高和较低维度的概率差的总值。 这涉及大量的运算和计算。所以该算法对系统资源相当重要。

t-SNE在数据点的数量上具有二次时间和空间复杂性。这使得它应用于超过10,000个观察对象组成的数据集的时候特别慢和特别消耗资源。

5. t-SNE 实际上做了什么？

了解了 t-SNE 算法的数学描述及其工作原理之后,让我们总结一下前边学过的东西。以下便是t-SNE工作原理的简述。

实际上很简单。 非线性降维算法t-SNE通过基于具有多个特征的数据点的相似性识别观察到的模式来找到数据中的规律。它不是一个聚类算法，而是一个降维算法。这是因为当它把高维数据映射到低维空间时，原数据中的特征值不复存在。所以不能仅基于t-SNE的输出进行任何推断。因此，本质上它主要是一种数据探索和可视化技术。

但是t-SNE可以用于分类器和聚类中，用它来生成其他分类算法的输入特征值。

6. 应用场景

你可能会问， t-SNE有哪些应用场景呢？它几乎可以用于任何高维数据。不过大部分应用集中在图像处理，自然语言处理，基因数据以及语音处理。它还被用于提高心脑扫描图像的分析。以下维几个实例：

6.1 人脸识别

人脸识别技术已经取得巨大进展，很多诸如PCA之类的算法也已经在该领域被研究过。但是由于降维和分类的困难，人脸识别依然具有挑战性。t-SNE被用于高维度数据降维，然后用其它算法，例如 AdaBoostM2, 随机森林, 逻辑回归, 神经网络等多级分类器做表情分类。

一个人脸识别的研究采用了日本女性脸部表情数据库和t-SNE结合AdaBoostM2的方法。其实验结果表明这种新方法效果优于诸如PCA, LDA, LLE及SNE的传统算法。

以下为实现该方法的流程图：

6.2 识别肿瘤亚群（医学成像）

质谱成像（MSI）是一种同时提供组织中数百个生物分子的空间分布的技术。 t-SNE，通过数据的非线性可视化，能够更好地解析生物分子肿瘤内异质性。

以无偏见的方式，t-SNE可以揭示肿瘤亚群，它们与胃癌患者的存活和乳腺癌患者原发性肿瘤的转移状态具有统计相关性。对每个t-SNE簇进行的存活分析将提供非常有用的结果。[3]

6.3 使用wordvec的文本比较

词向量表示法捕获许多语言属性，如性别，时态，复数甚至语义概念，如“首都城市”。使用降维，可以计算出使语义相似的词彼此临近的2D地图。这种技术组合可以用于提供不同文本资料的鸟瞰图，包括文本摘要及其资料源。这使用户能够像使用地图一样探索文本资料。[4]

7. t-SNE与其它降维算法的对比

下边我们将要比较t-SNE和其它算法的性能。这里的性能是基于算法所达到的准确度，而不是时间及运算资源的消耗与准确度之间的关系。

t-SNE产生的结果优于PCA和其它线性降维模型。这是因为诸如经典缩放的线性方法不利于建模曲面的流型。它专注于保持远离的数据点之间的距离，而不是保留临近数据点之间的距离。

t-SNE在高维空间中采用的高斯核心函数定义了数据的局部和全局结构之间的软边界。 对于高斯的标准偏差而言彼此临近的数据点对，对它们的间隔建模的重要性几乎与那些间隔的大小无关。 此外，t-SNE基于数据的局部密度（通过强制每个条件概率分布具有相同的困惑度）分别确定每个数据点的局部邻域大小[1]。这是因为算法定义了数据的局部和全局结构之间的软边界。与其他非线性降维算法不同，它的性能优于其它任何一个算法。

8. 案例实践

让我们用MNIST手写数字数据库来实现t-SNE算法。这是最被广泛探索的图像处理的数据集之一。

81.使用R代码

“Rtsne”包具有t-SNE在R语言中的实现。“Rtsne”包可以通过在R控制台中键入以下命令安装：

install.packages(“Rtsne”)

• 超参数调试

• 代码

MNIST数据可从MNIST网站下载，并可用少量代码转换为csv文件。对于此示例，请下载以下经过预处理的MNIST数据。

## calling the installed package
train<- read.csv(file.choose()) ## Choose the train.csv file downloaded from the link above
library(Rtsne)
## Curating the database for analysis with both t-SNE and PCA
Labels<-train$label
train$label<-as.factor(train$label)
## for plotting
colors = rainbow(length(unique(train$label)))
names(colors) = unique(train$label)

## Executing the algorithm on curated data
tsne<- Rtsne(train[,-1], dims = 2, perplexity=30, verbose=TRUE, max_iter = 500)
exeTimeTsne<- system.time(Rtsne(train[,-1], dims = 2, perplexity=30, verbose=TRUE, max_iter = 500))

## Plotting
plot(tsne$Y, t='n', main="tsne")
text(tsne$Y, labels=train$label, col=colors[train$label])

• 执行时间

exeTimeTsne
user system elapsed
118.037 0.000 118.006

exectutiontimePCA
user system elapsed
11.259 0.012 11.360

可以看出，运行于相同样本规模的数据，与PCA相比t-SNE所需时间明显更长。

• 解读结果

这些图可用于探索性分析。输出的x和y坐标以及成本代价值可以用作分类算法中的特征值

8.2使用Rython语句

一个重要的事情要注意的是“pip install tsne”会产生错误。不建议安装“tsne”包。 t-SNE算法可以从sklearn包中访问。

• 超参数调试

•代码

以下代码引自sklearn网站的sklearn示例。

## importing the required packages
from time import time
import numpy as np
importmatplotlib.pyplot as plt
from matplotlib import offsetbox
from sklearn import (manifold, datasets, decomposition, ensemble,
discriminant_analysis, random_projection)
## Loading and curating the data
digits = datasets.load_digits(n_class=10)
X = digits.data
y = digits.target
n_samples, n_features = X.shape
n_neighbors = 30
## Function to Scale and visualize the embedding vectors
defplot_embedding(X, title=None):
x_min, x_max = np.min(X, 0), np.max(X, 0)
X = (X - x_min) / (x_max - x_min)
plt.figure()
ax = plt.subplot(111)
fori in range(X.shape[0]):
plt.text(X[i, 0], X[i, 1], str(digits.target[i]),
color=plt.cm.Set1(y[i] / 10.),
fontdict={'weight': 'bold', 'size': 9})
ifhasattr(offsetbox, 'AnnotationBbox'):
## only print thumbnails with matplotlib> 1.0
shown_images = np.array([[1., 1.]]) # just something big
fori in range(digits.data.shape[0]):
dist = np.sum((X[i] - shown_images) ** 2, 1)
if np.min(dist) < 4e-3:
## don't show points that are too close
continue
shown_images = np.r_[shown_images, [X[i]]]
imagebox = offsetbox.AnnotationBbox(
offsetbox.OffsetImage(digits.images[i], cmap=plt.cm.gray_r),
X[i])
ax.add_artist(imagebox)
plt.xticks([]), plt.yticks([])
if title is not None:
plt.title(title)

#----------------------------------------------------------------------
## Plot images of the digits
n_img_per_row = 20
img = np.zeros((10 * n_img_per_row, 10 * n_img_per_row))
for i in range(n_img_per_row):
ix = 10 * i + 1
for j in range(n_img_per_row):
iy = 10 * j + 1
img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))
plt.imshow(img, cmap=plt.cm.binary)
plt.xticks([])
plt.yticks([])
plt.title('A selection from the 64-dimensional digits dataset')
## Computing PCA
print("Computing PCA projection")
t0 = time()
X_pca = decomposition.TruncatedSVD(n_components=2).fit_transform(X)
plot_embedding(X_pca,
"Principal Components projection of the digits (time %.2fs)" %
(time() - t0))
## Computing t-SNE
print("Computing t-SNE embedding")
tsne = manifold.TSNE(n_components=2, init='pca', random_state=0)
t0 = time()
X_tsne = tsne.fit_transform(X)
plot_embedding(X_tsne,
"t-SNE embedding of the digits (time %.2fs)" %
(time() - t0))
plt.show()

• 执行时长

Tsne: 13.40 s
PCA: 0.01 s

PCA结果图（时长0.01s）

t-SNE结果图

9.何时何地使用t-SNE？

9.1 数据科学家

对于数据科学家来说，使用t-SNE的主要问题是算法的黑盒类型性质。这阻碍了基于结果提供推论和洞察的过程。此外，该算法的另一个问题是它不一定在连续运行时永远产生类似的输出。

那么，你怎么能使用这个算法？最好的使用方法是用它进行探索性数据分析。它会给你非常明确地展示数据内隐藏的模式。它也可以用作其他分类和聚类算法的输入参数。

9.2机器学习竞赛爱好者

将数据集减少到2或3个维度，并使用非线性堆栈器将其堆栈。使用保留集进行堆叠/混合。然后你可以使用XGboost提高t-SNE向量以得到更好的结果。

9.3数据科学爱好者

对于才开始接触数据科学的数据科学爱好者来说，这种算法在研究和性能增强方面提供了最好的机会。已经有一些研究论文尝试通过利用线性函数来提高算法的时间复杂度。但是尚未得到理想的解决方案。针对各种实施t-SNE算法解决自然语言处理问题和图像处理应用程序的研究论文是一个尚未开发的领域，并且有足够的空间范围。

10.常见错误

以下是在解释t-SNE的结果时要注意的几个点：

1.为了使算法正确执行，困惑度应小于数据点数。此外，推荐的困惑度在（5至50）范围内

2.有时，具有相同超参数的多次运行结果可能彼此不同。

3.任何t-SNE图中的簇大小不得用于标准偏差，色散或任何其他诸如此类的度量。这是因为t-SNE扩展更密集的集群，并且使分散的集群收缩到均匀的集群大小。这是它产生清晰的地块的原因之一。

4.簇之间的距离可以改变，因为全局几何与最佳困惑度密切相关。在具有许多元素数量不等的簇的数据集中，同一个困惑度不能优化所有簇的距离。

5.模式也可以在随机噪声中找到，因此在决定数据中是否存在模式之前，必须检查具有不同的超参数组的多次运算结果。

6.在不同的困惑度水平可以观察到不同的簇形状。

7.拓扑不能基于单个t-SNE图来分析，在进行任何评估之前必须观察多个图。

参考资料

[1] L.J.P. van der Maaten and G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008

[2] Jizheng Yi et.al. Facial expression recognition Based on t-SNE and AdaBoostM2.

IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber,Physical and Social Computing (2013)

[3] Walid M. Abdelmoulaa et.al. Data-driven identification of prognostic tumor subpopulations using spatially mapped t-SNE of mass spectrometry imaging data.

12244–12249 | PNAS | October 25, 2016 | vol. 113 | no. 43

[4] Hendrik Heuer. Text comparison using word vector representations and dimensionality reduction. 8th EUR. CONF. ON PYTHON IN SCIENCE (EUROSCIPY 2015)

结束语：

看完这篇文章，相信你一定很想去进一步探索t-SNE算法并使用它。如果你有使用t-SNE算法的经验，欢迎给我们留言分享~

原文链接：

https://www.analyticsvidhya.com/blog/2017/01/t-sne-implementation-r-python/

【今日机器学习概念】

Have a Great Defination

线下课程推荐|机器学习和人工智能方向

新年新目标，稀牛喊你找工作啦！

✪ 高频面试考点

✪ 行业项目经验

✪ 简历修改完善

✪ 面试注意事项

VIP小班授课，定制化服务，2018春招Offer触手可即！

志愿者介绍

回复“志愿者”加入我们

你可能感兴趣的:(还在用PCA降维？快学学大牛最爱的t-SNE算法吧（附Python/R代码）)

分库分表之实战-sharding-JDBC绑定表配置实战
大家好，我是工藤学编程一个正在努力学习的小博主，期待你的关注实战代码系列最新文章C++实现图书管理系统（QtC++GUI界面版）SpringBoot实战系列【SpringBoot实战系列】Sharding-Jdbc实现分库分表到分布式ID生成器Snowflake自定义wrokId实战环境搭建大集合环境搭建大集合(持续更新）分库分表分库分表之实战-sharding-JDBC水平分库+水平分表配置实战
华为OD机试2025B卷 - 返回矩阵中非1的元素、个数/数值同化（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od 矩阵 javascript c++python
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述存在一个m*n的二维数组，其成员取值范围为0，1，2。其中值为1的元素具备同化特性，每经过1S，将上下左右值为0的元素同化为1。而值为2的元素，免疫同化。将数组所有成员随机初始化为0或2，再将矩阵的[0,0]元素修改成1，在经过足够长的时间后求矩阵中有多少个元素是0或2（即0和2数量之和）。输入描述输入的前两个数字是矩
华为OD机试2025A卷 - 返回矩阵中非1的元素个数/数值同化（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od 矩阵 javascript c++python 华为OD2025A卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述存在一个m*n的二维数组，其成员取值范围为0，1，2。其中值为1的元素具备同化特性，每经过1S，将上下左右值为0的元素同化为1。而值为2的元素，免疫同化。将数组所有成员随机初始化为0或2，再将矩阵的[0,0]元素修改成1，在经过足够长的时间后求矩阵中有多少个元素是0或2（即0和2数量之和）。输入描述输入的前两个数字是矩
贾子军事五定律（Kucius‘ Five Laws of War）：跨越时空的军事智慧洞察
贾子军事五定律（Kucius'FiveLawsofWar）：跨越时空的军事智慧洞察摘要：本文深入剖析贾子军事五定律，即“战争就是政治，情报就是数字，兵法就是艺术，打仗就是数学，全胜就是智慧”，结合世界著名兵法尤其是中国古代兵法，以及古今战争实例，包括一战、二战及战后冲突，探讨其在不同历史时期的体现与应用。同时，联系当前国际形势，阐述该定律对现代军事战略与决策的深远指导意义，旨在揭示其跨越时空的军事
Linux调试器gdb和cgdb的使用【Ubuntu】大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 linux ubuntu 运维
Linux调试器gdb和cgdb的使用【Ubuntu】一、样例代码在介绍如何使用gdb和cgdb之前，先准备一个简单的C程序作为调试示例。假设我们有一个简单的程序example.c，它包含了一个求数组平均值的函数。#include#defineSIZE5doublecalculate_average(intarr[],intsize){intsum=0;for(inti=0;i
LeetCode算法题6：贪心 - 跳跃游戏
文章目录前言贪心算法：一、跳跃游戏思路二、跳跃游戏II思路总结前言贪心算法系列：（之前还有一篇文章描述的也是贪心算法：https://blog.csdn.net/Little_ant_/article/details/116098188）贪心算法：以下摘自百度百科：贪心算法（又称贪婪算法）是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，算法得到的是在某种意义
pytorch 自动微分 this_show_time pytorch 人工智能 python 机器学习
自动微分1.基础概念1.1.**张量**1.2.**计算图**：1.3.**反向传播**1.4.**梯度**2.计算梯度2.1标量梯度计算2.2向量梯度计算2.3多标量梯度计算2.4多向量梯度计算3.梯度上下文控制3.1控制梯度计算（withtorch.no_grad()）3.2累计梯度3.3梯度清零(torch.zero_())自动微分模块torch.autograd负责自动计算张量操作的梯度，
C语言：第03天笔记 Star在努力 c语言笔记算法
C语言：第03天笔记内容提要运算符算术运算符赋值运算符关系运算符逻辑运算符逗号运算符位运算运算符各类数值型数据间的混合运算整型、浮点型、字符型数据可以进行混合运算，如：10-'a'*1.5=10-97*1.5//保证参与运算的都是数字=10.0-97.0*1.5//不同数据类型可以参与运算，编译器会自动将其转换为同一数据类型后再运算（隐式类型转换）解释：整型、浮点型、字符型之间都可以参与混合运算，
Web-API-day4 DOM节点码哥DFS javascript 开发语言 ecmascript
一、日期对象1.实例化日期对象constdate=newDate()指定时间constdate1=newDate('2025-7-922-00-00')获取日期的另一种表达方式：toLocaleString()2.获取日期对象每一个部分getFullYear():获取年份getMonth()+1:获取月份getDate()：获取月份某中某一天getHours():获取小时getMinutes():
iframe详解和用途解读
前端中的iframe详解1.什么是iframe？iframe（inlineframe）是一种在HTML页面中嵌入另一个HTML页面的方法。通过iframe，你可以在当前网页中显示另一个完全独立的网页，它们是彼此分离的。换句话说，iframe允许你在当前页面中创建一个子窗口，而该窗口可以加载另一个网站或内容。在这个例子中，iframe会在页面中嵌入并显示https://www.example.com
17.Spring Boot的Bean详解（新手版）全栈凯哥全栈项目 spring boot java 后端
文章目录1.什么是Bean？从零开始理解1.1Bean的定义1.2为什么需要Bean？1.3Beanvs普通对象的区别2.Spring容器：Bean的家2.1什么是Spring容器？2.2容器的工作流程3.Bean的声明方式详解3.1使用@Component及其专门化注解3.1.1@Component-通用组件3.1.2@Service-业务逻辑层3.1.3@Repository-数据访问层3.1
机器学习-K近邻算法 shy_snow python 机器学习机器学习近邻算法人工智能
k-近邻分类算法，即物以类聚的思想，通过已知分类中的点和未知分类的点距离最近的前k个点的分类来预测未知点的分类。kNN.pyfromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']returngroup,label
华为od 机试 2025 B卷 - 数值同化 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
数值同化华为OD机试真题目录:点击去查看华为OD2025B卷100分题型题目描述存在一个m*n的二维数组，其成员取值范围为0，1，2。其中值为1的元素具备同化特性，每经过1S，将上下左右值为0的元素同化为1，而值为2的元素，免疫同化。将数组所有成员随机初始化为0或2，再将矩阵的[0,0]元素修改为1，在经过足够长的时间后，求矩阵中有多少个元素是0或2（即0和2数量之和）。输入描述输入的前两个数字是
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
cocos2dx3.x项目升级到xcode15以上的iconv与duplicate symbols报错问题 itme268 iconv报错
cocos2dx3.x项目升级xcode15以上后会有几处报错。1.CCFontAtlas.cpp文件下的iconv与iconv_close的报错。修改如下：//iconv_close(_iconv);iconv_close((iconv_t)_iconv);iconv((iconv_t)_iconv,(char**)&pin,&inLen,&pout,&outLen);//iconv(_icon
微信小程序ts+sassjlin-ui
1、根目录已有package.json所以直接安装即可npminstalllin-ui2、在project.config.json的setting中加入配置，重启开发工具！！！es6和enhance可在详情-本地设置-勾选将js编译成es5"es6":true,"enhance":true,"packNpmManually":true,"packNpmRelationList":[{"packag
使用Python调用C++：简单易学的方法程序员杨弋 Python全栈工程师学习指南 python c++开发语言
Python是一种易于学习和理解的编程语言，而C++是强大的编程语言。Python代码可以在很短的时间内编写出来，但如果涉及到大量的计算或需要高性能，则需要使用更快、更高效的编程语言。在这种情况下，Python调用C++是一种常见的方法，因为它可以提供C++的高速性能和Python的便捷性。在本文中，我们将介绍如何使用Python调用C++。首先，需要创建C++函数库（DLL），并确保该库包含需要
python之vars函数使用介绍 yueguang8 python python 开发语言
在Python中,vars()是一个内置函数,它可以用来获取对象的属性字典。1.vars()函数的用法无参数调用vars()：当不带参数调用vars()时,它会返回当前本地作用域中的变量名和值组成的字典。带参数调用vars()：当传递一个对象作为参数时,vars()会返回该对象的属性字典。这等价于object.__dict__。下面是一些示例:#无参数调用x=10y=20print(vars())
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
【人工智能】大比拼：文心一言 VS ChatGPT —— 禅与计算机程序设计艺术亲自测评 AI天才研究院 ChatGPT 人工智能文心一言 chatgpt
收到了百度“文心一言”的内测邀请，现在给大家亲身体验测评一下！禅与计算机程序设计艺术先说结论：文心一言表现基本符合预期。与ChatGPT有一定差距，应该在几个月左右。但是禅与计算机程序设计艺术，挺期待ChatGLM-130B版本的效果的。因为，ChatGLM-6B在本地测评的效果，还是非常不错的！目录文心一言写一篇论文介绍一下你自己，从技术原理、应用场景、未来发展、当前不足等方面，不少于3000字
Django怎么获取get请求里面的参数
获取get请求里面参数的两种方法之三种写法一，当get网址是127.0.0.1:8000/info/?id=20&s_id=30这种类型的网址时我们在urls的路由的urlpatterns里面里面这样定义路由url(r'info/$',views.info),那么我们怎么把参数取出来呢因为我们调用的是views里面的info函数，所以我们可以这样获取到通过request.GET获取请求携带的参数d
华为OD面试手撕真题 - 统计好三元组无限码力华为OD面试手撕代码真题合集华为od 华为OD面试手撕真题
题目描述给你一个整数数组arr，以及a、b、c三个整数。请你统计其中好三元组的数量。如果三元组(arr[i],arr[j],arr[k])满足下列全部条件，则认为它是一个好三元组。0<=i
get和post获取数据的方式曦紫沐 get获取数据 post获取数据登录注册
1、获取get请求提交的数据当发生GET请求的时候，可以通过request.GET['名称']的方式来获取请求提交的数据2、POST获取数据ifrequest.method=='POST':if'name'inrequest.POSTandrequest.POST['name']value=request.POST['name']returnHttpResponse(value)else:retu
Ajax Get请求获取后台返回的数据 qi_rui_a Php
/**Ajax对象的成员*属性:responseText:以字符串形式接受返回的数据*readyState:*0:刚创建ajax对象*1:已经调用open方法*2:已经调用send方法*3:已经返回部分数据*4:请求完成,数据返回完整*onreadystatechange:事件:当readystatus发生改变的时候*方法:*open()创建新的http请求*send()把请求发送给服务器**/f
python中vars()的作用 m0_45093979 python 开发语言
在Python中，vars()是一个内置函数，用于返回对象的属性和属性值的字典。它可以用于获取一个对象的命名空间中的所有变量和属性，然后以字典的形式返回这些变量和属性的名称及其对应的值。如果没有提供参数给vars()，它会返回当前作用域（scope）的变量和属性。通常在函数内部调用vars()，它将返回函数的局部命名空间中的所有变量和属性。在模块级别调用vars()，它将返回当前模块的全局命名空间
C++调用python的方法
一、C++中调用python接口在线手册：https://docs.python.org/3/c-api/intro.htmlWindows环境下python安装时提供了给C++调用的头文件及库文件。C++中引用头文件include，放在所有标准引用之前。将头文件目录、库文件目录添加到工程属性。调用python提供的API，传入模块名、函数名、函数参数（封装成PyObject的形式）获取返回值并解
在Windows系统中配置Python 3.11环境安装教程俊星学长 windows python3.11
在Windows系统中配置Python3.11环境安装教程是一个相对直接且简单的过程，但为了确保所有步骤都被详细覆盖，我将分步介绍，并提供必要的背景信息和注意事项。以下是详细的安装教程：一、下载Python3.11首先，需要从Python的官方网站下载Python3.11的安装包。请按照以下步骤操作：访问Python官方网站：打开浏览器，访问Python的官方网站。在网站首页，找到并点击“Down
python vars的作用 jjw_zyfx python python 开发语言后端
classMyDict:name="jjw"age=14result=vars(MyDict)print(result)print("*"*30)print(MyDict.__dict__)#说明vars的一个做用就是其等价于调用类的__dict__属性print(result==MyDict.__dict__)print('-'*30)print(vars())print('#'*30)#函数会
《破局节点失效：Erlang分布式容错系统的自愈机制与恢复逻辑》后端
节点故障是无法根除的常态——硬件老化、网络波动、资源耗尽等因素，随时可能让某个节点从集群中“消失”。Erlang语言凭借其面向并发的设计哲学与原生分布式支持，成为构建容错系统的优选工具。但真正的挑战不在于避免故障，而在于当节点失效时，系统能否像有机体自愈般自动恢复，这需要对Erlang的进程模型、分布式通信与状态管理进行深度挖掘，构建一套从故障感知到服务续接的完整逻辑闭环。Erlang节点间的默认
项目篇：加入Python程序之如何在Python中使用C++？ guangcheng0312q python c++windows 开发语言
项目篇：加速Python程序之如何在Python中使用C++？通常像一些耗时的操作，我们期望在C++中去实现，然后使用Python去调用对应的接口，或者因为底层库的原因，需要支持对外的PythonAPI，那么我们通常需要支持在Python中访问C++，如何实现呢？方法比较多，本节以pybind11为例，引入一个完整的项目工程模版，如果你后续有这种需求，可以基于模版去修改。注：(懒人版)本节的所有代
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?