_用户昵称_

主成分分析（PCA）：探索数据的核心

文章目录

前言
1. 什么是 PCA ？
2. PCA 的原理
- 2.1 协方差和方差
- 2.2 核心思想
- 2.3 步骤
3. PCA 的应用场景
4. PCA 的优缺点
5. 示例：人脸识别
- 5.1 完整代码
- 5.2 运行结果
结语

前言

当今社会，数据无处不在。从社交媒体到金融交易，从医疗诊断到市场分析，数据的规模不断增长，这些数据往往具有高维度和复杂性，使得我们难以直观地理解其内在结构。而如何从海量的数据中提取出有用的信息和模式成为了一个巨大的挑战。这就是主成分分析（Principal Component Analysis，PCA）发挥作用的地方，它作为一种强大的降维技术，可以帮助我们发现数据背后的规律和奥秘。

1. 什么是 PCA ？

主成分分析（Principal Component Analysis，PCA）是一种统计学方法，旨在通过线性变换将原始数据转化为一组新的变量，这些新变量称为主成分。每个主成分都是原始数据的线性组合，且彼此之间相互独立。主成分按照方差的大小排列，前几个主成分包含了数据中大部分的信息。

在机器学习和数据科学领域，主成分分析是一种经典且常用的降维技术。通过将原始数据转换为一组新的无关变量，我们可以摒弃其中的噪声和冗余，提取出数据的主要特征。与其他降维技术相比，主成分分析不仅可以降低数据维度，还能保留尽可能多的信息。

2. PCA 的原理

为了理解主成分分析的原理，首先需要了解协方差和方差的概念。协方差描述了两个变量之间的线性关系程度，方差则衡量单个变量的离散程度。主成分分析基于这些概念，通过寻找投影轴使得数据方差最大化，实现降维的目标。

2.1 协方差和方差

协方差描述了两个变量之间的线性关系程度。对于两个变量 $x$ 和 $y$ ，它们的协方差可以通过以下公式计算：

$\text{cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$

其中， $n$ 表示样本的数量， $x_i$ 和 $y_i$ 分别表示变量 $x$ 和 $y$ 的取值， $\bar{x}$ 和 $\bar{y}$ 表示变量 $x$ 和 $y$ 的均值。协方差的值可以为正、负或零，分别表示正相关、负相关和无关。

方差衡量单个变量的离散程度，可以通过以下公式计算：

$\text{Var}(\mathbf{x}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$

其中， $x_i$ 表示变量 $x$ 的取值， $\bar{x}$ 表示变量 $x$ 的均值。

2.2 核心思想

PCA 的核心思想是通过线性变换将原始数据投影到一个新的坐标系中，该坐标系的特点是使得投影后的数据在各个维度上的方差最大化。通过选择最大方差的特征向量，我们可以得到一个保留了数据主要信息的低维表示。

2.3 步骤

具体来说，PCA 的步骤如下：

标准化数据：对原始数据进行均值中心化和标准差归一化，保证每个特征具有零均值和单位方差，以避免不同尺度的特征对主成分分析的影响。
计算协方差矩阵：根据标准化后的数据计算协方差矩阵，该矩阵描述了各个特征之间的相关性。
特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征向量描述了数据在新的坐标系中的方向，而特征值表示了以该特征向量作为基的重要性。
选择主成分：按照特征值的大小，选择前k个特征向量作为主成分，其中k是我们希望降低后的维度数目。

在选择主成分时，我们通常会选择特征值较大的特征向量。这是因为特征值越大，说明对应的特征向量所表示的主成分包含的信息越多。通过选择适当数量的主成分，我们可以将数据从原始的高维空间投影到低维的空间中，以实现数据降维的目的。
投影数据：将标准化后的数据投影到选择的主成分上，得到降维后的数据表示。

3. PCA 的应用场景

PCA 在各个领域都有广泛的应用。以下是一些常见的应用场景：

数据压缩：对于大规模数据集，PCA 可以大幅度减小数据的维度，从而节省存储空间和计算成本。
数据可视化：通过将高维数据投影到二维或三维空间中，我们可以更好地理解数据集的结构和分布。
特征选择和提取：PCA 能够从原始数据中发现潜在的重要特征，帮助我们理解数据背后的信息。通过选取最重要的主成分，PCA 可以减少模型复杂度和数据存储需求，同时仍能保持较高的分类或回归性能。
去除噪声：如果数据包含了噪声或冗余信息，PCA 可以通过去除其中的低方差分量来消除不相关的噪声和冗余数据，以提高数据质量。
图像处理：使用 PCA 可以对图像进行降噪、压缩和特征提取，对于图像识别、人脸识别等任务具有重要意义。
探索性数据分析：PCA 可以帮助发现数据集中存在的模式和结构，从而帮助决策和洞察。
机器学习：通过降低数据的维度，PCA可以减少模型的复杂性，并提高训练速度和模型的泛化能力。

4. PCA 的优缺点

PCA 作为一种降维技术具有以下优点：

可以简化数据集，降低数据维度，减少冗余和噪声，节省存储和计算的开销。
可以帮助我们理解数据之间的关联性、模式和趋势。
能够保持数据之间的最大差异性，提取主要特征，消除不相关的特征，发现数据中的关键信息。
可以用于数据的可视化，方便数据的分析和理解。

然而，PCA 也存在一些限制和不足：

在应用 PCA 之前，数据需要进行标准化处理，使得不同特征具有相同的权重。
依赖于线性假设，可能无法捕捉非线性关系，对于非线性数据可能效果不佳。
不保证可解释性，可能难以直接解释降维后的每个主成分的意义。
对异常值敏感，在面临异常值时可能会对数据中的异常点过度拟合。
降维过程中可能丢失一些信息，使得某些细节无法完全还原。

因此，在应用 PCA 时，需要根据具体问题的需求和数据的特点来进行权衡和选择。

5. 示例：人脸识别

人脸识别是 PCA 应用的一个典型例子。通过将人脸图像转换为主成分，我们可以捕捉到人脸的主要特征，从而实现人脸识别的任务。

以下是 PCA 实现人脸识别的Python代码：

导入所需的库：

import numpy as np
import os
import cv2
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

在这里，我们导入了numpy用于数组操作，os用于文件路径操作，cv2用于读取和调整图像，sklearn库中的PCA用于主成分分析，KNeighborsClassifier用于K最近邻分类器，train_test_split用于划分训练集和测试集。

选择数据集并读取数据：

dataset_folder = 'Face'
selected_dataset = 'ORL_Faces'

X = []  # 存储人脸图像数据
y = []  # 存储对应的标签

images_folder = os.path.join(dataset_folder, selected_dataset)
for root, dirs, files in os.walk(images_folder):
    for file in files:
        if file.endswith('.pgm') or file.endswith('.jpg'):
            img_path = os.path.join(root, file)
            label = os.path.basename(os.path.dirname(img_path))
            face_img = cv2.imread(img_path, 0)
            face_img = cv2.resize(face_img, (100, 100))
            X.append(face_img.flatten())
            y.append(label)

在这里，我们首先指定数据集所在的文件夹(dataset_folder)，然后选择一个数据集(selected_dataset)。我们遍历数据集文件夹中的每个人脸图像，读取图像并将其存储在x列表中，同时将对应的标签存储在y列表中。

将数据转换为numpy数组，并划分训练集和测试集：

X = np.array(X)
y = np.array(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这一步中，我们将图像数据和标签转换为numpy数组，并使用train_test_split函数将数据集划分为训练集和测试集，其中 20% 的数据作为测试集。

使用 PCA 降维：

n_components = 100
pca = PCA(n_components=n_components, whiten=True)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

在这一步中，我们使用 PCA 进行降维。我们选择了 100 个主成分(n_components = 100)，并通过fit_transform方法对训练集数据进行降维操作，然后使用transform方法对测试集数据进行降维。

使用 K最近邻分类器进行人脸识别：

n_neighbors = 3
knn = KNeighborsClassifier(n_neighbors=n_neighbors)
knn.fit(X_train_pca, y_train)
y_pred = knn.predict(X_test_pca)

在这一步中，我们使用K最近邻分类器进行人脸识别。我们选择了3个邻居(n_neighbors = 3)，并使用fit方法对降维后的训练数据进行分类器训练，然后使用predict方法对降维后的测试数据进行预测。

计算分类准确率：

accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率：{accuracy}%")

在这一步中，我们计算出人脸识别的准确率。我们比较预测结果(y_pred) 和实际标签(y_test)，计算预测值等于实际值的比例，并将其乘以 100 得到准确率。

可视化人脸识别结果：

random_index = np.random.randint(0, len(y_test))
test_img = X_test[random_index].reshape((100, 100))
predicted_label = y_pred[random_index]
true_label = y_test[random_index]

plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')

plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')

plt.tight_layout()
plt.show()

在这一步中，我们随机选择一个测试图像进行可视化。我们首先获取原始图像(test_img)，然后获取预测标签(predicted_label)和实际标签(true_label)。然后，我们使用subplot函数将原始图像和预测结果以子图的形式显示出来，并用标题显示预测标签。

5.1 完整代码

import numpy as np
import os
import cv2
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import matplotlib

matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为中文可显示的字体

dataset_folder = 'Face'  # 数据集所在的文件夹
selected_dataset = 'ORL_Faces'  # 选择ORL_Faces数据集

# 读取数据集
# 首先创建一个空的图像列表和对应的标签列表
X = []  # 存储人脸图像数据
y = []  # 存储对应的标签

# 遍历数据集文件夹中的每个人脸图像
images_folder = os.path.join(dataset_folder, selected_dataset)  # 数据集文件夹的路径
for root, dirs, files in os.walk(images_folder):
    for file in files:
        if file.endswith('.pgm') or file.endswith('.jpg'):
            img_path = os.path.join(root, file)
            label = os.path.basename(os.path.dirname(img_path))
            face_img = cv2.imread(img_path, 0)  # 以灰度图像格式读取人脸图像
            face_img = cv2.resize(face_img, (100, 100))  # 将人脸图像调整为统一大小，以便进行PCA
            X.append(face_img.flatten())  # 将人脸图像展平成一维数组并添加到列表中
            y.append(label)  # 添加对应的标签

# 将图像数据和标签转换为numpy数组
X = np.array(X)
y = np.array(y)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 主成分分析（PCA）降维
n_components = 100  # 设置PCA选择的主成分数量
pca = PCA(n_components=n_components, whiten=True)  # 初始化PCA模型
X_train_pca = pca.fit_transform(X_train)  # 对训练数据进行PCA降维
X_test_pca = pca.transform(X_test)  # 对测试数据进行PCA降维

# 使用K最近邻分类器进行人脸识别
n_neighbors = 3  # 设置K最近邻的邻居数量
knn = KNeighborsClassifier(n_neighbors=n_neighbors)  # 初始化K最近邻分类器
knn.fit(X_train_pca, y_train)  # 对降维后的训练数据进行分类器训练
y_pred = knn.predict(X_test_pca)  # 对降维后的测试数据进行分类器预测

# 计算分类准确率
accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率：{accuracy}%")

# 可视化人脸识别结果
# 随机选择一个测试样本进行可视化
random_index = np.random.randint(0, len(y_test))  # 随机选择一个索引
test_img = X_test[random_index].reshape((100, 100))  # 获取对应的图像
predicted_label = y_pred[random_index]  # 预测的标签
true_label = y_test[random_index]  # 实际的标签

# 显示原始图像
plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')

# 显示预测结果
plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')

plt.tight_layout()
plt.show()

5.2 运行结果

结语

在本篇博客中，我们探讨了 PCA 的概念、原理、应用以及其优缺点。PCA 作为一种简化数据和发现隐藏信息的利器，对于数据分析和特征提取具有重要意义。希望读者通过本文的学习，能够深入理解 PCA，并将其应用于实际问题中。然而，在应用 PCA 时，我们需要考虑数据的特点和具体问题的需求选择合适的主成分数量，并对结果进行解释和验证。

希望这篇博客对您有所帮助！如果您对主成分分析有更多的兴趣，建议进一步学习和探索相关的算法和应用。如果您有任何问题或疑惑，欢迎在下方留言讨论。感谢阅读！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin