西皮呦

机器学习 | PCA 主成分分析 (Principal Ccnt Analysis)

通常用于高维数据降维。

擒贼先擒王。

我们为什么要进行降维？

其实机器学习就是模拟一个人的成长过程，小时候有老师教，监督学习 ~

开始的时候会教你这是什么那是什么，就是分类；

当认识的差不多了。就需要自己去想，根据经验判断，就是回归；

长大了，老师不见了，就需要自己去想，无监督学习 ~

没有人告诉你是对是错了，只能靠自己的观察，收集信息，分门别类，就是聚类；

事情越来越多，就需要断舍离，复杂问题简单化，降维。

主 —— 王

成分 —— 空间基

分析 —— 求解、降维

1、核心思想及原理

什么是降维

举个栗子：降维

分别投影到x、y轴的分布是不同的。右边显然好一点，正确反映了投影前的位置关系。

但投影到 x 轴就是最好的嘛？显然不是。

所以降维操作要做的就是找到一条轴，将所有点投影到这条轴上，使得投影后的间距最大。

这就是我们要寻找的主元，就是投影轴。

那用数学语言怎么表示呢？

此时就必须借助线性代数这个工具了，其实线性代数要解决的就是在高维空间中如何描述数据以及这些数据之间的运算。

内积定义和几何解释

数据在高维空间中通常用向量或是矩阵来表示。

高维向量的乘法叫做内积。

几何含义就是投影。

中学数学其实都是定义在欧几里得空间，而高维向量是定义在内积空间（准希尔伯特空间）。

空间基底

就像空间中的坐标轴一样，可以表达成内积的形式。

下面的结果就是 (5,6) 在以 (1,0),(0,1)为基底的空间中的投影。

拓展一下，把一个坐标投影到由一组新的基底构成的空间中怎么表示呢？

如下图，其中矩阵 W 其中的每一行都是一个基向量，一共有 k 行，即由 k 个基向量。

数学上我们通常喜欢用一个列向量来表示基向量，

而机器学习中通常使用行向量来表示样本。

姜维的目标就是找到一个最优的特征空间，也就是一个新的基底矩阵，使得维数 k 小于原来的维数 n 。

那怎么才能确保在新的特征空间中数据的分布更好呢，也就是让数据的散度最大？

方差和协方差 —— 衡量数据的散度

假定现在有n个随机变量，它的向量就是

在统计学中，方差就是用来衡量单个随机变量的离散程度

m表示样本的数量，xk i 表示随机变量 xk 的第 i 个观测样本，一共m个。

如果数据预处理均值 = 0，就可以简化成

协方差是用来刻画两个随机变量相似的程度。

令均值 = 0 就可以简化计算。协方差矩阵就是下面的模样

对角线是方差，其余的均为协方差。

方差的空间几何含义：

在横轴上投影的离散程度就是 x1 的方差。

在纵轴上投影的离散程度就是 x2 的方差。

但是都不能准确描述在空间对角线上的离散程度。

协方差矩阵 —— 能够捕捉数据在对角线方向上的离散程度

假设有 m 个 n 维的数据，

降维到数据空间中数据坐标的

方差最大协方差最小的时候最好。

———— 协方差矩阵对角化，找出前面方差大的 k 行做基底。

2、PCA求解算法

协方差矩阵能够捕捉对角倾斜的这种分布。

那怎么找到数据分布的主要方向呢？

特征值和特征向量

特征向量eigenvector

特征值eiger

线性代数中如果一个向量 X 满足：

$AX = \lambda X$

数 $\lambda$ 称为的特征值，称为对应于特征值 $\lambda$ 的特征向量。

是一个线性变化矩阵，物理上特征值 $\lambda$ 就表示对基向量的缩放程度。

紫色的特征值比较大，它就沿着这个方向伸缩的比较大。

所以我们降维的目的就是为了找到 ——

数据协方差矩阵特征值最大的那些特征向量。

算法步骤

假设我们有 m 条 n 维数据，把它排成一个 mxn 的矩阵

原始数据矩阵化 X 后，零均值化（去掉均值的影响）

求协方差矩阵

求协方差矩阵的特征值和特征向量

按特征值从大到小取特征向量前 k 行组成矩阵 W

即为降维后的数据

注意事项

验证集、测试集执行同样的降维

验证集、测试集执行零均值化操作时，均值须计算于训练集，因为训练集是观测到的数据

保证训练集、测试集独立同分布一致性，否则会出现方差漂移

PCA的主要作用

有效缓解维度灾难

数据降噪效果好，当数据收到噪声影响时，最小特征值对应的特征向量往往和噪声有关

降维后数据特征独立

无法解决过拟合，因为虽然保留了主要信息，但是主要信息主要是针对训练集的，未必是重要信息

3、PCA算法代码实现

import numpy as np
import matplotlib.pyplot as plt

w, b = 1.8, 2.5

np.random.seed(0)
x1 = np.random.rand(100) * 4
noise = np.random.randn(100)
x2 = w * x1 + b + noise

x1.shape, x2.shape

((100,), (100,))

纵向合并：

x = np.vstack([x1, x2]).T
x.shape

(100, 2)

plt.scatter(x[:, 0], x[:, 1])
plt.show()

零均值化：

np.mean(x, axis = 0)

array([1.89117536, 6.09644999])

x -= np.mean(x, axis = 0)

plt.scatter(x[:, 0], x[:, 1])
plt.show()

np.mean(x, axis = 0)

array([-1.39888101e-16,  1.49658064e-15])

PCA

from sklearn.decomposition import PCA

pca = PCA(n_components=1)  #主成分个数
pca.fit(x)

PCA

PCA(n_components=1)

pca.components_

array([[0.42746553, 0.90403165]])

plt.scatter(x[:, 0], x[:, 1], s = 10)
plt.plot(
    np.array([pca.components_[0][0] * -1, pca.components_[0][0]]) * 5,
    np.array([pca.components_[0][1] * -1, pca.components_[0][1]]) * 5,
    c = 'r'
)
plt.show()

x_pca = pca.transform(x)

x_pca.shape

(100, 1)

plt.scatter(x_pca, np.zeros_like(x_pca), s = 10)
plt.show()

反向映射回原始空间

x_pca_inv = pca.inverse_transform(x_pca)

plt.scatter(x[:, 0], x[:, 1], s = 10)
plt.scatter(x_pca_inv[:, 0], x_pca_inv[:, 1], s = 10, c = 'r')
plt.show()

没有完全重合，是因为降维毕竟是有信息损失的，而差异的部分正是投影到轴上的部分。

GPT解释：

PCA降维的过程本质上是将原始数据通过投影到主成分（也可以说是特征向量）所确定的轴上，来实现数据的降维。因此，在进行逆变换时，差异的部分就是未能被完全保留的信息，也就是数据点在垂直于主成分方向的轴上的投影。

具体来说，当我们进行PCA降维时，我们选择了最主要的特征向量作为主成分，这些主成分定义了一个新的坐标系，其中每个主成分都可以看作一个新的轴。当我们进行逆变换时，我们将数据点从这个新的坐标系中映射回原始数据所在的空间，由于数据点在降维过程中丢失了一些信息，因此我们只能重建数据点在主成分方向上的投影，而在垂直于主成分方向上的轴上的投影则无法重建。

因此，差异的部分就是未能被完全保留的信息，也就是数据点在垂直于主成分方向的轴上的投影。这些投影部分被认为是"噪声"或者"误差"，它们在逆变换后会导致重建图像与原始图像之间的差异。

4、降维任务代码实现

4.1、数据集

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_digits
digits = load_digits()
x = digits.data
y = digits.target

x.shape, y.shape

((1797, 64), (1797,))

print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each block. This generates
an input matrix of 8x8 where each element is an integer in the range
0..16. This reduces dimensionality and gives invariance to small
distortions.

For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G.
T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C.
L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469,
1994.

.. topic:: References

  - C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
    Applications to Handwritten Digit Recognition, MSc Thesis, Institute of
    Graduate Studies in Science and Engineering, Bogazici University.
  - E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
  - Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin.
    Linear dimensionalityreduction using relevance weighted LDA. School of
    Electrical and Electronic Engineering Nanyang Technological University.
    2005.
  - Claudio Gentile. A New Approximate Maximal Margin Classification
    Algorithm. NIPS. 2000.

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=233)

4.2、PCA降维

from sklearn.decomposition import PCA

pca = PCA()
pca.fit(x_train)

PCA

PCA()

pca.explained_variance_

array([1.81007327e+02, 1.62245915e+02, 1.41965678e+02, 1.00238468e+02,
       6.81939314e+01, 5.82192560e+01, 5.35849636e+01, 4.34003952e+01,
       4.15334270e+01, 3.77412998e+01, 2.95411763e+01, 2.76709665e+01,
       2.14874615e+01, 2.08074313e+01, 1.75469989e+01, 1.69582705e+01,
       1.61421830e+01, 1.51283885e+01, 1.24902934e+01, 1.10196270e+01,
       1.07320199e+01, 9.44840594e+00, 9.09439397e+00, 8.93322578e+00,
       8.46944961e+00, 7.04767976e+00, 6.87546962e+00, 6.31807832e+00,
       5.77351989e+00, 5.18995665e+00, 4.56492303e+00, 4.35442033e+00,
       4.10520804e+00, 3.82441709e+00, 3.72901451e+00, 3.49442464e+00,
       3.17239040e+00, 2.76786099e+00, 2.63864629e+00, 2.57068504e+00,
       2.24762050e+00, 1.85158687e+00, 1.76138992e+00, 1.70038358e+00,
       1.42366072e+00, 1.27843954e+00, 1.13785918e+00, 8.59404411e-01,
       6.72480430e-01, 4.70872656e-01, 3.01051638e-01, 9.86926152e-02,
       6.68544406e-02, 6.52619492e-02, 5.04686299e-02, 1.88299040e-02,
       8.34822998e-03, 1.59088871e-03, 1.50040301e-03, 7.07252921e-04,
       5.25121740e-04, 7.10321039e-31, 7.10321039e-31, 6.79233850e-31])

pca.explained_variance_ratio_

array([1.50332671e-01, 1.34750688e-01, 1.17907268e-01, 8.32514175e-02,
       5.66373528e-02, 4.83530495e-02, 4.45041138e-02, 3.60454873e-02,
       3.44949075e-02, 3.13454184e-02, 2.45349402e-02, 2.29816680e-02,
       1.78460592e-02, 1.72812712e-02, 1.45733726e-02, 1.40844138e-02,
       1.34066257e-02, 1.25646353e-02, 1.03736086e-02, 9.15217073e-03,
       8.91330333e-03, 7.84721880e-03, 7.55319995e-03, 7.41934435e-03,
       7.03416265e-03, 5.85333498e-03, 5.71030867e-03, 5.24737647e-03,
       4.79510238e-03, 4.31043349e-03, 3.79132205e-03, 3.61649248e-03,
       3.40951329e-03, 3.17630697e-03, 3.09707192e-03, 2.90223715e-03,
       2.63477688e-03, 2.29880161e-03, 2.19148445e-03, 2.13504036e-03,
       1.86672439e-03, 1.53780515e-03, 1.46289355e-03, 1.41222573e-03,
       1.18239809e-03, 1.06178702e-03, 9.45030304e-04, 7.13764257e-04,
       5.58517607e-04, 3.91075572e-04, 2.50033507e-04, 8.19675350e-05,
       5.55248606e-05, 5.42022429e-05, 4.19158939e-05, 1.56388684e-05,
       6.93348567e-06, 1.32128656e-06, 1.24613515e-06, 5.87397329e-07,
       4.36131260e-07, 5.89945505e-34, 5.89945505e-34, 5.64126549e-34])

ratio_cum = np.cumsum(pca.explained_variance_ratio_)
ratio_cum

array([0.15033267, 0.28508336, 0.40299063, 0.48624204, 0.5428794 ,
       0.59123245, 0.63573656, 0.67178205, 0.70627696, 0.73762237,
       0.76215731, 0.78513898, 0.80298504, 0.82026631, 0.83483968,
       0.8489241 , 0.86233072, 0.87489536, 0.88526897, 0.89442114,
       0.90333444, 0.91118166, 0.91873486, 0.92615421, 0.93318837,
       0.9390417 , 0.94475201, 0.94999939, 0.95479449, 0.95910492,
       0.96289625, 0.96651274, 0.96992225, 0.97309856, 0.97619563,
       0.97909787, 0.98173264, 0.98403145, 0.98622293, 0.98835797,
       0.9902247 , 0.9917625 , 0.99322539, 0.99463762, 0.99582002,
       0.9968818 , 0.99782684, 0.9985406 , 0.99909912, 0.99949019,
       0.99974023, 0.99982219, 0.99987772, 0.99993192, 0.99997384,
       0.99998948, 0.99999641, 0.99999773, 0.99999898, 0.99999956,
       1.        , 1.        , 1.        , 1.        ])

plt.plot(ratio_cum)
plt.show()

pca = PCA(20)
pca.fit(x_train)

PCA

PCA(n_components=20)

或者

pca = PCA(0.9)
pca.fit(x_train)

PCA

PCA(n_components=0.9)

pca.n_components_

x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

x_train.shape, x_train_pca.shape

((1347, 64), (1347, 21))

4.3、模型训练速度对比

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(solver = 'saga', tol = 0.001, max_iter = 500, random_state = 233)

%%time
clf.fit(x_train, y_train)
clf.score(x_test, y_test)

CPU times: user 983 ms, sys: 58.2 ms, total: 1.04 s
Wall time: 965 ms

0.9622222222222222

%%time
clf.fit(x_train_pca, y_train)
clf.score(x_test_pca, y_test)

CPU times: user 407 ms, sys: 56.5 ms, total: 463 ms
Wall time: 371 ms

0.9555555555555556

4.4、可视化

pca = PCA(2)
pca.fit(x_train)

PCA

PCA(n_components=2)

x_pca_2d = pca.transform(x_test)

x_pca_2d.shape

(450, 2)

plt.rcParams["figure.figsize"] = (12, 8)
for i, digit in enumerate(y_test):
    plt.scatter(x_pca_2d[i, 0], x_pca_2d[i, 1], color = plt.cm.Dark2(digit), marker = "${0}$".format(digit), s = 60, alpha = 0.5)
plt.show()

5、PCA在数据降噪中的应用

import numpy as np
import matplotlib.pyplot as plt

w, b = 1.8, 2.5

np.random.seed(0)
x1 = np.random.rand(100) * 4
noise = np.random.randn(100)
x2 = w * x1 + b + noise

x = np.vstack([x1, x2]).T
x -= np.mean(x, axis = 0)
x.shape

(100, 2)

plt.scatter(x[:, 0], x[:, 1])
plt.show()

PCA

from sklearn.decomposition import PCA

pca = PCA(n_components=1)
pca.fit(x)

PCA

PCA(n_components=1)

x_pca = pca.transform(x)
x_pca_inv = pca.inverse_transform(x_pca)

plt.scatter(x[:, 0], x[:, 1], s = 10)
plt.scatter(x_pca_inv[:, 0], x_pca_inv[:, 1], s = 10, c = 'r')
plt.show()

图像降噪

from sklearn.datasets import load_digits
digits = load_digits()
x = digits.data
y = digits.target

x.shape, y.shape

((1797, 64), (1797,))

def plot_top20_digits(x):
    for i in range(20):
        plt.subplot(4, 5, i + 1)
        plt.xticks([])
        plt.yticks([])
        plt.imshow(x[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation="nearest")
    plt.show()

plot_top20_digits(x)

np.random.seed(0)
x_noise = x + np.random.randn(x.shape[0], x.shape[1]) * 3

plot_top20_digits(x_noise)

pca = PCA(0.5)
pca.fit(x_noise)
x_noise_pca = pca.transform(x_noise)
x_noise_inv = pca.inverse_transform(x_noise_pca)

plot_top20_digits(x_noise_inv)

6、PCA在人脸识别中的应用

Chapter-13/13-7 PCA在人脸识别中的应用.ipynb · 梗直哥/Machine-Learning - Gitee.com

7、PCA优缺点和适用条件

优点

简单容易计算，易于计算机实现

可以有效减少特征选择工作量，降低算法计算开销

不要求数据正态分布，无参数限制，方差衡量信息，无监督学习，不受样本标签限制

有效去除噪声，使得数据更加容易使用

缺点

非高斯分布情况下，PCA得到的祝愿可能并非最优，ICA（独立主元）也许效果更好

特征值分解的求解方法有一定局限性，如：变换的矩阵必须是方阵

降维后存在信息丢失

主成分解释较原始数据比较模糊

使用条件

变量间强相关数据

数据压缩、预处理

数据降维，噪声去除，去除数据的冗余

高维数据及探索和可视化

参考

Machine-Learning: 《机器学习必修课：经典算法与Python实战》配套代码 - Gitee.com

你可能感兴趣的:(机器学习,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs