htuhxf

ML - sklearn实现 PCA主成分分析

原文：principal component analysis with scikit-learn by Niraj Verma. （有删改）

kaggle项目Crowdedness at the Campus Gym(附data.csv下载)

PCA的一般步骤

数据标准化/中心化(数据减去均值)

通过协方差矩阵 or 相关系数矩阵，得到特征值和特征向量

从大到小排列特征值，并按需选择前k个特征值（k < 字段的个数）和对应的特征向量

利用选出的k个特征向量构造出转换矩阵W（即投影变换的/线性变换的比例数据矩阵）

利用转换矩阵，对原始数据集的X进行投影，得到用k个PC表示的原始数据集的X部分（即用k个PC代替换数据集的n个字段/feature）。

项目要求和说明：

背景

什么时候我大学体育馆的人最少，我正好去锻炼？数据方面，在去年开>始，我们每隔10分钟记录一次体育馆里的人数。我们还想预测未来的体育馆拥挤度。

目标

指定一个时间（也许是其他的，像天气），预测体育馆的拥挤度。

找出哪些因素对此影响最重要，哪些可以忽略，还有是否可以填加一些因素把预测结果变得更准。

数据

数据集来自于去年（大约每隔10分钟）采集的体育馆人数，共计26000。此外，我还搜集了像天气、学期等等可能影响拥挤度的信息。我想要预测的是“人数”字段。
被预测字段：

lable
预测字段：

date：string，时间的datetime类型

timestamp：int，当天的按秒计算的时间戳

day_of_week：int，0[星期一] ~ 6[星期日]

is_weekend：int，1表示周末，0表示非周末

is_holiday：int，1表示假期，0表示非假期

temperature：float，华氏温度

is_start_of_semester：int，1表示是学期初，0不是

month：int，1~12代表12个月

hour：int，1~23代表一天的24小时

致谢

经学校和体育馆的同意，才收集了这些数据。

我将用Scikit-learn通过最大离散度找出所有的成分，并分离出主成分。

第一，对原始数据标准化，

"""先检查一下`data.csv`的数据类型等信息："""
import pandas as pd

df = pd.read_csv('path+data.csv', low_memory=False)

print(df.info)
# 结果如下
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62184 entries, 0 to 62183
Data columns (total 11 columns):
number_people           62184 non-null int64
date                    62184 non-null object
timestamp               62184 non-null int64
day_of_week             62184 non-null int64
is_weekend              62184 non-null int64
is_holiday              62184 non-null int64
temperature             62184 non-null float64
is_start_of_semester    62184 non-null int64
is_during_semester      62184 non-null int64
month                   62184 non-null int64
hour                    62184 non-null int64
dtypes: float64(1), int64(9), object(1)
memory usage: 5.2+ MB

print(df.describe())
# 结果如下：
       number_people     timestamp   day_of_week    is_weekend    is_holiday   temperature  is_start_of_semester  is_during_semester         month          hour  temperature_celsius
count   62184.000000  62184.000000  62184.000000  62184.000000  62184.000000  62184.000000          62184.000000        62184.000000  62184.000000  62184.000000         62184.000000
mean       29.072543  45799.437958      2.982504      0.282870      0.002573     58.557108              0.078831            0.660218      7.439824     12.236460            14.753949
std        22.689026  24211.275891      1.996825      0.450398      0.050660      6.316396              0.269476            0.473639      3.445069      6.717631             3.509109
min         0.000000      0.000000      0.000000      0.000000      0.000000     38.140000              0.000000            0.000000      1.000000      0.000000             3.411111
25%         9.000000  26624.000000      1.000000      0.000000      0.000000     55.000000              0.000000            0.000000      5.000000      7.000000            12.777778
50%        28.000000  46522.500000      3.000000      0.000000      0.000000     58.340000              0.000000            1.000000      8.000000     12.000000            14.633333
75%        43.000000  66612.000000      5.000000      1.000000      0.000000     62.280000              0.000000            1.000000     10.000000     18.000000            16.822222
max       145.000000  86399.000000      6.000000      1.000000      1.000000     87.170000              1.000000            1.000000     12.000000     23.000000            30.650000

"""PCA适用于变量间有相关性的情况，相关性越高，起到的降维作用越好。"""
print(df.corr())  
# 结果如下：
                       number_people  timestamp  day_of_week  is_weekend  is_holiday  temperature  is_start_of_semester  is_during_semester     month      hour  temperature_celsius
number_people              1.000000   0.550218    -0.162062   -0.173958   -0.048249     0.373327              0.182683            0.335350 -0.097854  0.552049             0.373327
timestamp                  0.550218   1.000000    -0.001793   -0.000509    0.002851     0.184849              0.009551            0.044676 -0.023221  0.999077             0.184849
day_of_week               -0.162062  -0.001793     1.000000    0.791338   -0.075862     0.011169             -0.011782           -0.004824  0.015559 -0.001914             0.011169
is_weekend                -0.173958  -0.000509     0.791338    1.000000   -0.031899     0.020673             -0.016646           -0.036127  0.008462 -0.000517             0.020673
is_holiday                -0.048249   0.002851    -0.075862   -0.031899    1.000000    -0.088527             -0.014858           -0.070798 -0.094942  0.002843            -0.088527
temperature                0.373327   0.184849     0.011169    0.020673   -0.088527     1.000000              0.093242            0.152476  0.063125  0.185121             1.000000
is_start_of_semester       0.182683   0.009551    -0.011782   -0.016646   -0.014858     0.093242              1.000000            0.209862 -0.137160  0.010091             0.093242
is_during_semester         0.335350   0.044676    -0.004824   -0.036127   -0.070798     0.152476              0.209862            1.000000  0.096556  0.045581             0.152476
month                     -0.097854  -0.023221     0.015559    0.008462   -0.094942     0.063125             -0.137160            0.096556  1.000000 -0.023624             0.063125
hour                       0.552049   0.999077    -0.001914   -0.000517    0.002843     0.185121              0.010091            0.045581 -0.023624  1.000000             0.185121
temperature_celsius        0.373327   0.184849     0.011169    0.020673   -0.088527     1.000000              0.093242            0.152476  0.063125  0.185121             1.000000

"""数据标准化"""
df.drop(['date'], axis=1, inplace=True)          # 把object类型的字段删去
df['temperature_celsius'] = (df['temperature'] - 32)*5/9
X = df.iloc[:, 1:]
Y = df.iloc[:, 0]

from sklearn.preprocessing import StandardScaler as ss
X_z = ss().fit_transform(X)
print(X_z)
# 结果如下
[[ 0.63654993  0.50956119 -0.6280507  ...  0.16260365  0.70911589
   2.09027384]
 [ 0.68623792  0.50956119 -0.6280507  ...  0.16260365  0.70911589
   2.09027384]
 [ 0.71106127  0.50956119 -0.6280507  ...  0.16260365  0.70911589
   2.09027384]
 ...
 [ 0.94008862  1.01036016  1.59222814 ... -1.28875789  1.0068423
  -0.292433  ]
 [ 0.96515979  1.01036016  1.59222814 ... -1.28875789  1.0068423
  -0.292433  ]
 [ 0.99010704  1.01036016  1.59222814 ... -1.28875789  1.0068423
  -0.292433  ]]

from sklearn.decomposition import PCA
pca = PCA()
X_pca = pca.fit_transform(X_z)         # 得到的PCA结果，第1列(不是第一个list）是PC1...第N列是PCN。
print(X_pca)
# 结果如下
[[-2.52371919e+00 -1.02165587e-01 -7.65529294e-01 ...  8.72699113e-01
  -5.23663858e-02  3.40296358e-15]
 [-2.54686265e+00 -9.57848184e-02 -7.40213044e-01 ...  8.72687573e-01
  -1.72331263e-02 -1.29498448e-15]
 [-2.55842476e+00 -9.25970864e-02 -7.27565441e-01 ...  8.72681808e-01
   3.18901020e-04  1.98657875e-17]
 ...
 [-7.12791225e-01 -1.42032095e+00  1.68688247e+00 ... -4.38148124e-01
  -4.63899475e-02  3.32313751e-16]
 [-7.24468765e-01 -1.41710139e+00  1.69965634e+00 ... -4.38153947e-01
  -2.86626919e-02  2.53854488e-16]
 [-7.36088590e-01 -1.41389775e+00  1.71236707e+00 ... -4.38159741e-01
  -1.10230504e-02  2.53899624e-16]]

第二，获得各个特征值，得到各个主成分的贡献率：

"""特征值和特诊向量都是通过“协方差矩阵” / “相关系数矩阵”得来的。"""
# 特征向量/PC
X_cov = pca.get_covariance() 
print(X_cov)
# 结果如下
[[ 1.00001608e+00 -1.79321968e-03 -5.08815704e-04  2.85078360e-03
   1.84852463e-01  9.55105884e-03  4.46766172e-02 -2.32214497e-02
   9.99093506e-01  1.84852463e-01]
 [-1.79321968e-03  1.00001608e+00  7.91350923e-01 -7.58632581e-02
   1.11689106e-02 -1.17822146e-02 -4.82370614e-03  1.55589363e-02
  -1.91430511e-03  1.11689106e-02]
 [-5.08815704e-04  7.91350923e-01  1.00001608e+00 -3.18993471e-02
   2.06736733e-02 -1.66460432e-02 -3.61277725e-02  8.46248251e-03
  -5.17297084e-04  2.06736733e-02]
 [ 2.85078360e-03 -7.58632581e-02 -3.18993471e-02  1.00001608e+00
  -8.85280154e-02 -1.48581472e-02 -7.07995743e-02 -9.49438154e-02
   2.84321058e-03 -8.85280154e-02]
 [ 1.84852463e-01  1.11689106e-02  2.06736733e-02 -8.85280154e-02
   1.00001608e+00  9.32433629e-02  1.52478347e-01  6.31255958e-02
   1.85123709e-01  1.00001608e+00]
 [ 9.55105884e-03 -1.17822146e-02 -1.66460432e-02 -1.48581472e-02
   9.32433629e-02  1.00001608e+00  2.09865473e-01 -1.37161817e-01
   1.00908854e-02  9.32433629e-02]
 [ 4.46766172e-02 -4.82370614e-03 -3.61277725e-02 -7.07995743e-02
   1.52478347e-01  2.09865473e-01  1.00001608e+00  9.65572296e-02
   4.55815903e-02  1.52478347e-01]
 [-2.32214497e-02  1.55589363e-02  8.46248251e-03 -9.49438154e-02
   6.31255958e-02 -1.37161817e-01  9.65572296e-02  1.00001608e+00
  -2.36238823e-02  6.31255958e-02]
 [ 9.99093506e-01 -1.91430511e-03 -5.17297084e-04  2.84321058e-03
   1.85123709e-01  1.00908854e-02  4.55815903e-02 -2.36238823e-02
   1.00001608e+00  1.85123709e-01]
 [ 1.84852463e-01  1.11689106e-02  2.06736733e-02 -8.85280154e-02
   1.00001608e+00  9.32433629e-02  1.52478347e-01  6.31255958e-02
   1.85123709e-01  1.00001608e+00]]

# 各个主成分的贡献率
exp_var_ratio = pca.explained_variance_ratio_         # 特征根由`pca.explained_variance_` 得到。
print( exp_var_ratio)                                 # = 特征根/(∑特征根)，由大到小排列
# 结果如下
[2.42036778e-01 1.80603471e-01 1.68435608e-01 1.17166687e-01
 1.09788190e-01 9.15207736e-02 6.96821472e-02 2.06741500e-02
 9.21953788e-05 7.50897755e-33]


import matplotlib.pyplot as plt                                   # 把PC贡献率可视化
with plt.style.context('dark_background'):
    plt.figure(figsize=(6, 4))
    plt.bar(range(10), exp_var_ratio, alpha=0.5, label='individual explained ratio')
    plt.ylabel('Explained variance ratio')
    plt.xlabel('Principal components')
    plt.legend(loc='best')
    plt.tight_layout()
    plt.show()

结果如下

由以上数据图表可知：前5项PC累计贡献了样本81.8%的数据variance，已经高于80%。因此，取前5项为所需主成分，即pca = PCA(n_components=5)。

pca = PCA(n_components=5)
X_pca = pca.fit_transform(X_z)
print(X_pca)
# 结果如下
 [[-2.52371919 -0.10216559 -0.76552929 -1.22396235  1.53217624]
 [-2.54686265 -0.09578482 -0.74021304 -1.22400732  1.52823602]
 [-2.55842476 -0.09259709 -0.72756544 -1.22402979  1.52626755]
 ...
 [-0.71279123 -1.42032095  1.68688247  0.91645937  0.06458138]
 [-0.72446876 -1.41710139  1.69965634  0.91643668  0.06259325]
 [-0.73608859 -1.41389775  1.71236707  0.91641411  0.06061496]] 
 
exp_var_ratio = pca.explained_variance_ratio_
print(exp_var_ratio)
# 结果如下
 [0.24203678 0.18060347 0.16843561 0.11716669 0.10978819]

X_cov = pca.get_covariance()
print(X_cov)
# 结果如下
 [[ 1.18126450e+00 -1.58275818e-03 -2.66182121e-04  5.27615806e-03
   1.84892362e-01  3.93229836e-03  5.12023262e-02 -2.61721115e-02
   8.17340026e-01  1.84892362e-01]
 [-1.58275818e-03  1.07770228e+00  7.11588443e-01 -8.82475845e-02
   1.21242313e-02 -6.43007283e-03 -1.94010854e-02  1.01818019e-02
  -1.63729687e-03  1.21242313e-02]
 [-2.66182121e-04  7.11588443e-01  1.07565931e+00 -6.72583698e-02
   1.99851577e-02 -1.69306859e-02 -4.52216206e-02 -8.91957017e-03
  -3.35532272e-04  1.99851577e-02]
 [ 5.27615806e-03 -8.82475845e-02 -6.72583698e-02  6.26235805e-01
  -8.61955745e-02 -3.79245924e-03 -2.28998452e-01 -2.94481045e-01
   5.20774477e-03 -8.61955745e-02]
 [ 1.84892362e-01  1.21242313e-02  1.99851577e-02 -8.61955745e-02
   1.18197708e+00  9.41691578e-02  1.52463110e-01  6.50814362e-02
   1.85134572e-01  8.18032697e-01]
 [ 3.93229836e-03 -6.43007283e-03 -1.69306859e-02 -3.79245924e-03
   9.41691578e-02  8.64641162e-01  3.43360664e-01 -2.31653204e-01
   4.49226491e-03  9.41691578e-02]
 [ 5.12023262e-02 -1.94010854e-02 -4.52216206e-02 -2.28998452e-01
   1.52463110e-01  3.43360664e-01  8.10464110e-01  1.08012471e-01
   5.16520108e-02  1.52463110e-01]
 [-2.61721115e-02  1.01818019e-02 -8.91957017e-03 -2.94481045e-01
   6.50814362e-02 -2.31653204e-01  1.08012471e-01  8.18934492e-01
  -2.63476037e-02  6.50814362e-02]
 [ 8.17340026e-01 -1.63729687e-03 -3.35532272e-04  5.20774477e-03
   1.85134572e-01  4.49226491e-03  5.16520108e-02 -2.63476037e-02
   1.18130499e+00  1.85134572e-01]
 [ 1.84892362e-01  1.21242313e-02  1.99851577e-02 -8.61955745e-02
   8.18032697e-01  9.41691578e-02  1.52463110e-01  6.50814362e-02
   1.85134572e-01  1.18197708e+00]] 


import matplotlib.pyplot as plt
with plt.style.context('dark_background'):
    plt.figure(figsize=(6, 4))
    plt.bar(range(5), exp_var_ratio, alpha=0.5, label='individual explained ratio')
    plt.ylabel('Explained variance ratio')
    plt.xlabel('Principal components')
    plt.legend(loc='best')
    plt.tight_layout()
    plt.show()

"""直接使用原始数据集"""
from sklearn.model_selection import train_teset_split as tts
X_train, X_test, Y_train, Y_test = tts(X, Y, test_size=0.2, random_state=2)
print(X_train.shape)
print(Y_train.shape)
# 结果如下
(49747, 10)
(49747,)

from sklearn.ensemble import RandomForestRegressor as rfr
model = rfr()
estimators = np.arrange(10, 200, 10)          # the number of the trees in the forest，从版本0.20开始，默认值从10改为了版本0.22的100。
scores = []
for n in estimators:
    model.set_params(n_estimators=n)
    model.fit(X_train, Y_train)                          # 利用训练数据集，训练出模型
    scores.append(model.scores(X_test, Y_test))          # 利用测试数据集，对得到的模型打分
print(scores)
# 结果如下
 [0.9040014330735067, 0.9109092090356825, 0.9122517824346478, 0.9129277530130355, 
 0.9128590712148005, 0.9132001350190141, 0.913857581622087, 0.9147146242697467, 
 0.914636255828675,  0.914535366763662, 0.9143448626642106, 0.9148543271944425, 
 0.9142903118547322,  0.9143236927648354, 0.9144742643877533, 0.915201382906023, 
 0.9143135159363284,  0.9149148188838739, 0.9147401488127863]          # 19个i，对应19个score

plt.title('Effect of n_estimators')
plt.xlabel('n_estimators')
plt.ylabel('scores')
plt.plot(estimators, scores)
plt.show()

"""使用标准化X数据"""
X_Train, X_Test, Y_Train, Y_Test = tts(X_pca,Y, test_size=0.2, random_state=2)
print(X_Train.shape)
print(Y_Train.shape)
# 结果如下
(49747, 5)
(49747,)

Estimators = np.arange(10, 200, 10)
Scores = []
for i in Estimators:
    model.set_params(n_estimators=i)
    model.fit(X_Train, Y_Train)
    Scores.append(model.score(X_Test, Y_Test))
print(Scores)
# 结果如下
[0.9096519467103993, 0.914557126058388, 0.916603418504708, 0.9168129973427912, 
0.9178894023585787, 0.9183634381988838, 0.9185445780186753, 0.9183795517595995, 
0.9188206159613067, 0.919242335569966, 0.9196770032171396, 0.919426817311817, 
0.9195559294055361, 0.9190303971618293, 0.9196906819559586, 0.9194789130574001, 
0.9194809091294857, 0.9197770618950692, 0.9198235192649379]

plt.title('Effect of n_estimators')
plt.xlabel('N_estimators')
plt.ylabel('Score')
plt.plot(Estimators, Scores)
plt.show()

《Hands-On Machine Learning with Scikit-Learn and TenserFlow》的 PCA评价：

“Reducing dimensionality does lose some information (just like compressing an image to JPEG can degrade its quality), so even thought it will speed up training, it may also make your system perform slightly worse. It also makes your piplines a bit more complex and thus harder to maintain. So you should first try to train your system with the original data before considering using dimensionality reduction if training is too slow. In some cases, however, reducing the dimensionality of the training data may filter out some noise and unnecessary details and thus result in higher performance (but in general it won’t; it will just speed up training).”

PCA本质上是原始变量通过线性变换，组合成新的综合变量，即PC，标明了新变量贡献了多大比例的方差，至于新变量的实际意义，要结合背景赋予意义。

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
机器学习与深度学习的区别 eqa11 机器学习
文章目录机器学习与深度学习的区别一、引言二、机器学习概述1、机器学习定义1.1、机器学习的应用2、机器学习算法三、深度学习概述1、深度学习定义1.1、深度学习的应用2、深度学习算法四、机器学习与深度学习的区别1、学习方法2、数据需求3、应用领域五、总结机器学习与深度学习的区别一、引言在人工智能的浪潮中，机器学习和深度学习无疑是最耀眼的两颗明星。它们在许多领域都取得了令人瞩目的成就，从自动驾驶汽车到
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
通俗理解线性回归(Linear Regression) 小夏refresh 机器学习数据挖掘机器学习算法人工智能数据挖掘
线性回归,最简单的机器学习算法,当你看完这篇文章,你就会发现,线性回归是多么的简单.首先,什么是线性回归.简单的说,就是在坐标系中有很多点,线性回归的目的就是找到一条线使得这些点都在这条直线上或者直线的周围,这就是线性回归(LinearRegression).是不是有画面感了?那么我们上图片:![1.png][1]那么接下来,就让我们来看看具体的线性回归吧首先,我们以二维数据为例:我们有一组数据x
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
NPU技术总结技术学习分享 webgl processon
NPUs简介定义:NPUs是一种专门为执行机器学习算法和神经网络操作而设计的处理器。起源:随着人工智能和深度学习的发展，NPUs应运而生，以满足对高效率和高能效的计算需求。NPUs的设计架构:NPUs通常采用不同于传统CPU或GPU的架构，优化了矩阵运算和并行处理。指令集:它们拥有专门的指令集，用于加速神经网络中的常见操作，如卷积和激活函数。NPUs的核心技术并行性:NPUs利用数据并行性和任务并
机器学习面试题目分享面试经验分享机器学习算法工程师深度学习经典问题好家伙VCC 面试机器学习面试经验分享 stm32 嵌入式硬件单片机 fpga开发
标题机器学习面经总结的常见面试题目等作业帮实习视觉算法一面凉凉经3.16号投递图像算法实习生，昨天hr打电话约了今早上牛客面试面试官还是很和蔼的，问了很多基础和细节，平时我都没有注意到的，肯定凉了，在这里记录一下，分享给大家由于我本科研究生都是计算机的，因此问了一些计算机基础的东西，但是由于年代久远，我都不记得了机器学习方面知识因为缺少一些动手实践，因此很多细节都不了解感谢面试官让我了解到这么多不
机器学习算法 —— LightGBM ZShiJ 机器学习算法机器学习算法分类
欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录背景描述数据说明数据来源LightGBMLightGBM原理简介LightGBM的优点LightGBM的缺点LightGBM的应用基于英雄联盟数据集的LightGBM分类实战函数库导入数据读取/载入数据信息简单查看可视化描述利用LightGBM进行训练与预测利用LightGBM进行特征选择通过调整参数获得更好的效果基本参数调整针对训
机器人路径规划的机器学习算法科技大本营机器人机器学习算法
机器学习算法正在重塑机器人在复杂和动态环境中导航的方式，而机器人路径规划就是其中一个重要领域。传统方法通常在受控环境中表现良好，但在处理实时出现的障碍或变化时往往失效。通过机器学习，机器人可以从数据和经验中学习，做出智能决策并优化路线。本文回顾了一些在机器人路径规划领域中占主导地位的主要机器学习算法，它们的实际应用以及推动此技术进一步发展的趋势。了解机器人路径规划机器人路径规划是指确定机器人从起始
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
生成式AI：创造性智能的新纪元 Lill_bin 杂谈人工智能分布式 zookeeper 机器学习算法
引言随着人工智能技术的飞速发展，生成式AI（GenerativeAI）已经成为一个引人注目的领域。它不仅仅是模仿人类行为，而是通过学习大量的数据，创造出全新的内容，如文本、图像、音乐等。本文将探讨生成式AI的基本原理、应用领域以及它对未来社会可能产生的影响。什么是生成式AI？生成式AI是一种利用机器学习算法，特别是深度学习技术，来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似，但又
python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression） weixin_39702649 python logistic regression
机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html一、逻辑回归(LogisticRegression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
周报 | 24.8.26-24.9.1文章汇总双木的木 python拓展学习深度学习拓展阅读目标检测人工智能 python 计算机视觉 gpt transformer stable diffusion
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.19-24.8.25文章汇总-CSDN博客python|提升代码迭代速度的Python重载方法-CSDN博客机器学习算法与Python学习|黑匣子被打开了？能玩的Transformer可视化解释工具！_研究别人的黑盒算法机器学习python-CSDN博客极市平台|语言图像模型大一统！Meta将Transformer和Di
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
【大数据】孤立森林算法大雨淅淅大数据算法 python 大数据人工智能
目录一、孤立森林算法概述二、孤立森林算法优缺点和改进2.1孤立森林算法优点2.2孤立森林算法缺点2.3孤立森林算法改进三、孤立森林算法代码实现3.1孤立森林算法python实现3.2孤立森林算法JAVA实现3.3孤立森林算法C++实现四、孤立森林算法应用一、孤立森林算法概述孤立森林算法是一种用于异常检测的机器学习算法。它基于这样的直觉：异常点是数据中的少数派，它们在特征空间中的分布与正常数据点不同
如何开发针对不平衡分类的成本敏感神经网络 python 背包客研究不平衡学习分类神经网络 python
如何开发针对不平衡分类的成本敏感神经网络深度学习神经网络是一类灵活的机器学习算法，可以在各种问题上表现良好。神经网络使用误差反向传播算法进行训练，该算法涉及计算模型在训练数据集上产生的误差，并根据这些误差的比例更新模型权重。这种训练方法的局限性在于，每个类别的示例都被视为相同，对于不平衡的数据集，这意味着模型对一个类别的适应性要强得多，而对另一个类别的适应性则弱得多。反向传播算法可以更新，以根据类
大肠杆菌数据集的不平衡多类分类 Python 背包客研究不平衡学习分类 python 人工智能
大肠杆菌数据集的不平衡多类分类关注博主学习更多内容关注vxGZH:多目标优化与学习Lab教程概述本教程分为五个部分；他们是：大肠杆菌数据集探索数据集模型测试和基线结果评估模型评估机器学习算法评估数据过采样对新数据进行预测大肠杆菌数据集在这个项目中，我们将使用一个标准的不平衡机器学习数据集，称为“大肠杆菌”数据集，也称为“蛋白质定位位点”数据集。该数据集描述了利用细胞定位位点的氨基酸序列对大肠杆菌蛋
人工智能在网络安全领域的应用探索亿林数据人工智能 web安全安全网络安全
随着网络技术的飞速发展，网络安全问题日益凸显，成为制约数字化进程的重要瓶颈。人工智能（AI）作为一种变革性技术，正逐步在网络安全领域展现出其巨大的潜力和价值。本文旨在探讨人工智能在网络安全领域的应用现状、优势、挑战及未来发展趋势。一、人工智能在网络安全中的应用现状威胁检测与响应人工智能通过机器学习算法，能够自动识别网络中的异常行为，如未经授权的访问、恶意软件传播等。传统的安全系统依赖于静态规则和签
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
Python学习和面试中的常见问题及答案写代码的M教授 Python学习计划 python 学习面试
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面，包括数据处理、模型训练、评估、优化和实际应用。一、Python编程问题解释Python中的装饰器（Decorators）是什么？它们的作用是什么？答案：装饰器是一种高阶函数，能够在不修改函数定义的情况下扩展或修改函数的行为。它们通常用于日志记录、权限验证、缓存等场景。使用@decorator_name语法将装饰
机器学习算法深度总结(5)-逻辑回归婉妃
1.模型定义逻辑回归属于基于概率分类的学习法.基于概率的模式识别是指对模式x所对应的类别y的后验概率禁行学习.其所属类别为后验概率最大时的类别:预测类别的后验概率,可理解为模式x所属类别y的可信度.逻辑回归(logistic),使用线性对数函数对分类后验概率进行模型化:上式,分母是满足概率总和为1的约束条件的正则化项,参数向量维数为:考虑二分类问题:使用上述关系式,logistic模型的参数个数从
python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
深度学习速通系列:贝叶思&SVM Ven% 支持向量机人工智能深度学习算法机器学习
贝叶斯（Bayesian）方法和支持向量机（SVM，SupportVectorMachine）是两种不同的机器学习算法，它们在解决分类和回归问题时有着不同的原理和应用场景贝叶斯方法：贝叶斯方法基于贝叶斯定理，这是一种利用已知信息（先验概率）来预测未知事件（后验概率）的概率方法。它通常用于分类问题，特别是当数据集较小或存在类别不平衡时。贝叶斯方法可以处理不确定性，并且可以通过增加新的数据来更新先验概
机器学习（ML）算法分类活蹦乱跳酸菜鱼机器学习
机器学习（ML）算法是一个广泛而多样的领域，涵盖了多种用于数据分析和模式识别的技术。以下是一些常见的机器学习算法分类及其具体算法：一、监督学习算法监督学习算法使用标记（即已知结果）的训练数据来训练模型，以便对新数据进行预测。线性回归：用于建立连续变量之间的关系，通过拟合一条直线或超平面来预测新数据的输出值。逻辑回归：虽然名称中包含“回归”，但实际上是用于分类问题，特别是二分类问题。通过将线性回归模
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

ML - sklearn实现 PCA主成分分析

PCA的一般步骤

项目要求和说明：

背景

目标

数据

致谢

你可能感兴趣的:(机器学习算法)