爱听许嵩歌

（sklearn机器学习）第四章_降维算法PCA和SVD

上一章：
下一章：（sklearn机器学习）第五章_逻辑回归（1）https://blog.csdn.net/weixin_45092662/article/details/114537578
PCA算法讲解：https://zhuanlan.zhihu.com/p/77151308
SVD算法讲解：https://zhuanlan.zhihu.com/p/29846048
代码（ipynb）：https://gitee.com/rengarwang/sklearn-machine-learning-code/blob/master/（第四章）降维算法/降维算法.ipynb

对图像的降维可以使用卷积神经网络处理，效果会更好!

调用库和模块

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

提取数据集

# 提取数据集
iris = load_iris()

# 字典
# iris

y = iris.target
x = iris.data

x.shape

(150, 4)

这是一个2维数组

import pandas as pd 
pd.DataFrame(x)

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

150 rows × 4 columns

4维矩阵

建模

# 调用PCA
pca = PCA(n_components=2) #实例化
pca = pca.fit(x) #拟合模型
x_dr = pca.transform(x) #获取新矩阵

# x_dr
# 也可以fit_transform一步到位
# x_dr = PCA(2).fit_transform(x)

x_dr.shape

(150, 2)

可视化

# 要将三种鸢尾花的数据分布显示在二维平面坐标系中，对应的两个坐标（两个特征向量）应该是三种鸢尾花降维后的x1和x2
# 采用布尔索引
x_dr[y == 0, 0]

array([-2.68412563, -2.71414169, -2.88899057, -2.74534286, -2.72871654,
       -2.28085963, -2.82053775, -2.62614497, -2.88638273, -2.6727558 ,
       -2.50694709, -2.61275523, -2.78610927, -3.22380374, -2.64475039,
       -2.38603903, -2.62352788, -2.64829671, -2.19982032, -2.5879864 ,
       -2.31025622, -2.54370523, -3.21593942, -2.30273318, -2.35575405,
       -2.50666891, -2.46882007, -2.56231991, -2.63953472, -2.63198939,
       -2.58739848, -2.4099325 , -2.64886233, -2.59873675, -2.63692688,
       -2.86624165, -2.62523805, -2.80068412, -2.98050204, -2.59000631,
       -2.77010243, -2.84936871, -2.99740655, -2.40561449, -2.20948924,
       -2.71445143, -2.53814826, -2.83946217, -2.54308575, -2.70335978])

colors = ['red','black','orange']
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='

 
  %matplotlib inline
%config InlineBackend.figure_format = 'svg'

plt.figure() # 初始化一个画布
for i in [0, 1, 2]:
    plt.scatter(x_dr[y == i, 0], x_dr[y == i, 1], alpha=0.7, c=colors[i], label=iris.target_names[i])
plt.legend() # 加图例
plt.title('PCA of IRIS dataset') # 加标题
plt.show()
 
   
  探索降维后的数据 
  # 查看降维后每个新特征向量上所带的信息量大小（可解释性方差的大小）
pca.explained_variance_
 
  array([4.22824171, 0.24267075])
 
  # 查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比，又叫做可解释性方差贡献度
pca.explained_variance_ratio_
 
  array([0.92461872, 0.05306648])
 
  pca.explained_variance_ratio_.sum()
 
  0.9776852063187949
 
  选择最好的n_components 
  当PCA（）函数中使用默认值时 
  pca_line = PCA().fit(x)
pca_line.explained_variance_ratio_
 
  array([0.92461872, 0.05306648, 0.01710261, 0.00521218])
 
  import numpy as np 
np.cumsum(pca_line.explained_variance_ratio_)
 
  array([0.92461872, 0.97768521, 0.99478782, 1.        ])
 
  %matplotlib inline
%config InlineBackend.figure_format = 'svg'

plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))
plt.xticks([1,2,3,4]) # 限制坐标轴显示为整数
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance ratio")
plt.show()
 
   
  最大似然估计自选超参数 
  “mle”自动搜索最佳的n_components，缺点是计算量大。 
  pca_mle = PCA(n_components="mle")
pca_mle = pca_mle.fit(x)
x_mle = pca_mle.transform(x)
 
  # x_mle
 
  pca_mle.explained_variance_ratio_.sum()
 
  0.9947878161267246
 
  按信息量占比选超参数 
  假如希望保留97%的信息量,PCA自动选出保留的信息量超过97%的特征数量。 
  pca_f = PCA(n_components=0.97,svd_solver="full")
pca_f = pca_f.fit(x)
x_f = pca_f.transform(x)
 
  # x_f
 
  pca_f.explained_variance_ratio_
 
  array([0.92461872, 0.05306648])
 
  PCA(2).fit(x).components_
 
  array([[ 0.36138659, -0.08452251,  0.85667061,  0.3582892 ],
       [ 0.65658877,  0.73016143, -0.17337266, -0.07548102]])
 
  PCA(2).fit(x).components_.shape
 
  (2, 4)
 
  PCA中的SVD 
  降维算法在图像中的应用，PCA中的SVD，卷积神经网络也是一种降维方法 
  1、导入需要的库和模块 
  from sklearn.datasets import fetch_lfw_people
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
 
  2、实例化数据集 
  face = fetch_lfw_people(min_faces_per_person=60) # 实例化
 
  # face
 
  7个人的人脸数据集1000多张照片 
  face.images.shape
# 1348 是矩阵中图像的个数
# 62 是每个图像的特征矩阵的行，像素
# 47 是每个图像的特征矩阵的列，像素
 
  (1348, 62, 47)
 
  face.data.shape
# 行是样本
# 列是样本相关的所有特征
 
  (1348, 2914)
 
  x = face.data
 
  x.shape
 
  (1348, 2914)
 
  3、将原特征矩阵进行可视化 
  %matplotlib inline
%config InlineBackend.figure_format = 'svg'

# 创建画布和子图对象
fig, axes = plt.subplots(4,5
                        ,figsize=(8,4) # 图片行和列大小
                        ,subplot_kw={"xticks":[],"yticks":[]} # 不要显示坐标轴
                        )
axes[0][0].imshow(face.images[0,:,:])
 
  
 
   
  axes.shape
 
  (4, 5)
 
  不难发现，axes中的一个对象对应fig中的一个空格

 我们希望，在每一个子图对象中填充图像（共20张图），因此我们需要写一个在子图对象中遍历的循环 
  len([*axes.flat])
 
  20
 
  [*enumerate(axes.flat)]
 
  [(0, ),
 (1, ),
 (2, ),
 (3, ),
 (4, ),
 (5, ),
 (6, ),
 (7, ),
 (8, ),
 (9, ),
 (10, ),
 (11, ),
 (12, ),
 (13, ),
 (14, ),
 (15, ),
 (16, ),
 (17, ),
 (18, ),
 (19, )]
 
  # 填充图像
for i, ax in enumerate(axes.flat):
    ax.imshow(face.images[i,:,:], cmap="gray")
 
  fig, axes = plt.subplots(3,8,figsize=(8,4),subplot_kw = {"xticks":[],"yticks":[]})

for i, ax in enumerate(axes.flat):
    ax.imshow(x[i,:].reshape(62,47),cmap="gray") 
 
   
  4、建模降维，提取新特征空间矩阵 
  # 原本有2914维，现在降到150维
pca = PCA(150).fit(x)
 
  x_dr = pca.transform(x) 
 
  x_dr.shape
 
  (1348, 150)
 
  x_dr
 
  array([[ 1143.7627  ,   635.3198  ,   630.6568  , ...,   -59.572582,
          -18.077328,    52.712475],
       [  699.81866 ,  -656.1236  ,   466.91223 , ...,     7.493326,
           49.63772 ,    56.327686],
       [   37.938698,  -270.23184 ,   259.49713 , ...,   -32.80977 ,
           21.706087,   -14.233734],
       ...,
       [ -548.409   ,  -709.99036 ,   127.73023 , ...,    -5.308317,
           58.37268 ,    46.13623 ],
       [-1525.7004  ,  -532.31055 ,   423.82315 , ...,    -9.639832,
          -29.909899,    90.20811 ],
       [  494.39453 ,  -107.04087 ,   357.85406 , ...,   -18.700172,
           19.165699,    17.739117]], dtype=float32)
 
  pca.explained_variance_ratio_
 
  array([0.18776791, 0.14548899, 0.07103531, 0.06026755, 0.05040748,
       0.02936598, 0.02470631, 0.02047521, 0.01968444, 0.01891782,
       0.01560989, 0.01470453, 0.01214074, 0.01095573, 0.01042817,
       0.00972053, 0.00906779, 0.00876521, 0.00813087, 0.00705087,
       0.00682341, 0.00648109, 0.00603545, 0.00578568, 0.00532363,
       0.00520648, 0.00500154, 0.00476372, 0.0045244 , 0.00425308,
       0.00405167, 0.00380145, 0.00360033, 0.00350987, 0.00347687,
       0.00324892, 0.00314407, 0.00310621, 0.00307643, 0.00290165,
       0.00282753, 0.0027487 , 0.00272783, 0.00259985, 0.00246388,
       0.00238214, 0.0023496 , 0.00231576, 0.00227235, 0.00221907,
       0.00210642, 0.00205901, 0.00202986, 0.00200763, 0.00195911,
       0.00195431, 0.00188171, 0.00182909, 0.00176752, 0.00175944,
       0.00174918, 0.00166451, 0.00161346, 0.00158636, 0.00156621,
       0.00152925, 0.00149928, 0.00146113, 0.0014524 , 0.00141118,
       0.00140531, 0.0013644 , 0.0013622 , 0.00131671, 0.00129231,
       0.00125606, 0.00124962, 0.00123174, 0.00120757, 0.0011877 ,
       0.00117422, 0.00115399, 0.00113184, 0.00110208, 0.0010886 ,
       0.00107578, 0.00105294, 0.00103628, 0.00101856, 0.00101126,
       0.00098022, 0.00097883, 0.00095511, 0.00094186, 0.00092627,
       0.00092295, 0.00088963, 0.0008719 , 0.00086035, 0.0008568 ,
       0.00085071, 0.00082558, 0.00081693, 0.00080203, 0.00078521,
       0.00077608, 0.00076442, 0.00074672, 0.00074222, 0.00073652,
       0.00072231, 0.00071129, 0.00070026, 0.00069162, 0.00068861,
       0.00068426, 0.0006741 , 0.00065837, 0.00065216, 0.00063729,
       0.00063108, 0.0006147 , 0.00060969, 0.00060429, 0.00059193,
       0.00058521, 0.00057888, 0.0005681 , 0.00056254, 0.00056106,
       0.00055009, 0.00053875, 0.00053419, 0.00051922, 0.00051649,
       0.0005053 , 0.00050131, 0.00050055, 0.00048855, 0.00047779,
       0.00047487, 0.00047086, 0.00046334, 0.00045583, 0.00045211,
       0.00044193, 0.00043458, 0.00042758, 0.00041827, 0.0004165 ],
      dtype=float32)
 
  pca.explained_variance_ratio_.sum()
 
  0.9456665
 
  v = pca.components_
 
  # v
 
  v.shape
 
  (150, 2914)
 
  5、将新特征空间矩阵可视化 
  fig, axes = plt.subplots(3,8,figsize=(8,4),subplot_kw = {"xticks":[],"yticks":[]})

for i, ax in enumerate(axes.flat):
    ax.imshow(v[i,:].reshape(62,47),cmap="gray")
 
   
  inverse_transform可逆变换 
  导入模块和库 
  from sklearn.datasets import fetch_lfw_people
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
 
  导入数据 
  faces = fetch_lfw_people(min_faces_per_person=60)
 
  faces.images.shape
 
  (1348, 62, 47)
 
  faces.data.shape
 
  (1348, 2914)
 
  x = faces.data
 
  建模降维，获取降维后的特征矩阵x_dr 
  pca = PCA(150)
x_dr = pca.fit_transform(x)
 
  x_dr.shape
 
  (1348, 150)
 
  将降维后矩阵用inverse_transform返回原空间 
  x_inverse = pca.inverse_transform(x_dr)
 
  x_inverse.shape
 
  (1348, 2914)
 
  将特征矩阵x和x_inverse可视化 
  我们需要对子图对象进行遍历的循环，来将图像填入子图中

 ax中2行10列，第一行是原始数据，第二行是inverse_transform后返回的数据

 需要同时循环两份数据，即一次循环画一列上的两张图，而不是把ax拉平 
  %matplotlib inline
%config InlineBackend.figure_format = 'svg'

fig, ax = plt.subplots(2,10,figsize=(10,2.5),subplot_kw={"xticks":[],"yticks":[]})
for i in range(10):
    ax[0,i].imshow(faces.images[i,:,:],cmap="binary_r")
    ax[1,i].imshow(x_inverse[i].reshape(62,47),cmap="binary_r")
 
   
  查看降维后信息量占比 
  pca.explained_variance_ratio_.sum()
 
  0.94567
 
  可以明显看出，这两组数据可视化后，由降维后再通过inverse_transform转换回原维度的数据画出的图像和原数据画的图大致一样，但愿数据的图像更加清晰。说明数据并没有完全逆转。

 这是因为，在降维时，部分信息已经被舍弃了，降维后只有94.56875%的信息被保留，所以在逆转的时候，原数据中已经被舍弃的信息也不可能回来了。所以PCA降维不是完全可逆的。可以设置n_components=300，看看效果。 
  用PCA做噪声过滤 
  降维的目的之一就是丢掉对模型带来负面影响的特征。inverse_transform能够在不恢复原始数据的情况下，将降维后的数据返回到原本的高维空间，即“保证维度，但去掉了方差小的特征”。 
  导入库和模块 
  from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
 
  导入数据 
  digits = load_digits()
 
  digits.data.shape
 
  (1797, 64)
 
  digits.images.shape
 
  (1797, 8, 8)
 
  # digits
 
  定义画图函数 
  def plot_digits(data):
    fig, axes = plt.subplots(4,10,figsize=(10,4),subplot_kw={"xticks":[],"yticks":[]})
    for i,ax in enumerate(axes.flat):
        ax.imshow(data[i].reshape(8,8),cmap="binary")
        
plot_digits(digits.data)
 
   
  为数据加上噪声 
  在指定的数据集中，随机抽取服从正态分布的数据

 两个参数，分别是指定的数据集，和抽取出来的正态分布的方差 
  np.random.RandomState(42)
noisy = np.random.normal(digits.data, 2)
 
  plot_digits(noisy)
 
   
  降维 
  保留信息量为0.5 
  pca = PCA(0.5).fit(noisy)
x_dr = pca.transform(noisy)
x_dr.shape
 
  (1797, 6)
 
  逆转降维结果，实现降噪 
  without_noise = pca.inverse_transform(x_dr)
plot_digits(without_noise)
 
  
 有用请点个赞！！
本站所有文章均为原创，欢迎转载，请注明文章出处：https://blog.csdn.net/weixin_45092662。百度和各类采集站皆不可信，搜索请谨慎鉴别。技术类文章一般都有时效性，本人习惯不定期对自己的博文进行修正和更新，因此请访问出处以查看本文的最新版本。

python安装netCDF KeepStu python 数据分析 python 数据可视化
1.下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#netcdf4找到netCDF4‑1.5.4‑cp37‑cp37m‑win_amd64.whl（建议使用稳定一点的版本）2.安装放入D:\Anaconda3pipinstallnetCDF4-1.5.4-cp37-cp37m-win_amd64.whl3.测试fromnetCDF4importDatas
python模块netCDF4安装最新教程 2401_85863780 python 开发语言 netCDF4 whl
netCDF4是一个Python库，用于读写netCDF4文件格式，这是一种广泛使用的存储多维科学数据的格式。通过预编译的whl文件安装netCDF4可以简化安装过程，特别是在编译时可能会遇到依赖问题的情况下。安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可
线程间的数据高速公路：`queue.Queue` 的妙用清水白石008 python Python题库 java python 开发语言
线程间的数据高速公路：queue.Queue的妙用在多线程编程中，线程之间的数据交换和共享是不可避免的。Python提供了多种机制来实现线程间的数据传递，其中queue.Queue是一个简单而强大的工具。本文将深入探讨queue.Queue在线程间数据传递中的作用，并结合实例进行讲解，帮助读者更好地理解和应用它。什么是queue.Queue？queue.Queue是Python标准库中提供的一个线
代码审计学习路线白帽子技术分享 python 网络安全代码审计
学习代码审计分以下四部分一.编程语言1.前端语言html/javascript/dom元素使用，主要是为了挖掘xss漏洞，jquery主要写一些涉及到CSRF脚本使用的或者DOM型XSS，JSON劫持等2.后端语言基础语法要知道，例如变量类型,常量,数组(python是列表,元组,字典)，对象,类的调用,引用等，MVC设计模式要清楚,因为大部分目标程序都是基于MVC写的，包括不限于php，pyth
股票行情接口有哪些类型？如何获取可靠的股票行情接口？财云量化 python炒股自动化量化交易程序化交易股票行情接口类型可靠获取方法股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
头歌 Redis基本命令小陈cc_79 nosql redis redis nosql 数据库
头歌Redis基本命令第1关：字符串、列表与集合第2关：哈希与有序集合第3关：Redis基本事务与其他命令第1关：字符串、列表与集合#!/usr/bin/envpython#-*-coding:utf-8-*-importredisconn=redis.Redis()deftask_empty():#请在下面完成判断任务列表是否为空#*********Begin*********#returnin
安全见闻（3） Bulestar_xx 泷羽sec学习笔记安全网络 windows
摘要脚本程序主要讨论的是安全性问题。脚本语言因其源代码可见、可复制性高而具有脚本性质。常见的脚本语言包括：-Lua-PHP-Go-Python-JavaScript脚本语言可以编写病毒和木马，例如Python可以编写木马，PHP可以编写一句话木马。编写脚本病毒需要了解脚本语言基础和病毒构成。宏病毒（macro）可以通过工具如metasploit生成，并植入Office文件中，如Word和PPT。宏
用Python写一个ai agent采集，分析，预测工厂生产计划朗韶智光 python 人工智能
为了实现一个AI代理，我们需要使用Python的一些库，如pandas，numpy和scikit-learn。以下是一个简化的工厂生产计划采集、分析和预测的示例。首先，我们需要安装所需的库：```bashpipinstallpandasnumpyscikit-learn```然后，我们可以编写一个简单的AI代理，如下所示：```pythonimportpandasaspdimportnumpyas
python:遍历文件夹下的文件 OceanStar的学习笔记 python python
importosdeftest_findfile(directory,fileType,file_prefix):fileList=[]forroot,subDirs,filesinos.walk(directory):forfileNameinfiles:iffileName.endswith(fileType)andfileName.startswith(file_prefix):fileLi
Python3 连接MySQL8 在奋斗的大道 python 学习笔记
第一步：安装pymysql，记住（大于python3.X）的版本：pipinstallpymysql第二步：验证pymysql是否安装成功：importpymysql#打开数据库连接#localhost为本地连接#root为用户名#password为密码#test_data为数据库db=pymysql.connect("localhost","root","123456","blog")#使用cu
python3 mysql8_python3连接MySQL8.0的两种方式 weixin_39872123 python3 mysql8
python3连接MySQL8.0的两种方式发布时间：2020-09-1913:15:14来源：脚本之家阅读：111作者：兔猪合家欢1、下载MySQL官方的mysql-connector-python-8.0.17-py3.7-windows-x86-64bit.msi，直接点击安装；2、安装完毕后直接可以导入mysql.connnector模块连接方式一：importmysql.connecto
Python: 遍历给定目录下的pdf文档并进行重命名牵着蜗牛去爬山 python coding python
文章目录编程目的参考代码(一)代码(二)编程目的因需要大量重命名pdf文档为[0…n].pdf,就搜集了资料写了代码，并解决自己的问题。参考感谢各位分享的资源。python3.3遍历文件夹及文件小例python文件重命名一文看懂Python对文件和文件夹的操作:含os,shutil和glob模块详解代码(一)importglobimportos.path#找到给定的root_dir下的pdf文档并
简述Apache Airflow：分布式工作流调度与管理利器心上之秋 apache 分布式
目录什么是ApacheAirflow?核心概念与架构DAGOperatorsTasksExecutorsAirflow的安装与配置环境要求安装步骤Airflow示例项目简单任务调度使用PythonOperator实现数据处理任务集成外部工具：MySQL和S3Airflow的高级功能自定义Operators使用Sensors实现动态依赖分布式调度Airflow的优缺点总结什么是ApacheAirfl
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
Nonebot2部署 QQ机器人成品一键部署影心_ windows python 机器人 virtualenv
前言想在服务器上搞个机器人玩玩，发现这个派蒙的还挺不错，算是一键部署级别的机器人了，内置的功能比较多也比较方便还可以去添加插件，就选择这个来部署，本文记录一下安装的过程，方便自己以后看的同时也尽可能的写的详细一点方便有相同想法但没什么基础的朋友们参考一下资源需求所需资源：python3.8.0安装包、vs_buildtools、git、ffmpeg.zip、go-cqhttp、qsign服务器、j
BUUCTF：[ISITDTU 2019]EasyPHP --- rce 超级异或，，，吐了，，，字符之间异或，成型的异或payload！！！ Zero_Adam BUUCTF刷题记录 RCE python
目录:一、自己做：二、学的的三、学习WP1.这里先来个不限制字符个数的关于这个%ff以及异或的事情，咱们好好唠唠1.生成异或中间值的python脚本2.看有字符限制的时候，：参考：末初一、自己做：0xd)die('youaresoclose,omg');eval($_);?>过滤了，不少，我一般碰到rce的题，就看自己的笔记，然后把payload一股脑的网上怼，，，二、学的的正则看不明白的时候，可
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【漏斗图】——4 花花 Show Python pyecharts—从0到精通信息可视化 python 数据分析
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
Python 函数专题：深入探讨嵌套函数圣逸从入门到精通Python语言 python 开发语言 Python入门数据结构精通python 数据库
在Python编程中，函数是最基本的构建块之一。它们不仅能够帮助我们组织代码，还能提高代码的可读性和可复用性。与普通函数相比，嵌套函数（或称为内部函数）是一种更为灵活的构造，能够在某些情况下极大地增强函数的能力和作用。本文将深入探讨嵌套函数的概念、用法、优缺点以及实际应用，帮助读者全面理解这个重要的编程概念。什么是嵌套函数？嵌套函数是指在一个函数的内部定义另一个函数。在Python中，嵌套函数具有
Python 函数专题：深入探讨匿名函数圣逸从入门到精通Python语言 python 开发语言数据结构 Python入门精通python
在Python中，函数是一种重要的编程构造。函数不仅可以让我们的代码更具可读性和可重用性，还可以帮助我们更高效地组织和管理我们的代码。而在函数的世界里，匿名函数（也称为lambda函数）无疑是一个非常有趣的主题。本文将深入探讨Python中的匿名函数，包括其定义、用途、与普通函数的对比、应用场景等。1.什么是匿名函数匿名函数是指没有名称的函数，它能够接受任意数量的参数，但只能返回一个表达式的值。在
python字典是无序的吗_Python 有序字典 OrderedDict 和无序字典 Dict weixin_39667509 python字典是无序的吗
Python默认的字典是无序的，如果我们需要让他变成有序，很简单，使用有序字典即可，会按照添加顺序自动排序，先添加的在前面，后添加的在后面。Python中有一个OrderedDict，刚好就是实现这个功能的，下面进行介绍Python有序字典OrderedDict。一、Python普通字典Dictmy_dict=dict()my_dict["name"]="lowman"my_dict["age"]
python 用matplotlib作图，报错not Qt platform plugin could be initialized aLagrange python bug
重装Pycharm后，用matplotlib画图ThisapplicationfailedtostartbecausenotQtplatformplugincouldbeinitialized.##标题背景：重新安装pycharm后使用matplotlib画图弹出错误窗口全程又没有调用过Pyside2或pyqt5.新建了一个Project,导入matplolib，运行一个最简单的程序importm
tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数普通攻击往后拉 NN技巧 tf.keras keras 人工智能深度学习
model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。其中里面的callbacks参数是实现模型保存、监控、以及和tensorboard联动的重要API1model.fit()方法的参数及使用必需参数x:训练数据的输入。可以是NumPy数组、TensorFlowtf.data.Dataset、Python生成器或keras.utils.Sequence实例。y:训练数
macbook自带python保存文件夹_在mac下查找python包存放路径site-packages的实现方法在Mac系统下python如何安装第三方函数库?... Charnychi
mac怎么查看python的site-package位置世界上最伤心的事，不是你爱的人不爱你，而是他爱你过后，最后却不爱你。可以通过find命令查看，参考demo如下：sudofind/-name"site-package"小编们总是对最亲近的家人视而不见，甚至还有许多抱怨，却对外人”的一点小惠感激不已。mac自带的python安装在/usr/bin/python目录下进入终端直接键入python
python exe site-package weixin_33735077 python
2019独角兽企业重金招聘Python工程师标准>>>pythonexesite-package:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow转载于:https://my.oschina.net/zuoan001/blog/346126
python 分享site-package CbdFocus Python
导出列表pipfreeze>requirements.txt安装列表pipinstall-rrequirements.txt
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
SQLAlchemy 介绍与实践 cliffordl python python 数据库
postgresql实践pydantic实践1.SQLAlchemy介绍SQLAlchemy是一个ORM框架。SQLAlchemy是一个用于Python的SQL工具和对象关系映射（ORM）库。它允许你通过Python代码来与关系型数据库交互，而不必直接编写SQL语句。简单介绍一下对象关系映射吧，对象关系映射（英语：ObjectRelationalMapping，简称ORM，或O/RM，或O/Rma
python dist-packages 和 site-packages ECHOutopia linux python site-packages dist-packages ubuntu python
dist-packages和site-packages在我的ubuntu12上都在/usr/local/lib/python2.7目录下今天安装django时发现一个奇怪的现象：我使用pipinstallDjango==1.8.4安装的django，安装成功，直接在终端使用django-admin也成功，但是进入python：importdnango，却提示nomodulenameddjango，
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

（sklearn机器学习）第四章_降维算法PCA和SVD

调用库和模块

提取数据集

建模

可视化

探索降维后的数据

选择最好的n_components

最大似然估计自选超参数

按信息量占比选超参数

PCA中的SVD

inverse_transform可逆变换

导入模块和库

导入数据

建模降维，获取降维后的特征矩阵x_dr

将降维后矩阵用inverse_transform返回原空间

将特征矩阵x和x_inverse可视化

用PCA做噪声过滤

导入库和模块

导入数据

定义画图函数

为数据加上噪声

降维

逆转降维结果，实现降噪

你可能感兴趣的:(数据分析（Python）,机器学习,python数据分析)

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8