Eastmount

[Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了Selenium基础技术，通过三个基于Selenium技术的爬虫，爬取Wikipedia、百度百科和互动百科消息盒的例子，从实际应用出发来学习网络爬虫。本文将进入数据分析部分，主要普及网络数据分析的基本概念，讲述数据分析流程和相关技术，同时详细讲解Python提供的若干第三方数据分析库，包括Numpy、Pandas、Matplotlib、Sklearn等。基础文章，希望对您有所帮助。

Web数据分析是一门多学科融合的学科，它涉及统计学、数据挖掘、机器学习、数据科学、知识图谱等领域。数据分析是指用适当的统计方法对所收集数据进行分析，通过可视化手段或某种模型对其进行理解分析，从而最大化挖掘数据的价值，形成有效的结论。

文章目录

一.数据分析
二.常用库
三.Numpy
- 1.Array用法
- 2.二维数组操作
- 3.NumPy思维导图
四.Pandas
- 1.基础用法
- 2.读写文件
- 3.Series
- 4.DataFrame
- 5.Pandas思维导图
五.Matplotlib
- 1.基础用法
- 2.绘图简单示例
- 3.Matplotlib思维导图
六.Scikit-Learn
- 1.基础介绍
- 2.Sklearn思维导图
七.本章小结

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分网络爬虫

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
[Python从零到壹] 七.网络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
[Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解（NLP语料构造必备技能）

第三部分数据分析

[Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

一.数据分析

什么是数据分析？
网络数据分析（Web Data Analysis）是指采用合适的统计分析方法，建立正确的分析模型，对Web网络数据进行分析，提取有价值的信息和结论，挖掘出数据的价值，从而造福社会和人类。数据分析可以帮助人们做出预测和提前判断，以便采取适当行动解决问题。

数据分析的目的是从海量数据或无规则数据集中把有价值的信息挖掘出来，把隐藏的信息提炼出来，并总结出所研究数据的内在规律，从而帮助用户进行决策、预测和判断。数据分析通常包括前期准备、数据爬取、数据预处理、数据分析、可视化绘图及分析评估六个步骤，如图1所示。

前期准备。在获取数据之前，先要决定本次数据分析的目标，这些目标需要进行大量的数据收集和前期准备，判断整个实验是否能向着正确的方向前进。
数据爬取。读者可以利用Python爬取所需的数据集，定义相关的特征，采用前文讲述的爬虫知识进行爬取。也可以针对常见的数据集进行简单的数据分析。
数据预处理。如果想要提高数据质量，纠正错误数据或处理缺失值，就需要进行数据预处理操作，包括数据清洗、数据转化、数据提取、数据计算等。注意，文本语料比较特殊，需要经过中文分词、数据清洗、特征提取、权重计算，将文本内容转换为向量的形式预处理操作，才能进行后面的数据分析。
数据分析。读者根据所研究的内容，构建合理的算法模型，训练模型并预测业务结构。数据科学家需要拥有良好的数学、机器学习、编程背景知识，常见数据分析的方法包括回归分析、聚类分析、分类分析、关联规则挖掘、主题模型等。
可视化绘图。经过数据分析后的数据通常需要进行可视化绘图操作，包括绘制散点图、拟合图形等，通过可视化操作让用户直观的感受数据分析的结果。
分析评估。最后需要对模型实验的结果进行评估，同时需要优化算法、优化结果，重复以前业务流程，从而更好利用数据的价值，造福整个社会。

Python数据分析的核心流程是什么？
下图是数据分析的核心模型，主要划分为训练和预测两部分内容。

训练。输入历史数据进行训练，得到分析模型。
预测。输入新数据集，采用训练得模型进行预测操作，并绘制相关图形和评估结果。

选择Python作为数据分析的编程语言，主要原因有以下四个方面：

Python简单易学，容易上手。不像其他语言需要掌握大量的数据结构和语法知识才能进行实例操作，并且Python可以通过极少的代码实现一些数据分析案例，提升开发人员的学习兴趣，破解新手的心理障碍。
Python语言支持开源。丰富强大的第三方库让我们做数据分析更得心应手，科学计算、数据预处理、数据读取、数据分析、数据可视化、深度学习等各个领域都有对应的库支撑，并且各个库可以相互调用，常见数据分析库包括Numpy、Pandas、Matplotlib、Sklearn等。
Python是一门脚本语言，可以进行快速开发。开发时间效率相对较高，比如第一部分介绍的Python数据爬取内容，通过Java代码去实现，就需要大量的代码，而Python的代码量更小，写代码和学习效率更高。
Python语言随着深度学习、人工智能的浪潮，也在不断变强、拥有更丰富的扩展包。而在学习深度学习知识之前，我们需要了解Python数据分析及机器学习的基础知识。

同时，在开始Python数据分析之前，我们需要提到另一个与它紧密相关的概念，即数据挖掘。那它们之间究竟存在什么区别呢？

数据分析和数据挖掘的侧重点不同，数据分析主要侧重于通过对历史数据进行统计分析，从而挖掘出深层次的价值，并将结果的有效信息呈现出来；
数据挖掘是从数据中发现知识规则，并对未知数据进行预测分析的过程。
数据分析和数据挖掘两者是紧密关联的，数据分析结果需要进一步数据挖掘才能指导决策，而数据挖掘进行价值评估过程也需要调整先验约束而再次进行数据分析。但相同的地方是二者都需要有数据作为支撑，都需要掌握相关的统计学、计算科学、机器学习、可视化绘图工具等知识，都需要挖掘出数据的价值供用户、社会使用，提出正确的解决方案并进行预测决策，因此数据分析师和数据挖掘师并没有明显的界限。

二.常用库

在使用Python做数据分析时，常常需要用到各种扩展包，常见的包括Numpy、Scipy、Pandas、Sklearn、Matplotlib、Networkx、Gensim等，如下所示。

NumPy
提供数值计算的扩展包，拥有高效的处理函数和数值编程工具，用于数组、矩阵和矢量化等科学计算操作。很多扩展包都依赖于它。

import numpy as np
np.array([2, 0, 1, 5, 8, 3])
#生成数组

SciPy
SciPy是一个开源的数学、科学和工程计算包，提供矩阵支持，以及矩阵相关的数值计算模块。它是一款方便、易于使用、专为科学和工程设计的Python工具包，包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。

from scipy import linalg
linalg.det(arr)
#计算矩阵行列式

Pandas
它是Python强大的数据分析和探索数据的工具包，旨在简单直观地处理“标记”和“关系”数据。它设计用于快速简便的数据处理，聚合和可视化，支持类似于SQL语句的模型，支持时间序列分析，能够灵活的处理分析数据。

import pandas as pd
pd.read_csv('test.csv')
#读取数据

SKlearn
Scikit-Learn为常见的机器学习算法提供了一个简洁而规范的分析流程，包含多种机器学习算法。该库结合了高质量的代码和良好的文档，使用起来非常方便，并且代码性能很好，其实就是用Python进行机器学习的行业标准。

from sklearn import linear_model  
linear_model.LinearRegression()
#调用线性回归模型

Matplotlib
它是Python强大的数据可视化工具、2D绘图库，可以轻松生成简单而强大的可视化图形，可以绘制散点图、折线图、饼状图等图形。但其库本身过于复杂，绘制的图需要大量的调整才能变精致。

import matplotlib.pyplot as plt
plt.plot(x,y,'o')
#绘制散点图

Seaborn
Seaborn是由斯坦福大学提供的一个python绘图库，绘制的图表更加赏心悦目，它更关注统计模型的可视化，如热图。Seaborn能理解Pandas的DataFrame类型，所以它们一起可以很好地工作。

import seaborn as sns
sns.distplot(births['a'], kde=False)
#绘制直方图

Networkx
NetworkX是一个用来创建、操作、研究复杂网络结构、动态和功能的Python扩展包。NetworkX库支持图的快速创建，可以生成经典图、随机图和综合网络，其节点和边都能存储数据、权重，是一个非常实用的、支持图算法的复杂网络库。

import networkx as nx
DG = nx.DiGraph()
#导入库并创建无多重边有向图

Gensim
Gensim是一个从非结构的文本中挖掘文档语义结构的扩展包，它无监督地学习到文本隐层的主题向量表达。Gensim实现了潜在语义分析（LSA）、LDA模型、TF-IDF、Word2vec等在内的多种主题模型算法，并提供了诸如相似度计算等API接口。

from gensim import models
tfidf = models.TfidfModel(data)
#调用TF-IDF模型

NLTK
NLTK是自然语言工具包（Natural Language Toolkit），用于符号和统计自然语言处理的常见任务。旨在促进自然语言处理及其相关领域的教学和研究。常见功能包括文本标记、实体识别、提取词干、语义推理等。

from nltk.book import *
text1.concordance("monstrous") 
#搜索文本功能

Statsmodels
Statsmodels是一个包含统计模型、统计测试和统计数据挖掘的Python模块，用户通过它的各种统计模型估计方法来进行统计分析，包括线性回归模型、广义线性模型、时间序列分析模型、各种估计量等算法。

import statsmodels.api as sm
results = sm.OLS(y, X).fit()
#回归模型

TensorFlow
TensorFlow是一个开源的数据流图计算库，是Google公司2015年11月开源的第二代深度学习框架。它使用数据流图进行数值分析，TensorFlow使用有向图表示一个计算任务，图的节点表示对数据的处理，图的边Flow描述数据的流向，tensor（意为张量）表示数据，它的多层节点系统可以在大型数据集上快速训练人工神经网络。其他常见的深度学习框架或库是Theano、Keras。

import tensorflow as tf
x = tf.constant(1.0)
#输入一个常量

接下来作者将对其中比较重要常用的四个扩展包（Numpy、Pandas、Matplotlib、Sklearn）进行简单的介绍，这些包更多的实例应用将在后面章节实例中讲解。

注意：本文数据分析部分推荐读者使用Anaconda或PyCharm中的集成环境，它已经集成安装了所使用的数据分析扩展包，安装后可以直接调用。

三.Numpy

NumPy（Numeric Python）是Python提供的数值计算扩展包，拥有高效的处理函数和数值编程工具，专为进行严格的数字处理而产生，用于科学计算。比如：矩阵数据类型、线性代数、矢量处理等。这个库的前身是1995年就开始开发的一个用于数组运算的库，经过长时间的发展，基本成了绝大部分Python科学计算的基础包，当然也包括提供给Python接口的深度学习框架。

由于Python没有提供数组，列表（List）可以完成数组操作，但不是真正意义上的数组，当数据量增大时，其速度很慢，所以提供了Numpy扩展包完成数组操作，很多高级扩展包也依赖于它，比如Scipy、Matplotlib、Pandas等。

1.Array用法

Array是数组，它是Numpy库中最基础的数据结构，Numpy可以很方便地创建各种不同类型的多维数组，并且执行一些基础操作。一维数组常见操作代码如下所示。

#coding=utf-8
#By：Eastmount CSDN 2021-06-28

#导入包并重命名np
import numpy as np

#定义一维数组
a = np.array([2, 0, 1, 5, 8, 3])
print('原始数据:', a)

#输出最大、最小值及形状
print('最小值:', a.min())
print('最大值:', a.max())
print('形状', a.shape)

输出如下所示：

代码通过np.array定义了一个数组[2, 0, 1, 5, 8, 3]，其中min计算最小值，max计算最大值，shape表示数组的形状，因为是一维数组，故行为为6L（6个数字）。

同时，Numpy库最重要的一个知识点是数组的切片操作。数据分析过程中，通常会对数据集进行划分，比如将训练集和测试集分割为“80%-20%”或“70%-30%”的比例，通常采用的方法就是切片。

#coding=utf-8
#By：Eastmount CSDN 2021-06-28

#导入包并重命名np
import numpy as np

#定义一维数组
a = np.array([2, 0, 1, 5, 8, 3])
print('原始数据:', a)

#输出最大、最小值及形状
print('最小值:', a.min())
print('最大值:', a.max())
print('形状', a.shape)

#数据切片
print('切片操作:')
print(a[:-2])
print(a[-2:])
print(a[:1])

输出结果如下图所示：

a[:-2]表示从头开始获取，“-2”表示后面两个值不取，结果：[2 0 1 5]。
a[-2:]表示起始位置从后往前数两个数字，获取数字至结尾，即获取最后两个值[8 3]。
a[:1]表示从头开始获取，获取1个数字，即[2]。

下面输出Array数组的类型，即numpy.ndarray，并调用sort()函数排序，代码如下：

#coding=utf-8
#By：Eastmount CSDN 2021-06-28

#导入包并重命名np
import numpy as np

#定义一维数组
a = np.array([2, 0, 1, 5, 8, 3])
print('原始数据:', a)

#输出最大、最小值及形状
print('最小值:', a.min())
print('最大值:', a.max())
print('形状', a.shape)

#数据切片
print('切片操作:')
print(a[:-2])
print(a[-2:])
print(a[:1])

#排序  
print(type(a)) 
a.sort()  
print('排序后:', a)
#   
# 排序后: [0 1 2 3 5 8]

输出结果如下图所示：

2.二维数组操作

Array定义二维数组如[[1,2,3],[4,5,6]]，下图表示二维数组的常见操作，定义了数组6*6的矩阵。

a[0, 3:5]表示获取第1行，第4和5列的两个值，即[3, 4]。注意数组下标a[0]表示获取第一个值，同样，a[3]是获取第4个值。
a[4:, 4:]表示从第5行开始，获取后面所有行，同时列也是从第5列开始，获取到后面所有列的数据，输出结果为[[44,45],[54,55]]。
a[2::2,::2]表示从第3行开始获取，每次空一行，则获取第3、5行数据，列从头开始获取，也是各一列获取一个值，则获取第1、3、5列，结果为：[[20,22,24],[40,42,44]]。

基础代码如下：

#coding=utf-8
#By：Eastmount CSDN 2021-06-28

#定义二维数组  
import numpy as np  
c = np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]])

print('形状:', c.shape)
print('获取值:', c[1][0])
print('获取某行:')
print(c[1][:])
print('获取某行并切片:')
print(c[0][:-1])
print(c[0][-1:])

输出结果如下：

获取某个值c[1][0]，其结果为第2行，第一列，即为4；获取某一行的所有值，则为c[1][:]，其结果为[4,5,6,7]；获取某行并进行切片操作，c[0][:-1]获取第一行，从第一列到倒数第一列，结果为[1,2,3]；c[0][-1:]获取第一行，从倒数第一列到结束，即为4。

同时如果想获取矩阵中的某一列数据怎么实现呢？因为在进行数据分析时，通常需要获取某一列特征进行分析，或者作为可视化绘图的x或y轴数据。

[[1, 2, 3, 4],
 [4, 5, 6, 7],
 [7, 8, 9,10]]

比如需要获取第3列数据[3, 6, 9]，代码如下：

#获取具体某列值  
print('获取第3列:')
print(c[:,np.newaxis, 2])
# 获取第3列:  
# [[3]  
#  [6]  
#  [9]]

其他操作，包括调用函数，定义数组等。

#coding=utf-8
#By：Eastmount CSDN 2021-06-28
import numpy as np  

#调用sin函数和2的3次方  
print(np.sin(np.pi/6))
print(type(np.sin(0.5)))
f = np.power(2, 3)
print(f)

#范围定义  
print(np.arange(0,4))
print(type(np.arange(0,4)))

#调用求和函数、平均值函数、标准差函数
print(np.sum([1, 2, 3, 4]))
print(np.mean([4, 5, 6, 7]))
print(np.std([1, 2, 3, 2, 1, 3, 2, 0]))

输出如下所示：

0.49999999999999994
<class 'numpy.float64'>
8
[0 1 2 3]
<class 'numpy.ndarray'>
10
5.5
0.9682458365518543

同时，Numpy扩展包的线性代数模块（Linalg）和随机模块（Random）也是非常重要的模块，后续的数据分析主要利用数组和矩阵进行，也推荐读者自行阅读了解。

3.NumPy思维导图

熟悉作者的读者都知道，2021年初我和CSDN许老师完成了一份《Python成长路线图》，这里也给出NumPy的思维导图。许老师是非常谦逊又有才华的前辈，值得我们每个人学习。很愉快的一次合作，同时感谢CSDN和周老师，也欢迎大家继续补充和指正，后续文章会详细介绍NumPy应用。

https://codechina.gitcode.host/developer-roadmap/python/intro/

科学计算基础软件包NumPy
NumPy概述、安装配置、创建数组、操作数组、常用函数、掩码数组、矩阵对象、随机抽样子模块
NumPy概述
NumPy的前世今生、NumPy数组 vs Python列表、NumPy数组类型和属性、维轴秩、广播和矢量化
安装配置
创建数组

操作数组
索引、切片、改变数组结构、合并和拆分、复制、排序、查找、筛选、数组IO

常用函数
np.nan和np.inf、函数命名空间、数学函数、统计函数、插值函数、多项式拟合函数、自定义广播函数

掩码数组
创建掩码数组、访问掩码数组

矩阵对象
创建矩阵、矩阵特有属性、矩阵乘法

随机抽样子模块
随机数、随机抽样、正态分布、伪随机数的深度思考

四.Pandas

Pandas是面板数据（Panel Data）的简写。它是Python最强大的数据分析和探索工具之一，因金融数据分析工具而开发，支持类似于SQL语句的模型，可以对数据进行增删改查等操作，支持时间序列分析，也能够灵活的处理缺失的数据。首先声明该扩展包的功能非常强大，作者只是讲述了它的基础部分内容，后面随着学习深入会讲述更多它的用法，同时也建议读者自行学习。下一篇文章将详细介绍Pandas可视化绘图方法。

1.基础用法

Pandas可以进行统计特征函数计算，包括均值、方差、标准差、分位数、相关系数和协方差等，这些统计特征能反映出数据的整体分布。

sum()：该函数用于计算数据样本的总和
mean()：该函数用于计算数据样本的算数平均值
std()：该函数用于计算数据样本的标准差
Cov()：该函数用于计算数据样本的协方差矩阵
var()：该函数用于计算数据样本的方差
describe()：该函数用于描述数据样本的基本情况，包括均值、标准差等

Pandas最重要的是Series和DataFrame子类，其导入方法如下：

from pandas import Series, DataFrame
import pandas as pd

下面从读写文件、Series和DataFrame的用法分别讲解，其中利用Pandas读写CSV、Excel文件是数据分析非常重要的基础手段。

2.读写文件

读写文件常用的方法如下，包括读写Excel文件、CSV文件和HDF5文件等。

#将数据写入excel文件，文件名为foo.xlsx
df.to_excel('foo.xlsx', sheet_name='Sheet1')  
#从excel文件中读取数据 
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])  

#将数据写入csv文件，文件名为foo.csv
df.to_csv('foo.csv')  
#从csv文件中读取数据
pd.read_csv('foo.csv') 
 
#将数据写入HDF5文件存储
df.to_hdf('foo.h5','df')  
#从HDF5存储中读取数据  
pd.read_hdf('foo.h5','df')

下面通过一个具体的实例数据来讲解Pandas的用法，数据集共包含3列数据，分别是用户A、用户B、用户C的消费数据，共10行，对应十天的消费情况，并且包含缺失值。

Pandas读取数据的简易代码如下：

#coding=utf-8
#By：Eastmount CSDN 2021-06-28
import pandas as pd

#读取数据，其中参数header设置Excel无标题头
data = pd.read_excel("data.xls", header=None) 
print(data)

#计算数据长度
print('行数', len(data))

#计算用户A\B\C消费求和
print(data.sum())

#计算用户A\B\C消费算术平均数
mm = data.sum()
print(mm)

#输出预览前5行数据
print('预览前5行数据')
print(data.head())

调用Pandas扩展包的read_excel()函数读取“test15.xls”表格文件，参数Header=None表示不读取标题头，然后输出data数据。data.sum()表示对三个用户的消费数据求和，data.head()表示预览输出前5行数据。输出数据如下，NaN表示空值（Not a Number）。

同时，Pandas提供了describe()函数输出数据的基本信息，包括count()、mean()、std()、min()、max()等函数。

#输出数据基本统计量  
print('输出数据基本统计量')
print(data.describe())

输出数据基本统计量
              0           1           2           3
count  10.00000    9.000000    9.000000    8.000000
mean    5.50000  237.167778  335.235556  493.886875
std     3.02765    1.021161   65.198685   28.565643
min     1.00000  235.830000  206.430000  435.350000
25%     3.25000  236.270000  324.030000  484.147500
50%     5.50000  237.410000  328.080000  501.282500
75%     7.75000  238.030000  388.020000  515.645000
max    10.00000  238.650000  404.040000  517.090000
>>>

更多Pandas可视化画图操作参考下一篇文章。

3.Series

Series是一维标记数组，可以存储任意数据类型，包括整型、字符串、浮点型和Python对象等，轴标一般指索引。

首先，通过传递一个List对象来创建一个Series，其默认创建整型索引。

#coding=utf-8
#By：Eastmount CSDN 2021-06-28
from pandas import Series, DataFrame

a = Series([4, 7, -5, 3])  
print('创建Series:')
print(a)

输出如下，默认为0-4的整型索引。

创建Series:  
0    4  
1    7  
2   -5  
3    3  
dtype: int64

然后，创建一个带有索引的Series，从而确定每个数据点的Series。Series的一个重要功能是在算术运算中它会自动对齐不同索引的数据。

b = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])  
print('创建带有索引的Series:')
print(b)

输出如下所示：

创建带有索引的Series:  
d    4  
b    7  
a   -5  
c    3  
dtype: int64

如果你有一些数据在一个Python字典中，你可以通过传递字典来创建一个Series。

sdata = {
     'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}  
c = Series(sdata)  
print('通过传递字典创建Series:')
print(c)  

states = ['California', 'Ohio', 'Oregon', 'Texas']  
d = Series(sdata, index=states)  
print('California没有字典为空:')
print(d)

输出数据如下：

通过传递字典创建Series:  
Ohio      35000  
Oregon    16000  
Texas     71000  
Utah       5000  
dtype: int64  
California没有字典为空:  
California        NaN  
Ohio          35000.0  
Oregon        16000.0  
Texas         71000.0  
dtype: float64

注意：Series、Numpy中的一维数组（Array）和Python基础数据结构List的区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。

4.DataFrame

DataFrame是二维标记数据结构，列可以是不同的数据类型。它是常用的Pandas对象，和Series一样可以接收多种输入，包括Lists、Dicts、Series和DataFrame等。初始化对象时，除了数据还可以传index和columns这两个参数。

下面简单讲解DataFrame常用的三种使用方法。

（1）在Pandas中用函数 isnull 和 notnull 来检测数据丢失，如pd.isnull(a)、pd.notnull(b)。Series也提供了这些函数的实例方法，如a.isnull()。
（2）Pandas提供了大量的方法能够轻松的对Series，DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作。如：Concat、Merge（类似于SQL类型的合并）、Append （将一行连接到一个DataFrame上）。
（3）DataFrame中常常会出现重复行，DataFrame提供的Duplicated方法返回一个布尔型Series，表示各行是否是重复行；还有一个drop_duplicated方法，它返回一个移除了重复行的DataFrame。

总之，Pandas是非常强大的一个数据分析包，很多功能都需要我们自己去慢慢摸索。

5.Pandas思维导图

结构化数据分析工具Pandas
Pandas概览、数据结构、基本操作、高级应用
Pandas概述
Pandas的特点、安装和使用

数据结构
索引数组index、带标签的一维同构数组Series、带标签的二维异构表格DataFrame

基本操作
数据预览、数据选择、改变数据结构、改变数据类型、广播与矢量化运算、行列级广播函数

高级应用
分组、聚合、层次化索引、表级广播函数、日期时间索引对象、透视表、数据可视化、数据IO

五.Matplotlib

Matplotlib是Python强大的数据可视化工具、2D绘图库（2D plotting library），可以方便的创建海量类型的2D图表和一些基本的3D图表，类似于MATLAB和R语言。Matplotlib提供了一整套和Matlab相似的命令API，十分适合交互式地进行制图，而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。

Matplotlib是一名神经生物学家John D. Hunter博士于2007年创建，函数设计上参考了Matlab，现在在Python的各个科学计算领域都得到了广泛应用。Matplotlib官网地址为：

http://matplotlib.org/

1.基础用法

Matplotlib作图库常用的函数如下：

Plot()：用于绘制二维图、折线图，其格式为plt.plot(X,Y,S)。其中X为横轴，Y为纵轴，参数S为指定绘图的类型、样式和颜色，详见表15.3所示。
Pie()：用于绘制饼状图（Pie Plot）。
Bar()：用于绘制条形图（Bar Plot）。
Hist()：用于绘制二维条形直方图。
Scatter()：用于绘制散点图。

下表绘图常见样式和颜色。

举例如下，该代码表示绘制散点图（Scatter），横轴为x，纵轴为y，c=y_pred对聚类的预测结果画出散点图，marker='o’表示用圆圈（Circle）绘图，s表示设置尺寸大小（Size）。

plt.scatter(x, y, c=y_pred, marker='o', s=200)

2.绘图简单示例

下列代码是调用Matplotlib绘制柱状图的源代码，该代码结合Pandas扩展包读取前文表15.2的用户消费数据，分别是用户A、用户B、用户C十天的消费数据。

Matplotlib绘图主要包括以下几个步骤：

导入Matplotlib扩展包及其子类。
设置绘图的数据及参数，数据通常是经过Sklearn机器学习包分析后的结果。
调用Matplotlib.pyplot子类的Plot()、Pie()、Bar()、Hist()、Scatter()等函数进行绘图。
设置绘图的X轴坐标、Y轴坐标、标题、网格线、图例等内容。
最后调用show()函数显示已绘制的图形。

示例完整代码如下：

#coding=utf-8
#By：Eastmount CSDN 2021-06-28
import pandas as pd
import numpy as np  
import matplotlib.pyplot as plt

data = pd.read_csv("data.csv", header=None) 
print(data)
mm = data.sum()  #求和
print(mm[1:])    #第一列为序号,取后面三列值

ind = np.arange(3)  #3个用户 0 1 2    
width = 0.35       #设置宽度          
x = [u'用户A', u'用户B', u'用户C']
plt.rc('font', family='SimHei', size=13) #中文字体显示 

#绘图  
plt.bar(ind, mm[1:], width, color='r', label='sum num')  
plt.xlabel(u"用户")  
plt.ylabel(u"消费数据")  
plt.title(u"用户消费数据对比柱状图")  
plt.legend()  
#设置底部名称  
plt.xticks(ind+width/2, x, rotation=40) #旋转40度  
plt.show()

下面详细讲解这部分的核心代码：

data = pd.read_csv(“data.csv”, header=None)
调用Pandas扩展包的read_cvs()读取test15_03.csv文件，将数据存储至data变量中。
mm = data.sum()
然后调用data.sum()函数求和，返回值为[55, 2134.510, 3017.120, 3951.095]，对应三个用户的消费金额总额，第一列为十行数据序号求和。
import matplotlib.pyplot as plt
导入matplotlib.pyplot扩展包，pyplot是用来画图的方法，重命名为plt变量方便调用，比如显示图形时调用plt.show()函数即可，而不用调用matplotlib.pyplot.show()函数。
plt.bar(ind, mm[1:], width, color=‘r’, label=‘sum num’)
plt.bar()函数用于绘制条形图（Bar Plot）。参数ind值为[0,1,2]，表示三个用户的序号；mm[1:]对应柱状图的高度，其值获取三个用户消费额总和（从第2个值开始获取）；width表示柱状图之间间隔，即0.35；color表示设置柱状图的颜色，r表示红色；label是设置右上角的图形标注，自定义赋值为“sum num”。
plt.title(“用户消费数据对比柱状图”)
设置绘制图形的标题为“用户消费数据对比柱状图”。
plt.xlabel(“用户”)
表示绘制图形的X轴坐标标题，即为“用户”。
plt.ylabel(“消费数据”)
表示绘制图形的Y轴坐标标题，即为“消费数据”。
plt.legend()
表示设置右脚上的图例。
plt.grid()
表示绘制图形的背景网格线显示。
plt.show()
表示调用pyplot.show()将填充数据的图形显示出来。

输出如图所示：

注意：Matplotlib图显示中文通常为乱码，如果想在图表中能够显示中文字符和负号等，则需要增加下面这段代码进行设置。

import matplotlib.pyplot as plt
plt.rcParams['font.sas-serig']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

3.Matplotlib思维导图

绘图库Matplotlib
安装配置、Matplotlib快速入门、图形绘制、风格和样式、Matplotlib扩展
Matplotlib快速入门
画布、子图与子图布局、坐标轴与刻度的名称、图例和文本标注、显示和保存

图形绘制
曲线图、散点图、直方图、饼图、箱线图、绘制图像、极坐标绘图

风格和样式
画布设置、子图布局、颜色、线条和点的样式、坐标轴、刻度、文本、图例、网格设置

Matplotlib扩展
使用BaseMap绘制地图、3D绘图工具包

六.Scikit-Learn

1.基础介绍

学习Python数据分析或机器学习，你就不得不知道Scikit-Learn扩展包。它是用于Python数据挖掘和数据分析的经典、实用扩展包，通常缩写为Sklearn。Scikit-Learn中的机器学习模型是非常丰富的，包括线性回归、决策树、SVM、KMeans、KNN、PCA等等，用户可以根据具体分析问题的类型选择该扩展包的合适模型，从而进行数据分析。

本系列后续数据分析的绝大部分内容都是基于该扩展包的，同时推荐大家学习官网的模型用法和实例文档。

Scikit-learn的基本功能主要被分为六个部分：

回归(Regression)
分类(Classification)
聚类(Clustering)
数据降维(Dimensionality Reduction)
模型选择(Model Selection)
数据预处理(Preprocessing)

例如下面代码对数据x、y数组进行简单聚类分析，代码如下：

#coding=utf-8
#By：Eastmount CSDN 2021-06-28
from sklearn.cluster import KMeans

X = [[1],[2],[3],[4],[5]]
y = [4,2,6,1,3]
clf = KMeans(n_clusters=2)
clf.fit(X,y)
print(clf)
print(clf.labels_)

调用Sklearn.cluster聚类包中KMeans()函数进行聚类，并且类簇数设置为2，即n_clusters=2。输出如下类标签为：[1 1 0 0 0]，表示前2个点（1, 4）、（2, 2）为第1类，后三个点（3, 6）、（4, 1）、（5, 3）为第0类。更多聚类知识见后面文章。

2.Sklearn思维导图

机器学习工具包Scikit-learn
Scikit-learn概览、安装配置、数据集、数据预处理（Preprocessing）、分类（Classification）、回归（Regression）、聚类（Clustering）、成分分解与降维、模型评估与参数调优
数据集
Sklearn自带的数据集、样本生成器、加载其他数据集

数据预处理
标准化、归一化、正则化、离散化、特征编码、缺失值补全

分类
K近邻分类、贝叶斯分类、决策树分类、SVM分类、随机森林分类、集成学习（Bagging/Boosting）、神经网络模型

回归
线性回归、Lasso回归、支持向量机回归、K近邻回归、决策树回归、随机森林回归、逻辑回归

聚类
K-Means聚类、均值漂移聚类、基于密度的空间聚类、谱聚类、层次聚类

成分分解与降维
主成分分析、因子分析、截断奇异值分解、ICA

模型评估与参数调优
估计器得分、交叉验证、评价指标、参数调优、模型持久化

七.本章小结

Python被广泛应用于数据分析或人工智能等领域，一部分原因就是因为其支持开源，拥有强大的第三方扩展包，比如Numpy、Scipy、Pandas、Matplotlib、Gensim、Statsmodels、Scikit-learn、Tensorflow等。本系列常用的数据分析包中，NumPy包用于数值计算；Scipy包用于数学、矩阵、科学和工程包计算；Pandas包用于数据分析和数据探索、可视化处理；Matplotlib包用于数据可视化、常用2D绘图领域；Sklearn包拥有众多的机器学习和数据分析算法。希望读者能认真学习本文讲解的各扩展包案例，后续文章也将围绕这些扩展包走进数据分析的世界。

该系列所有代码下载地址：

https://github.com/eastmountyxz/Python-zero2one

感谢在求学路上的同行者，不负遇见，勿忘初心。这周的留言感慨～

(By:娜璋之家 Eastmount 2021-06-28 夜于武汉 https://blog.csdn.net/Eastmount )

参考文献：

[1] 杨秀璋. 专栏：知识图谱、web数据挖掘及NLP - CSDN博客[EB/OL]. （2016-09-19）[2017-11-07]. http://blog.csdn.net/column/details/eastmount-kgdmnlp.html.
[2] matplotlib. Matplotlib官网[EB/OL]. （2002-2017）[2017-11-10]. http://matplotlib.org.
[3] scikit-learn. Scikit-Learn官网[EB/OL]. （2017）[2017-11-10].http://scikit-learn.org/
stable/.
[4] pandas. Pandas官网[EB/OL]. （2017）[2017-11-10]. http://pandas.pydata.org/.
[5] 杨秀璋.[Python数据挖掘课程] 一.安装Python及爬虫入门介绍 - CSDN博客[EB/OL].（2016-09-19）[2017-11-15]. http://blog.csdn.net/eastmount/article/details/52577215.
[6] 杨秀璋.[Python数据挖掘课程] 六.Numpy、Pandas和Matplotlib包基础知识[EB/OL] . （2016-11-14）[2017-11-15]. http://blog.csdn.net/eastmount/article/details/53144633.
[7] 达闻西. 给深度学习入门者的Python快速教程 - numpy和Matplotlib篇[EB/OL]. （2017）[2017-11-14]. https://zhuanlan.zhihu.com/p/24309547.
[8] 张良均，王路，谭立云，苏剑林. Python数据分析与挖掘实战[M]. 北京：机械工业出版社，2016.
[9] （美）Wes McKinney著. 唐学韬等译. 利用Python进行数据分析[M]. 北京：机械工业出版社，2013.

你可能感兴趣的:(Python从零到壹,Python人工智能,Python学习系列,Python基础,数据分析,数据科学,Pandas,Numpy)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr