第五本日记

数据分析6-数据可视化

基本概念
数据可视化是指借助于图形化的手段，清晰、快捷有效的传达与沟通信息。同时，也可以辅助用户做出相应的判断，更好的去洞悉数据背后的价值

matplotlib
matplotlib是用于Python的绘图库，提供各种常用图形的绘制。例如，条形图，柱形图，线图，散点图等
根据惯例，使用如下的方式导入：

import matplotlib as mpl
import matplotlib.pyplot as plt

一、图形绘制

绘制线图
可以通过matplotlib.pyplot的plot方法进行图形绘制。

plt.plot([1,2],[3,4],"ro--",[5,6],[7,8],"g<-")

也可以分两次绘制，如下：

plt.plot([1,2],[3,4],"ro--")
plt.plot([5,6],[7,8],"g<-")

输出图形如下：

需要注意的是：如果x坐标未给定，则默认是0,1,2,3,4…
x,y两个数组，对位取元素，构成一个坐标，进行绘制。

画曲线。

x = np.linspace(0,2*np.pi,100)
y =np.sin(x)
plt.plot(x,y,"r")

输出为：

图形交互式设置
我们可以设置jupyter notebook图形是否交互式显示，默认为否。

%matplotlib notebook

设置中文支持
matplotlib默认情况下不支持中文显示，如果需要显示中文，则我们需要做一些额外的设置操作。设置可以分为：
全局设置
局部设置

全局设置
我们可以通过执行：

mpl.rcParams["font.family"] = "中文字体名称"
mpl.rcParams["axes.unicode_minus"]=False

进行设置
常用的设置如下:
font.family 字体的名称
sans-serif 西文字体（默认）
SimHei 中文黑体
FangSong 中文仿宋
YouYuan 中文幼圆
STSong 华文宋体
Kaiti 中文楷体
LiSu 中文隶书

font.style 字体的风格
normal 常规（默认）
italic 斜体
oblique 倾斜

font.size 字体的大小（默认10）
axes.unicode_minus 是否使用Unicode的减号（负号）【在支持中文显示状态下，需要设置为False】，这是因为但是，字体设置成支持中文的字体后，负号(-)也会使用中文的负号，而中文的负号又不支持显示，

mpl.rcParams["font.family"]="YouYuan"
mpl.rcParams["axes.unicode_minus"]=False
mpl.rcParams["font.size"]=10
plt.plot([-1,-2,-3],[4,5,6])
plt.title("标题")

输出：

使用mpl.rcParams设置参数时，是一种全局的设置，我们也可以进行局部的设置，仅对当前的绘制生效。当全局设置与局部设置冲突时，以局部设置为准。

plt.plot([-1,-2,-3],[4,5,6])
plt.title("标题1",fontsize=20,fontproperties= "Kaiti")

输出：

保存图表
通过plt的savefig方法将当前的图形保存到硬盘或者类文件对象中，相关参数如下：
dpi：每英寸分辨率点数。
facecolor：设置图像的背景色。
bbox_inches：设置为tight，可以紧凑保存图像

x= np.linspace(0,2*np.pi,100)
y = np.sin(x)
plt.plot(x,y)
plt.savefig("e:/jupyter_notebook/test11.jpg",dpi=200,facecolor="#ff0000",bbox_inches="tight")

读取图形：

from PIL import Image
image = Image.open("e:/jupyter_notebook/test11.jpg")
image.show()

读取结果会用默认图片浏览器打开

保存图像。保存到类文件对象中。

from io import BytesIO
bio = BytesIO()
plt.savefig(bio)
bio.read()
bio.getvalue()
bio.seek(0)
bio.getvalue()

输出：

需要注意的是如果读取一遍后需要再次读取需要重新将指针设置为文件开头，否则无法读取

颜色，点标记与线型设置
我们可以在绘制图形时，显式指定图形的颜色，点标记或线条形状。具体设置可以查看帮助文档
color©：线条颜色。
linestyle(ls)：线条形状
linewidth(lw)：线宽。
marker：点标记形状
markersize(ms)：点标记的大小
markeredgecolor(mec)：点边缘颜色
markeredgewidth(mew)：点边缘宽度
markerfacecolor(mfc)：点的颜色。

说明：
颜色，点标记与线型可以使用一个参数进行设置
颜色除了可以使用预设简写的字符之外，也可以使用全称（例如red）也可以使用RGB颜色表示。
如下所示：

plt.plot([1, 2, 3], [4, 5, 6], c="g", ls="--", marker=">", ms=20)
plt.plot([1, 2, 3], [4, 5, 6], marker="o", mec="r", ms=15, mew=5, mfc="g")
plt.plot([1, 2, 3], [4, 5, 6], "o--r")
plt.plot([1, 2, 3], [4, 5, 6], c="green")

透明度设置
在绘制图像时，我们可以通过alpha参数来控制图像的透明度，值在0 ~ 1之间。0为完全透明，1为不透明。
如下所示：

plt.plot([1, 2, 3], [4, 5, 6], alpha=0.5)

图例设置
在绘制多条线时，可以设置图例来标注每条线所代表的含义，使图形更加清晰易懂。
可以采用如下的方式设置图例：
调用plt的legend函数，传递一个标签数组，指定每次plot图形的标签。
在绘制的时候通过label参数指定图例中显示的名称，然后调用legend函数生成图例。
legend常用的参数：
loc：指定图例的位置。默认为best。也可以指定坐标（元组），基于图像左下角计算。
frameon：设置是否含有边框。
title：设置图例的标题。
ncol：图例显示的列数，默认为1。

plt.plot(np.arange(1,13),np.random.randint(50,70,size=12),label = "2018年")
plt.plot(np.arange(1,13),np.random.randint(60,70,size=12),label = "2017年")
plt.legend()

plt.plot(np.arange(1,13),np.random.randint(50,70,size=12))
plt.plot(np.arange(1,13),np.random.randint(60,70,size=12))
plt.legend(["2018年","2017年"])

plt.plot(np.arange(1,13),np.random.randint(50,70,size=12),label = "2017年")
plt.plot(np.arange(1,13),np.random.randint(60,70,size=12),label = "2018年")
plt.legend(["2017年","2018年"])

输出：

loc 指定图例显示的位置。如果没有显式设置，会选择最合适的位置进行显示（默认值best或0）。
loc matplotlib中提供了几种显示位置，除此之外，也支持使用元组进行设置。元组指定基于图像尺寸偏移的比例。原点在左下角。设置图例是否显示边框，默认为True。

plt.plot(np.arange(1,13),np.random.randint(50,70,size=12),label = "2017年")
plt.plot(np.arange(1,13),np.random.randint(60,70,size=12),label = "2018年")
plt.legend(["2017年","2018年"],loc=(0.8,0.8),frameon=False)

输出：

设置图例的标题信息以及显示列数

plt.plot(np.arange(1,13),np.random.randint(50,70,size=12),label = "2017年")
plt.plot(np.arange(1,13),np.random.randint(60,70,size=12),label = "2018年")
plt.legend(["2017年","2018年"],title = "标题",ncol=2)

输出：

网格设置
可以通过plt的grid方法来设置是否显示网格。True为显示，False不显示。ax.grid(color=‘r’, linestyle=’-’, linewidth=2)
color：设置网格线颜色
axis：设置网格线显示x，y或者全部显示（x，y，both）。
linestyle：设置网格线形状。
linewidth：设置网格线宽度。

plt.plot([1,2,3],[4,5,6])
plt.grid(True,color = "r",axis ="x",linestyle = "--",linewidth=2)

输出：

绘图区域设置
我们可以在一张图上绘制多个图形，当然，我们也可以将不同的图形绘制到多个不同的区域当中
我们可以采用以下方式来实现多个区域的绘制（创建子绘图区域）：
通过Figure对象调用add_subplot方法
通过plt的subplot方法
通过plt的subplots方法

子区域1：add_subplot方法
首先创建matplotlib.figure.Figure对象，然后通过Figure对象的add_subplot方法增加子绘图区域。
add_subplot方法中，需要指定子区域的行数、列数与当前要绘制的子区域。
add_subplot方法会返回子绘图对象（轴对象），通过该对象即可实现绘图（matplotlib.axes._subplots.AxesSubplot）。

在绘制图形时，总是需要创建Figure对象。如果没有显式创建，则plt会隐式创建一个Figure对象。在绘制图形时，既可以使用plt来绘制，也可以使用子绘图对象来绘制
如果使用plt对象绘制，则总是在最后创建的绘图区域上进行绘制，如果此时尚未创建绘图区域，则会自动创建。
说明：
add_subplot方法的参数，即可以使用三个参数分开传递，也可以使用一个参数整体传递。
可以通过plt.subplots_adjust方法来调整子绘图的位置与子绘图之间的距离。（left, right, top, bottom, wspace, hspace）
创建子区域时，可以使用facecolor设置绘图区域的背景色。

创建Figure对象（画图对象），我们要进行绘制图形，就必须要有该对象的支持。
如果我们没有显式创建该对象，则在调用plt.plot的时候，会自动创建。
通过绘图对象增加子绘图区域。add_subplot方法会返回子绘图区域对象。
参数：第一个：行数第二个：列数第三个：当前子绘图区域的位置（索引从1开始）

f = plt.figure()
a = f.add_subplot(1,2,1)
a.plot([1,2,3],[4,4,5])
b = f.add_subplot(1,2,2)
b.plot([1,2,3],[7,8,9])

输出：

add_subplot也可以通过字符串的形式，进行传递参数。（将三个参数合并到一起）
调整子绘图区域之间或子绘图区域与画图之间空隙。

f = plt.figure()
a = f.add_subplot("121")
a.plot([1,2,3],[4,4,5])
b = f.add_subplot("122")
b.plot([1,2,3],[7,8,9])
plt.subplots_adjust(wspace=0.5,hspace=1)

输出：

在绘制图形时，我们可以通过调用自绘图区域对象plot方法绘制，也可以调用plt的plot进行绘制，当我们使用plt的plot进行绘图时，我们实际上是通过子绘图区域对象来绘制的。plt永远是绘制在最后一个创建的子绘图区域上。如果当前没有任何绘图区域，则会自动创建一个。
可以通过facecolor来指定子绘图区域的背景色。

f = plt.figure()
a = f.add_subplot("121")
a.plot([1,2,3],[4,4,5])
b = f.add_subplot("122",facecolor="r")
b.plot([1,2,3],[7,8,9])

输出：

子区域2：subplot方法
通过调用plt的subplot方法创建子绘图区域，该方法返回子绘图对象。此处方式下，会隐式创建Figure对象。
实际上，这种创建子绘图区域的方式，底层也是通过第一种方式实现的。
subplot会返回子绘图区域对象。
subplot在参数上与figure对象的add_subplot方法类似，支持3个参数，也支持1个str类型的参数。

a = plt.subplot(1,2,1)
a.plot([1,2,3],[4,5,6])
b = plt.subplot("122")
b.plot([2,3,4],[5,6,7])

输出：

子区域3：subplots方法
通过plt的subplots方法创建子绘图区域，该方法返回一个元组（Figure对象与所有子绘图对象，如果是多个子绘图对象，则返回一个ndarray数组）。可以通过sharex与sharey来指定是否共享x轴与y轴
plt.subplots 返回一个元组，元组中含有两个元素。第1个元素是绘图Figure对象，第2个元素是所有创建好的子绘图区域对象。
我们可以通过sharex与sharey设置是否共享x轴与y轴。默认为False。

figure,ax = plt.subplots(1,2,sharex =True,sharey=True)
display(figure,ax)
ax[0].plot([1,2,3],[4,5,6])
ax[1].plot([4,5,6],[1,2,3])

输出：

绘图区域大小设置
如果绘图子区域较多，可能会有些拥挤。此时，我们可以调整绘图区域的大小。方式如下：
在调用plt.figure()创建Figure对象时，通过figsize参数指定。单位为英寸
在创建Figure对象后，可以通过Figure对象的set_size_inches方法设置。

说明：
如果没有显式创建Figure对象，可以通过plt的gcf函数获取当前的Figure对象。

在创建figure对象时，可以通过figsize参数来指定画布的大小。（单位：英寸）

plt.figure((fsize=(3,3)))

也可以在创建figure对象之后，通过调用set_size_inches方法来进行设置。

f = plt.figure()
f.set_size_inches(3, 3)
plt.plot([1, 2, 3], [3, 4, 5])

如果没有显式的创建figure对象，我们可以通过plt.gcf获取当前的figure对象。

f = plt.gcf()
f.set_size_inches(4, 10)
plt.plot([1, 2, 3], [4, 5, 6])

标签与刻度设置
可以通过plt对象的相关方法来设置（或获取）标签与刻度等信息。设置还是获取，取决于是否传递实际参数。
plt.xlim 设置或获取x轴刻度范围。
plt.ylim 设置或获取y轴刻度范围。
plt.xticks 设置或获取x轴显示的刻度与标签。
plt.yticks 设置或获取y轴显示的刻度与标签。
plt.axis 可以同时设置或获取x与y轴的刻度范围，或者是取消刻度显示。

无参数：返回一个元组。(xmin, xmax, ymin, ymax)，(xmin, xmax, ymin, ymax) 同时设置x与y轴的刻度范围。

off 取消坐标轴显示
tight：坐标轴紧凑显示。
equal：x与y具有同样的长度。

轴标签说明与标题设置
plt.xlabel 设置x轴的标签说明
plt.ylabel 设置y轴的标签说明
plt.title 设置标题。

xlim, ylim等方法，即可以进行设置，也可以获取。到底是设置还是获取，取决于我们调用方法时，是否传递参数，如果传递参数，则进行设置。如果没有传递参数，则进行获取。

plt.plot([3, 5, 7], [1, 5, 7])
t = plt.xlim()
display(t)
xmin, xmax = plt.xlim()
display(xmin, xmax)

输出：

设置x轴的最小值与最大值以及单独设置最大值最小值。

plt.xlim(0, 10)
plt.xlim(0)
plt.xlim(xmax=10)

在设置刻度值时，也可以同时设置对应刻度值显示的标签。

plt.xticks([20, 40, 60], ["弱冠", "不惑", "花甲"])

设置或者获取x与y轴的刻度范围。

plt.axis((0, 8, -2, 10))

取消坐标轴的显示

plt.axis("off")

设置坐标轴紧凑显示。

plt.axis("tight")

令x与y轴等比例尺显示。

plt.axis("equal")

通过绘图对象设置标签与标题
除了通过plt对象外，我们还可以通过子绘图对象来设置与获取标签与刻度。
ax.set_xlim 设置x轴刻度范围。
ax.get_xlim 获取x轴刻度范围。
ax.set_xticks 设置x轴显示的刻度。
ax.get_xticks 获取x轴显示的刻度。
ax.set_xticklabels 设置x轴显示的刻度标签。默认显示的是就是刻度值。
ax.get_xticklabels 获取x轴显示的刻度标签。

也可以设置标签说明与标题。
ax.set_xlabel 设置x轴的标签说明。
ax.get_xlabel 获取x轴的标签说明。
ax.set_title 设置标题。
ax.get_title 获取标题

说明：
如果需要设置或者获取y轴，只需要将x换成y即可。
在设置标签时，可以使用rotation参数，令标签旋转。

figure, ax = plt.subplots(1, 1)
ax.set_xlim(5, 10)
# ax.get_xlim()
ax.set_xticks([5, 7, 9])
ax.set_xticklabels(["aasdfadsf", "basdfasdf", "casdfasdfad"], rotation=90 )
ax.set_xlabel("x轴")
ax.set_ylabel("y轴")
ax.set_title("标题信息")

添加注解
我们可以在图形上绘制文本等说明信息（注解）。

普通文本：
plt.text 显示文本（基于坐标）
plt.figtext 显示文本（基于图片）

箭头：
plt.arrow 根据起点坐标（x，y）与各自轴的长度（x + dx, y + dy）绘制箭头。
width 箭头尾部的宽度。
head_width 箭头的宽度。
head_length 箭头的长度

箭头与文本：
plt.annotate 显示箭头与文本

xy 箭头指向坐标
xytext 文本起点坐标。（箭头尾部坐标）
arrowprops 字典类型，可设置箭头的属性。

facecolor 箭头的颜色
headwidth 箭头的宽度
width 箭尾的宽度
shrink 收缩大小
headlength 箭头的长度
arrowstyle 一些预设的箭头样式。当含有该参数时，上述4项参数将不再有效。

x = np.linspace(-10, 10, 1000)
y = x ** 2
y2 = x * 2
plt.plot(x, y)
plt.plot(x, y2)
# 绘制文本说明信息。基于坐标。
# plt.text(0, 40, "$y=x^2$")
# plt.text(9, 0, "$y=x * 2$")
# 绘制文本说明信息。基于图像的比例。（原点在坐下角）
# plt.figtext(0.5, 0.8, "y=x*2")

x = np.linspace(-10, 10, 1000)
y = x ** 2
plt.plot(x, y)
# plt.text(0, 0, "这是极值点")
# 绘制箭头。前两个参数指定起始点的坐标。第3个参数指定x轴的偏移量，第4个参数指定y轴的偏移量。
# plt.arrow(-5, 40, 5, -40, width=0.5, head_width=0.8, head_length=1.5, color="r")
# plt.text(-5, 45, "这是极值点")

# plt.annotate(s="这是极值点", xy=(0, 0), xytext=(-5, 40), arrowprops=dict(width=2, facecolor="r", headwidth=10,
#                                     headlength=10, shrink=0.1))
plt.annotate(s="这是极值点", xy=(0, 0), xytext=(-5, 40), arrowprops=dict(arrowstyle="->"))

二、绘图样式设置

我们可以通过plt.style.use(“样式名”)来设置绘图使用的样式。

说明：执行plt.style.available来获取所有的绘图样式。

一、折线图
折线图适用于显示数据的趋势，增加变化的场景中。例如，气温的变量，销售的增加变化等。

plt.plot([1,2,3],[4,9,6])

输出：

二、柱形图 / 条形图
plt.bar 柱形图
plt.barh 条形图
柱形图/条形图适合于显示数据对比的场景之中


三、饼图
plt.pie 饼图
labels 每个部分显示的标签。
explode 指定每个部分距离圆心的偏移量（单位为半径的长度）。
colors 指定每个部分的颜色。
autopct 设置每个部分显示的比例值（格式化）。
couterclock 是否逆时针绘图。默认为True。
startangle 初始绘图点位置（逆时针偏移x轴的角度）。默认为偏移0度（x轴）。
shadow 是否含有阴影，默认为False。

饼图适合于显示数据的占用比例的场景。饼图显示比例的时候，数据量不宜过多。

plt.pie([1, 2, 3, 4], labels=["a", "b", "c", "d"], explode=[0, 0, 0, 0.5],
colors=["r", "g", "b", "#FFFF00"],
autopct="%.2f%%",counterclock=True,startangle=90,shadow=True)

输出：

四、散点图 / 气泡图
散点图适合于用来显示与比较数据的分布状态。
marker 点的标记。
s 点的大小。
color 点的颜色
说明：
color与s参数可以统一设置，也可以为每一个点单独设置。
散点图用来表示两个维度，当散点图的点显示不同大小时，就称为气泡图。气泡图可以显示2-4个维度。（气泡的大小，气泡的颜色）

color=["r", "g", "b", "y"]
plt.scatter(np.random.randint(0, 100, 100), np.random.randint(0, 100, 100), 
           np.random.randint(10, 100, 100), color=np.random.choice(color, 100))

输出：

五、直方图
直方图（histogram）可以看成是一种特殊的柱形图，用来将连续的数据频率（数量）进行离散化显示。在直方图中，数据被分割成若干区间，然后统计每个区间数据出现的频率（数量）。
我们可以通过plt.hist来绘制直方图。
bins：设置分割区间的数量。
normed：进行归一化显示。（概率密度）

直方图用来将连续的数据进行离散化的显示。hist方法返回两个数组。第一个数组返回每个区间数据的数量。
第2个数组返回每个区间的范围。每个区间的范围是前闭后开形式（包含起始点，不包含终止点）
特殊：最后一个区间（桶），是双闭区间（包含起始点，也包含终止点）。
hist默认会分为10段（10个桶），我们也可以自定义桶的数量

plt.hist(x, bins=10)

当bins参数指定为整数时，则等分为bins值的桶数。我们也可以根据实际需要，进行不等的区间划分。
时，可以将bins参数设置一个数组类型，指定区间数值（区间边界）。

x = np.random.randint(1, 81, 1000)
plt.hist(x, [1, 10, 30, 80])

输出：

六、箱线图
箱线图也称盒须图。通过极值与Q1,Q2,Q3值来描述数据。通过箱线图，我们可以发现数据中的离群（异常）值。箱线图的离群点定义为：Q3+1.5IQR和Q1－1.5IQR。其中IQR为两个四分位之间的距离。

plt.boxplot([1, 5, 8, 10, 2, 6, 9, 10, -20])

输出：

三、Series与DataFrame图形绘制

Series与DataFrame类型的对象也支持图形绘制，使用对象的plot方法即可。
如果我们需要绘制图形的数据就存在Series或者DataFrame对象中，我们就可以直接绘制，而无需使用plt.plot。

s = pd.Series([5, 2, 4, 6, 8, 9, 10])
s.plot(kind="density")

输出：

df = pd.DataFrame([[1, 3, 5], [2, 4, 6], [9, 8, 2], [6, 5, 8]])
df.plot(kind="bar", stacked=True)

输出：

也可以这样来进行绘制。

df.plot.bar()

其他类型图形
line：线形图
bar：柱形图
barh：条形图
hist：直方图
kde / density：核密度图
pie：饼图
box：箱线图
area：面积图

参数：
color
alpha
stacked：是否堆叠。

你可能感兴趣的:(Python数据分析)

Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
python数据分析scipy库安装与使用范哥来了 python 数据分析 scipy
安装scipy库scipy是一个用于科学计算的Python库，它依赖于numpy。如果你还没有安装scipy，可以使用以下命令来安装：pipinstallscipy或者，如果你使用的是Anaconda环境，可以通过conda来安装：condainstallscipy使用scipy库scipy提供了许多用于科学计算的功能，包括统计、优化、积分、线性代数等。下面是一些常见的用法示例。1.导入scipy
Python,C++开发上市辅导方法与实操APP Geeker-2025 python c++
#上市辅导方法与实操APP-Python与C++综合解决方案下面是一个完整的上市辅导方法与实操APP的实现方案，结合Python和C++的优势，涵盖金融建模、合规分析、流程管理等多个方面：```mermaidgraphTDA[上市辅导系统]-->B[核心引擎]A-->C[应用平台]B-->D[C++金融计算引擎]B-->E[Python数据分析]B-->F[合规检查系统]C-->G[Web管理平台
《python 数据分析从入门到精通》读书笔记｜了解数据分析｜数据分析基础知识
《python数据分析从入门到精通》读书笔记第一章：了解数据分析1.1什么是数据分析数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法，对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析，从中提取有价值的信息并形成结论进行展示的过程。数据分析实际上是通过数据的规律来解决业务问题，以帮助实际工作中的管理者做出判断和决策。数据分析包括以下几个主要内容：（1）现状分析：分
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
物流数据行业分析（包含完整代码和流程）------python数据分析师项目Anaconda 欲梦yhd 数据分析项目大数据 conda python
一、引言数据分析流程为明确目的、获取数据、数据探索和预处理、分析数据、得出结论、验证结论、结果展现。物流业务中对数据进行深入挖掘和分析的过程，旨在提高运输效率、降低运输成本、提高客户满意度，以及提高公司的竞争力。本案例物流数据分析目的：a、配送服务是否存在问题b、是否存在尚有潜力的销售区域c、商品是否存在质量问题二、详细流程1、数据预处理（数据清洗）（1）数据导入使用panda库读取数据，编码方式
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
python数据分析第9天雪球滚滚滚数据分析 python 数据挖掘
python数据分析第9天电商网站用户/订单/活动数据分析项目商业模式B2B：商家对商家（企业卖家对企业买家），交易双方都是企业，最典型的案例就是阿里巴巴，汇聚了各行业的供应商，特点是订单量一般较大。B2C：商家对个人（企业卖家对个人买家），例如：唯品会，聚美优品。B2B2C：商家对商家对个人，例如：天猫、京东。C2C：个人（卖家）对个人（买家），例如：淘宝、人人车。O2O：线上（售卖）到线下（提
Python数据处理三剑客：NumPy、Pandas和xarray全面详解 AI开发学习分享 python 数据分析 python numpy pandas
在Python数据分析领域，NumPy、Pandas和xarray是最核心的三个库。本文将详细介绍它们的功能、用法和区别，并提供大量实用代码示例。一、NumPy：科学计算基础库NumPy是Python科学计算的基础包，提供了高性能的多维数组对象和各种计算工具。1.1基本数组操作importnumpyasnp#创建数组arr1=np.array([1,2,3,4])#一维数组arr2=np.arra
100个Pandas练习题：从入门到精通的实战指南陆骊咪Durwin
100个Pandas练习题：从入门到精通的实战指南100-pandas-puzzles100datapuzzlesforpandas,rangingfromshortandsimpletosupertricky(60%complete)项目地址:https://gitcode.com/gh_mirrors/10/100-pandas-puzzles前言Pandas作为Python数据分析的核心库，
Python 数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例 Q_ytsup5681 python 数据分析开发语言 plotly matplotlib
本文链接：Python数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例-CSDN博客学习Python数据可视化对于数据分析和数据科学领域是至关重要的，它有着许多作用，包括但不限于以下几个方面：1.数据理解与探索：可视化使得数据更加直观，通过图表和图形，可以更容易地观察数据的分布、趋势和模式。这有助于深入理解数据，识别异常值和发现潜在的关联性。2.决策支持：数据可视化为决策提
python数据分析期末测验,python数据分析基础题库 Leospanb87 python 开发语言人工智能
大家好，小编来为大家解答以下问题，python数据分析与应用选择题答案，python数据分析与应用课后题，现在让我们一起来看看吧！文章目录一、选择题二、填空题三、判断题四、代码分析题五、程序题一、选择题1.sum(range(0,101)的结果是（）A.5050B.5151C.0D.101A2.下面哪个不是python合法的标识符（）A.int32B.70XLC.selfD.__name__B3.
python数据分析与可视化蓝宗林 python 数据分析信息可视化
一、Python数据分析概述Python是一种解释型、交互式的编程语言，其设计理念强调代码的可读性和简洁性。Python的语法结构简单，支持面向对象、过程式和函数式三种编程范式，使得Python成为一种强大而灵活的编程语言。Python数据分析主要包括数据清洗、数据探索和数据可视化三个部分。数据清洗是数据分析的重要环节，主要是对数据进行预处理，包括缺失值处理、异常值处理、数据类型转换等。数据探索则
Python数据分析与可视化理论知识
Python数据分析概述Python数据分析依赖的两个对象表格对象实现统计分析数据预处理Matplotlib数据可视化总结Python数据分析概述数据分析的概述数据分析：用适当的统计分析方法将收集来的大量数据进行分析，将他们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的类别：描述性数据分析、探索性数据分析
3648766 天浊海 python pycharm sklearn
1.Python数据分析介绍及环境搭建1.1python数据分析简介【了解】1.1.1python做数据分析的优势可以独立完成数据分析的各种任务功能强大,有海量的开源包(pandas,numpy…)处理海量数据效率高开源免费1.1.2常用python数据分析开源库numpy:用于数组计算pandas:分析结构化数据的工具集series:类似一维数组的对象(一行数据或者一列数据)dataframe:
Python数据分析的基本步骤在焦虑的沙漠里种一棵树 python 数据分析开发语言
数据分析的基本步骤（基于Python）一、引言在当今数字化时代，数据已成为企业、科研机构等组织的重要资产。有效地进行数据分析可以帮助我们从海量的数据中提取有价值的信息，从而支持决策制定、优化流程、发现趋势等。Python作为一种强大的编程语言，拥有丰富的数据分析库，如Pandas、NumPy、Matplotlib等，为数据分析工作提供了极大的便利。本文将详细阐述基于Python的数据分析基本步骤，
Python数据分析从小白到高手--数据可视化分析王国平信息可视化 python 数据分析人工智能大数据数据挖掘开发语言
Python是一种功能强大的编程语言，也是一种流行的数据分析工具，其数据可视化能力也非常强大，本章我们将结合实际案例介绍Python的主要数据可视化库，包括Matplotlib、Pyecharts、Seaborn、Plotly、Altair、NetworkX等。7.1Matplotlib7.1.1Matplotlib库简介Matplotlib是Python中最流行的数据可视化库之一，基于Numpy
【无痛学Python】Pandas数据载入与预处理，看这一篇就够了！ Skrrapper Python python pandas 数据库
【Python数据分析】Pandas数据载入与预处理，看这一篇就够了！对于数据分析而言，数据大部分来源于外部数据，例如CSV文件、Excel文件以及数据库文件等等。我们要把各种格式的数据转换成Pandas可处理的Series和DataFrame数据格式，进行完数据分析与处理之后再重新存储到外部文件中，这就是Pandas的数据载入与预处理。数据载入其实对于读/写文件和存储文件来说，不同类型文件的函数
Python 数据分析：NumPy 库的使用小张在编程 python 数据分析 numpy
引言：为什么说NumPy是Python数据分析的“基石”？在Python数据分析领域，有这样一句话：“没有NumPy，就没有Pandas、Matplotlib和Scikit-learn”。作为Python科学计算的核心库，NumPy（NumericalPython）凭借高效的多维数组（ndarray）和向量化运算能力，成为了所有数据分析工具的底层支撑。无论是处理百万级别的销售数据，还是实现复杂的机
python数据分析期末_Python数据分析期末作业 xander Sun python数据分析期末
Python数据分析期末作业(50分)一、名称：国民经济核算季度数据分析可视化处理；二、需求：根据文件《国民经济核算季度数据.npz》提供的各年中每个季度的数据，完成如下操作处理：1、绘制直方图：(1)在一个画板中绘制2000年、2017年第一季度国民生产总值产业构成分布、行业构成分布直方图，其效果形式如下；(2)要求：?每个图形的标题、轴标签、刻度、图形颜色、柱形宽度与效果图中的完全一致；?在每
1、Python数据分析：数据的采集数字化与智能化 Python数据分析 python数据分析 python数据的采集
一、数据的采集数据采集是系统性工程，需平衡技术、成本与合规性。在实际操作中，建议从最小可行采集方案（MVP）起步，逐步迭代优化，同时建立数据治理规范，确保长期可持续性。1.数据采集的核心目标全面性：覆盖关键维度，避免信息缺失。准确性：确保数据真实反映现实，减少误差。时效性：数据需满足实时或近实时需求（如金融交易监控）。合规性：遵守隐私保护（如GDPR）、数据安全等法律法规。2.数据来源分类（1）第
如何进行Python数据分析？正确的“入门之路”三部曲白帽黑客麦叔 Python python 数据分析开发语言职场和发展 Python教程
前言Python是一种面向对象、直译式计算机程序设计语言，由于他简单、易学、免费开源、可移植性、可扩展性等特点，Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势，Python受欢迎程度扶摇直上。由于Python拥有非常丰富的库，使其在数据分析领域也有广泛的应用。一、为什么要用Python做数据分析？在我看来，大概有3大理由。广度：各行各业都有自己的商业场景，每一个行业都需要使用数
如何进行Python数据分析？正确的“入门之路”三部曲！_python医学数据分析入门 2401_84301948 程序员网络安全学习面试
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网络安全面试题绿盟护网行动还有大家最喜欢的黑客技术网络安全源码合集+工具包所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码
【数据分析】第四章 pandas简介（1）神秘敲码人数据分析 python pandas
4.1pandas:Python数据分析库pandas是一个专门为数据分析量身定制的开源Python库。在当今的Python数据科学界，无论是专业研究还是进行统计分析和决策，pandas都是每一位数据专业人士不可或缺的基础工具。这个强大的库由WesMcKinney于2008年开始设计和开发。到了2012年，他的同事SienChang也加入了开发团队。正是他们二人的共同努力，造就了Python社区中
一篇文章搞定Python数据分析用到的所有库花小姐的春天跟着花姐学Python python 数据分析开发语言 0基础学Python Python教程 Python基础教程数据挖掘
想做数据分析，却不知道从哪里入手？别担心，花姐今天就来告诉你，想搞定数据分析，掌握以下这些Python库就够了！准备好了吗？跟着我一起看看这些实用的库吧！1.数据处理库在数据分析的世界里，数据处理是最基础也是最重要的部分。如果你想要做一份高质量的报告，或者让数据“乖乖”地为你服务，首先必须得把数据弄清楚、整理好。今天，我们就从四个强大的数据处理库说起——pandas、numpy、dask和modi
Python编码系列—Python数据分析：NumPy与Pandas的实战应用学步_技术 Python编码 python 数据分析 numpy
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
Python, 数据分析, 电商运营, 用户行为 detayun Python python 数据分析开发语言
在电商行业日益内卷的今天，如何通过用户行为数据挖掘商业价值已成为企业制胜的关键。本文将结合Python数据分析工具链，从实战角度解读电商用户行为分析的全流程，并提供可直接复用的代码框架。一、为什么需要用户行为分析？电商用户行为数据是隐藏的"商业密码本"，通过分析可实现：精准营销：识别高价值用户群体（如"双11"前浏览未购买用户）体验优化：发现购物车弃置率高的环节（如支付流程卡点）库存优化：基于销量
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo