踏破万里无云

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（六）（Matplotlib数据可视化））

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（六）（Matplotlib数据可视化

6 Matplotlib数据可视化
- 6.1 Matplotlib绘图基础
- 6.2 安装Matplotlib库
- 6.3 导入Matplotlib库中的pyplot字库
- 6.4 Figure对象
- - 6.4.1 创建Figure对象
  - 6.4.2 划分子图
  - 6.4.3 设置中文字体
  - 6.4.4 添加标题
  - - 6.4.4.1 添加全局标题
    - 6.4.4.2 添加子标题
    - 6.4.4.3 tight_layout()函数
- 6.2 散点图
- - 6.2.1 scatter()函数绘制-散点图
  - - 6.2.1.1 设置字体中文黑体
    - 6.2.1.2 生成正态分布的x和y
    - 6.2.1.3 绘制散点图
    - 6.2.1.4 设置标题
    - 6.2.1.4 图右上角显示均值和方差-text()函数
    - 6.2.1.5 坐标轴的设置
    - 6.2.1.6 完整程序例子
    - 6.2.1.7 增加均匀分布的点
    - 6.2.1.8 增加图例- 区分两种点
    - 6.2.1.9 最终程序
- 6.3 折线图和柱形图
- - 6.3.1 折线图
  - - 6.3.1.1 绘制折线图
    - - 6.3.1.1.1 plot()函数
    - 6.3.1.2 例子
    - - 6.3.1.2.1 生成随机数列
      - 6.3.1.2.2 绘制折线图
      - 6.3.1.2.3 完整代码
  - 6.3.2 柱状图
  - - 6.3.2.1 绘制柱状图
    - 6.3.2.2 绘制柱状图例子
    - - 6.3.2.2.1 条纹高度
      - 6.3.2.2.2 条纹left坐标
      - 6.3.2.2.3 完整的程序
- 6.4 实例：波士顿房价数据集可视化
- - 6.4.1 波士顿房屋数据集
  - - 6.4.1.1 Keras库
    - - 6.4.1.1.1 波士顿房价数据集
    - 6.4.1.2 使用波士顿房价数据集
    - - 6.4.1.2.1 加载数据集
      - 6.4.1.2.2 改变数据集划分比例
      - 6.4.1.2.3 访问数据集中的数据
  - 6.4.2 波士顿房价数据集可视化
  - - 6.4.2.1 房间数与房价的散点图
    - 6.4.2.2 其他属性与房价的散点图
    - - 6.4.2.2.1 所有属性与房价的关系
      - 6.4.2.2.2 添加坐标轴和标题
- 6.5 实例：鸢尾花数据集可视化
- - 6.5.1 下载鸢尾花数据集
  - - 6.5.1.1 get_file()函数-下载数据集
    - 6.5.1.2 下载鸢尾花数据集iris
    - - 6.5.1.2.1 csv文件
      - 6.5.1.2.2 split()函数
    - 6.5.1.3 get_file()下载数据集的通用版本
  - 6.5.2 Pandas访问csv数据集
  - - 6.5.2.1 Panda库
    - 6.5.2.2 导入Panda库
    - 6.5.2.3 读取csv数据集文件
    - - 6.5.2.3.1 read_csv()方法读取csv格式的文件
      - 6.5.2.3.2 设置列标题（表头）-header
      - 6.5.2.3.3 自定义列标题-names参数
    - 6.5.2.3 访问数据
    - - 6.5.2.3.1 df.head()方法，前面数据
      - 6.5.2.3.2 df.tail()方法，后面数据
      - 6.5.2.3.3 使用索引和切片
      - 6.5.2.3.4 describe()方法-显示统计信息
      - 6.5.2.3.5 DataFrame的常用属性：ndim、size、shape
      - 6.5.2.3.6 转换为Numpy数组
      - 6.5.2.3.6.1 numpu数组后的索引和切片
      - 6.5.2.3.7 得到所有数据中的“鸢尾花种类”取值
    - 6.5.2.4 Pandas其他功能简介
  - 6.5.3 鸢尾花数据集可视化
  - - 6.5.3.1 鸢尾花数据散点图（花瓣长宽）
    - - 6.5.3.1.1 绘制出无法区分类别的散点图
      - 6.5.3.1.2 色彩映射
      - 6.5.3.1.3 添加标题和坐标轴标签
    - 6.5.3.2 鸢尾花数据散点图（其他属性）
    - - 6.5.3.2.1 绘制第1行4个子图
      - 6.5.3.2.2 绘制4*4的16个子图
      - 6.5.3.2.3 我的代码（仅修改一些参数为了图好看，大可不必来看）

6 Matplotlib数据可视化

6.1 Matplotlib绘图基础

数据可视化

数据分析阶段：理解和洞察数据之间的关系；
算法调试阶段：发现问题，优化算法；
项目总结阶段：展示项目成果

Matplotlib：绘制图标的第三方库，可以快速方便地生成高质量的图标

直方图
柱形图
散点图
气泡图
折线图
三维图

6.2 安装Matplotlib库

Anaconda：安装了anaconda之后，Matplotlib就已经被安装好了
pip安装

pip install matplotlib

6.3 导入Matplotlib库中的pyplot字库

import matplotlib.pyplot as plt

6.4 Figure对象

6.4.1 创建Figure对象

figure(num,figsize,dpi,facecolor,edgecolor,frameon)

num：图形编号/名称，取值为数字/字符串；作为编号取值为数字；作为名称取值为字符串
figsize：绘图对象的宽和高，单位为英寸
dpi：绘图对象的分辨率，缺省值为80
facecolor：背景颜色
edgecolor：边框颜色
frameon：表示是否显示边框

例如：

>>> import matplotlib.pyplot as plt
>>> plt.figure(figsize=(3,2),facecolor="green")#绘制一个尺寸为3*2英寸，背景为绿色的空白图形
#使用figure函数只是创建了一个画布，然后需要在这一个画布上绘制图形
<Figure size 300x200 with 0 Axes>
>>> plt.plot()#绘制一个空白图形
[]
>>> plt.show()#一定要使用show函数所绘制的图形才能显示出来

输出结果为：

绘图中很多的颜色都是可以改变的，下面是常用的颜色

颜色	缩略字符	颜色	缩略字符
blue	b	black	k
green	g	white	w
red	r	cyan	c
yellow	y	magenta	m

6.4.2 划分子图

一个figure对象可以看作是一个画布，其中可以有多个子图
两个坐标轴围成的区域称为轴域

subplot(行数,列数,子图序号)

对于子图序号

如果是两行一列两个字图

1
2

如果是两行两列四个子图

1	2
3	4

如果是两行三列六个字图

1	2	3
4	5	6

例如，如果把画图划分为两行两列的子图

>>> import matplotlib.pyplot as plt
>>>fig = plt.figure()
>>> plt.subplot(2,2,1)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F53EB02400>
>>> plt.subplot(2,2,2)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F5406266D8>
>>> plt.subplot(2,2,3)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F53B090908>
>>> plt.subplot(2,2,4)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F540626668>
>>> plt.show()

输出结果为：

当subplot的参数都小于10的时候，可以省略逗号

>>> import matplotlib.pyplot as plt
>>>fig = plt.figure()
>>> plt.subplot(221)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F5406A96D8>
>>> plt.subplot(222)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F53F16EA20>
>>> plt.subplot(223)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F53F16EA58>
>>> plt.subplot(224)
<matplotlib.axes._subplots.AxesSubplot object at 0x000001F53EE566A0>
>>> plt.show()

结果同上图

下面我们来看一个完整的例子：
创建一个文件first.py文件，内容如下

import matplotlib.pyplot as plt

fig = plt.figure()

plt.subplot(221)
plt.subplot(222)
plt.subplot(223)

plt.show()

在文件所在的目录下执行：

>>>python first.py

输出结果为：

6.4.3 设置中文字体

plt.rcParams["font.sans-self"]="SimHei"

rcParams：run configuration Params运行配置参数，rc参数；它们用来指定所绘制图标中的各种默认属性；是matplotlib中的全局变量；可以直接修改
font.sans-self：是字体系列
SimHei：表示中文黑体

中文字体	英文描述	中文字体	英文描述
宋体	SimSun	楷体	KaiTi
黑体	SimHei	仿宋	FangSong
微软雅黑	MicrosoftYaHei	隶书	LiSu
微软正黑体	Microsoft JhengHei	幼圆	YouYuan

rc参数被修改后，可以使用以下函数恢复标准默认配置

plt.rcdefaults()

6.4.4 添加标题

6.4.4.1 添加全局标题

suptitle(标题文字)# 这个参数是不能省略的

suptitle()函数的主要参数：

参数	说明	默认值
x	标题位置的x坐标	0.5
y	标题位置的y坐标	0.98
color	标题颜色	黑色
backgroundcolor	标题背景颜色	12
fontsize	标题的字体大小
fontweight	字体粗细	normal
fontstyle	设置字体类型
horizontalalignment	标题水平对齐方式	center
verticalaligment	标题的垂直对齐方式	top

fontsize	fontweight	fontstype	horizontalalignment	verticalaligment
xx-small	light	normal	left	center
x-small	normal	italic	right	top
small	medium	oblique	center	bottom
large	semibold			baseline
x-large	bold
xx-large	heavy
	black

6.4.4.2 添加子标题

title(标题文字)

title()函数的主要参数：

参数	说明	取值
loc	标题位置	left,right
rotation	标题文字旋转角度
color	标题颜色	黑色
fontsize	标题的字体大小
fontweight	字体粗细	normal
fontstyle	设置字体类型
horizontalalignment	标题水平对齐方式	center
verticalalignment	标题的垂直对齐方式	top
fontdict	设置参数字典

如果title()函数中要同时设置多项参数，可以使用fontdict函数把需要设置的属性都放在一个字典里，然后直接使用这个字典作为这个函数的参数

例子：

import matplotlib.pyplot as plt

plt.rcParams["font.family"] = "SimHei"#设置默认字体为中文黑体

fig = plt.figure(facecolor="lightgrey")#创建一个绘图对象，设置背景色为浅灰色

plt.subplot(221)
plt.title('子标题1')
plt.subplot(2,2,2)
plt.title('子标题2',loc="left",color="b")
plt.subplot(223)
myfontdict = {
     "fontsize":12,"color":"g","rotation":30}
plt.title("子标题3",fontdict=myfontdict)
plt.subplot(224)
plt.title('子标题4',color='white',backgroundcolor="black")

plt.suptitle("全局标题",fontsize=20,color="r",backgroundcolor="y")

plt.show()

执行之后得到：

结果中问题很多，全局标题盖住了第一行的子标题，第二行标题太过紧凑

6.4.4.3 tight_layout()函数

检查坐标轴标签、刻度标签、和子图标题，自动调正子图，使之填充整个绘图区域，并消除子图之间的重叠。
使用方法：加在plt.show()函数之前
还要修改其中的rect函数

tight_layout(rect=[left,bottom.right,top])

其中四个参数如图所示，默认值是(0,0)和(1,1)

为了给全局标题留一个位置，所以取值为(0,0)和(1,0.9)

修改代码为

import matplotlib.pyplot as plt

plt.rcParams["font.family"] = "SimHei"#设置默认字体为中文黑体

fig = plt.figure(facecolor="lightgrey")#创建一个绘图对象，设置背景色为浅灰色

plt.subplot(221)
plt.title('子标题1')
plt.subplot(2,2,2)
plt.title('子标题2',loc="left",color="b")
plt.subplot(223)
myfontdict = {
     "fontsize":12,"color":"g","rotation":30}
plt.title("子标题3",fontdict=myfontdict)
plt.subplot(224)
plt.title('子标题4',color='white',backgroundcolor="black")

plt.suptitle("全局标题",fontsize=20,color="r",backgroundcolor="y")

plt.tight_layout(rect=[0,0,1,0.9])

plt.show()

6.2 散点图

散点图（Scatter）：是数据集点在直角坐标系中的分布图

原始数据的分布规律
数据变化的趋势

数据分组，从而观察不同数据之间的关系

6.2.1 scatter()函数绘制-散点图

scatter(x,y,scale,color,marker,label)

x,y 指明了所画的数据点的x和y坐标，不可省略，通常是python列表或者numpy数组给出所有的x和y
其他可选参数

参数	说明	默认值
x	数据点x的坐标	不可省略
y	数据点y的坐标	不可省略
scale	数据点的大小	36
color	数据点的颜色
marker	数据点的样式	‘o’(圆点)
label	图例文字

数据点样式

例子：
要求绘制出如下图

6.2.1.1 设置字体中文黑体

图中多次出现了中文，因此首先设置默认字体为中文黑体

plt.rcParams['font.sans-serif']="SimHei"

6.2.1.2 生成正态分布的x和y

标准正态分布

n = 1024
x = np.random.normal(0,1,n)
y = np.random.normal(0,1,n)

6.2.1.3 绘制散点图

绘制散点图

plt.scatter(x,y,color="blue",marker="*")

6.2.1.4 设置标题

设置标题

plt.title("标准正态分布",fontsize=20)

6.2.1.4 图右上角显示均值和方差-text()函数

设置文本

plt.text(2.5,2.5,"均 值：0\n标准差：1")

text()函数
在指定位置添加文字

text(x,y,s,fontsize,color)

参数说明：

参数	说明	默认值
x	文字的x坐标	不可省略
y	文字的y坐标	不可省略
s	显示的文字	不可省略
fontsize	文字的大小	12
color	文字的颜色	黑色

6.2.1.5 坐标轴的设置

设置坐标轴范围

plt.xlim(-4,4)
plt.ylim(-4,4)

设置坐标轴标签

plt.xlabel('横坐标x',fontsize=14)
plt.ylabel('纵坐标y',fontsize=14)#字号为14

在该程序中，坐标原点在中间，两个坐标轴都有正的和负的部分，在设置中文字体为默认字体后，坐标轴上负号的显示可能会出错，设置rcParam将axes.unicode_minus设置成False

plt.rcParams["axes.unicode_minus"]=Fasle

上述代码使得绘图时，plt会根据数据的分布区间自动加上坐标轴
如果想对坐标轴机型其他操作

函数	说明
xlabel(x,y,s,fontsize,color)	设置x轴标签
ylabel(x,y,s,fontsize,color)	设置y轴标签
xlin(xmin,xmax)	设置x轴坐标的范围
ylim(ymin,ymax)	设置y轴坐标的范围
tick_params(labelsize)	设置刻度文字的符号

6.2.1.6 完整程序例子

import numpy as np                  # 导入numpy库
import matplotlib.pyplot as plt     # 导入绘图库

plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False

n = 1024
x = np.random.normal(0,1,n)
y = np.random.normal(0,1,n)

plt.scatter(x,y,color="blue",marker="*")

plt.title("标准正态分布",fontsize = 20)
plt.text(2.5,2.5,"均 值：0\n标准差：1")

plt.xlim(-4,4)
plt.ylim(-4,4)

plt.xlabel("横坐标x",fontsize=14)
plt.ylabel("纵坐标y",fontsize=14)

plt.show()

运行结果为：

6.2.1.7 增加均匀分布的点

很简单，直接再加入一组点就可以了，在同一个区域

...

n = 1024
x1 = np.random.normal(0,1,n)
y1 = np.random.normal(0,1,n)

x2 = np.random.uniform(-4,4,(1,n))
y2 = np.random.uniform(-4,4,(1,n))

plt.scatter(x1,y1,color="blue",marker="*")
plt.scatter(x2,y2,color="yellow",marker="o")

...

运行结果为：

6.2.1.8 增加图例- 区分两种点

scatter(x,y,scale,color,marker,label)
legend(loc,fontsize)

只需要在scatter中的label参数指定图例内容，然后再使用legend函数显示图例
fontsize是字体的大小，可以省略
loc参数指定图例的位置，默认为0，其取值如下：

取值	图例位置	取值	图例位置
0	best（自动寻找最优位置）	6	center left
1	upper right（右上角）	7	center right
2	upper left（左上角）	8	lower center
3	lower left	9	upper center
4	lower right	10	center
5	right

...
y2 = np.random.uniform(-4,4,(1,n))

plt.scatter(x1,y1,color="blue",marker="*",label="正态分布")
plt.scatter(x2,y2,color="yellow",marker="o",label="均匀分布")

plt.legend()
plt.title("标准正态分布",fontsize = 20)


plt.xlim(-4,4)
...

输出结果为：

6.2.1.9 最终程序

import numpy as np                  # 导入numpy库
import matplotlib.pyplot as plt     # 导入绘图库

plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False

n = 1024
x1 = np.random.normal(0,1,n)
y1 = np.random.normal(0,1,n)

x2 = np.random.uniform(-4,4,(1,n))
y2 = np.random.uniform(-4,4,(1,n))

plt.scatter(x1,y1,color="blue",marker="*",label="正态分布")
plt.scatter(x2,y2,color="yellow",marker="o",label="均匀分布")

plt.legend()
plt.title("标准正态分布",fontsize = 20)


plt.xlim(-4,4)
plt.ylim(-4,4)

plt.xlabel("横坐标x",fontsize=14)
plt.ylabel("纵坐标y",fontsize=14)

plt.show()

6.3 折线图和柱形图

6.3.1 折线图

折线图（Line Chart）：散点图的基础上，将相邻的点用线段相连接

描述变量变化的趋势

6.3.1.1 绘制折线图

6.3.1.1.1 plot()函数

plot(x,y,color,marker,label,linewidth,markersize)

参数	说明	默认值
x	数据点的x坐标	0,1,2,…
y	数据点的y坐标	不可省略
color	数据点的颜色
marker	数据点的样式	‘o’
label	图例文字
linewidth	折现的宽度
markersize	数据点的大小

坐标点有python列表和numpy数组给出
color、marker、linewidth用法与散点图用法相同
除了y坐标都是可以省略的

6.3.1.2 例子

绘制这样一个折线图

6.3.1.2.1 生成随机数列

n = 24
y1 = np.random.randint(27,37,n)#温度
y2 = np.random.randint(40,60,n)#湿度

6.3.1.2.2 绘制折线图

plt.plot(y1,label='温度')
plt.plot(y2,label='湿度')

6.3.1.2.3 完整代码

import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['font.sans-serif'] = "SimHei"

n = 24
y1 = np.random.randint(27,37,n)
y2 = np.random.randint(40,60,n)

plt.plot(y1,label="温度")
plt.plot(y2,label="湿度")

plt.xlim(0,23)
plt.ylim(20,70)
plt.xlabel('小时',fontsize=12)
plt.ylabel('测量值',fontsize=12)

plt.title('24小时温度湿度统计',fontsize=16)

plt.legend()
plt.show()

输出结果为:

6.3.2 柱状图

柱状图（Bar Chart）：由一系列高度不等的柱形条纹表示数据分布的情况

6.3.2.1 绘制柱状图

bar(left,height,width,facecolor,edgecolor,label)

left：就是x轴的位置序列；不可省略
height：y轴的数值序列；不可省略

width：为柱形条纹的宽度，省略时默认0.8
facecolor：柱形条纹的填充色
edgecolor：柱形条纹的边缘颜色
label：图例文字

6.3.2.2 绘制柱状图例子

6.3.2.2.1 条纹高度

y1 = [32,25,16,30,24,45,40,33,28,17,24,20]
y2 = [-23,-35,-26,-35,-45,-43,-35,-32,-23,-17,-22,-28]

6.3.2.2.2 条纹left坐标

plt.bar(range(len(y1)),y1,width=0.8,facecolor='green',edgecolor='white',label='统计量1')
plt.bar(range(len(y2)),y2,width=0.8,facecolor='red',edgecolor='white',label='统计量2')

第一个条纹的坐标是0
最后一个条纹的坐标是11

6.3.2.2.3 完整的程序

import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False

y1 = [32,25,16,30,24,45,40,33,28,17,24,20]
y2 = [-23,-35,-26,-35,-45,-43,-35,-32,-23,-17,-22,-28]

plt.bar(range(len(y1)),y1,width=0.8,facecolor='green',edgecolor='white',label='统计量1')
plt.bar(range(len(y2)),y2,width=0.8,facecolor='red',edgecolor='white',label='统计量2')

plt.title("柱状图",fontsize=20)

plt.legend()
plt.show()

输出结果为

6.4 实例：波士顿房价数据集可视化

6.4.1 波士顿房屋数据集

6.4.1.1 Keras库

是一个高层的神经网络和深度学习库
由python编写，可以快速搭建神经网络模型，非常易于调式和扩展
TensorFlow1.4之后，成为官方API
在TensorFlow2.0，成为构架和训练模型的核心API
内置了一些常用的公共数据集，可以通过keras.detasets模块加载和访问
Keras中集成的数据集

6.4.1.1.1 波士顿房价数据集

卡内基梅隆大学，Statlib库，1978年
涵盖了麻省波士顿的506个不同郊区的房屋数据
404条训练数据集，102条测试数据集
每条数据14个字段，包含13个属性，和1个房价的平均值

6.4.1.2 使用波士顿房价数据集

6.4.1.2.1 加载数据集

可以直接使用Keras中的datasets模块访问数据集
这个数据集完整的前缀是

tensorflow.keras.datasets.boston_housing

tensorflow.keras.datasets是前缀
boston_housing是数据集名称
tensorflow.keras是keras API在tensorflow中的实现

为了简化编程，首先应当起一个简单的名字

import tensorflow as tf
boston_housing = tf.keras.datasets.boston_housing

(train_x,train_y),(test_x,test_y) = boston_housing.load_data()
# 由于该数据集，包括房屋属性和房价，而且分为训练集和测试集，所以需要4个numpy数组分别接受
# (train_x,train_y)=(训练集属性、训练集房价)
# (test_x,test_y) = (测试集属性、测试集房价)

如果你在Vscode中运行该代码报错ModuleNotFoundError: No module named 'tensorflow'，这有可能是因为VScode和anaconda没有建立链接导致，不如看看这篇文章【环境配置】在Vscode终端中使用Anaconda3中配置的环境

如果是第一次加载该数据集，会提示数据集下载提示，显示下载地址和进度
如果是windows系统下，这个数据集下载后，会自动保存在本地默认路径

C:\Users\user_name\.keras\datasets\boston_housing.npz
# user_name是当前用户的用户名
# 如果是使用管理员登陆，这里就是Administrator文件夹
# 文件保存的名称为boston_housing.npz，npz是一种压缩文件格式，主要用来存储数据
# 也可以通过其他渠道下载好这个数据集，把它保存在该文件夹下

下面使用len函数看一下数据集的条数

>>> print("Training set:", len(train_x)) 
Training set: 404
>>> print("Txsting set:", len(test_x))    
Txsting set: 102

这是默认的划分，如果想改变请看下节

6.4.1.2.2 改变数据集划分比例

import tensorflow as tf
boston_housing = tf.keras.datasets.boston_housing

(train_x,train_y),(test_x,test_y) = boston_housing.load_data(test_split=0)
# test_split是设置测试数据在整个数据中的比例，默认是0.2

然后就可以看到

>>> print("Training set:", len(train_x)) 
Training set: 506
>>> print("Txsting set:", len(test_x))    
Txsting set: 0

6.4.1.2.3 访问数据集中的数据

>>> type(train_x) 
<class 'numpy.ndarray'>
>>> type(train_y) 
<class 'numpy.ndarray'>
>>> print("Dim of train_X:",train_x.ndim) 
Dim of train_X: 2
>>> print("Shape of train_X:",train_x.shape) 
Shape of train_X: (506, 13)
>>> print("Dim of train_y:",train_y.ndim)    
Dim of train_y: 1
>>> print("Shape of train_y:",train_y.shape) 
Shape of train_y: (506,)

可以使用numpy数组中的索引和切片访问其中的数据

例如：输入train_x中的前5行数据

>>> print(train_x[:5,]) 
[[1.23247e+00 0.00000e+00 8.14000e+00 0.00000e+00 5.38000e-01 6.14200e+00
  9.17000e+01 3.97690e+00 4.00000e+00 3.07000e+02 2.10000e+01 3.96900e+02 
  1.87200e+01]
 [2.17700e-02 8.25000e+01 2.03000e+00 0.00000e+00 4.15000e-01 7.61000e+00 
  1.57000e+01 6.27000e+00 2.00000e+00 3.48000e+02 1.47000e+01 3.95380e+02 
  3.11000e+00]
 [4.89822e+00 0.00000e+00 1.81000e+01 0.00000e+00 6.31000e-01 4.97000e+00 
  1.00000e+02 1.33250e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.75520e+02 
  3.26000e+00]
 [3.96100e-02 0.00000e+00 5.19000e+00 0.00000e+00 5.15000e-01 6.03700e+00 
  3.45000e+01 5.98530e+00 5.00000e+00 2.24000e+02 2.02000e+01 3.96900e+02 
  8.01000e+00]
 [3.69311e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 6.37600e+00 
  8.84000e+01 2.56710e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.91430e+02 
  1.46500e+01]]

例如：输入train_x中的某一列数据

>>> print(train_x[:,5]) 
[6.142 7.61  4.97  6.037 6.376 5.708 5.536 5.468 5.628 5.019 6.404 4.628
 5.572 6.251 5.613 5.957 7.016 6.345 6.162 6.727 6.202 6.595 7.135 6.575  
...
 5.813 7.185 6.63  6.343 8.297 6.758 6.421 6.98  6.471 6.852 6.019  
 6.376 6.108 6.417 6.209 5.093 5.987 6.395 6.957 6.229 5.414 6.495 6.009  
 5.885 6.375 6.968 4.88  5.981 7.52  5.593 6.485 5.705 6.172 6.229 5.951  
 6.593 7.061 6.03  5.884 6.897 8.259 6.812 6.122 7.333 8.78  6.273 7.802  
 6.951 6.101]

其中有506个数值，分别是每条数据中的平均房间数

6.4.2 波士顿房价数据集可视化

6.4.2.1 房间数与房价的散点图

平均房间数与房价之间的关系

#首先导入绘图库和numpy库
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

# 然后加载数据集
boston_housing = tf.keras.datasets.boston_housing
(train_x,train_y),(_,_) = boston_housing.load_data(test_split=0)

plt.figure(figsize=(5,5))#绘图对象的尺寸，宽和高都是5英寸
plt.scatter(train_x[:,5],train_y)# 然后绘制散点
plt.xlabel("RM")
plt.ylabel("Price($1000's)")#坐标轴标签
plt.xlim(2,10)
plt.ylim(0,60)
plt.title("5, RM-Price")#设置标题
plt.show()

输出结果为:

得出结果，屋子房间数目越多，房价越高

6.4.2.2 其他属性与房价的散点图

6.4.2.2.1 所有属性与房价的关系

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

boston_housing = tf.keras.datasets.boston_housing
(train_x,train_y),(test_x,test_y) = boston_housing.load_data(test_split=0)


plt.figure(figsize=(12,12))

for i in range(13):
    plt.subplot(4,4,i+1)
    plt.scatter(train_x[:,i],train_y)

plt.show()

输出结果为

6.4.2.2.2 添加坐标轴和标题

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

boston_housing = tf.keras.datasets.boston_housing
(train_x,train_y),(test_x,test_y) = boston_housing.load_data(test_split=0)

plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False

titles = ["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PTRATIO","B-1000","LSTAT","MEDV"]

plt.figure(figsize=(12,12))

for i in range(13):
    plt.subplot(4,4,i+1)
    plt.scatter(train_x[:,i],train_y)

    plt.xlabel(titles[i])
    plt.ylabel("Preice($1000's)")
    plt.title(str(i+1)+"."+titles[i]+" - Price")

plt.tight_layout(rect=[0,0,1,0.95])
plt.suptitle("各个属性与房价的关系",x = 0.5, y = 0.98,fontsize= 20)
plt.show()

输出结果为：

6.5 实例：鸢尾花数据集可视化

6.5.1 下载鸢尾花数据集

鸢尾花数据集是一个经典的用来分类的数据集
最早由Anderson测量得到，因此也被称为Anderson’s Iris Data Set数据集
1936年，就在论文中使用了它，因此也被成为统计分类的鼻祖数据集
该数据集是在加拿大的加斯帕半岛，在同一天的同一个时段，在相同的农场上，由同一个人，使用相同的测量仪器测量出来的
包括3中鸢尾花类别，每个类别有50个样本，一共150个样本；
每个样本中包括4种鸢尾花的属性特征，和鸢尾花的品种；这4种属性特征分别是花萼的长度和宽度、花瓣的长度和宽度
Iris数据集

花萼长度	花萼宽度	花瓣长度	花瓣宽度	类别标签
Sepal length	Sepal width	Petal length	Petal width	Species
				山鸢尾（Setosa）
				变色鸢尾（Versicolour）
				维吉尼亚鸢尾（Virginica）

6.5.1.1 get_file()函数-下载数据集

鸢尾花数据集不是tensorflow.keras内置集成的数据集
在使用前需要下载这些数据集，要从指定的网络地址下载数据集，可以使用以下函数

tf.keras.utils.get_file(fname,origin,cache_dir)

参数：

fname：下载后的文件名；
origin：文件的URL地址；
cache_dir：下载后文件的存储位置
windows中默认保存路径为C:\Users\\Administrator(当前用户名)\.keras\datasets

返回值：下载后的文件在本地磁盘中的绝对路径

在执行这个函数时，首先会检查要下载的文件fname是否存在，如果不存在，就根据origin参数提供的URL地址下载文件，并把它命名为fname存储在指定的目录下，并返回存储地址；如果文件已经存在，就不再下载文件，直接返回文件地址。

6.5.1.2 下载鸢尾花数据集iris

鸢尾花数据集被划分为训练数据集和测试数据集；分别放在不同的两个文件中

训练数据集文件名：iris_training.csv 120条数据
测试数据集文件名：iris_test.csv 30条数据

>>>import tensorflow as tf
>>>TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"
>>>train_path = tf.keras.utils.get_file("iris_training.csv",TRAIN_URL)
# 第一次执行时会现在数据集
Downloading data from http://download.tensorflow.org/data/iris_training.csv
8192/2194 [================================================================================================================] - 0s 0s/step
'C:\\Users\\xxx\\.keras\\datasets\\iris_training.csv'

6.5.1.2.1 csv文件

可以使用记事本打开，也可以使用excel打开
第一行120表示一共有120行数据，数据从第2行开始到121行，所有数据都有5列，其中前4列是鸢尾花的属性，第5列是鸢尾花的种类；
用整数0，1，2分别表示山鸢尾（Setosa）、变色鸢尾（Versicolour）、维吉尼亚鸢尾（Virginica）

6.5.1.2.2 split()函数

为了提高代码的通用性，还可以使用split()函数直接从URL中获取文件名
split()函数：通过指定的分隔符对字符串进行切片一个列表。

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"
>>> TRAIN_URL.split('/') 
['http:', '', 'download.tensorflow.org', 'data', 'iris_training.csv']
# 五个元素，两个连续的//之间是一个空的字符串

>>> fname_list = TRAIN_URL.split('/') 
>>> fname_list[-1] 
'iris_training.csv'

或者

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"
>>> TRAIN_URL.split('/')[-1] 
'iris_training.csv'

6.5.1.3 get_file()下载数据集的通用版本

只需要改变第一行的URL即可

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
>>> train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)

6.5.2 Pandas访问csv数据集

6.5.2.1 Panda库

Panda名称来自于Panel Data & Data Analysis
用于数据统计和分析的第三方库
可以高效、方便地操作大型数据集
在Anaconda中已经自带了Panda库

6.5.2.2 导入Panda库

import pandas as pd

6.5.2.3 读取csv数据集文件

6.5.2.3.1 read_csv()方法读取csv格式的文件

pd.read_csv(filepath_or_buffer,header,names)

参数filepath_or_buffer：是文件名；可以是绝对路径，也可以是相对路径；
a、在上节中，我们已经将鸢尾花数据集下载到了本地磁盘中，这里可以是绝对路径'C:\\Users\\xxx\\.keras\\datasets\\iris_training.csv'
b、如果没有下载，使用get_file()函数下载之后，返回值就是数据集在本地磁盘中的绝对路径，可以将其直接作为参数
c、从pd.read_csv()函数返回的数据类型为pandas.core.frame.DataFrame；这是二维数据表类型，是Pandas中非常常用的一种数据类型
d、参数header和names可以省略

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
>>> train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)
>>> import pandas as pd
>>> pd.read_csv(train_path) 
     120    4  setosa  versicolor  virginica
0    6.4  2.8     5.6         2.2          2
1    5.0  2.3     3.3         1.0          1
2    4.9  2.5     4.5         1.7          2
3    4.9  3.1     1.5         0.1          0
4    5.7  3.8     1.7         0.3          0
..   ...  ...     ...         ...        ...
115  5.5  2.6     4.4         1.2          1
116  5.7  3.0     4.2         1.2          1
117  4.4  2.9     1.4         0.2          0
118  4.8  3.0     1.4         0.1          0
119  5.5  2.4     3.7         1.0          1

[120 rows x 5 columns]


>>> df_iris = pd.read_csv(train_path) 
>>> type(df_iris) 
<class 'pandas.core.frame.DataFrame'>

6.5.2.3.2 设置列标题（表头）-header

pd.read_csv(filepath_or_buffer,header,names)

使用header参数指定数据表中的某一行或者某几行作为列标题，header的取值是行号
默认header=0，第一行数据作为列标题（默认设置）
如果header=None，就是没有列标题

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
>>> train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)
>>> df_iris = pd.read_csv(train_path) 

>>> df_iris = pd.read_csv(train_path,header=0) 
>>> df_iris.head() # 使用DataFrame对象的head()方法，输出二维表格中的前五行
# 可以看到，数据集中的第一行数据被当作列标题，但是在这里这一行数据并不是列标题，因此我们应当把数据设置为none
   120    4  setosa  versicolor  virginica
0  6.4  2.8     5.6         2.2          2
1  5.0  2.3     3.3         1.0          1
2  4.9  2.5     4.5         1.7          2
3  4.9  3.1     1.5         0.1          0
4  5.7  3.8     1.7         0.3          0


# 在这里，应当把header设置为none，数据没有表头，但是第一行显示不是所需要的数据，不对，这一行既不是样本也不是标题
>>> df_iris = pd.read_csv(train_path,header=None) 
>>> df_iris.head()
       0    1       2           3          4
0  120.0  4.0  setosa  versicolor  virginica
1    6.4  2.8     5.6         2.2          2
2    5.0  2.3     3.3         1.0          1
3    4.9  2.5     4.5         1.7          2
4    4.9  3.1     1.5         0.1          0

6.5.2.3.3 自定义列标题-names参数

names参数：自定义标题，代替header参数指定的列标题

pd.read_csv(filepath_or_buffer,header,names)

*在这里就是希望自定义个一个标题，并且不显示第一行的内容

首先，使用header=0，把第1行作为列标题
然后，设置names参数，指定新的列标题

>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
>>> train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)
>>> df_iris = pd.read_csv(train_path) 

>>> COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
>>> df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 
>>> df_iris.head()
   SepalLength  SePalWidth  PetalLength  PetalWidth  Species
0          6.4         2.8          5.6         2.2        2
1          5.0         2.3          3.3         1.0        1
2          4.9         2.5          4.5         1.7        2
3          4.9         3.1          1.5         0.1        0
4          5.7         3.8          1.7         0.3        0

6.5.2.3 访问数据

6.5.2.3.1 df.head()方法，前面数据

head()函数：参数为空时，默认读取二维数据表中的前5行数据
可以有参数n，表示读取前n行数据，读取8行数据

df.head(n)# 读取前n行数据

>>> df_iris.head(8) 
   SepalLength  SePalWidth  PetalLength  PetalWidth  Species
0          6.4         2.8          5.6         2.2        2
1          5.0         2.3          3.3         1.0        1
2          4.9         2.5          4.5         1.7        2
3          4.9         3.1          1.5         0.1        0
4          5.7         3.8          1.7         0.3        0
5          4.4         3.2          1.3         0.2        0
6          5.4         3.4          1.5         0.4        0
7          6.9         3.1          5.1         2.3        2

6.5.2.3.2 df.tail()方法，后面数据

tail()函数：读取后n行数据

df.tail(n)

>>> df_iris.tail(8) #这表示读取鸢尾花数据的后八行数据
     SepalLength  SePalWidth  PetalLength  PetalWidth  Species
112          5.0         3.0          1.6         0.2        0
113          6.3         3.3          6.0         2.5        2
114          5.0         3.5          1.6         0.6        0
115          5.5         2.6          4.4         1.2        1
116          5.7         3.0          4.2         1.2        1
117          4.4         2.9          1.4         0.2        0
118          4.8         3.0          1.4         0.1        0
119          5.5         2.4          3.7         1.0        1
>>> df_iris.tail() #参数为空时，表示读取后五行数据 
     SepalLength  SePalWidth  PetalLength  PetalWidth  Species
115          5.5         2.6          4.4         1.2        1
116          5.7         3.0          4.2         1.2        1
117          4.4         2.9          1.4         0.2        0
118          4.8         3.0          1.4         0.1        0
119          5.5         2.4          3.7         1.0        1

6.5.2.3.3 使用索引和切片

>>> df_iris[10:16] # 表示读取行号10-15的数据
    SepalLength  SePalWidth  PetalLength  PetalWidth  Species
10          5.2         2.7          3.9         1.4        1
11          6.9         3.1          4.9         1.5        1
12          5.8         4.0          1.2         0.2        0
13          5.4         3.9          1.7         0.4        0
14          7.7         3.8          6.7         2.2        2
15          6.3         3.3          4.7         1.6        1

6.5.2.3.4 describe()方法-显示统计信息

df.describe()方式：显示二维数据的统计信息
数据数据中的

count：总数
mean：平均值
std：标准差
min：最小值
25%：1/4
50%：1/5
75%：3/4
max：最大值

用来了解数据是否缺失

>>> df_iris.describe()
       SepalLength  SePalWidth  PetalLength  PetalWidth     Species
count   120.000000  120.000000   120.000000  120.000000  120.000000       
mean      5.845000    3.065000     3.739167    1.196667    1.000000       
std       0.868578    0.427156     1.822100    0.782039    0.840168       
min       4.400000    2.000000     1.000000    0.100000    0.000000       
25%       5.075000    2.800000     1.500000    0.300000    0.000000       
50%       5.800000    3.000000     4.400000    1.300000    1.000000       
75%       6.425000    3.300000     5.100000    1.800000    2.000000       
max       7.900000    4.400000     6.900000    2.500000    2.000000

6.5.2.3.5 DataFrame的常用属性：ndim、size、shape

属性	描述
ndim	数据表的维数
shape	数据表的形状
size	数据表元素的总个数

>>> df_iris.ndim
2
>>> df_iris.shape
(120, 5)
>>> df_iris.size 
600

6.5.2.3.6 转换为Numpy数组

直接使用numpy中的创建数组函数array()，将DataFrame对象作为参数

>>> import numpy as np
>>> iris = np.array(df_iris) 
>>> type(df_iris) 
<class 'pandas.core.frame.DataFrame'>
>>> type(iris)    
<class 'numpy.ndarray'>

也可以使用DataFrame对象自带的方法.values和.as_matrix()函数方法，前者可以，后者好像不可以了，应该是用的pandas版本太高或者太低导致

>>> iris = df_iris.values
>>> type(df_iris)
<class 'pandas.core.frame.DataFrame'>
>>> type(iris)                 
<class 'numpy.ndarray'>

6.5.2.3.6.1 numpu数组后的索引和切片

读取前6行数据，对iris数组的第一维切片

>>> iris[0:6]   # 对iris数组的第一维进行切片      
array([[6.4, 2.8, 5.6, 2.2, 2. ],
       [5. , 2.3, 3.3, 1. , 1. ],
       [4.9, 2.5, 4.5, 1.7, 2. ],
       [4.9, 3.1, 1.5, 0.1, 0. ],
       [5.7, 3.8, 1.7, 0.3, 0. ],
       [4.4, 3.2, 1.3, 0.2, 0. ]])

读取前6行数据的前4列，对iris数组的二维切片

>>> iris[0:6,0:4] 
array([[6.4, 2.8, 5.6, 2.2],
       [5. , 2.3, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7],
       [4.9, 3.1, 1.5, 0.1],
       [5.7, 3.8, 1.7, 0.3],
       [4.4, 3.2, 1.3, 0.2]])

6.5.2.3.7 得到所有数据中的“鸢尾花种类”取值

>>> iris_y = iris[:,4] # 取到所有的行的第4列
>>> iris_y
array([2., 1., 2., 0., 0., 0., 0., 2., 1., 0., 1., 1., 0., 0., 2., 1., 2.,       2., 2., 0., 2., 2., 0., 2., 2., 0., 1., 2., 1., 1., 1., 1., 1., 2.,       2., 2., 2., 2., 0., 0., 2., 2., 2., 0., 0., 2., 0., 2., 0., 2., 0.,       1., 1., 0., 1., 2., 2., 2., 2., 1., 1., 2., 2., 2., 1., 2., 0., 2.,       2., 0., 0., 1., 0., 2., 2., 0., 1., 1., 1., 2., 0., 1., 1., 1., 2.,       0., 1., 1., 1., 0., 2., 1., 0., 0., 2., 0., 0., 2., 1., 0., 0., 1.,       0., 1., 0., 0., 0., 0., 1., 0., 2., 1., 0., 2., 0., 1., 1., 0., 0.,       1.])

6.5.2.4 Pandas其他功能简介

Pandas拥有丰富的数据处理函数
不仅可以处理二维数据表
还支持时间序列分析，具有非常强大的数据分析能力
可以自行拓展学习

6.5.3 鸢尾花数据集可视化

6.5.3.1 鸢尾花数据散点图（花瓣长宽）

6.5.3.1.1 绘制出无法区分类别的散点图

花瓣长度的列索引值是2


>>> import tensorflow as tf
>>> import matplotlib.pyplot as plt
>>> import numpy as np
>>> import pandas as pd
>>>
>>> TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
>>> train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)
>>> COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
>>> df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 
>>> iris = np.array(df_iris) 


>>> iris[:,2] 
array([5.6, 3.3, 4.5, 1.5, 1.7, 1.3, 1.5, 5.1, 4.4, 1.5, 3.9, 4.9, 1.2,
       1.7, 6.7, 4.7, 5.9, 6.6, 5.3, 1.5, 5.7, 5.6, 1.3, 5.6, 5.8, 1.5,
       4. , 5.1, 4.5, 5. , 4.4, 3. , 4.5, 5.5, 4.8, 5.7, 5.1, 5.1, 1.5,
       1.4, 6.4, 5.1, 5.2, 1.9, 1.6, 5. , 1.6, 6.9, 1. , 6. , 1.4, 4.4,
       4. , 1.2, 4.7, 4.8, 6.1, 5.1, 5.4, 3.5, 3.9, 5.6, 5. , 5.5, 4.5,
       6.3, 1.3, 6.1, 5.5, 1.5, 1.3, 4.6, 1.3, 6.1, 4.9, 1.5, 3.8, 4.2,
       4.5, 5.3, 1.5, 4.7, 4.6, 4.2, 5.6, 1.5, 4.8, 4.5, 5.1, 1.3, 5.2,
       4.7, 1.4, 1.5, 5.8, 1.4, 1.4, 6.7, 4.8, 1.6, 1.4, 3.3, 1.3, 4.1,
       1.6, 1.4, 1.5, 1.4, 3.6, 1.6, 4.9, 4.1, 1.6, 6. , 1.6, 4.4, 4.2,
       1.4, 1.4, 3.7])

花瓣宽度的列索引值是3

>>> iris[:,3] 
array([2.2, 1. , 1.7, 0.1, 0.3, 0.2, 0.4, 2.3, 1.4, 0.4, 1.4, 1.5, 0.2,
       0.4, 2.2, 1.6, 2.3, 2.1, 2.3, 0.4, 2.1, 2.1, 0.4, 1.4, 1.6, 0.2,
       1.2, 1.8, 1.5, 1.7, 1.3, 1.1, 1.5, 2.1, 1.8, 2.3, 2. , 2.4, 0.3,
       0.3, 2. , 1.9, 2.3, 0.4, 0.2, 1.5, 0.2, 2.3, 0.2, 1.8, 0.2, 1.4,
       1.3, 0.2, 1.4, 1.8, 1.9, 1.9, 2.3, 1. , 1.1, 2.4, 1.9, 1.8, 1.5,
       1.8, 0.2, 2.5, 1.8, 0.2, 0.2, 1.3, 0.2, 2.3, 1.8, 0.1, 1.1, 1.3,
       1.5, 1.9, 0.2, 1.4, 1.5, 1.3, 2.4, 0.1, 1.4, 1.3, 1.6, 0.3, 2. ,
       1.2, 0.3, 0.2, 2.2, 0.3, 0.2, 2. , 1.8, 0.2, 0.2, 1. , 0.3, 1. ,
       0.4, 0.2, 0.2, 0.2, 1.3, 0.2, 1.8, 1.3, 0.2, 2.5, 0.6, 1.2, 1.2,
       0.2, 0.1, 1. ])

绘制散点图

>>> plt.scatter(iris[:,2],[iris[:,3]])
<matplotlib.collections.PathCollection object at 0x00000201AA808508>
>>> plt.show()

输出结果为：

可以看到，虽然散点图被绘制出来了，但是不同类别的花没有区分开来

6.5.3.1.2 色彩映射

将参数c（表示点的颜色）指定为一个列表或数组，所绘制图形的颜色，可以随这个列表或数组中元素的值而变换，变换所对应的颜色由参数cmap中的颜色所提供。

plt.scatter(x,y,c,cmap)

例如：

>>> x = np.arange(10) 
>>> y = np.arange(10) 
>>> dot_color = [0,1,2,0,1,2,2,1,1,0] 
>>> plt.scatter(x,y,20,dot_color,cmap='brg')       
<matplotlib.collections.PathCollection object at 0x00000201A9E6BD08>
>>> plt.show()

运行结果为：

对于鸢尾花数据集，我们应该使用鸢尾花的种类作为颜色变化的依据

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)
COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 
iris = np.array(df_iris) 

plt.scatter(iris[:,2],[iris[:,3]],c=iris[:,4],cmap='brg')
plt.show()

输出结果为

6.5.3.1.3 添加标题和坐标轴标签

# 导入必要的库
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 下载数据集
TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)

# 定义类、标题、列表并读取数据集文件
COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 

# 将Pandas二维数据表转化问numpy二维数组
iris = np.array(df_iris) 

# 绘制散点图
plt.scatter(iris[:,2],[iris[:,3]],c=iris[:,4],cmap='brg')
plt.title("Anderson's Iris Data Set\n(Bule->Setosa | Red->Versicolor | Green->Virginica)")# 添加图表题
plt.xlabel(COLUMN_NAMES[2])
plt.ylabel(COLUMN_NAMES[3])# 设置坐标轴标签
plt.show()# 显示图形

输出结果为：

通过花瓣的长宽可以很好的区分开鸢尾花
那么通过数据集中的其他属性是否也能够较好的区分鸢尾花种类

6.5.3.2 鸢尾花数据散点图（其他属性）

有效的组合有6种，对角线不行，对称的不需要

6.5.3.2.1 绘制第1行4个子图

先绘制第一行中的四个字图

for i in range(4):
	plt.subplot(1,4,i+1)

	if(i==0):
		plt.text(0.3,0.5,COLUMN_NAMES[0],fontsize=15)
	else:
		plt.scatter(iris[:,i],iris[:,0],c=iris[:,4],cmap='brg')
		
	plt.title(COLUMN_NAMES[i])# 横坐标标签使用子图标题来实现
	plt.ylabel(COLUMN_NAMES[0])

下面是完整的代码：

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)

COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 

iris = np.array(df_iris) 

fig = plt.figure('Iris Data',figsize=(15,3))

fig.suptitle("Anderson's Iris Data Set\n(Bule->Setosa | Red->Versicolor | Green->Virginica)")

for i in range(4):
	plt.subplot(1,4,i+1)

	if(i==0):
		plt.text(0.3,0.5,COLUMN_NAMES[0],fontsize=15)
	else:
		plt.scatter(iris[:,i],iris[:,0],c=iris[:,4],cmap='brg')
		
	plt.title(COLUMN_NAMES[i])# 横坐标标签使用子图标题来实现
	plt.ylabel(COLUMN_NAMES[0])

plt.tight_layout(rect=[0,0,1,0.9])

plt.show()

输出结果为：

6.5.3.2.2 绘制4*4的16个子图

底层循环设为i（行）；第二层循环设为 j（列）
子图序号可以表示为：4*i + (j+1)

fig = plt.figure('Iris Data',figsize=(15,15))

fig.suptitle("Anderson's Iris Data Set\n(Bule->Setosa | Red->Versicolor | Green->Virginica)")
for i in range(4):
	for j in range(4):
		plt.subplot(4,4,4*i+(j+1))
		if(i==j):
			plt.text(0.3,0.5,COLUMN_NAMES[0],fontsize=15)
		else:
			plt.scatter(iris[:,j],iris[:,i],c=iris[:,4],cmap='brg')
			
		plt.title(COLUMN_NAMES[j])# 横坐标标签使用子图标题来实现
		plt.ylabel(COLUMN_NAMES[i])

plt.tight_layout(rect=[0,0,1,0.93])

plt.show()

完整的代码如下：

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)

COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 

iris = np.array(df_iris) 

fig = plt.figure('Iris Data',figsize=(15,15))

fig.suptitle("Anderson's Iris Data Set\n(Bule->Setosa | Red->Versicolor | Green->Virginica)")
for i in range(4):
	for j in range(4):
		plt.subplot(4,4,4*i+(j+1))
		if(i==j):
			plt.text(0.3,0.5,COLUMN_NAMES[0],fontsize=15)
		else:
			plt.scatter(iris[:,j],iris[:,i],c=iris[:,4],cmap='brg')
			
		plt.title(COLUMN_NAMES[j])# 横坐标标签使用子图标题来实现
		plt.ylabel(COLUMN_NAMES[i])

plt.tight_layout(rect=[0,0,1,0.93])

plt.show()

输出如下：

6.5.3.2.3 我的代码（仅修改一些参数为了图好看，大可不必来看）

上述是教程中源代码，但是我运行，子图的标题会有覆盖等等小问题，所以我改了一些参数，可以不看的

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"   
train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1],TRAIN_URL)

COLUMN_NAMES = ['SepalLength', 'SePalWidth', 'PetalLength', 'PetalWidth', 'Species']
df_iris = pd.read_csv(train_path, names=COLUMN_NAMES,header=0) 

iris = np.array(df_iris) 

fig = plt.figure('Iris Data',figsize=(12,12))

fig.suptitle("Anderson's Iris Data Set\n(Bule->Setosa | Red->Versicolor | Green->Virginica)")
for i in range(4):
	for j in range(4):
		plt.subplot(4,4,4*i+(j+1))
		if(i==j):
			plt.text(0.3,0.5,COLUMN_NAMES[0],fontsize=10)
		else:
			plt.scatter(iris[:,j],iris[:,i],8,c=iris[:,4],cmap='brg')
			
		plt.title(COLUMN_NAMES[j],fontsize=10)# 横坐标标签使用子图标题来实现
		plt.ylabel(COLUMN_NAMES[i],fontsize=10)

plt.tight_layout(rect=[0,0,1,0.98])

plt.show()

输出结果为：

你可能感兴趣的:(深度学习,tensorflow,深度学习,神经网络)

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
深度学习与普通神经网络有何区别？是理不是里深度学习神经网络人工智能
深度学习与普通神经网络的主要区别体现在以下几个方面：一、结构复杂度普通神经网络：通常指浅层结构，层数较少，一般为2-3层，包括输入层、一个或多个隐藏层、输出层。深度学习：强调通过5层以上的深度架构逐级抽象数据特征，包含多层神经网络，层数可能达到几十层甚至上百层。例如，ResNet（2015）包含152个卷积层。二、特征学习方式普通神经网络：特征提取通常依赖人工设计，需要领域专家的经验。这意味着在处
神经网络中梯度计算求和公式求导问题 serve the people 日常琐问神经网络机器学习算法
以下是公式一推导出公式二的过程。表达式一∂E∂wjk=−2(tk−ok)⋅sigmoid(∑jwjk⋅oj)⋅(1−sigmoid(∑jwjk⋅oj))⋅∂∂wjk(∑jwjk⋅oj)\frac{\partialE}{\partialw_{jk}}=-2(t_k-o_k)\cdot\text{sigmoid}\left(\sum_jw_{jk}\cdoto_j\right)\cdot(1-\tex
AI 技术引入 RTK（实时动态定位）系统，可以实现智能化管理和自动化运行小赖同学啊人工智能低空经济人工智能自动化运维
将AI技术引入RTK（实时动态定位）系统，可以实现智能化管理和自动化运行，从而提高系统的精度、效率和可靠性。以下是AI技术在RTK系统中的应用实例：一、AI技术在RTK系统中的应用场景1.整周模糊度快速解算问题：RTK的核心是解算载波相位的整周模糊度，传统方法耗时较长。AI解决方案：使用深度学习模型（如卷积神经网络CNN）预测整周模糊度。通过历史数据训练模型，实现快速解算。实例：某无人机公司使用A
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
使用Activeloop Deep Lake构建深度学习数据仓库与向量存储 dgay_hua 深度学习人工智能 python
技术背景介绍随着深度学习技术的发展，数据的存储与管理成为了一个重要的问题。尤其是对于需要处理大量数据的应用，例如自然语言处理和图像识别，传统的数据存储方式已经无法满足需求。ActiveloopDeepLake是专为深度学习设计的数据仓库，可以作为向量存储使用，支持多模态数据的存储和处理，并且可以直接用于细调大型语言模型（LLMs）。此外，它还提供自动版本控制，无需依赖其他服务，兼容主要云服务提供商
基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测机器学习和优化算法多头注意力机制深度学习神经网络人工智能机器学习单变量时序预测 BiLSTM 多头注意力机制
目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测(单输入单输出)1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.需要其他算法的都可以定制！注：1️⃣、运行环境要求MATLAB版本为2023b及其以上。【没有我赠送】2️⃣、评价指标包括:R
大语言模型原理基础与前沿挑战与机遇 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿挑战与机遇1.背景介绍大语言模型（LargeLanguageModels,LLMs）是近年来人工智能领域的一个重要突破。它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。1.1大语言模型的起源大语言模型的起源可以追溯到早期的统计语言
3.10 项目总结不要不开心了 pyqt 深度学习机器学习数据挖掘人工智能
今天的项目是一个使用PyTorch框架构建和训练神经网络的实例，旨在实现手写数字识别。以下是项目的总结、内容分析以及优化建议：项目总结1.目标：使用神经网络对MNIST数据集中的手写数字进行分类。2.步骤：-数据加载和预处理。-构建神经网络模型。-定义损失函数和优化器。-训练模型并评估其性能。-可视化训练结果。内容分析1.数据加载和预处理：-使用`torchvision.datasets`加载MN
《深度解析DeepSeek-M8：量子经典融合，重塑计算能效格局》程序猿阿伟量子计算
在科技飞速发展的今天，量子计算与经典算法的融合成为了前沿领域的焦点。DeepSeek-M8的“量子神经网络混合架构”，宛如一把钥匙，开启了经典算法与量子计算协同推理的全新大门，为诸多复杂问题的解决提供了前所未有的思路。量子计算，基于量子力学的奇妙特性，如量子比特的叠加与纠缠，展现出了超越经典计算的潜力。量子比特能够同时处于多个状态，实现并行计算，这使得量子计算机在处理某些特定问题时，具备指数级加速
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
PointNet、PointNet++ 基于深度学习的3D点云分类和分割一颗小树x 人工智能感知算法自动驾驶深度学习机器学习 3D点云 PointNet
前言PointNet是直接对点云进行处理的，它对输入点云中的每一个点，学习其对应的空间编码，之后再利用所有点的特征得到一个全局的点云特征。Pointnet提取的全局特征能够很好地完成分类任务，但局部特征提取能力较差，这使得它很难对复杂场景进行分析。PointNet++核心是提出了多层次特征提取结构，有效提取局部特征提取，和全局特征。目录一、PointNet1.1PointNet思路流程1.2Poi
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
【深度学习】Adam（Adaptive Moment Estimation）优化算法辰尘_星启机器学习--深度学习深度学习算法人工智能 Adam pytorch python
概述Adam算法结合了动量法（Momentum）和RMSProp的思想，能够自适应调整每个参数的学习率。通过动态调整每个参数的学习率，在非平稳目标（如深度神经网络的损失函数）中表现优异目录基本原理和公式笼统说明：为什么Adam算法可以帮助模型找到更好的参数基本概念动量（Momentum）：跟踪梯度的指数衰减平均（一阶矩），加速收敛并减少震荡。自适应学习率：跟踪梯度平方的指数衰减平均（二阶矩），调整
ONNX GraphSurgeon详细介绍 Lntano__y 模型部署算法
ONNXGraphSurgeon(ONNX-GS)是一个用于操作和修改ONNX（OpenNeuralNetworkExchange）模型图的Python库。它允许开发者在ONNX模型的图结构中进行修改、优化、插入节点、删除节点以及其他图结构操作，是在深度学习推理部署过程中非常有用的工具。ONNXGraphSurgeon常用于TensorRT中，用来优化和调整ONNX模型，以便于模型可以高效地在GP
benchmark和baseline的联系与区别 Lntano__y 人工智能深度学习机器学习
在深度学习算法中，benchmark（基准）和baseline（基线）是两个常用的概念，用于评估算法的性能和进行比较。尽管它们有一些相似之处，但它们在定义和使用上有一些区别。Benchmark（基准）：基准是指作为参考标准的一组算法或数据集，通常是在特定任务或领域中广泛接受的准则。基准的目标是提供一个衡量算法性能的标准，以便其他算法可以与之进行比较。基准可以是一种算法、一个数据集或者是两者的结合。
学习总结项目苏小夕夕学习人工智能深度学习机器学习
近段时间学习了机器学习、线性回归和softmax回归、多层感知机、卷积神经网络、Pytorch神经网络工具箱、Python数据处理工具箱、图像分类等的知识，学习了利用神经网络实现cifar10的操作、手写图像识别项目以及其对应的实验项目报告总结。项目总结本次项目我使用了VGG19模型、AlexNet模型和已使用的VGG16模型进行对比，在已有的条件下，对代码进行更改是，结果展示中，VGG19模型的
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
深度学习项目十一：mmdetection训练自己的数据集小啊磊_Vv 深度学习和视觉项目实战目标跟踪人工智能计算机视觉 python 深度学习
mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式yolo转coco数据集格式的代码三：训练dataset数据文件配置configs1.在configs/faster_rcnn/faster-rcnn_r101_fpn_1x_coco.py
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin