我像影子一样

数据分析：人工智能篇

文章目录

- 第三章数据可视化库matplotlib
- - 3.1 matplotlib基本绘图操作
  - 3.2 plot的线条和颜色
  - 3.3 条形图分析
  - 3.4 箱型图分析
  - 3.5 直方图分析
  - 3.6 散点图分析
  - 3.7 图表的美化
- 第四章数据预测库Sklearn
- - 4.1 sklearn预测未来
  - 4.2 回归数据的预测
  - - 4.2.1 回归数据的切分
    - 4.2.2 线性回归数据模型
    - 4.2.3 回归模型评估方法-MSE
  - 4.3 二分类数据的预测
  - - 4.3.1 二分类数据的切分
    - 4.3.2 逻辑回归数据模型
    - 4.3.3 二分类模型评估指标-准确率
    - 4.3.2 逻辑回归数据模型
    - 4.3.3 二分类模型评估指标-准确率

第三章数据可视化库matplotlib

3.1 matplotlib基本绘图操作

import matplotlib.pyplot as plt
import numpy as np
# 中文设置
plt.rcParams['font.sans-serif'] =['KaiTi'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题

# 设置图形大小，即设置画布
plt.figure(figsize=(10,5))

# 画直线
x = np.arange(10)
y = 2 * x + 10
plt.plot(x, y) # 画图

# x，y轴的名称
plt.xlabel('x')
plt.ylabel('y')

# 标题
plt.title("简单的直线")

plt.show() # 展示图形

3.2 plot的线条和颜色

线条形状设置

字符	线条类型	字符	线条类型
‘-’	实线	‘–’	虚线
‘-.’	虚点线	‘:’	点线
‘.’	点	‘,’	像素点
‘o’	圆点	‘v’	下三角点
‘^’	上三角形	‘<’	左三角形
‘>’	右三角形	‘1’	下三叉点
‘2’	上三叉点	‘3’	左三叉点
‘4’	右三叉点	‘s’	正方点
‘p’	五角点	‘*’	星形点
‘h’	六边形点	‘H’	六边形点2
‘+’	+号点	‘x’	乘号点
‘D’	实习菱形点	‘d’	瘦菱形点

常用颜色缩写

字符	颜色	英文全称
‘b’	蓝色	blue
‘g’	绿色	green
‘r’	红色	reed
‘c’	青色	cyan
‘m’	品红	magenta
‘y’	黄色	yellow
‘k’	黑色	black
‘w’	白色	white

示例：

import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(-10,10)
len(x)

## 50

y = np.sin(x)
len(y)

## 50


# 设置图形大小，即设置画布
plt.figure(figsize=(10,5))

# plt.plot(x, y,'-.',color='r') # 画图
plt.plot(x, y,'b-.') 

# 标题
plt.title("正弦函数")
# x，y轴的名称
plt.xlabel('x')
plt.ylabel('y')

plt.show() ## 展示图片

3.3 条形图分析

示例一：

import matplotlib.pyplot as plt
import numpy as np

# 中文设置
plt.rcParams['font.sans-serif'] = ['KaiTi'] # 设置默认字体
plt.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题

x = ['北京', '上海', '深圳', '广州']
y = [20, 18, 21, 18]

# 设置画布
plt.figure(figsize=(10,6))
# 设置标题
plt.title('各个城市的销量',fontsize=16) ## fontsize设置字体大小
# 画条形图
plt.bar(x, y)
plt.show()

# 设置画布
plt.figure(figsize=(10,6))
# 设置标题
plt.title('各个城市的销量',fontsize=16) ## fontsize设置字体大小
# 画条形图
plt.barh(x, y) 
plt.show()

示例二（数据实操）：

# 读取data文件夹下面的学生信息表
import pandas as pd
data = pd.read_excel("data/学生信息.xlsx")
data

## 
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64
5	2班	1201	男	188	68
6	2班	1202	女	176	94
7	2班	1203	男	160	53
8	2班	1204	女	162	63
9	2班	1205	女	167	63
10	3班	1301	男	161	68
11	3班	1302	女	175	57
12	3班	1303	男	188	82
13	3班	1304	男	195	70
14	3班	1305	女	187	69
15	1班	2101	男	174	84
16	1班	2102	女	161	61
17	1班	2103	男	157	61
18	1班	2104	女	159	97
19	1班	2105	男	170	81
20	2班	2201	男	193	100
21	2班	2202	女	194	77
22	2班	2203	男	155	91
23	2班	2204	男	175	74
24	2班	2205	女	183	76
25	3班	2301	女	157	78
26	3班	2302	男	171	88
27	3班	2303	女	190	99
28	3班	2304	女	164	81
29	3班	2305	男	187	73
30	4班	2401	女	192	62
31	4班	2402	男	166	82
32	4班	2403	女	158	60
33	4班	2404	女	160	84
34	4班	2405	女	193	54

# 查看有多少个班级，分析各个班学生的身高分布（即平均值）
data['班级'].unique() ##array(['1班', '2班', '3班', '4班'], dtype=object)
a = data.groupby("班级")["身高"].mean().reset_index()
a

##
	班级	身高
0	1班	169.8
1	2班	175.3
2	3班	177.5
3	4班	173.8

plt.figure(figsize=(10,6))
plt.bar(a["班级"],a["身高"])
plt.show()




# 分析各个班级的体重
b = data.groupby("班级")["体重"].mean().reset_index()
b

##
	班级	体重
0	1班	74.7
1	2班	75.9
2	3班	76.5
3	4班	68.4

plt.figure(figsize=(10,6))
plt.bar(b["班级"],b["体重"])
plt.show()

3.4 箱型图分析

箱型图
- 反映一组数据的分布特征，如：分布是否对称，是否存在异常点；
- 对多维数据的分布可以进行比较；
- 针对连续性变量分析；

示例：

## data文件夹下的箱型图数据.xlsx
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

data = pd.read_excel("data/箱型图数据.xlsx")
data

##
	数据1			数据2		数据3
0	0.673772	2.877434	2.049346
1	2.094364	1.744089	-2.000739
2	-0.229255	-3.478537	-1.174358
3	0.162415	-0.161255	-0.192022
4	1.601201	0.249620	-3.260043
...	...	...	...
95	0.802054	-2.125556	4.469550
96	0.704063	-0.020990	-0.325966
97	-1.003454	-0.645414	-3.517653
98	1.009918	1.299786	1.303022
99	0.798712	2.160066	4.128328
100 rows × 3 columns



# 单个
plt.boxplot(data["数据1"])
plt.show()

# 三个放一起
plt.boxplot([data["数据1"],data["数据2"],data["数据3"]],labels=["数据1", "数据2", "数据3"])
plt.show()

3.5 直方图分析

直方图：
- 直方图又称频率分布图，是一种显示数据分布情况的柱形图，即不同数据出现的频率
- 通过这些高度不同的柱形，可以直观、快速地观察数据的分散程度和中心趋势，从而分析流程满足客户的程度

示例（数据实操）：

# data文件夹下的直方图数据下有两个xlsx文件
import matplotlib.pyplot as plt
import pandas as pd

data = pd.read_excel("data/直方图数据/乘客信息.xlsx")
data

##
	乘客编号	年龄
0	1	22
1	2	38
2	3	26
3	4	35
4	5	35
...	...	...
709	886	39
710	887	27
711	888	19
712	890	26
713	891	32
714 rows × 2 columns


data1 = pd.read_excel("data/直方图数据/学生分数.xlsx")
data1

## 
学生编号	分数
0	162	56
1	129	28
2	25	2
3	114	21
4	130	29
...	...	...
185	178	78
186	148	42
187	123	25
188	82	10
189	30	3
190 rows × 2 columns

# 分析其年龄分布情况

# 中文设置
plt.rcParams["font.sans-serif"] = ["KaiTi"] # 设置默认字体
plt.rcParams["axes.unicode_minus"] = False # 解决"-"号显示为方块的问题

plt.hist(data["年龄"], bins=20, density=True, color='r', edgecolor='k') 
# bins表示区间数 # density表示对直方图作出规划（纵轴变为频率了）# edgecolor表示对边缘加颜色
plt.xlabel("年龄")
plt.ylabel("频率")
plt.title("直方图")
plt.show() 



# 分析班级里面学生成绩的分布情况
plt.hist(data1["分数"], bins=50, density=True,color='y',edgecolor='k')
plt.xlabel("分数")
plt.ylabel("频率")
plt.title("直方图")
plt.show()

3.6 散点图分析

散点图：
- 用两组数据构成多个坐标点，考察坐标点之间的分布，判断两变量之间是否存在某种关联或总结坐标点的分布模式
- 散点图主要用来研究两个连续性变量之间的关系

示例（数据实操）：

# data文件夹下的国民经济核算季度数据.xlsx
import matplotlib.pyplot as plt
import pandas as pd

data = pd.read_excel("data/国民经济核算季度数据.xlsx")
data.columns

##
Index(['序号', '时间', '国内生产总值_当季值(亿元)', '第一产业增加值_当季值(亿元)', '第二产业增加值_当季值(亿元)',
       '第三产业增加值_当季值(亿元)', '农林牧渔业增加值_当季值(亿元)', '工业增加值_当季值(亿元)',
       '建筑业增加值_当季值(亿元)', '批发和零售业增加值_当季值(亿元)', '交通运输、仓储和邮政业增加值_当季值(亿元)',
       '住宿和餐饮业增加值_当季值(亿元)', '金融业增加值_当季值(亿元)', '房地产业增加值_当季值(亿元)',
       '其他行业增加值_当季值(亿元)'],
      dtype='object')

# 分析国内生产总值和第一产业的值之间的相关性
# 单个散点图
plt.scatter(data["国内生产总值_当季值(亿元)"],data["第一产业增加值_当季值(亿元)"])
plt.show()



# 分析国内生产总值和第一产业的值之间的相关性
# 分析国内生产总值和第二产业的值之间的相关性
# 分析国内生产总值和第三产业的值之间的相关性
# 多个散点图
plt.scatter(data["国内生产总值_当季值(亿元)"],data["第一产业增加值_当季值(亿元)"], label="第一产业")
plt.scatter(data["国内生产总值_当季值(亿元)"],data["第二产业增加值_当季值(亿元)"], label="第二产业")
plt.scatter(data["国内生产总值_当季值(亿元)"],data["第三产业增加值_当季值(亿元)"], label="第三产业")
plt.legend() # legend可以将label调用
plt.show()

3.7 图表的美化

基本设置：

图例设置	plt.legend(loc=“best”)
画布设置	plt.figure(figsize=(10,6))
标题设置	plt.title(string,size=10,color=“red”)
横轴设置	plt.xlabel(string,fontsize=10)
纵轴设置	plt.ylabel(string,fontsize=10)
是否显示网络	plt.grid(False)

loc=“best”	自动找到最佳位置
loc=“upper left”	左上角位置
loc=“upper right”	右上角位置
loc=“lower left”	左下角位置
loc=“lower right”	右下角位置
loc=“center left”	左边中间位置
loc=“center right”	右边中间位置

示例：

import matplotlib.pyplot as plt
import numpy as np

# 中文设置
plt.rcParams["font.sans-serif"] = ["KaiTi"] # 设置默认字体
plt.rcParams["axes.unicode_minus"] = False # 解决"-"号显示为方块的问题

plt.figure(figsize=(10,6)) # 画布大小
x = np.linspace(0,20,100)
plt.plot(x, 2*x, label="曲线1")
plt.plot(x, 3*x, label="曲线2")
plt.plot(x, 4*x, label="曲线2")
plt.legend(loc="best")  ## 默认best
plt.title("三条曲线",size=16,color="r")
plt.xlabel("变量1", fontsize=16,color='c')
plt.ylabel("变量2", fontsize=16, color='m')
plt.grid(True) 
plt.show()

第四章数据预测库Sklearn

4.1 sklearn预测未来

4.2 回归数据的预测

4.2.1 回归数据的切分

示例（数据实操）：

# data文件夹下的房价数据.xlsx
import pandas as pd

data = pd.read_excel("data/房价数据.xlsx")
data

##	
   	城镇人均犯罪率	城镇非零售商用土地比例	一氧化氮浓度	住宅平均房间数	到城市中心区域的加权距离	房价(万元)
0	0.00632	2.31	0.538	6.575	4.0900	2.40
1	0.02731	7.07	0.469	6.421	4.9671	2.16
2	0.02729	7.07	0.469	7.185	4.9671	3.47
3	0.03237	2.18	0.458	6.998	6.0622	3.34
4	0.06905	2.18	0.458	7.147	6.0622	3.62
...	...	...	...	...	...	...
501	0.06263	11.93	0.573	6.593	2.4786	2.24
502	0.04527	11.93	0.573	6.120	2.2875	2.06
503	0.06076	11.93	0.573	6.976	2.1675	2.39
504	0.10959	11.93	0.573	6.794	2.3889	2.20
505	0.04741	11.93	0.573	6.030	2.5050	1.19
506 rows × 6 columns

## 用前五个属性来预测房价
from sklearn.model_selection import train_test_split  # 训练跟测试切分的方法
train, valid = train_test_split(data, test_size=0.2, shuffle=True, random_state=2020)  # 0.8作为训练集，0.2作为验证集，0.2表示把验证集 大小切成0.2
# shuffle=True切分的时候把数据打乱， 便于切出来的数据比较均匀  # random_state 随机种子，返回的是一个列表
# 返回的数据分别是训练集和验证集，分别把他们赋值给train和valid两个变量

data.shape  ## 未切分前的形状

## (506, 6)


train.shape  ## 切分后的形状

## (404, 6)


valid.shape ## 切分后的形状

## (102, 6)


404 / 506 # 训练集
## 0.7984189723320159

102 / 506 # 验证集
## 0.2015810276679842

train

##
城镇人均犯罪率	城镇非零售商用土地比例	一氧化氮浓度	住宅平均房间数	到城市中心区域的加权距离	房价(万元)
215	0.19802	10.59	0.489	6.182	3.9454	2.50
191	0.06911	3.44	0.437	6.739	6.4798	3.05
107	0.13117	8.56	0.520	6.127	2.1224	2.04
442	5.66637	18.10	0.740	6.219	2.0048	1.84
230	0.53700	6.20	0.504	5.981	3.6715	2.43
...	...	...	...	...	...	...
195	0.01381	0.46	0.422	7.875	5.6484	5.00
118	0.13058	10.01	0.547	5.872	2.4775	2.04
323	0.28392	7.38	0.493	5.708	4.7211	1.85
392	11.57790	18.10	0.700	5.036	1.7700	0.97
352	0.07244	1.69	0.411	5.884	10.7103	1.86
404 rows × 6 columns


valid

##
城镇人均犯罪率	城镇非零售商用土地比例	一氧化氮浓度	住宅平均房间数	到城市中心区域的加权距离	房价(万元)
409	14.43830	18.10	0.5970	6.852	1.4655	2.75
247	0.19657	5.86	0.4310	6.226	8.0555	2.05
399	9.91655	18.10	0.6930	5.852	1.5004	0.63
300	0.04417	2.24	0.4000	6.871	7.8278	2.48
321	0.18159	7.38	0.4930	6.376	4.5404	2.31
...	...	...	...	...	...	...
204	0.02009	2.68	0.4161	8.034	5.1180	5.00
495	0.17899	9.69	0.5850	5.670	2.7986	2.31
244	0.20608	5.86	0.4310	5.593	7.9549	1.76
413	28.65580	18.10	0.5970	5.155	1.5894	1.63
216	0.04560	13.89	0.5500	5.888	3.1121	2.33
102 rows × 6 columns

4.2.2 线性回归数据模型

示例（实操接4.2.1数据）：

# 预测房价
# 导入线性回归模型
from sklearn.linear_model import LinearRegression

model = LinearRegression() # 定义一个数据模型

# train , valid # 训练集训练数据，验证集用来预测数据
model.fit(train[['城镇人均犯罪率', '城镇非零售商用土地比例','一氧化氮浓度','住宅平均房间数','到城市中心区域的加权距离']], train['房价(万元)'])  
# fit传入需要训练的特征，这里需要传入除预测外的所有属性 ，fit表示训练的意思

## LinearRegression()


pred = model.predict(valid[['城镇人均犯罪率', '城镇非零售商用土地比例','一氧化氮浓度','住宅平均房间数','到城市中心区域的加权距离']])
pred
# predict表示预测，对验证集的每条数据进行预测

##
array([ 2.46474589,  2.2128151 ,  1.65888896,  2.85265327,  2.52879848,
        2.2258853 ,  2.57939134,  2.59693129,  1.82202357,  2.40885497,
        2.77841379,  1.64989292,  2.25647387,  3.30694586,  1.94037339,
        2.49620692,  2.03597603,  2.61239847,  1.95491352,  1.73957756,
        2.1573622 ,  2.82385479,  2.09397049,  2.33096025,  0.80547778,
        0.83617233,  2.43902438,  1.73929665,  3.29007521,  0.96528621,
        2.80937346,  2.75473389, -0.04440117,  2.4362086 ,  2.053418  ,
        0.87830185,  2.00948295,  2.45519188,  1.94278751,  2.27900789,
        2.80594378,  2.2755299 ,  2.15347854,  3.23576954,  1.9600308 ,
        2.26173723,  2.29422412,  2.06932986,  2.27333606,  2.95266904,
        2.84799092,  2.59296111,  2.65458646,  1.42464319,  1.82023523,
        1.16141491,  2.70465962,  2.31695954,  1.55678262,  2.46458798,
        2.43287322,  2.23338117,  2.67973044,  4.33672353,  2.95615622,
        2.53254281,  2.70089423,  0.27060842,  1.71579957,  2.12512989,
        2.5633941 ,  2.31433153,  2.84858425,  2.03601581,  2.46245774,
        2.02078349,  2.25731773,  2.38199773,  2.14867614,  2.46881375,
        2.32091925,  2.16436359,  3.11908093,  3.43351395,  3.3118866 ,
        1.69532309,  1.87010176,  2.3609788 ,  3.13228058,  2.08536776,
        1.75231547,  1.93768106,  2.04788031,  2.28601279,  2.1095751 ,
        2.38820313,  1.59125697,  3.93697614,  1.97308141,  1.75644051,
        0.92296715,  2.05833759])


len(pred)

## 102


train.columns

## 
Index(['城镇人均犯罪率', '城镇非零售商用土地比例', '一氧化氮浓度', '住宅平均房间数', '到城市中心区域的加权距离',
       '房价(万元)'],
      dtype='object')


valid.columns

##
Index(['城镇人均犯罪率', '城镇非零售商用土地比例', '一氧化氮浓度', '住宅平均房间数', '到城市中心区域的加权距离',
       '房价(万元)'],
      dtype='object')

4.2.3 回归模型评估方法-MSE

MSE
- 即均方误差
- MSE的值越大，表明预测效果越差

示例（实操接4.2.2数据）：

# vaild验证集是真实准确的数据，pred是经过验证集预测的数据
import numpy as np
# 导入均方误差
from sklearn.metrics import mean_squared_error  # mean_squared_error表示均方误差

mse_error = mean_squared_error(valid['房价(万元)'],pred)  # 先传入实际值，再传入预测值
mse_error

## 0.38184398467340286


np.sqrt(mse_error)  # 对均方误差进行开方，就可以知道每个样本的偏离程度 # np.sqrt 是numpy的开方

## 0.6179352592896791

4.3 二分类数据的预测

4.3.1 二分类数据的切分

示例（数据实操）：

# data文件夹下的泰坦尼克号数据.xlsx  # 0是死亡，1是存活
import pandas as pd
data = pd.read_excel("data/泰坦尼克号数据.xlsx")
data

## 
	乘客编号	船票种类	性别	年龄	乘客兄弟姐妹/配偶的个数	乘客父母/孩子的个数	是否存活
0	1	3	male	22.0	1	0	0
1	2	1	female	38.0	1	0	1
2	3	3	female	26.0	0	0	1
3	4	1	female	35.0	1	0	1
4	5	3	male	35.0	0	0	0
...	...	...	...	...	...	...	...
886	887	2	male	27.0	0	0	0
887	888	1	female	19.0	0	0	1
888	889	3	female	-10.0	1	2	0
889	890	1	male	26.0	0	0	1
890	891	3	male	32.0	0	0	0
891 rows × 7 columns

data.dtypes  
# 性别 是字符串类型，不符合字符类型，需要转为数值类型。因为数学模型里面必须要都是数值类型才可以分析

##
乘客编号              int64
船票种类              int64
性别               object
年龄              float64
乘客兄弟姐妹/配偶的个数      int64
乘客父母/孩子的个数        int64
是否存活              int64
dtype: object
    
data['性别'].value_counts()

##
male      577
female    314
Name: 性别, dtype: int64
        
data['性别'] = data['性别'].apply(lambda x: 0 if x == 'male'else 1)  
# 用pandas学的apply快速实现转换，然后更新列的数据
data.head()  # 显示修改后的前五条数据

##
	乘客编号	船票种类	性别	年龄	乘客兄弟姐妹/配偶的个数	乘客父母/孩子的个数	是否存活
0	1	3	1	22.0	1	0	0
1	2	1	1	38.0	1	0	1
2	3	3	1	26.0	0	0	1
3	4	1	1	35.0	1	0	1
4	5	3	1	35.0	0	0	0

from sklearn.model_selection import train_test_split

train,valid = train_test_split(data, test_size=0.2, shuffle=True, random_state=2020)

data["是否存活"].value_counts() # 0是死亡，1是存活

##
0    549
1    342
Name: 是否存活, dtype: int64
        
549 / 342 # 死亡:活着
##1.605263157894737

train['是否存活'].value_counts()

##
0    444
1    268
Name: 是否存活, dtype: int64
        
444/268
## 1.6567164179104477

valid['是否存活'].value_counts()

##
0    105
1     74
Name: 是否存活, dtype: int64
        
105/74
## 1.4189189189189189

# 由以上数据可知 训练集是1.6多，而验证集是1.4，跟预测数据1.60的比值差别太大差别太大

### 解决办法 # 用stratify，进行分层抽样
train,valid = train_test_split(data, test_size=0.2, shuffle=True, random_state=2020, stratify=data["是否存活"])

train['是否存活'].value_counts()

##
0    439
1    273
Name: 是否存活, dtype: int64

439/273
## 1.6080586080586081

valid['是否存活'].value_counts()

##
0    110
1     69
Name: 是否存活, dtype: int64
    
110/69
## 1.5942028985507246

4.3.2 逻辑回归数据模型

logistic函数：

# logistic函数曲线
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-10, 10, 100)
y = 1 / (1 + np.exp(-x))  # np.exp就是数学中的自然e，np.exp(-x)表示e的-x次方
plt.plot(x, y)
plt.show()

示例（实操接4.3.1数据）：

from sklearn.linear_model import LogisticRegression # LogisticRegression 逻辑回归

model = LogisticRegression() # 定义一个数据模型

train.columns # 因为每个乘客的乘客编号都不同，就不熟他们特有的特征了，索引只取其他五个特有的属性

##
Index(['乘客编号', '船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数', '是否存活'], dtype='object')


# 训练
model.fit(train[['船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数']], train['是否存活'])

## LogisticRegression() # 成功


# 预测
pred = model.predict(valid[['船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数']])
pred # 预测结果

##
array([0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1,
       0, 0, 0], dtype=int64)

4.3.3 二分类模型评估指标-准确率

准确率：
- 准确率，Accuracy，表示模型预测正确地比例
- $A cc u r a cy = M / N$
- M表示预测对的数量，N表示需要预测的数据
- Accuracy的值越大，表明预测的效果越好

示例（实操接4.3.2数据）：

from sklearn.metrics import accuracy_score # accuracy_score 准确率分数，用来计算准确率的
accuracy_score(valid["是否存活"], pred)  # 先传入真实数据再传入预测数据

## 0.776536312849162

if x == 'male’else 1)
# 用pandas学的apply快速实现转换，然后更新列的数据
data.head() # 显示修改后的前五条数据

 ##
 	乘客编号	船票种类	性别	年龄	乘客兄弟姐妹/配偶的个数	乘客父母/孩子的个数	是否存活
 0	1	3	1	22.0	1	0	0
 1	2	1	1	38.0	1	0	1
 2	3	3	1	26.0	0	0	1
 3	4	1	1	35.0	1	0	1
 4	5	3	1	35.0	0	0	0
 ```

from sklearn.model_selection import train_test_split

train,valid = train_test_split(data, test_size=0.2, shuffle=True, random_state=2020)

data["是否存活"].value_counts() # 0是死亡，1是存活

##
0    549
1    342
Name: 是否存活, dtype: int64
        
549 / 342 # 死亡:活着
##1.605263157894737

train['是否存活'].value_counts()

##
0    444
1    268
Name: 是否存活, dtype: int64
        
444/268
## 1.6567164179104477

valid['是否存活'].value_counts()

##
0    105
1     74
Name: 是否存活, dtype: int64
        
105/74
## 1.4189189189189189

# 由以上数据可知 训练集是1.6多，而验证集是1.4，跟预测数据1.60的比值差别太大差别太大

### 解决办法 # 用stratify，进行分层抽样
train,valid = train_test_split(data, test_size=0.2, shuffle=True, random_state=2020, stratify=data["是否存活"])

train['是否存活'].value_counts()

##
0    439
1    273
Name: 是否存活, dtype: int64

439/273
## 1.6080586080586081

valid['是否存活'].value_counts()

##
0    110
1     69
Name: 是否存活, dtype: int64
    
110/69
## 1.5942028985507246

4.3.2 逻辑回归数据模型

[外链图片转存中…(img-qmvxTRUZ-1696233196612)]

logistic函数：

# logistic函数曲线
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-10, 10, 100)
y = 1 / (1 + np.exp(-x))  # np.exp就是数学中的自然e，np.exp(-x)表示e的-x次方
plt.plot(x, y)
plt.show()

[外链图片转存中…(img-eO8xp7LI-1696233196612)]

示例（实操接4.3.1数据）：

from sklearn.linear_model import LogisticRegression # LogisticRegression 逻辑回归

model = LogisticRegression() # 定义一个数据模型

train.columns # 因为每个乘客的乘客编号都不同，就不熟他们特有的特征了，索引只取其他五个特有的属性

##
Index(['乘客编号', '船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数', '是否存活'], dtype='object')


# 训练
model.fit(train[['船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数']], train['是否存活'])

## LogisticRegression() # 成功


# 预测
pred = model.predict(valid[['船票种类', '性别', '年龄', '乘客兄弟姐妹/配偶的个数', '乘客父母/孩子的个数']])
pred # 预测结果

##
array([0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1,
       0, 0, 0], dtype=int64)

4.3.3 二分类模型评估指标-准确率

[外链图片转存中…(img-gQr0jn8Z-1696233196613)]

准确率：
- 准确率，Accuracy，表示模型预测正确地比例
- $A cc u r a cy = M / N$
- M表示预测对的数量，N表示需要预测的数据
- Accuracy的值越大，表明预测的效果越好

示例（实操接4.3.2数据）：

from sklearn.metrics import accuracy_score # accuracy_score 准确率分数，用来计算准确率的
accuracy_score(valid["是否存活"], pred)  # 先传入真实数据再传入预测数据

## 0.776536312849162

你可能感兴趣的:(python,数据分析,matplotlib,数据分析,python,matplotlib,sklearn)

AutoGen C#三步变强：比Python还野的多AI协作实战！墨瑾轩一起学学C#【四】c#python 人工智能
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、第一步：环境搭建——给AutoGen装上"AI乐高积木"目标：用C#搭建AutoGen基础环境，像组装乐高一样准备工具。步骤：克隆AutoGen项目：访问AutoGenGitHub仓库，克隆到本地：gitclonehttps://github.com/mi
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
python包管理神器【uv】详解若叶. python uv 开发语言 pip virtualenv
目录1uv简介与安装1.1uv作用1.2安装方式一：github/release页下载。方式二：命令行安装(win)方式三：pypi安装确认安装成功1.3卸载2命令帮助3uv管理python版本3.1`uvpython--参数`3.2`uvpythonlist`3.3`uvpythoninstall`4uv运行单个脚本4.1`uvrun.py文件`4.2`uvinit--script`4.3`uv
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
从 C# 转 Python 第三天：文件操作、异常处理与错误日志实践 AI、少年郎 java 前端数据库 c#文件操作异常处理
在软件开发的广阔领域中，Python和C#作为两种备受瞩目的编程语言，各自凭借独特的特性和强大的功能，在不同的应用场景中展现出卓越的性能。对于开发者而言，深入理解并熟练掌握这两门语言的核心技能，如文件操作与异常处理，不仅是提升个人编程能力的关键，更是在复杂多变的项目开发中应对各种挑战、确保程序稳定运行的必备条件。在日常的编程工作中，文件操作是实现数据持久化存储、读取配置信息以及处理各种数据文件的基
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
Python 虚拟环境管理工具 UV：从安装到高级用法的详细教程 Dush32 python uv 开发语言人工智能机器学习分类
前言在Python开发中，管理不同项目的依赖包和Python版本是开发者常常遇到的问题。不同项目可能依赖不同版本的库，甚至同一个库在不同版本下的行为可能不同。为了避免这些问题，使用虚拟环境成为了解决方案。虚拟环境通过隔离每个项目的依赖，避免了版本冲突问题。在Python中，常用的虚拟环境管理工具有virtualenv、venv和一些第三方工具，如UV。本文将详细介绍如何使用UV虚拟环境管理工具，从
python并发执行_Python的并发并行[0] -> 基本概念 weixin_39940253 python并发执行
基本概念/BasicConcept快速跳转0简介与动机/WhyMulti-Thread/Multi-Process/Coroutine在多线程(multithreaded,MT)编程出现之前，计算机程序的执行是由单个步骤序列组成的，该序列在主机的CPU中按照同步顺序执行。即无论任务多少，是否包含子任务，都要按照顺序方式进行。然而，假定子任务之间相互独立，没有因果关系，若能使这些独立的任务同时运行，
python线程嵌套线程_Python中的嵌套并行性 weixin_39923262 python线程嵌套线程
1)WhatamImissinghere;whyshouldn’taPoolbesharedbetweenprocesses?并不是所有的对象/实例都是可挑选的/可序列化的,在这种情况下,池使用的是不可挑剔的thread.lock：>>>importthreading,pickle>>>pickle.dumps(threading.Lock())Traceback(mostrecentcallla
移除 GIL，可显著提升 Python 多线程性能么？ AIGC开发者 python 1024程序员节 python 开发语言
近日，一位名叫SamGross的开发者提出了一个对全局解释器锁（GIL）进行重大修改的设想。其目标在于移除CPython中的GIL，以使得多线程能够并行执行Python代码。目前，该项目已经引起了Python核心开发团队的关注。我一直在对CPython进行修改，使其能够在没有全局解释器锁的情况下运行。我想与大家分享一个可以在没有GIL的情况下运行的概念验证。这个概念验证涉及到对CPython内部的
python 利用多进程实现文件的拷贝 AI算法网奇 python宝典 python 开发语言
python利用多进程实现文件的拷贝版权声明：本文为博主原创文章，未经博主允许不得转载。https://blog.csdn.net/m0_37338590/article/details/78472103整个程序的流程可分为四步：第一步是提示用户输入要拷贝的文件夹;第二步是创建新文件夹;第三步是获取文件夹中所有文件的名字;最后一步是就是利用进程池创建进程完成复制。具体的分析在程序中都有了，不再做过
python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
python实现精确的四舍五入 mocobk
由于计算精度的问题，python无法实现真正的四舍五入round四舍五入时是遵循靠近0原则，所以-0.5和0.5进行0位四舍五入，返回的都是0round(2.135,2)-->2.13round(number[,ndigits])Returnthefloatingpointvaluenumberroundedtondigitsdigitsafterthedecimalpoint.Ifndigits
【Python】线程—GIL—asyncio 2401_84139049 程序员 python 开发语言
它们的特点和适用场景：工具特点适用场景Lock最基本的互斥锁，一次只允许一个线程访问共享资源不可重入，即同一线程再次获取会导致死锁简单的线程同步需求需要确保一段代码同一时间只能被一个线程执行RLock可重入锁，同一线程可以多次获取锁并释放允许同一线程多次调用acquire()复杂的递归线程同步需求某些情况下需要允许同一线程多次获取和释放锁Semaphore允许一定数量的线程同时访问共享资源控制并发
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
python的多线程无法并行只能并发，why？
标题python的多线程无法并行只能并发，why？python的多线程无法并行只能并发，why？在Python中，特别是使用CPython解释器时，由于存在全局解释器锁（GIL），即使在多核处理器上，只有一个线程在同一时刻可以执行Python字节码。GIL会导致CPU密集型任务的线程不能真正并行执行，即使在多核机器上。这种情况下，即使你创建多个线程，CPU也会轮流为每个线程分配执行时间。只有涉及到
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
python从菜鸟到高手电子书下载_PYTHON从菜鸟到高手清华大学出版社逐码追风
推荐序...1前言...3本书配套资源...5第一篇Python基础知识第1章初识Python.31.1Python简介...31.2搭建Python开发环境...81.3第一个Python程序...261.4调试Python程序...261.5小结...291.6实战与练习...29第2章Python语言基础...302.1Python程序中的基本要素...302.2数字...342.3获取用户
Python从入门到高手9.1节-Python中的字典类型大神薯条老师 Python从入门到高手 python 数据分析机器学习爬虫网络爬虫深度学习
目录9.1.1理解字典类型9.1.2字典的类型名9.1.3字典的定义9.1.4字典的主要性质9.1.5好好学习，天天向上9.1.1理解字典类型在日常生活中，我们常常会接触到“字典”这种数据类型，例如一本书籍的目录结构，在目录结构中，通过查找页码，就可以快速翻到指定的页面。如果没有这样的页码，那么我们必须从书籍的第一页开始，一页一页地查找。有了页码以后，直接翻到指定的页面。在Python中，可以通过
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
LangGraph 教程：初学者综合指南（1）背太阳的牧羊人 langgraph langchain langgraph
关键概念图结构LangGraph设计的核心是基于图形的应用程序工作流程表示。该图包含两个主要元素：节点-工作的构建块：LangGraph中的每个节点代表应用程序中的一个不同的工作或操作单元。这些节点本质上是封装特定任务的Python函数。此任务可能涉及多种操作，例如：与LLM直接沟通，进行文本生成、摘要或其他基于语言的任务。与外部工具和API交互以获取数据或在现实世界中执行操作。通过格式化、过滤或
Python 应用程序分发全指南：从基础到高级工具与实践面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言在现代软件开发中，Python因其简洁的语法和强大的生态系统而广受欢迎。然而，将Python应用程序从开发者手中传递给最终用户并非总是简单的过程。分发Python应用程序涉及到诸多挑战，例如依赖管理、跨平台兼容性以及用户环境的多样性。如果分发不当，用户可能面临安装失败或运行错误等问题，从而影响软件的使用体验。本文将深入探讨Python应用程序分发的各种方法，从最基础的源代码分享到现代标
轻松拿捏Anaconda安装，Python开发快人一步奔跑吧邓邓子必备核心技能 python 开发语言 Anaconda 科学计算
目录一、Anaconda是什么1.1包管理与环境管理1.2预装丰富的科学计算库二、为什么选择Anaconda2.1简化依赖管理2.2避免版本冲突2.3丰富的库资源2.4适合的应用场景三、安装前准备3.1确认系统要求3.2下载安装包四、Windows系统安装步骤4.1运行安装程序4.2许可协议4.3选择安装类型4.4选择安装路径4.5高级选项4.6安装完成五、MacOS系统安装步骤5.1下载安装包5
mavlink python 彩云的笔记 linux 无人驾驶 mavlink
frompymavlinkimportmavutil#Createtheconnectionm=mavutil.mavlink_connection('udpin:0.0.0.0:14550')dir(m.mav)['_MAVLink__callbacks','_MAVLink__parse_char_legacy','_MAVLink__parse_char_native','__class__
《用上位机控制无人机：Python+MAVLink协议飞行实验》欧振芳 python
1.实验目标-通过Python编写的上位机程序，基于MAVLink协议控制无人机（如PX4/ArduPilot固件的无人机）。-实现基础飞行指令：解锁、起飞、悬停、降落。-探索MAVLink消息的构造与解析机制。2.实验环境准备硬件-无人机硬件：支持MAVLink协议的飞控（如Pixhawk系列）。-通信链路：USB直连、数传电台（3DRRadio）或WiFi（如通过UDP）。-安全环境：空旷无干
一次Python与STK12.2联合仿真
（一）软件准备：STK12.2是在某宝上花钱买的。我个人在安装软件上，更偏向于能用钱解决的就用钱解决，无论是商家远程安装还是自己按照商家的步骤安装，效率都更高，而自己从网上找免费的渠道安装软件费时费力还不一定能成功。Python是自己按照版本对应关系下载的，我使用的Python版本是3.10.9。我是在PycharmCommunityEdition2023.1.1上进行编程。（二）STK12与Py
《Python 项目 CI/CD 实战指南：从零构建自动化部署流水线》清水白石008 课程教程学习笔记开发语言 python ci/cd 自动化
《Python项目CI/CD实战指南：从零构建自动化部署流水线》一、引言：为什么Python项目需要CI/CD？在现代软件开发中，CI/CD（持续集成/持续部署）已成为不可或缺的工程实践。它不仅提升了开发效率，还显著降低了部署风险。对于Python项目而言，CI/CD的价值尤为突出：✅自动化测试确保代码质量✅快速部署加速产品迭代✅与云平台、容器技术无缝集成✅支持多版本、多环境的灵活发布Python
使用python调用STK12.2并实现霍曼转移 AndyVictory python 开发语言
使用STK的PythonAPI和Astrogator模块来创建一个简单的霍曼转移轨道场景（从近地轨道转移到地球同步轨道）:1、创建一个新的场景并添加一个卫星。2、定义卫星的初始状态（近地轨道的参数）。3、传播近地轨道。4、使用目标序列和DV1机动将卫星转移到转移椭圆轨道。5、传播转移椭圆轨道到远地点。6、使用目标序列和DV2机动将卫星转移到外部轨道（地球同步轨道）。7、传播外部轨道。8、运行任务控
python坦克大战名难取aaa python pygame 开发语言贴图
文章目录前言资源获取一、项目介绍1.pygame是什么？2.操作指南3.项目演示二、项目实现1.安装库2.引入库3.项目代码3.1主逻辑类3.2背景类3.3基类3.4坦克类3.5MyTank类3.6EnemyTank类3.7子弹类3.8爆炸类3.9墙壁类3.10水晶类3.11音乐类4.项目打包参考文档总结前言《坦克大战》，1985年由日本开发商南梦宫（Namco）开发，是第一款可以双打的红白机游戏
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

数据分析：人工智能篇

文章目录

第三章 数据可视化库matplotlib

3.1 matplotlib基本绘图操作

3.2 plot的线条和颜色

3.3 条形图分析

3.4 箱型图分析

3.5 直方图分析

3.6 散点图分析

3.7 图表的美化

第四章 数据预测库Sklearn

4.1 sklearn预测未来

4.2 回归数据的预测

4.2.1 回归数据的切分

4.2.2 线性回归数据模型

4.2.3 回归模型评估方法-MSE

4.3 二分类数据的预测

4.3.1 二分类数据的切分

4.3.2 逻辑回归数据模型

4.3.3 二分类模型评估指标-准确率

4.3.2 逻辑回归数据模型

4.3.3 二分类模型评估指标-准确率

你可能感兴趣的:(python,数据分析,matplotlib,数据分析,python,matplotlib,sklearn)

第三章数据可视化库matplotlib

第四章数据预测库Sklearn