郭苗苗772266

泰坦尼克号预测结果分析报告

提出问题（Business Understanding)
理解数据(Data Understanding)
- 采集数据
- 导入数据
- 查看数据集信息
数据清洗(Data Preparation)
- 数据预处理
- 特征工程(Feature Engineering)
构建模型(Modeling)
模型预估(Evaluation)
方案实施(Deployment)
- 将结果提交到kaggle
- 报告撰写

1. 提出问题

什么样的人容易在泰坦尼克号存活？

2. 理解数据

2.1 采集数据

点击此链接进入kaggle的titanic项目下载数据集

2.2 导入数据

用pd.read_csv()函数读取数据集中的数据；然后将训练数据集和测试数据集合并成一个数据集来进行清洗

# 忽略警告提示
import warnings
warnings.filterwarnings('ignore')

#导入处理数据包
import numpy as np
import pandas as pd

train=pd.read_csv('E:\\titanic\\train.csv')
test=pd.read_csv('E:\\titanic\\test.csv')
print('训练数据集:',train.shape,'测试数据集:',test.shape)

训练数据集: (891, 12) 测试数据集: (418, 11)

#合并数据集，方便同时对两个数据集进行清洗
full = train.append( test , ignore_index = True )

print ('合并后的数据集:',full.shape)

合并后的数据集: (1309, 12)

2.3 查看数据集信息

#查看数据
full.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

数据集中的字段都是英文，为了方便了解字段含义，查询了官网的项目介绍，总结如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QKBADEtQ-1654679972210)(https://blog.csdn.net/qq_26675765/article/details/125180282?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22125180282%22%2C%22source%22%3A%22qq_26675765%22%7D&ctrtid=6h2E2)]

'''
describe只能查看数据类型的描述统计信息，对于其他类型的数据不显示，比如字符串类型姓名（name），客舱号（Cabin）
这很好理解，因为描述统计指标是计算数值，所以需要该列的数据类型是数据
'''
#获取数据类型列的描述统计信息
full.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	1309.000000	891.000000	1309.000000	1046.000000	1309.000000	1309.000000	1308.000000
mean	655.000000	0.383838	2.294882	29.881138	0.498854	0.385027	33.295479
std	378.020061	0.486592	0.837836	14.413493	1.041658	0.865560	51.758668
min	1.000000	0.000000	1.000000	0.170000	0.000000	0.000000	0.000000
25%	328.000000	0.000000	2.000000	21.000000	0.000000	0.000000	7.895800
50%	655.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	982.000000	1.000000	3.000000	39.000000	1.000000	0.000000	31.275000
max	1309.000000	1.000000	3.000000	80.000000	8.000000	9.000000	512.329200

# 查看每一列的数据类型，和数据总数
full.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 97.2+ KB

根据上面打印的结果，我们发现数据总共有1309行。

其中数据类型列：年龄（Age）、船票价格（Fare）里面有缺失数据：

年龄（Age）里面数据总数是1046条，缺失了1309-1046=263，缺失率263/1309=20%
船票价格（Fare）里面数据总数是1308条，缺失了1条数据

字符串列：

登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少
船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大

接下来进行数据清洗，针对以上指标处理缺失数据。

3. 数据清洗

3.1 数据预处理

3.1.1 缺失值处理

很多机器学习算法为了训练模型，要求传入的特征中不能由空值；所以要对缺失值进行处理，针对数据类型的列（年龄（Age）、船票价格（Fare）），最简单的方法用平均值代替缺失值

print('处理前数据：')
full.info()
full['Age']=full['Age'].fillna(full['Age'].mean())
full['Fare']=full['Fare'].fillna(full['Fare'].mean())
print('处理后数据：')
full.info()

处理前数据：

RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 97.2+ KB
处理后数据：

RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 97.2+ KB

#检查数据处理是否正常
full.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

针对字符串数列，登船港口（Embarked）和船舱号（Cabin），缺失值处理方法：分别查看两个列数据都是什么，针对登船港口（Embarked）只缺失两个，用最多的那个数据填充；船舱号（Cabin）缺失较多，用U填充（Uknow）

#登船港口（Embarked）：查看里面数据长啥样
'''
出发地点：S=英国南安普顿Southampton
途径地点1：C=法国 瑟堡市Cherbourg
途径地点2：Q=爱尔兰 昆士敦Queenstown
'''
full['Embarked'].head()

0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object

full['Embarked'].value_counts()

S    914
C    270
Q    123
Name: Embarked, dtype: int64

'''
# 只有两个缺失值，我们将缺失值填充为最频繁出现的值：
S=英国南安普顿Southampton
'''
full['Embarked'] = full['Embarked'].fillna( 'S' )

#船舱号（Cabin）：查看里面数据长啥样
full['Cabin'].head()

0     NaN
1     C85
2     NaN
3    C123
4     NaN
Name: Cabin, dtype: object

#缺失数据比较多，船舱号（Cabin）缺失值填充为U，表示未知（Uknow） 
full['Cabin'] = full['Cabin'].fillna( 'U' )

#检查数据处理是否正常
full.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	U	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	U	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	U	S

#查看最终缺失值处理情况，记住生成情况（Survived）这里一列是我们的标签，用来做机器学习预测的，不需要处理这一列
full.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        1309 non-null   object 
 11  Embarked     1309 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 97.2+ KB

3.2 特征提取

对不同数据类型的特征提取方法：

①数值类型数据：直接使用
②时间序列：转成单独的年、月、日
③分类数据：one-hot编码用数值代替类别

'''
1.数值类型：
乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）
2.时间序列：无
3.分类数据：
1）有直接类别的
乘客性别（Sex）：男性male，女性female
登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国 瑟堡市Cherbourg，出发地点2：Q=爱尔兰 昆士敦Queenstown
客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱
2）字符串类型：可能从这里面提取出特征来，也归到分类数据中
乘客姓名（Name）
客舱号（Cabin）
船票编号（Ticket）
'''
full.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        1309 non-null   object 
 11  Embarked     1309 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 97.2+ KB

3.2.1 分类数据：有直接类别的

①乘客性别（Sex）：男性male，女性female
②登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国 瑟堡市Cherbourg，出发地点2：Q=爱尔兰 昆士敦Queenstown
③客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱

3.2.1.1 性别

#查看性别数据这一列
full['Sex'].head()

0      male
1    female
2    female
3    female
4      male
Name: Sex, dtype: object

'''
将性别的值映射为数值
男（male）对应数值1，女（female）对应数值0
'''
sex_mapDict={'male':1,
            'female':0}
#map函数：对Series每个数据应用自定义的函数计算
full['Sex']=full['Sex'].map(sex_mapDict)
full.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	S

3.2.1.2 登船港口

#查看该类数据内容
full['Embarked'].head()

0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object

#存放提取后的特征
embarkedDf = pd.DataFrame()

'''
使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Embarked
'''
embarkedDf = pd.get_dummies( full['Embarked'] , prefix='Embarked' )
embarkedDf.head()

	Embarked_C	Embarked_S
0	0	1
1	1	0
2	0	1
3	0	1
4	0	1

#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,embarkedDf],axis=1)

'''
因为已经使用登船港口(Embarked)进行了one-hot编码产生了它的虚拟变量（dummy variables）
所以这里把登船港口(Embarked)删掉
'''
full.drop('Embarked',axis=1,inplace=True)
full.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	Embarked_S
0	1	0.0	3	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	0	1
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	1	0
2	3	1.0	3	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	0	1
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	0	1
4	5	0.0	3	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	0	1

3.2.1.3 客舱等级

'''
客舱等级(Pclass):
1=1等舱，2=2等舱，3=3等舱
'''
#存放提取后的特征
pclassDf = pd.DataFrame()

#使用get_dummies进行one-hot编码，列名前缀是Pclass
pclassDf = pd.get_dummies( full['Pclass'] , prefix='Pclass' )
pclassDf.head()

	Pclass_1	Pclass_3
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,pclassDf],axis=1)

#删掉客舱等级（Pclass）这一列
full.drop('Pclass',axis=1,inplace=True)
full.head()

	PassengerId	Survived	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	Embarked_S	Pclass_1	Pclass_3
0	1	0.0	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	0	1	0	1
1	2	1.0	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	1	0	1	0
2	3	1.0	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	0	1	0	1
3	4	1.0	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	0	1	1	0
4	5	0.0	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	0	1	0	1

3.2.2 分类数据：字符串数据

字符串类型：可能从这里面提取出特征来，也归到分类数据中，这里数据有：

①乘客姓名（Name）
②客舱号（Cabin）
③船票编号（Ticket）

3.2.2.1 从姓名提取头衔

'''
查看姓名这一列长啥样
注意到在乘客名字（Name）中，有一个非常显著的特点：
乘客头衔每个名字当中都包含了具体的称谓或者说是头衔，将这部分信息提取出来后可以作为非常有用一个新变量，可以帮助我们进行预测。
例如：
Braund, Mr. Owen Harris
Heikkinen, Miss. Laina
Oliva y Ocana, Dona. Fermina
Peter, Master. Michael J
'''
full[ 'Name' ].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

'''
定义函数：从姓名中获取头衔
'''
def getTitle(name):
    str1=name.split( ',' )[1] #Mr. Owen Harris
    str2=str1.split( '.' )[0]#Mr
    #strip() 方法用于移除字符串头尾指定的字符（默认为空格）
    str3=str2.strip()
    return str3

#存放提取后的特征
titleDf = pd.DataFrame()
#map函数：对Series每个数据应用自定义的函数计算
titleDf['Title'] = full['Name'].map(getTitle)
titleDf.head()

	Title
0	Mr
1	Mrs
2	Miss
3	Mrs
4	Mr

'''
定义以下几种头衔类别：
Officer政府官员
Royalty王室（皇室）
Mr已婚男士
Mrs已婚妇女
Miss年轻未婚女子
Master有技能的人/教师
'''
#姓名中头衔字符串与定义头衔类别的映射关系
title_mapDict = {
                    "Capt":       "Officer",
                    "Col":        "Officer",
                    "Major":      "Officer",
                    "Jonkheer":   "Royalty",
                    "Don":        "Royalty",
                    "Sir" :       "Royalty",
                    "Dr":         "Officer",
                    "Rev":        "Officer",
                    "the Countess":"Royalty",
                    "Dona":       "Royalty",
                    "Mme":        "Mrs",
                    "Mlle":       "Miss",
                    "Ms":         "Mrs",
                    "Mr" :        "Mr",
                    "Mrs" :       "Mrs",
                    "Miss" :      "Miss",
                    "Master" :    "Master",
                    "Lady" :      "Royalty"
                    }

#map函数：对Series每个数据应用自定义的函数计算
titleDf['Title'] = titleDf['Title'].map(title_mapDict)

#使用get_dummies进行one-hot编码
titleDf = pd.get_dummies(titleDf['Title'])
titleDf.head()

	Miss	Mr	Mrs
0	0	1	0
1	0	0	1
2	1	0	0
3	0	0	1
4	0	1	0

#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,titleDf],axis=1)

#删掉姓名这一列
full.drop('Name',axis=1,inplace=True)
full.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	...	Embarked_S	Pclass_1	Pclass_3	Miss	Mr	Mrs
0	1	0.0	1	22.0	1	A/5 21171	7.2500	U	0	...	1	0	1	0	1	0
1	2	1.0	0	38.0	1	PC 17599	71.2833	C85	1	...	0	1	0	0	0	1
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	U	0	...	1	0	1	1	0	0
3	4	1.0	0	35.0	1	113803	53.1000	C123	0	...	1	1	0	0	0	1
4	5	0.0	1	35.0	0	373450	8.0500	U	0	...	1	0	1	0	1	0

5 rows × 21 columns

3.2.2.2 从客舱号中提取客舱类别

'''
客舱号的首字母是客舱的类别
'''
#查看客舱号的内容
full['Cabin'].head()

0       U
1     C85
2       U
3    C123
4       U
Name: Cabin, dtype: object

#存放客舱号信息
cabinDf = pd.DataFrame()

'''
客场号的类别值是首字母，例如：
C85 类别映射为首字母C
'''
full[ 'Cabin' ] = full[ 'Cabin' ].map( lambda c : c[0] )

##使用get_dummies进行one-hot编码，列名前缀是Cabin
cabinDf = pd.get_dummies( full['Cabin'] , prefix = 'Cabin' )

cabinDf.head()

	Cabin_C	Cabin_U
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,cabinDf],axis=1)

#删掉客舱号这一列
full.drop('Cabin',axis=1,inplace=True)
full.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Embarked_C	...	Cabin_C	Cabin_U
0	1	0.0	1	22.0	1	A/5 21171	7.2500	0	...	0	1
1	2	1.0	0	38.0	1	PC 17599	71.2833	1	...	1	0
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	0	...	0	1
3	4	1.0	0	35.0	1	113803	53.1000	0	...	1	0
4	5	0.0	1	35.0	0	373450	8.0500	0	...	0	1

5 rows × 29 columns

3.2.3 建立家庭人数和家庭类别¶

#存放家庭信息
familyDf = pd.DataFrame()

'''
家庭人数=同代直系亲属数（Parch）+不同代直系亲属数（SibSp）+乘客自己
（因为乘客自己也是家庭成员的一个，所以这里加1）
'''
familyDf[ 'FamilySize' ] = full[ 'Parch' ] + full[ 'SibSp' ] + 1

'''
家庭类别：
小家庭Family_Single：家庭人数=1
中等家庭Family_Small: 2<=家庭人数<=4
大家庭Family_Large: 家庭人数>=5
'''
#if 条件为真的时候返回if前面内容，否则返回0
familyDf[ 'Family_Single' ] = familyDf[ 'FamilySize' ].map( lambda s : 1 if s == 1 else 0 )
familyDf[ 'Family_Small' ]  = familyDf[ 'FamilySize' ].map( lambda s : 1 if 2 <= s <= 4 else 0 )
familyDf[ 'Family_Large' ]  = familyDf[ 'FamilySize' ].map( lambda s : 1 if 5 <= s else 0 )

familyDf.head()

	FamilySize	Family_Single	Family_Small
0	2	0	1
1	2	0	1
2	1	1	0
3	2	0	1
4	1	1	0

#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,familyDf],axis=1)
full.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Embarked_C	...	Cabin_U	FamilySize	Family_Single	Family_Small
0	1	0.0	1	22.0	1	A/5 21171	7.2500	0	...	1	2	0	1
1	2	1.0	0	38.0	1	PC 17599	71.2833	1	...	0	2	0	1
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	0	...	1	1	1	0
3	4	1.0	0	35.0	1	113803	53.1000	0	...	0	2	0	1
4	5	0.0	1	35.0	0	373450	8.0500	0	...	1	1	1	0

5 rows × 33 columns

#到现在我们已经有了这么多个特征了
full.shape

(1309, 33)

3.3 特征选择

3.3.1 相关系数法：计算相关系数的相关关系

#相关性矩阵
corrDf = full.corr() 
corrDf

	PassengerId	Survived	Sex	Age	SibSp	Parch	Fare	Embarked_C	Embarked_Q	Embarked_S	...	Cabin_D	Cabin_E	Cabin_F	Cabin_G	Cabin_T	Cabin_U	FamilySize	Family_Single	Family_Small	Family_Large
PassengerId	1.000000	-0.005007	0.013406	0.025731	-0.055224	0.008942	0.031416	0.048101	0.011585	-0.049836	...	0.000549	-0.008136	0.000306	-0.045949	-0.023049	0.000208	-0.031437	0.028546	0.002975	-0.063415
Survived	-0.005007	1.000000	-0.543351	-0.070323	-0.035322	0.081629	0.257307	0.168240	0.003650	-0.149683	...	0.150716	0.145321	0.057935	0.016040	-0.026456	-0.316912	0.016639	-0.203367	0.279855	-0.125147
Sex	0.013406	-0.543351	1.000000	0.057397	-0.109609	-0.213125	-0.185484	-0.066564	-0.088651	0.115193	...	-0.057396	-0.040340	-0.006655	-0.083285	0.020558	0.137396	-0.188583	0.284537	-0.255196	-0.077748
Age	0.025731	-0.070323	0.057397	1.000000	-0.190747	-0.130872	0.171521	0.076179	-0.012718	-0.059153	...	0.132886	0.106600	-0.072644	-0.085977	0.032461	-0.271918	-0.196996	0.116675	-0.038189	-0.161210
SibSp	-0.055224	-0.035322	-0.109609	-0.190747	1.000000	0.373587	0.160224	-0.048396	-0.048678	0.073709	...	-0.015727	-0.027180	-0.008619	0.006015	-0.013247	0.009064	0.861952	-0.591077	0.253590	0.699681
Parch	0.008942	0.081629	-0.213125	-0.130872	0.373587	1.000000	0.221522	-0.008635	-0.100943	0.071881	...	-0.027385	0.001084	0.020481	0.058325	-0.012304	-0.036806	0.792296	-0.549022	0.248532	0.624627
Fare	0.031416	0.257307	-0.185484	0.171521	0.160224	0.221522	1.000000	0.286241	-0.130054	-0.169894	...	0.072737	0.073949	-0.037567	-0.022857	0.001179	-0.507197	0.226465	-0.274826	0.197281	0.170853
Embarked_C	0.048101	0.168240	-0.066564	0.076179	-0.048396	-0.008635	0.286241	1.000000	-0.164166	-0.778262	...	0.107782	0.027566	-0.020010	-0.031566	-0.014095	-0.258257	-0.036553	-0.107874	0.159594	-0.092825
Embarked_Q	0.011585	0.003650	-0.088651	-0.012718	-0.048678	-0.100943	-0.130054	-0.164166	1.000000	-0.491656	...	-0.061459	-0.042877	-0.020282	-0.019941	-0.008904	0.142369	-0.087190	0.127214	-0.122491	-0.018423
Embarked_S	-0.049836	-0.149683	0.115193	-0.059153	0.073709	0.071881	-0.169894	-0.778262	-0.491656	1.000000	...	-0.056023	0.002960	0.030575	0.040560	0.018111	0.137351	0.087771	0.014246	-0.062909	0.093671
Pclass_1	0.026495	0.285904	-0.107371	0.362587	-0.034256	-0.013033	0.599956	0.325722	-0.166101	-0.181800	...	0.275698	0.242963	-0.073083	-0.035441	0.048310	-0.776987	-0.029656	-0.126551	0.165965	-0.067523
Pclass_2	0.022714	0.093349	-0.028862	-0.014193	-0.052419	-0.010057	-0.121372	-0.134675	-0.121973	0.196532	...	-0.037929	-0.050210	0.127371	-0.032081	-0.014325	0.176485	-0.039976	-0.035075	0.097270	-0.118495
Pclass_3	-0.041544	-0.322308	0.116562	-0.302093	0.072610	0.019521	-0.419616	-0.171430	0.243706	-0.003805	...	-0.207455	-0.169063	-0.041178	0.056964	-0.030057	0.527614	0.058430	0.138250	-0.223338	0.155560
Master	0.002254	0.085221	0.164375	-0.363923	0.329171	0.253482	0.011596	-0.014172	-0.009091	0.018297	...	-0.042192	0.001860	0.058311	-0.013690	-0.006113	0.041178	0.355061	-0.265355	0.120166	0.301809
Miss	-0.050027	0.332795	-0.672819	-0.254146	0.077564	0.066473	0.092051	-0.014351	0.198804	-0.113886	...	-0.012516	0.008700	-0.003088	0.061881	-0.013832	-0.004364	0.087350	-0.023890	-0.018085	0.083422
Mr	0.014116	-0.549199	0.870678	0.165476	-0.243104	-0.304780	-0.192192	-0.065538	-0.080224	0.108924	...	-0.030261	-0.032953	-0.026403	-0.072514	0.023611	0.131807	-0.326487	0.386262	-0.300872	-0.194207
Mrs	0.033299	0.344935	-0.571176	0.198091	0.061643	0.213491	0.139235	0.098379	-0.100374	-0.022950	...	0.080393	0.045538	0.013376	0.042547	-0.011742	-0.162253	0.157233	-0.354649	0.361247	0.012893
Officer	0.002231	-0.031316	0.087288	0.162818	-0.013813	-0.032631	0.028696	0.003678	-0.003212	-0.001202	...	0.006055	-0.024048	-0.017076	-0.008281	-0.003698	-0.067030	-0.026921	0.013303	0.003966	-0.034572
Royalty	0.004400	0.033391	-0.020408	0.059466	-0.010787	-0.030197	0.026214	0.077213	-0.021853	-0.054250	...	-0.012950	-0.012202	-0.008665	-0.004202	-0.001876	-0.071672	-0.023600	0.008761	-0.000073	-0.017542
Cabin_A	-0.002831	0.022287	0.047561	0.125177	-0.039808	-0.030707	0.020094	0.094914	-0.042105	-0.056984	...	-0.024952	-0.023510	-0.016695	-0.008096	-0.003615	-0.242399	-0.042967	0.045227	-0.029546	-0.033799
Cabin_B	0.015895	0.175095	-0.094453	0.113458	-0.011569	0.073051	0.393743	0.161595	-0.073613	-0.095790	...	-0.043624	-0.041103	-0.029188	-0.014154	-0.006320	-0.423794	0.032318	-0.087912	0.084268	0.013470
Cabin_C	0.006092	0.114652	-0.077473	0.167993	0.048616	0.009601	0.401370	0.158043	-0.059151	-0.101861	...	-0.053083	-0.050016	-0.035516	-0.017224	-0.007691	-0.515684	0.037226	-0.137498	0.141925	0.001362
Cabin_D	0.000549	0.150716	-0.057396	0.132886	-0.015727	-0.027385	0.072737	0.107782	-0.061459	-0.056023	...	1.000000	-0.034317	-0.024369	-0.011817	-0.005277	-0.353822	-0.025313	-0.074310	0.102432	-0.049336
Cabin_E	-0.008136	0.145321	-0.040340	0.106600	-0.027180	0.001084	0.073949	0.027566	-0.042877	0.002960	...	-0.034317	1.000000	-0.022961	-0.011135	-0.004972	-0.333381	-0.017285	-0.042535	0.068007	-0.046485
Cabin_F	0.000306	0.057935	-0.006655	-0.072644	-0.008619	0.020481	-0.037567	-0.020010	-0.020282	0.030575	...	-0.024369	-0.022961	1.000000	-0.007907	-0.003531	-0.236733	0.005525	0.004055	0.012756	-0.033009
Cabin_G	-0.045949	0.016040	-0.083285	-0.085977	0.006015	0.058325	-0.022857	-0.031566	-0.019941	0.040560	...	-0.011817	-0.011135	-0.007907	1.000000	-0.001712	-0.114803	0.035835	-0.076397	0.087471	-0.016008
Cabin_T	-0.023049	-0.026456	0.020558	0.032461	-0.013247	-0.012304	0.001179	-0.014095	-0.008904	0.018111	...	-0.005277	-0.004972	-0.003531	-0.001712	1.000000	-0.051263	-0.015438	0.022411	-0.019574	-0.007148
Cabin_U	0.000208	-0.316912	0.137396	-0.271918	0.009064	-0.036806	-0.507197	-0.258257	0.142369	0.137351	...	-0.353822	-0.333381	-0.236733	-0.114803	-0.051263	1.000000	-0.014155	0.175812	-0.211367	0.056438
FamilySize	-0.031437	0.016639	-0.188583	-0.196996	0.861952	0.792296	0.226465	-0.036553	-0.087190	0.087771	...	-0.025313	-0.017285	0.005525	0.035835	-0.015438	-0.014155	1.000000	-0.688864	0.302640	0.801623
Family_Single	0.028546	-0.203367	0.284537	0.116675	-0.591077	-0.549022	-0.274826	-0.107874	0.127214	0.014246	...	-0.074310	-0.042535	0.004055	-0.076397	0.022411	0.175812	-0.688864	1.000000	-0.873398	-0.318944
Family_Small	0.002975	0.279855	-0.255196	-0.038189	0.253590	0.248532	0.197281	0.159594	-0.122491	-0.062909	...	0.102432	0.068007	0.012756	0.087471	-0.019574	-0.211367	0.302640	-0.873398	1.000000	-0.183007
Family_Large	-0.063415	-0.125147	-0.077748	-0.161210	0.699681	0.624627	0.170853	-0.092825	-0.018423	0.093671	...	-0.049336	-0.046485	-0.033009	-0.016008	-0.007148	0.056438	0.801623	-0.318944	-0.183007	1.000000

32 rows × 32 columns

'''
查看各个特征与生成情况（Survived）的相关系数，
ascending=False表示按降序排列
'''
corrDf['Survived'].sort_values(ascending =False)

Survived         1.000000
Mrs              0.344935
Miss             0.332795
Pclass_1         0.285904
Family_Small     0.279855
Fare             0.257307
Cabin_B          0.175095
Embarked_C       0.168240
Cabin_D          0.150716
Cabin_E          0.145321
Cabin_C          0.114652
Pclass_2         0.093349
Master           0.085221
Parch            0.081629
Cabin_F          0.057935
Royalty          0.033391
Cabin_A          0.022287
FamilySize       0.016639
Cabin_G          0.016040
Embarked_Q       0.003650
PassengerId     -0.005007
Cabin_T         -0.026456
Officer         -0.031316
SibSp           -0.035322
Age             -0.070323
Family_Large    -0.125147
Embarked_S      -0.149683
Family_Single   -0.203367
Cabin_U         -0.316912
Pclass_3        -0.322308
Sex             -0.543351
Mr              -0.549199
Name: Survived, dtype: float64

3.3.2 选择特征

根据各个特征与生成情况（Survived）的相关系数大小，我们选择了这几个特征作为模型的输入：

头衔（前面所在的数据集titleDf）、客舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）

#特征选择
full_X = pd.concat( [titleDf,#头衔
                     pclassDf,#客舱等级
                     familyDf,#家庭大小
                     full['Fare'],#船票价格
                     cabinDf,#船舱号
                     embarkedDf,#登船港口
                     full['Sex']#性别
                    ] , axis=1 )
full_X.head()

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

5 rows × 27 columns

4. 构建模型

用训练数据和某个机器学习算法得到机器学习模型，用测试数据评估模型

4.1 建立训练数据集和测试数据集

* 坦尼克号测试数据集因为是我们最后要提交给Kaggle的，里面没有生存情况的值，所以不能用于评估模型。 我们将Kaggle泰坦尼克号项目给我们的测试数据，叫做预测数据集（记为pred,也就是预测英文单词predict的缩写）。 也就是我们使用机器学习模型来对其生存情况就那些预测。
* 我们使用Kaggle泰坦尼克号项目给的训练数据集，做为我们的原始数据集（记为source）；从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）。

#原始数据集有891行
sourceRow=891

'''
sourceRow是我们在最开始合并数据前知道的，原始数据集有总共有891条数据
从特征集合full_X中提取原始数据集提取前891行数据时，我们要减去1，因为行号是从0开始的。
'''
#原始数据集：特征
source_X = full_X.loc[0:sourceRow-1,:]
#原始数据集：标签
source_y = full.loc[0:sourceRow-1,'Survived']   

#预测数据集：特征
pred_X = full_X.loc[sourceRow:,:]

'''
确保这里原始数据集取的是前891行的数据，不然后面模型会有错误
'''
#原始数据集有多少行
print('原始数据集有多少行:',source_X.shape[0])
#预测数据集大小
print('原始数据集有多少行:',pred_X.shape[0])

原始数据集有多少行: 891
原始数据集有多少行: 418

'''
从原始数据集（source）中拆分出训练数据集（用于模型训练train），测试数据集（用于模型评估test）
train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和test data
train_data：所要划分的样本特征集
train_target：所要划分的样本结果
test_size：样本占比，如果是整数的话就是样本的数量
'''

'''
sklearn包0.8版本以后，需要将之前的sklearn.cross_validation 换成sklearn.model_selection
所以课程中的代码
from sklearn.cross_validation import train_test_split 
更新为下面的代码
'''
from sklearn.model_selection import train_test_split

#建立模型用的训练数据集和测试数据集
train_X, test_X, train_y, test_y = train_test_split(source_X ,
                                                    source_y,
                                                    train_size=.8)

#输出数据集大小
print ('原始数据集特征：',source_X.shape, 
       '训练数据集特征：',train_X.shape ,
      '测试数据集特征：',test_X.shape)

print ('原始数据集标签：',source_y.shape, 
       '训练数据集标签：',train_y.shape ,
      '测试数据集标签：',test_y.shape)

原始数据集特征： (891, 27) 训练数据集特征： (712, 27) 测试数据集特征： (179, 27)
原始数据集标签： (891,) 训练数据集标签： (712,) 测试数据集标签： (179,)

#原始数据查看
source_y.head()

0    0.0
1    1.0
2    1.0
3    1.0
4    0.0
Name: Survived, dtype: float64

4.2 选择机器学习算法

#第1步：导入算法
from sklearn.linear_model import LogisticRegression
#第2步：创建模型：逻辑回归（logisic regression）
model = LogisticRegression()

#随机森林Random Forests Model
#from sklearn.ensemble import RandomForestClassifier
#model = RandomForestClassifier(n_estimators=100)

#支持向量机Support Vector Machines
#from sklearn.svm import SVC, LinearSVC
#model = SVC()

#Gradient Boosting Classifier
#from sklearn.ensemble import GradientBoostingClassifier
#model = GradientBoostingClassifier()

#K-nearest neighbors
#from sklearn.neighbors import KNeighborsClassifier
#model = KNeighborsClassifier(n_neighbors = 3)

# Gaussian Naive Bayes
#from sklearn.naive_bayes import GaussianNB
#model = GaussianNB()

4.3 训练模型

#第3步：训练模型
model.fit( train_X , train_y )

LogisticRegression()

5. 评估模型

评估模型使用的是测试数据。因为我们这里使用的是分类机器学习算法，所以模型的score方法计算出的就是模型的准确率。

score方法输入的第1个参数test_X是测试数据的特征，test_y是测试数据的标签，模型输出预测结果。

# 分类问题，score得到的是模型的准确率
model.score(test_X , test_y )

0.8044692737430168

6. 方案实施

6.1 得到预测结果上传到Kaggle

使用预测数据集到底预测结果，并保存到csv文件中，上传到Kaggle中，就可以看到排名。

#使用机器学习模型，对预测数据集中的生存情况进行预测
pred_Y = model.predict(pred_X)

'''
生成的预测值是浮点数（0.0,1,0）
但是Kaggle要求提交的结果是整型（0,1）
所以要对数据类型进行转换
'''
pred_Y=pred_Y.astype(int)
#乘客id
passenger_id = full.loc[sourceRow:,'PassengerId']
#数据框：乘客id，预测生存情况的值
predDf = pd.DataFrame( 
    { 'PassengerId': passenger_id , 
     'Survived': pred_Y } )
predDf.shape
predDf.head()
#保存结果
predDf.to_csv( 'titanic_pred.csv' , index = False )

你可能感兴趣的:(数据挖掘,python,数据分析)

Python与.NET：10步教你轻松实现跨语言互操作，你准备好了吗？墨瑾轩 Python 一起学学C#【三】python .net 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣在这个多语言编程的时代，Python和.NET各自拥有独特的魅力。Python以其简洁易读的语法著称，而.NET则凭借其强大的性能和丰富的库支持赢得了众多开发者的心。那么问题来了，如何让这两者携手共舞呢？答案就是PythonNet！它就像是连接两个世界的桥梁，
华为OD机试E卷 --智能成绩表--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 python java 华为od javascript c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述小明来到某学校当老师，需要将学生按考试总分或单科分数进行排名，你能帮帮他吗？输入描述第1行输入两个整数，学生人数n和科目数量m。•0
python中xpath模块详解！听风Q python python 开发语言
文章目录xpath1、xpath安装与使用2、解析流程与使用3、xpath语法xpath1、xpath安装与使用安装安装lxml库pipinstalllxml-ipip源2、解析流程与使用解析流程实例化一个etree的对象，把即将被解析的页面源码加载到该对象调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取使用导入lxml.etreefromlxmlimportetre
Python 抽象类（Abstract Class）详解阁楼观月 python 前端数据库
前言在面向对象编程中，抽象类是一个非常重要的概念，它允许我们定义一组方法，但不提供具体的实现。抽象类的目的是为其子类提供一个通用的接口，并强制子类实现这些方法。通过使用抽象类，我们能够在设计上定义统一的结构，同时推迟具体的实现细节，从而实现代码的灵活性和扩展性。Python通过abc（AbstractBaseClasses）模块提供了对抽象类的支持。本文将详细讲解Python中的抽象类，如何使用抽
jenkins构建报错‘python‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。执子手吹散苍茫茫烟波自动化测试 jenkins python 环境变量
一.问题描述jenkinsjob构建失败，查看consoleoutputBuildinginworkspaceD:\D1\code\AutoTest\python_interface_autotest\PythonInterfaceAutoTest[PythonInterfaceAutoTest]$cmd/ccallC:\WINDOWS\TEMP\jenkins287435930548300360
安装完python设置好环境变量，但是cmd输入python无效高考坐后排的边牧 python基础入门 python
解决方法参考：https://blog.csdn.net/weixin_43454382/article/details/105801852
windows环境变量不生效的一个处理方案给自己做加法个人 windows
文章目录场景处理流程解决场景家里的台式电脑是自己组装的，所以系统也是从网上拷贝的镜像，今天在执行python项目的时候，发现python命令是无效的。处理流程1，修改环境变量Path值修改Path值后系统多次重启，结果依旧不生效2，检查是否被其他的环境变量影响了发现了一个环境变量c盘用小写的，其他都是大写，修正重启，结果依旧不生效3，在python安装目录下检查命令cmd窗口切换到python部署
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
Python中pytest-cov使用详解夏天Aileft Python python pytest windows
说明：pytest-cov是一个用于在使用pytest测试框架时提供代码覆盖率报告的插件。它通过集成coverage.py来收集测试覆盖率数据，并生成易于理解的报告。以下是pytest-cov的详细说明以及一些使用示例：安装首先，您需要安装pytest和pytest-cov。可以使用以下命令通过pip安装它们：pipinstallpytestpytest-cov基本用法一旦您安装好了pytest-
python执行js缺少window变量_python使用execjs执行含有document、window等对象的js代码，使用jsdom解决... weixin_39963440
当我们分析爬虫时，有时候会遇到一些加密参数，这个时候就需要我们逆向分析jspython执行js有一些第三方库因为我用的Python3，所以没用PyV8（安装网上的方法，也没有安装好，可能我太笨了--！如果有会的麻烦指点一下）我用的比较多的就是js2py和execjs有一次在分析js时，我已经找到了对应的加密方法，在浏览器上运行时，直接拿到了结果，开心的一匹然我把js代码复制下来，在Python里通
Python学习之-Pydantic详解夏天Aileft Python python 学习 Pydantic
前言：Pydantic是一个Python库，用于数据解析和验证。它主要基于Python类型提示来实现数据的校验和设定限制条件。在Pydantic中，BaseModel是一个核心基类，用于创建数据模型。1BaseModel的主要作用包括：数据验证（Validation）:BaseModel类提供了自动数据验证的功能。当你创建一个基于BaseModel的子类并且为其字段添加类型注解（typeannot
Python实现定时器的几种方式（超详细）夏天Aileft Python python 开发语言定时器
✨前言：在Python编程中，定时器是一种非常有用的工具，用于执行特定任务或函数，例如定时任务、轮询操作、定时检查等。Python提供了多种方式来创建和使用定时器，本文将介绍一些高级的定时器使用方式，包括使用threading模块、使用schedule库以及在异步编程中使用定时器。1使用time.sleep()结合循环这是最基础的计时方法，通过让程序暂停一定时间来实现简单的定时任务。#!/usr/
华为OD机试C卷-- 分披萨（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述"吃货"和"馋嘴"两人到披萨店点了一份铁盘（圆形）披萨，并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同奇数块，且肉眼能分辨出大小。由于两人都想吃到最多的披萨，他们商量了一个他们认为公平的分法：从"
Python 归并排序算法详解 licy__ 排序算法算法数据结构
目录Python归并排序算法详解1.归并排序原理2.Python代码实现3.时间复杂度分析4.空间复杂度分析5.实际例子6.归并排序的优势和劣势优势劣势7.总结Python归并排序算法详解归并排序（MergeSort）是一种高效的、基于比较的排序算法，属于分治法的一种。本文将详细介绍归并排序的原理、Python代码实现、时间复杂度分析和实际例子。1.归并排序原理归并排序的基本思想是将待排序的序列分
数据分析及应用：经营分析中的综合指标解析与应用莫叫石榴姐收获不止一点大数据数据分析机器学习
目录1.市场份额（MarketShare）2.客户获取成本（CustomerAcquisitionCost,CAC）3.客户生命周期价值（CustomerLifetimeValue,CLV）4.客户留存率（CustomerRetentionRate,CRR）5.净推荐值（NetPromoterScore,NPS）6.转化率（ConversionRate）7.平均订单价值（AverageOrderV
2024年华为OD机试真题- 分月饼-(C++/Java/python)-OD统一考试（C卷D卷） dijkstra2023 c++华为od python java
2024华为OD机试真题目录-(B卷C卷D卷)-【C++JavaPython】题目描述中秋节，公司分月饼，m个员工，买了n个月饼，m≤n，每个员工至少分1个月饼，但可以分多个，单人分到最多月饼的个数是Max1，单人分到第二多月饼个数是Max2，Max1-Max2≤3，单人分到第n-1多月饼个数是Max(n-1)，单人分到第n多月饼个数是Max(n)，Max(n-1)–Max(n)≤3,问有多少种分
零基础玩转Python GUI：Tkinter 从入门到实战 54newbie python python microsoft 开发语言
Tkinter是Python的标准GUI（图形用户界面）库，适合初学者用来创建简单的桌面应用程序。下面我将通过通俗易懂的语言和实例，系统地介绍Tkinter。1.什么是Tkinter？Tkinter是Python自带的GUI库，基于Tcl/Tk工具包。它简单易用，适合快速开发桌面应用程序。通过Tkinter，你可以创建窗口、按钮、文本框等控件，并与用户交互。2.安装TkinterTkinter是P
华为OD机试D卷C卷 - 分披萨（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od c语言 c++java javascript python
题目描述"吃货"和"馋嘴"两人到披萨店点了一份铁盘（圆形）披萨，并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同奇数块，且肉眼能分辨出大小。由于两人都想吃到最多的披萨，他们商量了一个他们认为公平的分法：从"吃货"开始，轮流取披萨。除了第一块披萨可以任意选取外，其他都必须从缺口开始选。他俩选披萨的思路不同。"馋嘴"每次都会选最大块的披萨，而且"吃货"知
Python3使用ffmpeg合成简单版数字人放天狼 ffmpeg 视频
在视频制作领域中，绿幕技术是一种常见的方法，用于将视频中的主体与背景分离。然后，通过将主体与另一背景图片或视频合成，可以创造出各种视觉效果。在这篇文章中，我将介绍如何使用FFmpeg将背景图片与绿幕视频合并，从而生成一个数字人视频。1.准备工作首先，资源准备：一段拍摄的绿幕视频，视频中的主体应清晰可见，背景颜色均匀一张用作背景的图片。机器安装好的FFmpeg工具，确保在命令行下，可以调用此命令2.
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
敏感字段加密【华为OD机试】（Python） codereasy 华为od python 开发语言算法
题目给定一个由多个命令字组成的命令字符串：字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；命令字之间以一个或多个下划线_进行分割；可以通过两个双引号“”来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为******（6个*），并删除命令字前后多余的下划线_。如果无法找到指定索引的命令字，输
算法面试题——敏感字段加密（python）牙几米 python 算法开发语言
题目描述给定一个由多个命令字组成的命令字符串：字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；命令字之间以一个或多个下划线_进行分割；可以通过两个双引号””来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为******（6个*），并删除命令字前后多余的下划线_。如果无法找到指定索引的命令字
mac python 2.7 升级为python3 做不做代码搬运工 macos python 开发语言
在macOS上将Python2.7升级为Python3，可以使用Homebrew来安装和管理Python3。以下是详细步骤：1.安装Homebrew（如果还没有安装）Homebrew是macOS上常用的包管理工具，能方便地安装Python3。在终端中运行以下命令来安装Homebrew：/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/
无效数据，你会怎么处理？网络安全我来了 IT技术无效数据
如何处理无效数据？无效数据就像海洋中的漂流物，易被忽视，却可能对你的数据分析产生深远的影响。在这个瞬息万变的数字世界中，数据已经成为了决策的核心。但你是否曾想过，无效数据会如何悄然破坏你的洞察力？在这篇文章中，我们将深入探讨如何识别和处理无效数据，确保你的分析能够真正反映现实的情况。无效数据的定义与重要性什么是无效数据？无效数据是指在数据集中不符合预期的数据，它可能是错误的、不完整的、重复的，甚至
Python 数据结构与算法习惯有梅自傲举 python 算法排序算法数据结构
1、算法概念在计算机科学中，算法是一个解决特定问题或执行特定任务的有序步骤的有限序列。算法是对一系列输入数据进行处理，产生期望输出结果的一种有效方法。它是解决问题的一种清晰而精确的描述，可以被实现为计算机程序。算法必须满足以下关键特性：有限性（Finiteness）：算法的执行必须在有限的步骤内终止，不会永无止境地执行下去。确定性（Determinism）：对于给定的输入，算法的每一步都有确切的定
无需卸载，降低python版本的方法 DOT Manager Python技能 python 开发语言
降低python版本的方法：1、打开anacondaprompt窗口；2、输入“condainstallpython=3.6”命令并回车；3、等待提示（y/n），输入y，再等待一段时间，当提示done则成功退回到python3.6。一般可能无法降低版本，使用如下方法：Anaconda虚拟环境下更换python版本【不论升版本、降版本都使用condainstallpython命令】【注意：修改版本后
华为OD机试2024年E卷-敏感字段加密[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库华为od
题目描述给定一个由多个命令字组成的命令字符串：1、字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；2、命令字之间以一个或多个下划线_进行分割；3、可以通过两个双引号””来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为******（6个*），并删除命令字前后多余的下划线_。如果无法找到指定
python的总结与心得词云设计理念_Python词云展示十九大报告 weixin_39633054
“不忘初心，牢记使命，高举中国特色社会主义伟大旗帜，决胜全面建成小康社会，夺取新时代中国特色社会主义伟大胜利，为实现中华民族伟大复兴的中国梦不懈奋斗。”十九大召开已过去近一个月，我国社会主要矛盾已经转变，中国特色社会主义进入了新时代，中国人民实现了从站起来，富起来到强起来，我们国家已经走近世界舞台的中央。国家强盛，民族自豪，为了中国梦，戮力前行。考研的同学应该此刻也在对着十九大报告埋头苦背吧，作为
python bs4 selenium 查找a href=javascript:()；的实际点击事件和url 大霸王龙 python selenium javascript
在使用BeautifulSoup和Selenium时，处理href="javascript:;"的链接需要一些额外的步骤，因为这些链接不直接指向一个URL，而是通过JavaScript代码来执行某些操作。这可能包括导航到另一个页面、触发模态窗口、显示/隐藏内容等。以下是如何使用Selenium来查找和处理这些链接的步骤：启动WebDriver：首先，你需要启动一个WebDriver（如Chrome
chatgpt赋能python：Python降级指南：如何安全地降级Python版本 tulingtest ChatGpt chatgpt 人工智能计算机
Python降级指南：如何安全地降级Python版本当你正在开发一个项目时，你可能会遇到一个问题：你需要使用的库只支持较旧的Python版本，而你正在使用的Python版本却较新。这个时候，降级Python版本可能是你的最佳选择。在这篇文章中，我们将介绍如何安全地降级Python版本。什么是Python降级？Python降级是指将Python的版本从较新的版本降至较旧的版本。在编写Python代码
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1