心非行役

泰坦尼克号生存预测分析

文章目录

1.导入库
2.引入机器学习的模型
- 2.1 逻辑回归模型
- 2.2 随机森林
- 2.3 支持向量机
- 2.4 K最近邻
- 2.5 决策树
3. 对数据处理
- 3.1 导入数据
- 3.2 处理训练集缺失值
- - 3.2.1 查看维度
  - 3.2.2 查看缺失的个数
  - 3.2.3 处理缺失的上船港口（Embarked）
  - 处理缺失的年龄（Age）
  - 处理缺失的客舱号（Cabin）
- 3.3 对训练集的数据进行处理
- - 3.3.1 打印前5行查看数据集
  - 3.3.2 处理Pclass(客舱等级)
  - 3.3.3 处理姓名
  - 3.3.4 处理性别
  - 3.3.5 处理年龄
  - 3.3.6 处理家庭
  - 3.3.7 处理船票和票价
  - 3.3.8 处理上船港口
- 3.4 处理测试集
- 3.5 查看相关性
- 3.6 划分训练集和检验集
4. 训练模型
- 4.1 逻辑回归模型
- 4.2 随机森林
- 4.3 支持向量机
- 4.4 K最近邻
- 4.5 决策树
5.测试模型
- 5.1 逻辑回归模型
- 5.2 随机森林
- 5.3 支持向量机
- 5.4 K最近邻
- 5.5 决策树
- 5.6 5种模型对比
6. 预测模型
- 6.1 逻辑回归模型
- 6.2 随机森林
- 6.3 支持向量机
- 6.4 K最近邻
- 6.5 决策树
- 6.6 将上述结果交至kaggle进行评分
7. 完整代码
8. 总结

1.导入库

小编一般喜欢在在代码的刚开始便导入所有要使用的库，这样可以直观明了的将自己的思路展现出来，并且对代码的布局也更加美观。
下面是泰坦尼克号需要使用的库：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 
import random

其中关于matplotlib,numpy,pandas工具的使用可以参考小编写的例外一篇博客
机器学习入门基本使用工具（保姆式教学）:matplotlib,numpy,pandas这一篇就够了
这里是泰坦尼克号的数据集链接：https://pan.baidu.com/s/1C8mRRSkSdBsVRZ5zv_zCbA?pwd=w45i
提取码：w45i

2.引入机器学习的模型

这里导入5个模型，用来比较各种模型之间的差距

2.1 逻辑回归模型

from sklearn.linear_model import LogisticRegression

2.2 随机森林

from sklearn.ensemble import RandomForestClassifier

2.3 支持向量机

from sklearn.svm import SVC

2.4 K最近邻

from sklearn.neighbors import KNeighborsClassifier

2.5 决策树

from sklearn.tree import DecisionTreeClassifier

3. 对数据处理

3.1 导入数据

#训练数据集
train_data = pd.read_csv(r"D:\data\python\taitanic\train.csv")
#测试数据集
test_data = pd.read_csv(r"D:\data\python\taitanic\test.csv")

3.2 处理训练集缺失值

3.2.1 查看维度

>>>print('训练数据集：', train_data.shape, '测试数据集：', test_data.shape)
>训练数据集： (891, 12) 测试数据集： (418, 11)

3.2.2 查看缺失的个数

>>>train_data.isnull().sum()
>PassengerId      0
 Survived         0
 Pclass           0
 Name             0
 Sex              0
 Age            177
 SibSp            0
 Parch            0
 Ticket           0
 Fare             0
 Cabin          687
 Embarked         2
 dtype: int64

3.2.3 处理缺失的上船港口（Embarked）

查看上船港口数

>>>plt.figure(figsize=(10,5),dpi=100)
>>>train_data['Embarked'].value_counts().plot(kind='bar')
>>>plt.savefig(r"D:\data\python\exercise\test2\1.png")

可以看到从S港口上船的人数最多，而数据只缺失两个，所以选取频率最高的填充到空白数据中

>>>train_data['Embarked'] = train_data['Embarked'].fillna('S')
>>>train_data.isnull().sum()
>PassengerId      0
 Survived         0
 Pclass           0
 Name             0
 Sex              0
 Age            177
 SibSp            0
 Parch            0
 Ticket           0
 Fare             0
 Cabin          687
 Embarked         0
 dtype: int64

处理缺失的年龄（Age）

处理空白年龄(Age)，使用平均值填充

>>>train_data['Age'] = train_data['Age'].fillna(int(train_data['Age'].mean()))
>>>train_data.isnull().sum()
>PassengerId      0
 Survived         0
 Pclass           0
 Name             0
 Sex              0
 Age              0
 SibSp            0
 Parch            0
 Ticket           0
 Fare             0
 Cabin          687
 Embarked         0
 dtype: int64

处理缺失的客舱号（Cabin）

至此除了Cabin（船舱号）其他缺失值已经补充完毕.Cabin这一列数据值缺失过多选择填充会导致得到的数据过于片面，因此，选择删去这一列

>>>train_data.drop(columns = 'Cabin', axis=1,inplace=True)
>>>train_data.isnull().sum()
>PassengerId      0
 Survived         0
 Pclass           0
 Name             0
 Sex              0
 Age              0
 SibSp            0
 Parch            0
 Ticket           0
 Fare             0
 Embarked         0
 dtype: int64

至此，训练集的缺失值已经处理完毕

3.3 对训练集的数据进行处理

3.3.1 打印前5行查看数据集

>>>train_data.head()
>
	PassengerId	Survived	Pclass					Name								Sex		Age		SibSp	Parch	Ticket				Fare	Embarked
0	1			0			3		Braund, Mr. Owen Harris								male	22.0	1		0		A/5 21171			7.2500	S
1	2			1			1		Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1		0		PC 17599			71.2833	C
2	3			1			3		Heikkinen, Miss. Laina								female	26.0	0		0		STON/O2. 3101282	7.9250	S
3	4			1			1		Futrelle, Mrs. Jacques Heath (Lily May Peel)		female	35.0	1		0		113803				53.1000	S
4	5			0			3		Allen, Mr. William Henry							male	35.0	0		0		373450				8.0500	S

3.3.2 处理Pclass(客舱等级)

使用get_dummies进行one-hot编码，列名前缀是Pclass

>>>pclassdf1 = pd.DataFrame()
>>>pclassdf1 = pd.get_dummies(train_data['Pclass'] , prefix='Pclass' )
>>>train_data = pd.concat([train_data, pclassdf1], axis=1)
>>>train_data.drop('Pclass',axis=1, inplace=True)
>>>train_data.head()
	PassengerId	Survived					Name								Sex		Age		SibSp	Parch	Ticket				Fare	Embarked	Pclass_1	Pclass_2	Pclass_3
0	1			0			Braund, Mr. Owen Harris								male	22.0	1		0		A/5 21171			7.2500	S			0			0			1
1	2			1			Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1		0		PC 17599			71.2833	C			1			0			0
2	3			1			Heikkinen, Miss. Laina								female	26.0	0		0		STON/O2. 3101282	7.9250	S			0			0			1
3	4			1			Futrelle, Mrs. Jacques Heath (Lily May Peel)		female	35.0	1		0		113803				53.1000	S			1			0			0
4	5			0			Allen, Mr. William Henry							male	35.0	0		0		373450				8.0500	S			0			0			1

3.3.3 处理姓名

>>>def gettitle(name):
>>>    str1 = name.split(',')[1] #Mr. Owen Harris
>>>    str2 = str1.split('.')[0]#Mr
>>>    str3 = str2.strip()
>>>    return str3
#存放提取后的特征
>>>titledf1 = pd.DataFrame()
#map函数：对Series每个数据应用自定义的函数计算
>>>titledf1['Title'] = train_data['Name'].map(gettitle)
#查看titledf的种类
>>>titledf1['Title'].value_counts()
>Mr              517
 Miss            182
 Mrs             125
 Master           40
 Dr                7
 Rev               6
 Col               2
 Major             2
 Mlle              2
 Capt              1
 Lady              1
 Jonkheer          1
 Mme               1
 Sir               1
 the Countess      1
 Ms                1
 Don               1
 Name: Title, dtype: int64

#姓名中头衔字符串与定义头衔类别的对应关系
>>>title_mapdict = {
>>>                    "Capt":       "Officer",
>>>                    "Col":        "Officer",
>>>                    "Major":      "Officer",
>>>                    "Jonkheer":   "Royalty",
>>>                    "Don":        "Royalty",
>>>                    "Sir":        "Royalty",
>>>                    "Dr":         "Officer",
>>>                    "Rev":        "Officer",
>>>                    "the Countess":"Royalty",
>>>                    "Dona":       "Royalty",
>>>                    "Mme":        "Mrs",
>>>                    "Mlle":       "Miss",
>>>                    "Ms":         "Mrs",
>>>                    "Mr":         "Mr",
>>>                    "Mrs":        "Mrs",
>>>                    "Miss":       "Miss",
>>>                    "Master":     "Master",
>>>                    "Lady":       "Royalty"
>>>                    }
#map函数：对Series每个数据应用自定义的函数计算
>>>titledf1['Title'] = titledf1['Title'].map(title_mapdict)
#使用get_dummies进行one-hot编码
>>>titledf1 = pd.get_dummies(titledf1['Title'])
>>>train_data = pd.concat([train_data, titledf1], axis=1)
>>>train_data.drop('Name',axis=1, inplace=True)
>>>train_data.head()
>
	PassengerId	Survived	Sex		Age		SibSp	Parch	Ticket				Fare	Embarked	Pclass_1	Pclass_2	Pclass_3	Master	Miss	Mr	Mrs	Officer	Royalty
0	1			0			male	22.0	1		0		A/5 21171			7.2500	S			0			0			1			0		0		1	0	0		0
1	2	 		1			female	38.0	1		0		PC 17599			71.2833	C			1			0			0			0		0		0	1	0		0
2	3			1			female	26.0	0		0		STON/O2. 3101282	7.9250	S			0			0			1			0		1		0	0	0		0
3	4			1			female	35.0	1		0		113803				53.1000	S			1			0			0			0		0		0	1	0		0
4	5			0			male	35.0	0		0		373450				8.0500	S			0			0			1			0		0		1	0	0		0

3.3.4 处理性别

#处理性别
>>>sex_mapdict = {'male': 1, 'female': 0}
#map函数：对Series每个数据应用自定义的函数计算
>>>train_data['Sex'] = train_data['Sex'].map(sex_mapdict)
>>>sexdf1 = pd.DataFrame()
#使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Sex
>>>sexdf1 = pd.get_dummies( train_data['Sex'], prefix='Sex')
>>>train_data = pd.concat([train_data, sexdf1], axis=1)
>>>train_data.drop('Sex',axis=1, inplace=True)
>>>train_data.head()
>

	PassengerId	Survived	Age		SibSp	Parch	Ticket				Fare	Embarked	Pclass_1	Pclass_2	Pclass_3	Master	Miss	Mr	Mrs	Officer	Royalty	Sex_0	Sex_1
0	1			0			22.0	1		0		A/5 21171			7.2500	S			0			0			1			0		0		1	0	0		0		0		1
1	2			1			38.0	1		0		PC 17599			71.2833	C			1			0			0			0		0		0	1	0		0		1		0
2	3			1			26.0	0		0		STON/O2. 3101282	7.9250	S			0			0			1			0		1		0	0	0		0		1		0
3	4			1			35.0	1		0		113803				53.1000	S			1			0			0			0		0		0	1	0		0		1		0
4	5			0			35.0	0		0		373450				8.0500	S			0			0			1			0		0		1	0	0		0		0		1

3.3.5 处理年龄

>>>plt.figure(figsize=(18,4))
>>>train_data['Age']=train_data['Age'].astype(np.int)
>>>average_age=train_data[['Age','Survived']].groupby('Age',as_index=False).mean()
>>>sns.barplot(x='Age',y='Survived',data=average_age,palette='BuPu')
>>>plt.savefig(r"D:\data\python\exercise\test2\2.png")

>>>agedf1 = pd.DataFrame(train_data['Age'])
>>>agedf1['Age_baby'] = agedf1['Age'].map(lambda s: 1 if 0 <= s < 15 else 0)
>>>agedf1['Age_youth'] = agedf1['Age'].map(lambda s: 1 if 15 <= s < 35 else 0)
>>>agedf1['Age_middle'] = agedf1['Age'].map(lambda s: 1 if 35 <= s <=60 else 0)
>>>agedf1['Age_old'] = agedf1['Age'].map(lambda s: 1 if 60 <= s else 0)
>>>train_data = pd.concat([train_data,agedf1], axis=1)
>>>train_data.drop('Age',axis=1, inplace=True)
>>>train_data.head()
>	
	PassengerId	Survived	SibSp	Parch	Ticket				Fare	Embarked	Pclass_1	Pclass_2	Pclass_3	...	Mr	Mrs	Officer	Royalty	Sex_0	Sex_1	Age_baby	Age_youth	Age_middle	Age_old
0	1			0			1		0		A/5 21171			7.2500	S			0			0			1			...	1	0	0		0		0		1		0			1			0			0
1	2			1			1		0		PC 17599			71.2833	C			1			0			0			...	0	1	0		0		1		0		0			0			1			0
2	3			1			0		0		STON/O2. 3101282	7.9250	S			0			0			1			...	0	0	0		0		1		0		0			1			0			0
3	4			1			1		0		113803				53.1000	S			1			0			0			...	0	1	0		0		1		0		0			0			1			0
4	5			0			0		0		373450				8.0500	S			0			0			1			...	1	0	0		0		0		1		0			0			1			0

3.3.6 处理家庭

#存放家庭信息
>>>familydf1 = pd.DataFrame()
#家庭人数
>>>familydf1['FamilySize'] = train_data['Parch'] + train_data['SibSp'] + 1
#家庭类别
#if 条件为真的时候返回if前面内容，否则返回0
>>>familydf1['Family_Single'] = familydf1['FamilySize'].map(lambda s: 1 if s == 1 else 0)
>>>familydf1['Family_Small'] = familydf1['FamilySize'].map(lambda s: 1 if 2 <= s <= 4 else 0)
>>>familydf1['Family_Large'] = familydf1['FamilySize'].map(lambda s: 1 if 5 <= s else 0)
>>>familydf1.drop('FamilySize',axis=1, inplace=True)
>>>train_data = pd.concat([train_data, familydf1], axis=1)
>>>train_data.drop('Parch',axis=1, inplace=True)
>>>train_data.drop('SibSp',axis=1, inplace=True)
>>>train_data.head()
>	
	PassengerId	Survived	Ticket				Fare	Embarked	Pclass_1	Pclass_2	Pclass_3	Master	Miss	...	Royalty	Sex_0	Sex_1	Age_baby	Age_youth	Age_middle	Age_old	Family_Single	Family_Small	Family_Large
0	1			0			A/5 21171			7.2500	S			0			0			1			0		0		...	0		0		1		0			1			0			0		0				1				0
1	2			1			PC 17599			71.2833	C			1			0			0			0		0		...	0		1		0		0			0			1			0		0				1				0
2	3			1			STON/O2. 3101282	7.9250	S			0			0			1			0		1		...	0		1		0		0			1			0			0		1				0				0
3	4			1			113803				53.1000	S			1			0			0			0		0		...	0		1		0		0			0			1			0		0				1				0
4	5			0			373450				8.0500	S			0			0			1			0		0		...	0		0		1		0			0			1			0		1				0				0

3.3.7 处理船票和票价

船票在这里没什么用处，选择删除

train_data.drop('Ticket',axis=1, inplace=True)

>>>faredf1=pd.DataFrame(train_data['Fare'])
>>>faredf1['Fare_First']=faredf1['Fare'].map(lambda f: 1 if f >= 30 and f <= 870 else 0)
>>>faredf1['Fare_Second']=faredf1['Fare'].map(lambda f: 1 if f >= 12 and f < 30 else 0)
>>>faredf1['Fare_Third']=faredf1['Fare'].map(lambda f: 1 if f >= 3 and f < 12 else 0)
>>>train_data = pd.concat([train_data,faredf1], axis=1)
>>>train_data.drop('Fare',axis=1, inplace=True)
>>>train_data.head()
>	
	PassengerId	Survived	Embarked	Pclass_1	Pclass_2	Pclass_3	Master	Miss	Mr	Mrs	...	Age_baby	Age_youth	Age_middle	Age_old	Family_Single	Family_Small	Family_Large	Fare_First	Fare_Second	Fare_Third
0	1			0			S			0			0			1			0		0		1	0	...	0			1			0			0		0				1				0				0			0			1
1	2			1			C			1			0			0			0		0		0	1	...	0			0			1			0		0				1				0				1			0			0
2	3			1			S			0			0			1			0		1		0	0	...	0			1			0			0		1				0				0				0			0			1
3	4			1			S			1			0			0			0		0		0	1	...	0			0			1			0		0				1				0				1			0			0
4	5			0			S			0			0			1			0		0		1	0	...	0			0			1			0		1				0				0				0			0			1

3.3.8 处理上船港口

#处理上船港口
>>>embarkeddf1 = pd.DataFrame()
#使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Embarked
>>>embarkeddf1 = pd.get_dummies(train_data['Embarked'], prefix='Embarked')
>>>train_data = pd.concat([train_data, embarkeddf1], axis=1)
>>>train_data.drop('Embarked',axis=1, inplace=True)
>>>train_data.head()
>	
	PassengerId	Survived	Pclass_1	Pclass_2	Pclass_3	Master	Miss	Mr	Mrs	Officer	...	Age_old	Family_Single	Family_Small	Family_Large	Fare_First	Fare_Second	Fare_Third	Embarked_C	Embarked_Q	Embarked_S
0	1			0			0			0			1			0		0		1	0	0		...	0		0				1				0				0			0			1			0			0			1
1	2			1			1			0			0			0		0		0	1	0		...	0		0				1				0				1			0			0			1			0			0	
2	3			1			0			0			1			0		1		0	0	0		...	0		1				0				0				0			0			1			0			0			1
3	4			1			1			0			0			0		0		0	1	0		...	0		0				1				0				1			0			0			0			0			1
4	5			0			0			0			1			0		0		1	0	0		...	0		1				0				0				0			0			1			0			0			1

至此所有的训练集数据均处理完了

3.4 处理测试集

按照如上操作再处理测试集，为了方便预测结果需要将测试集的数据处理的与训练集相同

首先，查看缺失的数量

>>>test_data.isnull().sum()
>PassengerId      0
 Pclass           0
 Name             0
 Sex              0
 Age             86
 SibSp            0
 Parch            0
 Ticket           0
 Fare             1
 Cabin          327
 Embarked         0
 dtype: int64

#处理测试集数据
>>>test_data['Age'] = test_data['Age'].fillna(int(test_data['Age'].mean()))
>>>test_data['Fare'] = test_data['Fare'].fillna(test_data['Fare'].mean())
>>>test_data.drop(columns = 'Cabin', axis=1,inplace=True)
>>>test_data.isnull().sum()
>PassengerId    0
 Pclass         0
 Name           0
 Sex            0
 Age            0
 SibSp          0
 Parch          0
 Ticket         0
 Fare           0
 Embarked       0
 dtype: int64

#处理年龄
>>>agedf2 = pd.DataFrame(test_data['Age'])
>>>agedf2['Age_baby'] = agedf2['Age'].map(lambda s: 1 if 0 <= s < 15 else 0)
>>>agedf2['Age_youth'] = agedf2['Age'].map(lambda s: 1 if 15 <= s < 35 else 0)
>>>agedf2['Age_middle'] = agedf2['Age'].map(lambda s: 1 if 35 <= s <=60 else 0)
>>>agedf2['Age_old'] = agedf2['Age'].map(lambda s: 1 if 60 <= s else 0)
>>>test_data = pd.concat([test_data, agedf2], axis=1)
>>>test_data.drop('Age',axis=1, inplace=True)
#处理性别
>>>test_data['Sex'] = test_data['Sex'].map(sex_mapdict)
>>>sexdf2 = pd.DataFrame()
>>>sexdf2 = pd.get_dummies( test_data['Sex'], prefix='Sex')
>>>test_data = pd.concat([test_data, sexdf2], axis=1)
>>>test_data.drop('Sex',axis=1, inplace=True)
#处理上船港口
>>>embarkeddf2 = pd.DataFrame()
>>>embarkeddf2 = pd.get_dummies(test_data['Embarked'], prefix='Embarked')
>>>test_data = pd.concat([test_data, embarkeddf2], axis=1)
>>>test_data.drop('Embarked',axis=1, inplace=True)
#处理用户阶级
>>>pclassdf2 = pd.DataFrame()
>>>pclassdf2 = pd.get_dummies( test_data['Pclass'] , prefix='Pclass' )
>>>test_data = pd.concat([test_data, pclassdf2], axis=1)
>>>test_data.drop('Pclass',axis=1, inplace=True)
#存放提取后的特征
>>>titledf2 = pd.DataFrame()
>>>titledf2['Title'] = test_data['Name'].map(gettitle)
>>>titledf2['Title'] = titledf2['Title'].map(title_mapdict)
>>>titledf2 = pd.get_dummies(titledf2['Title'])
>>>test_data = pd.concat([test_data, titledf2], axis=1)
>>>test_data.drop('Name',axis=1, inplace=True)
#存放家庭信息
>>>familydf2 = pd.DataFrame()
>>>familydf2['FamilySize'] = test_data['Parch'] + test_data['SibSp'] + 1
>>>familydf2['Family_Single'] = familydf2['FamilySize'].map(lambda s: 1 if s == 1 else 0)
>>>familydf2['Family_Small'] = familydf2['FamilySize'].map(lambda s: 1 if 2 <= s <= 4 else 0)
>>>familydf2['Family_Large'] = familydf2['FamilySize'].map(lambda s: 1 if 5 <= s else 0)
>>>familydf2.drop('FamilySize',axis=1, inplace=True)
>>>test_data = pd.concat([test_data, familydf2], axis=1)
>>>test_data.drop('Parch',axis=1, inplace=True)
>>>test_data.drop('SibSp',axis=1, inplace=True)
#处理船票
>>>faredf2=pd.DataFrame(test_data['Fare'])
>>>faredf2['Fare_First']=faredf2['Fare'].map(lambda f: 1 if f >= 30 and f <= 870 else 0)
>>>faredf2['Fare_Second']=faredf2['Fare'].map(lambda f: 1 if f >= 12 and f < 30 else 0)
>>>faredf2['Fare_Third']=faredf2['Fare'].map(lambda f: 1 if f >= 3 and f < 12 else 0)
>>>test_data = pd.concat([test_data, faredf2], axis=1)
>>>test_data.drop('Fare',axis=1, inplace=True)
>>>test_data.drop('Ticket',axis=1, inplace=True)
>>>test_data.head()
>	
	PassengerId	Age_baby	Age_youth	Age_middle	Age_old	Sex_0	Sex_1	Embarked_C	Embarked_Q	Embarked_S	...	Mr	Mrs	Officer	Royalty	Family_Single	Family_Small	Family_Large	Fare_First	Fare_Second	Fare_Third
0	892			0			1			0			0		0		1		0			1			0			...	1	0	0		0		1				0				0				0			0			1
1	893			0			0			1			0		1		0		0			0			1			...	0	1	0		0		0				1				0				0			0			1
2	894			0			0			0			1		0		1		0			1			0			...	1	0	0		0		1				0				0				0			0			1
3	895			0			1			0			0		0		1		0			0			1			...	1	0	0		0		1				0				0				0			0			1
4	896			0			1			0			0		1		0		0			0			1			...	0	1	0		0		0				1				0				0			1			0

3.5 查看相关性

>>>corrdf = train_data.corr()
>				PassengerId	Survived	Pclass_1	Pclass_2	Pclass_3	Master		Miss		Mr			Mrs			Officer		...	Age_old		Family_Single	Family_Small	Family_Large	Fare_First	Fare_Second	Fare_Third	Embarked_C	Embarked_Q	Embarked_S
PassengerId		1.000000   -0.005007	0.034303   -0.000086   -0.029486    -0.026151   -0.067846	 0.038850	 0.010197	 0.055299	...	 0.006611	 0.057462		-0.028976		-0.057055		 0.022603	-0.028772	-0.002661	-0.001205	-0.033606	 0.022204
Survived	   -0.005007	1.000000	0.285904	0.093349   -0.322308	 0.085221	 0.332795	-0.549199	 0.344935	-0.031316	...	-0.040857	-0.203367		  0.279855		-0.125147		  0.254274	  0.066213	-0.270267	  0.168240	  0.003650	-0.149683
Pclass_1		0.034303	0.285904	1.000000   -0.288585   -0.626738	-0.084700	 0.021958	-0.097288	 0.091483	 0.104919	...	 0.166443	-0.113364	 	0.168568		-0.092945	 	0.683722	-0.177457	-0.458268	 0.296423	-0.155342	-0.161921
Pclass_2	   -0.000086	0.093349   -0.288585	1.000000   -0.565210	 0.009903	-0.027381	-0.088569	 0.125093	 0.084401	...	-0.022555	-0.039070	 	0.104546		-0.117721	   -0.153508	 0.404474	-0.259749	-0.125416	-0.127301	 0.189980
Pclass_3	   -0.029486   -0.322308   -0.626738   -0.565210	1.000000	0.064918	0.003366	0.155907	-0.180630	-0.159089	...	-0.125051	0.129472		-0.230325		0.175890	   -0.464164	-0.176287	0.606245	-0.153329	0.237449	-0.015104
Master		   -0.026151	0.085221   -0.084700	0.009903	0.064918	1.000000	-0.110602	-0.254903	-0.088394	-0.031131	...	-0.037588	-0.267024		0.102668		0.324136		0.063844	0.099667	-0.144515	-0.035225	0.010478	0.024264
Miss		   -0.067846	0.332795	0.021958   -0.027381	0.003366	-0.110602	1.000000	-0.599803	-0.207996	-0.073253	...	-0.071973	-0.050402		-0.007684		0.111105		0.077733	-0.008436	-0.044849	0.037613	0.168720	-0.139126
Mr				0.038850   -0.549199   -0.097288   -0.088569	0.155907	-0.254903	-0.599803	1.000000	-0.479363	-0.168826	...	0.066390	0.396920		-0.292792		-0.223221	   -0.201253	-0.168402	0.316688	-0.072567	-0.078338	0.112870
Mrs				0.010197	0.344935	0.091483	0.125093   -0.180630	-0.088394	-0.207996	-0.479363	1.000000	-0.058544	...	-0.013465	-0.357826		0.365088		0.014670		0.121511	0.168896	-0.255565	0.066101	-0.091121	-0.000565
Officer			0.055299   -0.031316	0.104919	0.084401   -0.159089	-0.031131	-0.073253	-0.168826	-0.058544	1.000000	...	0.069897	0.035074		-0.015279		-0.039269		0.056671	0.058263	-0.101410	-0.008034	0.012618	-0.000902
Royalty			0.031602	0.033391	0.132798   -0.038324   -0.083230	-0.016287	-0.038324	-0.088324	-0.030628	-0.010787	...	-0.013024	-0.000414		0.011568		-0.020544		0.055989	-0.018161	-0.061567	0.079020	-0.023105	-0.054685
Sex_0		   -0.042939	0.543351	0.098013	0.064746   -0.137143	-0.159934	0.691548	-0.867334	0.552686	-0.089228	...	-0.072063	-0.303646		0.260747		0.102954		0.161102	0.116775	-0.230803	0.082853	0.074115	-0.119224
Sex_1			0.042939   -0.543351   -0.098013   -0.064746	0.137143	0.159934	-0.691548	0.867334	-0.552686	0.089228	...	0.072063	0.303646		-0.260747		-0.102954   	-0.161102	-0.116775	0.230803	-0.082853	-0.074115	0.119224
Age_baby	   -0.026833	0.122978   -0.128886	0.028373	0.087957	0.623234	0.214762	-0.340037	-0.114928	-0.044477	...	-0.053701	-0.349033		0.172907		0.352281		0.071520	0.142821	-0.189052	0.002974	-0.038734	0.021770
Age_youth	   -0.003044   -0.091170   -0.231081   -0.042761	0.233902	-0.249201	0.021126	0.188732	-0.083297	-0.111574	...	-0.235597	0.228904		-0.152384	     -0.159111	   -0.205044	-0.128593	0.305773	-0.023941	0.134290	-0.063535
Age_middle		0.024216	0.039188	0.290830	0.039091   -0.282395	-0.121518	-0.142926	-0.013824	0.177937	0.143963	...	-0.034638	-0.050408		0.079582		-0.049864		0.157938	0.065555	-0.212457	0.032550	-0.125563	0.050502
Age_old			0.006611   -0.040857	0.166443   -0.022555   -0.125051	-0.037588	-0.071973	0.066390	-0.013465	0.069897	...	1.000000	0.045377		-0.035810	 	-0.021206		0.090135	-0.044792	-0.033278	0.001665	-0.005860	0.002229
Family_Single	0.057462   -0.203367   -0.113364   -0.039070	0.129472	-0.267024	-0.050402	0.396920	-0.357826	0.035074	...	0.045377	1.000000		-0.859931		-0.336825   	-0.339394	-0.240334	0.506354	-0.095298	0.086464	0.029074
Family_Small   -0.028976	0.279855	0.168568	0.104546   -0.230325	0.102668	-0.007684	-0.292792	0.365088	-0.015279	...	-0.035810	-0.859931		1.000000		-0.190940		0.228243	0.242009	-0.411264	0.158586	-0.087093	-0.084120
Family_Large   -0.057055   -0.125147   -0.092945   -0.117721	0.175890	0.324136	0.111105	-0.223221	0.014670	-0.039269	...	-0.021206	-0.336825		-0.190940		1.000000		0.231664	0.015760	-0.215131	-0.109274	-0.005620	0.099265
Fare_First 		0.022603	0.254274	0.683722   -0.153508   -0.464164	0.063844	0.077733	-0.201253	0.121511	0.056671	...	0.090135	-0.339394		0.228243		0.231664		1.000000	-0.408891	-0.497615	0.237676	-0.168737	-0.102027
Fare_Second	   -0.028772	0.066213   -0.177457	0.404474   -0.176287	0.099667	-0.008436	-0.168402	0.168896	0.058263	...	-0.044792	-0.240334		0.242009		0.015760   	   -0.408891	1.000000	-0.551912	-0.033551	-0.026076	0.045802
Fare_Third	   -0.002661   -0.270267   -0.458268   -0.259749	0.606245	-0.144515	-0.044849	0.316688	-0.255565	-0.101410	...	-0.033278	0.506354		-0.411264		-0.215131   	-0.497615	-0.551912	1.000000	-0.166809	0.187891	0.027891
Embarked_C	   -0.001205	0.168240	0.296423   -0.125416   -0.153329	-0.035225	0.037613	-0.072567	0.066101	-0.008034	...	0.001665	-0.095298		0.158586		-0.109274		0.237676	-0.033551	-0.166809	1.000000	-0.148258	-0.782742
Embarked_Q     -0.033606	0.003650   -0.155342   -0.127301	0.237449	0.010478	0.168720	-0.078338	-0.091121	0.012618	...	-0.005860	0.086464		-0.087093		-0.005620	-	0.168737	-0.026076	0.187891	-0.148258	1.000000	-0.499421
Embarked_S	 	0.022204   -0.149683   -0.161921	0.189980   -0.015104	0.024264	-0.139126	0.112870	-0.000565	-0.000902	...	0.002229	0.029074		-0.084120		0.099265	   -0.102027	0.045802	0.027891	-0.782742	-0.499421	1.000000

>>>corrdf['Survived'].round(4).abs().sort_values(ascending=False)
>Survived         1.0000
 Mr               0.5492
 Sex_1            0.5434
 Sex_0            0.5434
 Mrs              0.3449
 Miss             0.3328
 Pclass_3         0.3223
 Pclass_1         0.2859
 Family_Small     0.2799
 Fare_Third       0.2703
 Fare_First       0.2543
 Family_Single    0.2034
 Embarked_C       0.1682
 Embarked_S       0.1497
 Family_Large     0.1251
 Age_baby         0.1230
 Pclass_2         0.0933
 Age_youth        0.0912
 Master           0.0852
 Fare_Second      0.0662
 Age_old          0.0409
 Age_middle       0.0392
 Royalty          0.0334
 Officer          0.0313
 PassengerId      0.0050
 Embarked_Q       0.0037
 Name: Survived, dtype: float64

3.6 划分训练集和检验集

>>>source_y = train_data.Survived
>>>source_x = train_data.drop(['Survived'],axis=1)
>>>train_x, test_x, train_y, test_y = train_test_split(source_x, source_y , train_size=0.8,test_size=0.2)

4. 训练模型

4.1 逻辑回归模型

>>>model_lr = LogisticRegression()
>>>model_lr.fit(train_x, train_y)

4.2 随机森林

>>>model_rfc = RandomForestClassifier()
>>>model_rfc.fit(train_x, train_y)

4.3 支持向量机

>>>model_svm = SVC()
>>>model_svm.fit(train_x, train_y)

4.4 K最近邻

>>>model_knn = KNeighborsClassifier()
>>>model_knn.fit(train_x, train_y)

4.5 决策树

>>>model_dtree = DecisionTreeClassifier()
>>>model_dtree.fit(train_x, train_y)

5.测试模型

5.1 逻辑回归模型

>>>accuracy_lr = model_lr.score(test_x,test_y)
>>>print("逻辑回归的测试结果：", accuracy_lr)
>逻辑回归的测试结果： 0.7988826815642458

5.2 随机森林

>>>accuracy_rfc = model_rfc.score(test_x,test_y)
>>>print("随机森林的测试结果：", accuracy_rfc)
>随机森林的测试结果： 0.770949720670391

5.3 支持向量机

>>>accuracy_svm = model_svm.score(test_x,test_y)
>>>print("支持向量机的测试结果：", accuracy_svm)
>支持向量机的测试结果： 0.5698324022346368

5.4 K最近邻

>>>accuracy_knn = model_knn.score(test_x,test_y)
>>>print("K最近邻分类器的测试结果：", accuracy_knn)
>K最近邻分类器的测试结果： 0.553072625698324

5.5 决策树

>>>accuracy_dtree= model_dtree.score(test_x,test_y)
>>>print("决策树模型的测试结果：", accuracy_dtree)
>决策树模型的测试结果： 0.7541899441340782

5.6 5种模型对比

>>>import seaborn as sns
>>>import matplotlib.pyplot as plt
>>>sns.set(rc={'figure.figsize':(15,6)}) 
>>>accuracys = [accuracy_lr, accuracy_rfc, accuracy_svm, accuracy_knn, accuracy_dtree]
>>>models = ['Logistic', 'RF', 'SVM', 'KNN', 'Dtree']
>>>bar = sns.barplot(x=models, y=accuracys)
# 显示数值标签
>>>for x, y in enumerate(accuracys):
>>>    plt.text(x, y, '%s'% round(y,3), ha='center')
>>>plt.xlabel("Model")
>>>plt.ylabel("Accuracy")
>>>plt.savefig(r"D:\data\python\exercise\test2\3.png")
>>>plt.show()

6. 预测模型

6.1 逻辑回归模型

>>>pred_lr = model_lr.predict(pred_x)
>>>pred_lr = pred_lr.astype(int)
>>>passenger_id = test_data.iloc[:, 0]
#逻辑回归的预测结果
>>>preddf1 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_lr})
>>>preddf1.to_csv(r'D:\data\python\taitanic\titanic_pred_model_lr.csv', index=False)

6.2 随机森林

>>>pred_rfc = model_rfc.predict(pred_x)
>>>pred_rfc = pred_rfc.astype(int)
#随机森林的预测结果
>>>preddf2 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_rfc})
>>>preddf2.to_csv(r'D:\data\python\taitanic\titanic_pred_model_rfc.csv', index=False)

6.3 支持向量机

>>>pred_svm = model_svm.predict(pred_x)
>>>pred_svm = pred_svm.astype(int)
#支持向量机的预测结果
>>>preddf3 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_svm})
>>>preddf3.to_csv(r'D:\data\python\taitanic\titanic_pred_model_svm.csv', index=False)

6.4 K最近邻

>>>pred_knn = model_knn.predict(pred_x)
>>>pred_knn = pred_knn.astype(int)
#K最近邻分类器的预测结果
>>>preddf4 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_knn})
>>>preddf4.to_csv(r'D:\data\python\taitanic\titanic_pred_model_knn.csv', index=False)

6.5 决策树

>>>pred_dtree= model_dtree.predict(pred_x)
>>>pred_dtree = pred_dtree.astype(int)
#决策树模型的预测结果
>>>preddf5 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_dtree})
>>>preddf5.to_csv(r'D:\data\python\taitanic\titanic_pred_model_dtree.csv', index=False)

6.6 将上述结果交至kaggle进行评分

得到结果如下

可以看到逻辑回归的分数依然是最高的

7. 完整代码

建议使用jupyter notebook完成以下内容

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 
import random

from sklearn.linear_model import LogisticRegression # 逻辑回归
from sklearn.ensemble import RandomForestClassifier # 随机森林
from sklearn.svm import SVC # 支持向量机
from sklearn.neighbors import KNeighborsClassifier # K最近邻
from sklearn.tree import DecisionTreeClassifier # 决策树

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
#训练数据集
train_data = pd.read_csv(r"D:\data\python\taitanic\train.csv")
#测试数据集
test_data = pd.read_csv(r"D:\data\python\taitanic\test.csv")
print('训练数据集：', train_data.shape, '测试数据集：', test_data.shape)

train_data.isnull().sum()

plt.figure(figsize=(10,5),dpi=100)
train_data['Embarked'].value_counts().plot(kind='bar')
plt.savefig(r"D:\data\python\exercise\test2\1.png")

#选取频率最高的填充到空白数据中
train_data['Embarked'] = train_data['Embarked'].fillna('S')
train_data.isnull().sum()

#处理空白年龄(Age)，使用平均值填充
train_data['Age'] = train_data['Age'].fillna(int(train_data['Age'].mean()))
train_data.isnull().sum()

#至此除了Cabin（船舱号）其他缺失值已经补充完毕.Cabin这一列数据值缺失过多选择填充会导致得到的数据过于片面，因此，选择删去这一列
train_data.drop(columns = 'Cabin', axis=1,inplace=True)

train_data.head()

#处理用户阶级
pclassdf1 = pd.DataFrame()
#使用get_dummies进行one-hot编码，列名前缀是Pclass
pclassdf1 = pd.get_dummies( train_data['Pclass'] , prefix='Pclass' )
train_data = pd.concat([train_data, pclassdf1], axis=1)
train_data.drop('Pclass',axis=1, inplace=True)
train_data.head()

def gettitle(name):
    str1 = name.split(',')[1] #Mr. Owen Harris
    str2 = str1.split('.')[0]#Mr
    str3 = str2.strip()
    return str3
#存放提取后的特征
titledf1 = pd.DataFrame()
#map函数：对Series每个数据应用自定义的函数计算
titledf1['Title'] = train_data['Name'].map(gettitle)
#查看titledf的种类
titledf1['Title'].value_counts()

#姓名中头衔字符串与定义头衔类别的对应关系
title_mapdict = {
                    "Capt":       "Officer",
                    "Col":        "Officer",
                    "Major":      "Officer",
                    "Jonkheer":   "Royalty",
                    "Don":        "Royalty",
                    "Sir":        "Royalty",
                    "Dr":         "Officer",
                    "Rev":        "Officer",
                    "the Countess":"Royalty",
                    "Dona":       "Royalty",
                    "Mme":        "Mrs",
                    "Mlle":       "Miss",
                    "Ms":         "Mrs",
                    "Mr":         "Mr",
                    "Mrs":        "Mrs",
                    "Miss":       "Miss",
                    "Master":     "Master",
                    "Lady":       "Royalty"
                    }
#map函数：对Series每个数据应用自定义的函数计算
titledf1['Title'] = titledf1['Title'].map(title_mapdict)
#使用get_dummies进行one-hot编码
titledf1 = pd.get_dummies(titledf1['Title'])
train_data = pd.concat([train_data, titledf1], axis=1)
train_data.drop('Name',axis=1, inplace=True)
train_data.head()

#处理性别
sex_mapdict = {'male': 1, 'female': 0}
#map函数：对Series每个数据应用自定义的函数计算
train_data['Sex'] = train_data['Sex'].map(sex_mapdict)
sexdf1 = pd.DataFrame()
#使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Sex
sexdf1 = pd.get_dummies( train_data['Sex'], prefix='Sex')
train_data = pd.concat([train_data, sexdf1], axis=1)
train_data.drop('Sex',axis=1, inplace=True)
train_data.head()

plt.figure(figsize=(18,4))
train_data['Age']=train_data['Age'].astype(np.int)
average_age=train_data[['Age','Survived']].groupby('Age',as_index=False).mean()
sns.barplot(x='Age',y='Survived',data=average_age,palette='BuPu')
plt.savefig(r"D:\data\python\exercise\test2\2.png")

agedf1 = pd.DataFrame(train_data['Age'])
agedf1['Age_baby'] = agedf1['Age'].map(lambda s: 1 if 0 <= s < 15 else 0)
agedf1['Age_youth'] = agedf1['Age'].map(lambda s: 1 if 15 <= s < 35 else 0)
agedf1['Age_middle'] = agedf1['Age'].map(lambda s: 1 if 35 <= s <=60 else 0)
agedf1['Age_old'] = agedf1['Age'].map(lambda s: 1 if 60 <= s else 0)
train_data = pd.concat([train_data,agedf1], axis=1)
train_data.drop('Age',axis=1, inplace=True)
train_data.head()

#存放家庭信息
familydf1 = pd.DataFrame()

#家庭人数
familydf1['FamilySize'] = train_data['Parch'] + train_data['SibSp'] + 1

#家庭类别
#if 条件为真的时候返回if前面内容，否则返回0
familydf1['Family_Single'] = familydf1['FamilySize'].map(lambda s: 1 if s == 1 else 0)

familydf1['Family_Small'] = familydf1['FamilySize'].map(lambda s: 1 if 2 <= s <= 4 else 0)

familydf1['Family_Large'] = familydf1['FamilySize'].map(lambda s: 1 if 5 <= s else 0)
familydf1.drop('FamilySize',axis=1, inplace=True)
train_data = pd.concat([train_data, familydf1], axis=1)
train_data.drop('Parch',axis=1, inplace=True)
train_data.drop('SibSp',axis=1, inplace=True)
train_data.head()

#船票在这里没什么用处，选择删除
train_data.drop('Ticket',axis=1, inplace=True)

faredf1=pd.DataFrame(train_data['Fare'])
faredf1['Fare_First']=faredf1['Fare'].map(lambda f: 1 if f >= 30 and f <= 870 else 0)
faredf1['Fare_Second']=faredf1['Fare'].map(lambda f: 1 if f >= 12 and f < 30 else 0)
faredf1['Fare_Third']=faredf1['Fare'].map(lambda f: 1 if f >= 3 and f < 12 else 0)
train_data = pd.concat([train_data,faredf1], axis=1)
train_data.drop('Fare',axis=1, inplace=True)
train_data.head()

#处理上船港口
embarkeddf1 = pd.DataFrame()
#使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Embarked
embarkeddf1 = pd.get_dummies(train_data['Embarked'], prefix='Embarked')
train_data = pd.concat([train_data, embarkeddf1], axis=1)
train_data.drop('Embarked',axis=1, inplace=True)
train_data.head()

test_data.isnull().sum()

#处理测试集数据
test_data['Age'] = test_data['Age'].fillna(int(test_data['Age'].mean()))
test_data['Fare'] = test_data['Fare'].fillna(test_data['Fare'].mean())
test_data.drop(columns = 'Cabin', axis=1,inplace=True)
test_data.isnull().sum()

agedf2 = pd.DataFrame(test_data['Age'])
agedf2['Age_baby'] = agedf2['Age'].map(lambda s: 1 if 0 <= s < 15 else 0)
agedf2['Age_youth'] = agedf2['Age'].map(lambda s: 1 if 15 <= s < 35 else 0)
agedf2['Age_middle'] = agedf2['Age'].map(lambda s: 1 if 35 <= s <=60 else 0)
agedf2['Age_old'] = agedf2['Age'].map(lambda s: 1 if 60 <= s else 0)
test_data = pd.concat([test_data, agedf2], axis=1)
test_data.drop('Age',axis=1, inplace=True)
#处理性别
test_data['Sex'] = test_data['Sex'].map(sex_mapdict)
sexdf2 = pd.DataFrame()
sexdf2 = pd.get_dummies( test_data['Sex'], prefix='Sex')
test_data = pd.concat([test_data, sexdf2], axis=1)
test_data.drop('Sex',axis=1, inplace=True)
#处理上船港口
embarkeddf2 = pd.DataFrame()
embarkeddf2 = pd.get_dummies(test_data['Embarked'], prefix='Embarked')
test_data = pd.concat([test_data, embarkeddf2], axis=1)
test_data.drop('Embarked',axis=1, inplace=True)
#处理用户阶级
pclassdf2 = pd.DataFrame()
pclassdf2 = pd.get_dummies( test_data['Pclass'] , prefix='Pclass' )
test_data = pd.concat([test_data, pclassdf2], axis=1)
test_data.drop('Pclass',axis=1, inplace=True)
#存放提取后的特征
titledf2 = pd.DataFrame()
titledf2['Title'] = test_data['Name'].map(gettitle)
titledf2['Title'] = titledf2['Title'].map(title_mapdict)
titledf2 = pd.get_dummies(titledf2['Title'])
test_data = pd.concat([test_data, titledf2], axis=1)
test_data.drop('Name',axis=1, inplace=True)
#存放家庭信息
familydf2 = pd.DataFrame()
familydf2['FamilySize'] = test_data['Parch'] + test_data['SibSp'] + 1
familydf2['Family_Single'] = familydf2['FamilySize'].map(lambda s: 1 if s == 1 else 0)
familydf2['Family_Small'] = familydf2['FamilySize'].map(lambda s: 1 if 2 <= s <= 4 else 0)
familydf2['Family_Large'] = familydf2['FamilySize'].map(lambda s: 1 if 5 <= s else 0)
familydf2.drop('FamilySize',axis=1, inplace=True)
test_data = pd.concat([test_data, familydf2], axis=1)
test_data.drop('Parch',axis=1, inplace=True)
test_data.drop('SibSp',axis=1, inplace=True)
#处理船票
faredf2=pd.DataFrame(test_data['Fare'])
faredf2['Fare_First']=faredf2['Fare'].map(lambda f: 1 if f >= 30 and f <= 870 else 0)
faredf2['Fare_Second']=faredf2['Fare'].map(lambda f: 1 if f >= 12 and f < 30 else 0)
faredf2['Fare_Third']=faredf2['Fare'].map(lambda f: 1 if f >= 3 and f < 12 else 0)
test_data = pd.concat([test_data, faredf2], axis=1)
test_data.drop('Fare',axis=1, inplace=True)
test_data.drop('Ticket',axis=1, inplace=True)
test_data.head()

corrdf = train_data.corr()
corrdf

corrdf['Survived'].round(4).abs().sort_values(ascending=False)

source_y = train_data.Survived
source_x = train_data.drop(['Survived'],axis=1)
train_x, test_x, train_y, test_y = train_test_split(source_x, 
           source_y , train_size=0.8,test_size=0.2)

pred_x=test_data

model_lr = LogisticRegression()
model_lr.fit(train_x, train_y)
pred_lr = model_lr.predict(pred_x)
pred_lr = pred_lr.astype(int)
accuracy_lr = model_lr.score(test_x,test_y)
print("逻辑回归的测试结果：", accuracy_lr)

model_rfc = RandomForestClassifier()
model_rfc.fit(train_x, train_y)
pred_rfc = model_rfc.predict(pred_x)
pred_rfc = pred_rfc.astype(int)
accuracy_rfc = model_rfc.score(test_x,test_y)
print("随机森林的预试结果：", accuracy_rfc)

model_svm = SVC()
model_svm.fit(train_x, train_y)
pred_svm = model_svm.predict(pred_x)
pred_svm = pred_svm.astype(int)
accuracy_svm = model_svm.score(test_x,test_y)
print("支持向量机的测试结果：", accuracy_svm)

model_knn = KNeighborsClassifier()
model_knn.fit(train_x, train_y)
pred_knn = model_knn.predict(pred_x)
pred_knn = pred_knn.astype(int)
accuracy_knn = model_knn.score(test_x,test_y)
print("K最近邻分类器的测试结果：", accuracy_knn)

model_dtree = DecisionTreeClassifier()
model_dtree.fit(train_x, train_y)
pred_dtree= model_dtree.predict(pred_x)
pred_dtree = pred_dtree.astype(int)
accuracy_dtree= model_dtree.score(test_x,test_y)
print("决策树模型的测试结果：", accuracy_dtree)

import seaborn as sns
import matplotlib.pyplot as plt
 
sns.set(rc={'figure.figsize':(15,6)}) # 设置画布大小
accuracys = [accuracy_lr, accuracy_rfc, accuracy_svm, accuracy_knn, accuracy_dtree]
models = ['Logistic', 'RF', 'SVM', 'KNN', 'Dtree']
bar = sns.barplot(x=models, y=accuracys)
 
# 显示数值标签
for x, y in enumerate(accuracys):
    plt.text(x, y, '%s'% round(y,3), ha='center')

plt.xlabel("Model")
plt.ylabel("Accuracy")
plt.savefig(r"D:\data\python\exercise\test2\3.png")
plt.show()

#数据框：乘客id，预测生存情况的值
passenger_id = test_data.iloc[:, 0]
#逻辑回归的预测结果
preddf1 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_lr})
preddf1.to_csv(r'D:\data\python\taitanic\titanic_pred_model_lr.csv', index=False)
#随机森林的预测结果
preddf2 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_rfc})
preddf2.to_csv(r'D:\data\python\taitanic\titanic_pred_model_rfc.csv', index=False)
#支持向量机的预测结果
preddf3 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_svm})
preddf3.to_csv(r'D:\data\python\taitanic\titanic_pred_model_svm.csv', index=False)
#K最近邻分类器的预测结果
preddf4 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_knn})
preddf4.to_csv(r'D:\data\python\taitanic\titanic_pred_model_knn.csv', index=False)
#决策树模型的预测结果
preddf5 = pd.DataFrame({'PassengerId': passenger_id,'Survived': pred_dtree})
preddf5.to_csv(r'D:\data\python\taitanic\titanic_pred_model_dtree.csv', index=False)

8. 总结

以上就是泰坦尼克号的生存预测分析。
如果你觉得这篇文章对你有用，建议点赞收藏。
欢迎各位读者指正错误，请在评论区留言。或者发表自己的看法，小编不胜感激。

你可能感兴趣的:(python,机器学习,开发语言)

「QT」经验篇之界面代码与逻辑代码的分离思想何曾参静谧「QT」QT5程序设计 qt 系统架构数据库
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
在Python中运行JavaScript代码（使用execjs模块）飞起来fly呀 Python python 开发语言
使用execjs模块可以在Python中运行JavaScript代码。以下是使用execjs模块的基本步骤：1.安装execjs模块:可以使用pip命令进行安装:pipinstall execjs2.导入execjs模块:import execjs3.使用compile方法可以将JavaScript代码编译为可执行的函数compiled_func = execjs.compile(code)#执行
Kotlin语言之let、with、run、apply、also内联函数 mysimplelove 学无止境 Android kotlin 内联函数 let with run apply also lambda
前言：随着公司项目对主开发语言切换的需要，本人也是在持续的对Kotlin语言进行深入全面的学习和使用。相比Java,Kotlin提供了不少高级语法特性，在Kotlin中的源码标准库(Standard.kt)中提供了一些Kotlin扩展的内置函数可以优化kotlin的编码。Standard.kt是Kotlin库的一部分，它定义了一些基本函数。这个源代码文件虽然一共不到50行代码，但是这些函数功能都非
Python快速使用js接口程序媛小本 python javascript udp
在跨语言编程和Web开发中，Python和JavaScript是两种常用的编程语言。有时候，我们可能需要在Python环境中执行JavaScript代码。这就是execjs库发挥作用的地方。一、安装ExecJS在命令行中输入以下命令：pipinstallPyExecJS二、ExecJS的基本使用ExecJS支持多种JavaScript运行时环境，包括Node.js、SpiderMonkey、Web
Python设计模式详解之5 —— 原型模式拾工 Python设计模式 python 设计模式
Prototype设计模式是一种创建型设计模式，它通过复制已有的实例来创建新对象，而不是通过从头实例化。这种模式非常适合对象的创建成本较高或者需要避免复杂的构造过程时使用。Prototype模式提供了一种通过克隆来快速创建对象的方式。1.Prototype模式简介Prototype模式通过定义一个接口来克隆自身，使得客户端代码可以通过复制原型来创建新对象。Python中，Prototype模式可以
Python中的23种设计模式：详细分类与总结拾工 Python设计模式软件设计设计模式
设计模式是解决特定问题的通用方法，分为创建型模式、结构型模式和行为型模式三大类。以下是对每种模式的详细介绍，包括其核心思想、应用场景和优缺点。一、创建型模式（CreationalPatterns）创建型模式关注对象的创建，旨在解耦对象的创建过程，提高灵活性和可扩展性。1.单例模式（Singleton）核心思想：确保一个类只有一个实例，并提供全局访问点。应用场景：数据库连接、配置管理器、日志记录器。
华为OD机试E卷 -最长方连续方波信号（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可。方波信号高位用1标识，低位用0标识。说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个
「Py」进阶语法篇之 Python中的异常捕获与处理何曾参静谧「Py」Python程序设计 python 数据库开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Math」探秘数学世界「PK」Pa
AI Agent的记忆系统实现：从短期对话到长期知识技术出海录人工智能 AI ai agent
在上一篇文章中，我们搭建了AIAgent的基础框架。今天，我想深入讲讲AIAgent最核心的部分之一：记忆系统。说实话，我在实现记忆系统时走了不少弯路，希望通过这篇文章，能帮大家少走一些弯路。从一个bug说起还记得在开发知识助手的过程中，我遇到了一个很有意思的问题。一天我正在测试多轮对话功能：我：Python的装饰器是什么？助手：装饰器是Python中用于修改函数或类行为的一种设计模式...（省略
kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
python如何在一个类里面调用另一个类里面的东西 xiamu_CDA python 开发语言
Python高手必备：轻松实现在一个类里调用另一个类的方法和属性Python是一门强大且灵活的编程语言，它的面向对象特性使得开发者可以轻松地组织和管理代码。然而，在实际开发过程中，我们经常会遇到这样一个问题：如何在一个类里面调用另一个类里面的东西？这看似简单的问题背后其实涉及到了许多面向对象编程的核心概念。本文将深入探讨这个问题，并提供几种实现方法，帮助你更好地理解和应用Python的类。为什么需
python给PDF添加水印 icon920 java pdf
#添加水印fromPyPDF2importPdfReader,PdfWriterfromcopyimportcopysy=PdfReader("C:\\test\\watermark.pdf")＃水印所在位置mark_page=sy.pages[0]#水印所在的页数#读取添加水印的文件file_reader=PdfReader("C:\\test\\PDF.pdf")#需要添加水印的PDFfile
使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节不懂python不懂R python python pdf
1.使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节的importosfromPyPDF2importPdfReader,PdfWriterfromreportlab.pdfgenimportcanvasfromreportlab.lib.pagesizesimportletterfromreportlab.lib.colorsimportColordefcre
Python批量为PDF添加水印：让你的文件瞬间高大上！码无止尽 Python办公自动化 python pdf
嗨，各位可爱的小伙伴们！小编在此奉上今天的超级干货：如何用Python给一大堆PDF文件添加水印。请放心，这不是在交朋友圈秀操作，而是有实际需求的哦！有时候我们需要在PDF文件上添加水印，比如“草稿”、“保密”、“审阅”等标识，来提醒自己或他人。今天就让我来教你如何用Python轻松搞定这件事！首先，让我给你看一下大致的实现思路，然后再附上实际代码。实现思路1、首先，我们需要一个PDF处理的Pyt
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
python监控网页更新_【小白教程】Python3监控网页 weixin_39553904 python监控网页更新
之前用RSS来监控网页更新内容，可惜刷新时间太长了，三个小时。。只能看看新闻啥的，又没有小钱钱充会员（摊手听说Python可以做这个功能，抱着试试看的态度，本以为会很麻烦，没想到这么简单哈哈~我从来没有用过Python都做出来了，相信你也没问题！（我真是纯小白，路过的大佬请指教（⊙ｏ⊙）ノ）所用模块#监控模块fromurllibimportrequestfrombs4importBeautiful
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
实时监控网页变化，并增加多种提示信息安替-AnTi 自动化工具 linux 运维服务器监控网页变化
文章目录python代码实现优势手动部署下载源码安装依赖初次登录设置Docker部署设置监控chromeJS插件实现插件1背景介绍使用方法插件2参考文献通过订阅本篇文章，您可以实现在任意打开网页情况下，监控网页内指定内容或者全部内容的变化，变化的内容、时间点可以通过邮箱、微信等方式进行提醒。使用场景可以用来监控足球比赛的赔率、京东商品库存、价格等因素，并且可以为订阅用户添加各种定制化的服务。如在订
用python监控网页某个位置的值的变化老光私享 python 开发语言爬虫
可以使用Python的第三方库来监控网页上某个位置的值的变化。一种方法是使用BeautifulSoup库来爬取网页并解析HTML/XML。然后，您可以使用正则表达式或其他方法来提取所需信息。另一种方法是使用Selenium库来模拟浏览器行为，并使用JavaScript来获取网页上的信息。下面是一个使用BeautifulSoup的例子：importrequestsfrombs4importBeaut
python向pdf添加水印 ChenWenKen Python应用 python 前端
fromtypingimportUnion,Tuplefromreportlab.libimportunitsfromreportlab.pdfgenimportcanvasfromreportlab.pdfbaseimportpdfmetricsfromreportlab.pdfbase.ttfontsimportTTFontpdfmetrics.registerFont(TTFont('msy
python笔记（3）(re库和pandas库) Techer_Y 笔记
参考链接：Python正则表达式|菜鸟教程(runoob.com)1、re库，python正则表达式正则表达式是一个特殊的字符序列它能帮助你检查一个字符串是否与某种模式匹配。re模块使python语言拥有全部的正则表达式功能。re.match尝试从字符串起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.match(pattern,string,flags=0)
Python PDF添加水印 lxccc9 python 笔记
PDF添加水印加载模块：fromPyPDF2importPdfFileReader,PdfFileWriterimportosPDF添加水印：watermark_pdf=PdfFileReader('./tests/watermark.pdf')#读取第一页watermark=watermark_pdf.getPage(0)#读取需要加水印的pdf文件input_pdf=PdfFileReader
用Python写前端 eternity_ld 前端 python 开发语言
分享一个让开发交互式Webapp超级简单的工具。不会HTML，CSS，JAVASCRIPT也没事。交互式Webapp非常实用，比如说做一个问卷调查页面、一个投票系统、一个信息收集表单，上传文件等等，因为网页是可视化的，因此还可以作为一个没有服务端的图片界面应用程序而使用。如果你有这样的开发需求，那用Python真的是太简单了。借助于PyWebIO（pipinstallpywebio），你可以分分钟
使用python做出一只懒羊羊大G哥 python 开发语言
今天使用Python的Turtle库做出一只懒羊羊PythonTurtle库功能与用途一、绘图基础功能Turtle库提供了一种简单易用的方式来进行图形绘制。通过控制屏幕上的海龟指针移动来完成线条和形状的创建。可以设置画笔的颜色、大小以及方向等属性，从而实现多样化的视觉效果。importturtlet=turtle.Turtle()t.forward(100)#向前走100像素距离t.right(9
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍杰九 vue.js javascript 前端 spring boot
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍往期的文章都在这里啦，大家有兴趣可以看一下【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue
【算法】动态规划：从斐波那契数列到背包问题杰九优质文章算法动态规划
【算法】动态规划：从斐波那契数列到背包问题文章目录【算法】动态规划：从斐波那契数列到背包问题1.斐波那契数列2.爬楼梯3.零钱转换Python代码4.零钱兑换II5.组合数dp和排列数dp6.为什么动态规划的核心思想计算组合数的正确方法代码实现为什么先遍历硬币再遍历金额可以计算组合数详细解释举例说明最终结果具体组合情况为什么有效7.背包问题01背包问题定义完全背包问题定义示例为什么需要倒序遍历8.
通过Python为PDF添加图片水印 nini！ pdf python vscode 安全
前言之前介绍了如何通过Python向PDF添加文本水印。事实上，添加图片水印也同样实用。例如将公司或产品logo添加到文档中，从而提升品牌效应或防止他人随意盗用。或者将图片插入到文档中以注明文档用处或状态。与文本水印类似，添加图片水印时，也可以设置添加单个图片水印或者多个重复水印。下面是以Python平台为例，为PDF添加图片水印的方法介绍。所需工具VisualStudioCodeSpire.PD
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
282道Python面试八股文（答案、分析和深入提问）整理 ocean2103 面试题 python 面试开发语言
1.请解释Python中的模块和包。回答在Python中，模块和包是组织代码的重要工具，它们有助于代码的重用和结构化。模块(Module)模块是一个包含Python代码的文件，通常以.py作为文件扩展名。模块可以定义函数、类和变量，也可以包含可执行的代码。通过模块，可以将相关的功能分组到一个文件中，从而使得代码更加结构化和可维护。创建和使用模块创建模块：你可以创建一个Python文件（例如mymo
【Pip】深入理解 `requirements.txt` 文件：Python 项目依赖管理的核心工具丶2136 #pip pip python
目录引言1.什么是`requirements.txt`？2.创建`requirements.txt`文件2.1手动创建2.2使用`pipfreeze`命令2.3使用`pipreqs`生成2.4使用`pipenv`或`poetry`3.安装依赖4.版本管理与更新4.1版本管理的最佳实践5.依赖关系的管理5.1使用`pip-tools`5.2使用虚拟环境5.3使用Docker5.4`requireme
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交