名为不二的兔子

泰坦尼克预测生存率初次探索

泰坦尼克号生存率预测

提出问题（Business Understanding ）
理解数据（Data Understanding）
- 采集数据
- 导入数据
- 查看数据集信息
数据清洗（Data Preparation ）
- 数据预处理
- 特征工程（Feature Engineering）
构建模型（Modeling）
模型评估（Evaluation）
方案实施（Deployment）

1. 提出问题

什么样的人在泰坦尼克号中更容易存活？

2. 理解数据

1）采集数据

2）导入数据

3）查看数据集信息

2.1 采集数据

下载Kaggle泰坦尼克号数据

2.2 导入数据

我们将训练数据和测试数据合并，方便同时清洗

#导入处理数据包
import numpy as np
import pandas as pd

#导入数据
path='C:/Users/Titanic'
f=open(path+'/train.csv')
g=open(path+'/test.csv')
#训练数据集
train=pd.read_csv(f)
#测试数据集
test=pd.read_csv(g)
#在这里要记住数据集有891条数据
print('训练数据集：',train.shape,'测试数据集：',test.shape)

训练数据集： (891, 12) 测试数据集： (418, 11)

rowNum_train=train.shape[0]
rowNum_test=test.shape[0]
print('kaggle训练数据集有多少行数据：',rowNum_train,
     'kaggle测试数据集有多少行数据：',rowNum_test)

kaggle训练数据集有多少行数据： 891 kaggle测试数据集有多少行数据： 418

#合并数据集，方便同时对两个数据集进行清洗
full=train.append(test,ignore_index=True)
print('合并后的数据集：',full.shape)

合并后的数据集： (1309, 12)

2.3 查看数据集信息

#查看数据
full.head()

	Age	Cabin	Embarked	Fare	Name	PassengerId	Pclass	Sex	SibSp	Survived	Ticket
0	22.0	NaN	S	7.2500	Braund, Mr. Owen Harris	1	3	male	1	0.0	A/5 21171
1	38.0	C85	C	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	1	female	1	1.0	PC 17599
2	26.0	NaN	S	7.9250	Heikkinen, Miss. Laina	3	3	female	0	1.0	STON/O2. 3101282
3	35.0	C123	S	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	female	1	1.0	113803
4	35.0	NaN	S	8.0500	Allen, Mr. William Henry	5	3	male	0	0.0	373450

Embarked 登船港口
（S=英国南安普顿 Southampton C=法国瑟堡市 Cherbourg Q=爱尔兰昆士敦 Queenstown）
Fare 船票价格
Parch 船上父母数/子女数（不同代直系亲属数）
SibSp 船上兄弟姐妹数/配偶数（同代直系亲属数）
Pclass 客舱等级（1=1等舱，2=2等舱，3=3等舱）

#获取数据类型列的描述统计信息
full.describe()

	Age	Fare	Parch	PassengerId	Pclass	SibSp	Survived
count	1046.000000	1308.000000	1309.000000	1309.000000	1309.000000	1309.000000	891.000000
mean	29.881138	33.295479	0.385027	655.000000	2.294882	0.498854	0.383838
std	14.413493	51.758668	0.865560	378.020061	0.837836	1.041658	0.486592
min	0.170000	0.000000	0.000000	1.000000	1.000000	0.000000	0.000000
25%	21.000000	7.895800	0.000000	328.000000	2.000000	0.000000	0.000000
50%	28.000000	14.454200	0.000000	655.000000	3.000000	0.000000	0.000000
75%	39.000000	31.275000	0.000000	982.000000	3.000000	1.000000	1.000000
max	80.000000	512.329200	9.000000	1309.000000	3.000000	8.000000	1.000000

#查看每一列数据类型和数据总数
full.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
Age            1046 non-null float64
Cabin          295 non-null object
Embarked       1307 non-null object
Fare           1308 non-null float64
Name           1309 non-null object
Parch          1309 non-null int64
PassengerId    1309 non-null int64
Pclass         1309 non-null int64
Sex            1309 non-null object
SibSp          1309 non-null int64
Survived       891 non-null float64
Ticket         1309 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

可知数据总有1309行。
其中部分信息有缺失数据
数据类型列：
* 年龄（Age）总数1046条，缺失263条，缺失率263/1309=20%
* 船票（Fare）总数1308条，缺失1条
字符串列：
* 登船港口（Embarked）总数1307，缺失2条
* 船舱号（Cabin）数据总数是295，缺失了1309-295=1014，缺失率1014/1309=77.5% 缺失较为严重

3. 数据清洗

3.1 数据预处理

缺失值处理

'''
首先对于数据类型列年龄，船票价格
处理缺失值最简单的方法采用平均数来填充缺失值
'''
print('处理前：')
full.info()
#年龄
full['Age']=full['Age'].fillna(full['Age'].mean())
#船票价格
full['Fare']=full['Fare'].fillna(full['Fare'].mean())
print('处理后：')
full.info()

处理前：

RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
Age            1046 non-null float64
Cabin          295 non-null object
Embarked       1307 non-null object
Fare           1308 non-null float64
Name           1309 non-null object
Parch          1309 non-null int64
PassengerId    1309 non-null int64
Pclass         1309 non-null int64
Sex            1309 non-null object
SibSp          1309 non-null int64
Survived       891 non-null float64
Ticket         1309 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB
处理后：

RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
Age            1309 non-null float64
Cabin          295 non-null object
Embarked       1307 non-null object
Fare           1309 non-null float64
Name           1309 non-null object
Parch          1309 non-null int64
PassengerId    1309 non-null int64
Pclass         1309 non-null int64
Sex            1309 non-null object
SibSp          1309 non-null int64
Survived       891 non-null float64
Ticket         1309 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

#检查数据
full.head()

	Age	Cabin	Embarked	Fare	Name	PassengerId	Pclass	Sex	SibSp	Survived	Ticket
0	22.0	NaN	S	7.2500	Braund, Mr. Owen Harris	1	3	male	1	0.0	A/5 21171
1	38.0	C85	C	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	1	female	1	1.0	PC 17599
2	26.0	NaN	S	7.9250	Heikkinen, Miss. Laina	3	3	female	0	1.0	STON/O2. 3101282
3	35.0	C123	S	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	female	1	1.0	113803
4	35.0	NaN	S	8.0500	Allen, Mr. William Henry	5	3	male	0	0.0	373450

'''
处理缺失比较大的字符串列登船港口和船舱号
'''
#Embarked登船港口：读取该列信息
from collections import Counter
Counter(full['Embarked'])

Counter({‘C’: 270, ‘Q’: 123, ‘S’: 914, nan: 2})

'''
只有两个缺失值，我们将缺失值填充为最频繁出现的值S
'''
full['Embarked']=full['Embarked'].fillna('S')

#船舱号：读取该列信息
Counter(full['Cabin'])

#发现缺失信息较多，而且船舱号信息比较杂，因此在这里将缺失值填充为U，表示未知
full['Cabin']=full['Cabin'].fillna('U')

#检查信息处理是否正常
full.head()

	Age	Cabin	Embarked	Fare	Name	PassengerId	Pclass	Sex	SibSp	Survived	Ticket
0	22.0	U	S	7.2500	Braund, Mr. Owen Harris	1	3	male	1	0.0	A/5 21171
1	38.0	C85	C	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	1	female	1	1.0	PC 17599
2	26.0	U	S	7.9250	Heikkinen, Miss. Laina	3	3	female	0	1.0	STON/O2. 3101282
3	35.0	C123	S	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	female	1	1.0	113803
4	35.0	U	S	8.0500	Allen, Mr. William Henry	5	3	male	0	0.0	373450

#查看缺失值处理情况
full.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
Age            1309 non-null float64
Cabin          1309 non-null object
Embarked       1309 non-null object
Fare           1309 non-null float64
Name           1309 non-null object
Parch          1309 non-null int64
PassengerId    1309 non-null int64
Pclass         1309 non-null int64
Sex            1309 non-null object
SibSp          1309 non-null int64
Survived       891 non-null float64
Ticket         1309 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

3.2 特征提取

3.2.1 数据分类

通过查看full.info(),可以看到每一列的数据类型，一般给出三种分类数值，时间，分类数据，在这里像姓名，船舱号等没有明显类别的字符串类型，也归入到分类数据中，之后可以考虑是否可以提取特征。

1.数值类型：
乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）
2.时间序列：无
3.分类数据：
1）有直接类别：
乘客性别（Sex），登船港口（Embarked），船舱等级（Pclass）
2）其他字符串类型：
乘客姓名（Name），船舱号（Cabin），船票编号（Ticket）

分类数据：有直接类别的

性别（Sex）

'''
将性别的值映射为数值
男（male）对应数值1，女（female）对应数值0
'''
sex_mapDict={'male':1,'female':0}
#map函数：对Series每个数据应用自定义的函数计算
full['Sex']=full['Sex'].map(sex_mapDict)
full.head()

	Age	Cabin	Embarked	Fare	Name	PassengerId	Pclass	Sex	SibSp	Survived	Ticket
0	22.0	U	S	7.2500	Braund, Mr. Owen Harris	1	3	1	1	0.0	A/5 21171
1	38.0	C85	C	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	1	0	1	1.0	PC 17599
2	26.0	U	S	7.9250	Heikkinen, Miss. Laina	3	3	0	0	1.0	STON/O2. 3101282
3	35.0	C123	S	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	0	1	1.0	113803
4	35.0	U	S	8.0500	Allen, Mr. William Henry	5	3	1	0	0.0	373450

登船港口（Embarked）

'''
使用get_dummies进行one-hot编码，产生虚拟变量(dummy variables)，列名前缀是Embarked
'''
#存放提取后的特征
embarkedDf=pd.DataFrame()

embarkedDf=pd.get_dummies(full['Embarked'],prefix='Embarked')
embarkedDf.head()

	Embarked_C	Embarked_S
0	0	1
1	1	0
2	0	1
3	0	1
4	0	1

#添加虚拟变量到泰坦尼克号数据集full
full=pd.concat([full,embarkedDf],axis=1)
#删除登船港口
full.drop('Embarked',axis=1,inplace=True)
full.head()

	Age	Cabin	Fare	Name	PassengerId	Pclass	Sex	SibSp	Survived	Ticket	Embarked_C	Embarked_S
0	22.0	U	7.2500	Braund, Mr. Owen Harris	1	3	1	1	0.0	A/5 21171	0	1
1	38.0	C85	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	1	0	1	1.0	PC 17599	1	0
2	26.0	U	7.9250	Heikkinen, Miss. Laina	3	3	0	0	1.0	STON/O2. 3101282	0	1
3	35.0	C123	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	0	1	1.0	113803	0	1
4	35.0	U	8.0500	Allen, Mr. William Henry	5	3	1	0	0.0	373450	0	1

客舱等级（Pclass）

#同样对客舱等级进行one-hot编码，前缀名是Pclass
pclassDf=pd.DataFrame()
pclassDf=pd.get_dummies(full['Pclass'],prefix='Pclass')
pclassDf.head()

	Pclass_1	Pclass_3
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

#添加客舱等级的虚拟变量到原始数据集
full=pd.concat([full,pclassDf],axis=1)
#删掉原客舱等级列
full.drop('Pclass',axis=1,inplace=True)
full.head()

	Age	Cabin	Fare	Name	PassengerId	Sex	SibSp	Survived	Ticket	Embarked_C	Embarked_S	Pclass_1	Pclass_3
0	22.0	U	7.2500	Braund, Mr. Owen Harris	1	1	1	0.0	A/5 21171	0	1	0	1
1	38.0	C85	71.2833	Cumings, Mrs. John Bradley (Florence Briggs Th…	2	0	1	1.0	PC 17599	1	0	1	0
2	26.0	U	7.9250	Heikkinen, Miss. Laina	3	0	0	1.0	STON/O2. 3101282	0	1	0	1
3	35.0	C123	53.1000	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	0	1	1.0	113803	0	1	1	0
4	35.0	U	8.0500	Allen, Mr. William Henry	5	1	0	0.0	373450	0	1	0	1

分类数据：字符串类型

从字符串数据类型中提取特征，也归为分类数据中，这部分包含的数据为：

1.乘客姓名（Name）
2.客舱号（Cabin）
3.船票编号（Ticket）

从姓名中提取头衔

'''
观察姓名特点，可以发现乘客头衔每个名字当中都包含了具体的称谓或者头衔，可将该部分提出
'''
full['Name'].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

'''
可以看到名字整体分为“名,称谓.姓”
因此我们可以使用split进行字符串分割，获取所需的头衔
'''
def getTitle(name):
    str1=name.split(',')[1]
    str2=str1.split('.')[0]
    str3=str2.strip() #移除字符串头尾指定字符（默认为空格）
    return str3

#存放提取后的特征
titleDf=pd.DataFrame()
titleDf['Title']=full['Name'].map(getTitle)
titleDf.head()

	Title
0	Mr
1	Mrs
2	Miss
3	Mrs
4	Mr

#查看提取的信息
titleDf['Title'].unique()

array(['Mr', 'Mrs', 'Miss', 'Master', 'Don', 'Rev', 'Dr', 'Mme', 'Ms',
       'Major', 'Lady', 'Sir', 'Mlle', 'Col', 'Capt', 'the Countess',
       'Jonkheer', 'Dona'], dtype=object)

'''
定义以下几种头衔类别：
Officer政府官员
Royalty王室（皇室）
Mr已婚男士
Mrs已婚妇女
Miss年轻未婚女子
Master有技能的人/教师
并与提取的信息一一对应
'''
title_mapDict={  
                'Mr':               'Mr', 
                'Mrs':             'Mrs',
                'Miss':           'Miss',
                'Master':       'Master',
                'Don':         'Royalty',
                'Rev':         'Officer', 
                'Dr':          'Officer', 
                'Mme':             'Mrs', 
                'Ms':              'Mrs',
                'Major':       'Officer', 
                'Lady':        'Royalty',
                'Sir':         'Royalty', 
                'Mlle':           'Miss',
                'Col':         'Officer', 
                'Capt':        'Officer', 
                'the Countess':'Royalty',
                'Jonkheer':    'Royalty',
                'Dona':        'Royalty'
}
titleDf['Title']=titleDf['Title'].map(title_mapDict)
#使用one-hot编码
titleDf=pd.get_dummies(titleDf['Title'])
titleDf.head()

	Miss	Mr	Mrs
0	0	1	0
1	0	0	1
2	1	0	0
3	0	0	1
4	0	1	0

#同样的添加姓名产生的虚拟变量到原始数据集
full=pd.concat([full,titleDf],axis=1)
full.drop('Name',axis=1,inplace=True)
full.head()

	Age	Cabin	Fare	PassengerId	Sex	SibSp	Survived	Ticket	Embarked_C	…	Embarked_S	Pclass_1	Pclass_3	Miss	Mr	Mrs
0	22.0	U	7.2500	1	1	1	0.0	A/5 21171	0	…	1	0	1	0	1	0
1	38.0	C85	71.2833	2	0	1	1.0	PC 17599	1	…	0	1	0	0	0	1
2	26.0	U	7.9250	3	0	0	1.0	STON/O2. 3101282	0	…	1	0	1	1	0	0
3	35.0	C123	53.1000	4	0	1	1.0	113803	0	…	1	1	0	0	0	1
4	35.0	U	8.0500	5	1	0	0.0	373450	0	…	1	0	1	0	1	0

5 rows × 21 columns

从客舱号中提取客舱类别

#客舱号的类别为首字母，可以建立映射关系
full['Cabin']=full['Cabin'].map(lambda c: c[0])
#进行one-hot编码,前缀为Cabin
cabinDf=pd.DataFrame()
cabinDf=pd.get_dummies(full['Cabin'],prefix='Cabin')
cabinDf.head()

	Cabin_C	Cabin_U
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

#添加到原数据集
full=pd.concat([full,cabinDf],axis=1)
full.drop('Cabin',axis=1,inplace=True)
full.head()

	Age	Fare	PassengerId	Sex	SibSp	Survived	Ticket	Embarked_C	…	Cabin_C	Cabin_U
0	22.0	7.2500	1	1	1	0.0	A/5 21171	0	…	0	1
1	38.0	71.2833	2	0	1	1.0	PC 17599	1	…	1	0
2	26.0	7.9250	3	0	0	1.0	STON/O2. 3101282	0	…	0	1
3	35.0	53.1000	4	0	1	1.0	113803	0	…	1	0
4	35.0	8.0500	5	1	0	0.0	373450	0	…	0	1

5 rows × 29 columns

建立家庭人数和家庭类别

familyDf=pd.DataFrame()
'''
家庭人数=同代直系亲属数（Parch）+不同代直系亲属数（SibSp）+乘客自己
'''
familyDf['FamilySize']=full['Parch']+full['SibSp']+1
'''
家庭类别：
小家庭Family_Single:家庭人员=1
中等家庭Family_Small:2<=家庭人员<=4
大家庭Family_Large:家庭人员>=5
（根据需求人工设置虚拟变量）
'''
familyDf['Family_Single']=familyDf['FamilySize'].map(lambda s: 1 if s==1 else 0)
familyDf['Family_Small']=familyDf['FamilySize'].map(lambda s: 1 if 2<=s<=4 else 0)
familyDf['Family_Large']=familyDf['FamilySize'].map(lambda s: 1 if 5<=s else 0)
familyDf.head()

	FamilySize	Family_Single	Family_Small
0	2	0	1
1	2	0	1
2	1	1	0
3	2	0	1
4	1	1	0

#将变量添加到数据集
full=pd.concat([full,familyDf],axis=1)
full.head()

	Age	Fare	PassengerId	Sex	SibSp	Survived	Ticket	Embarked_C	…	Cabin_U	FamilySize	Family_Single	Family_Small
0	22.0	7.2500	1	1	1	0.0	A/5 21171	0	…	1	2	0	1
1	38.0	71.2833	2	0	1	1.0	PC 17599	1	…	0	2	0	1
2	26.0	7.9250	3	0	0	1.0	STON/O2. 3101282	0	…	1	1	1	0
3	35.0	53.1000	4	0	1	1.0	113803	0	…	0	2	0	1
4	35.0	8.0500	5	1	0	0.0	373450	0	…	1	1	1	0

5 rows × 33 columns

3.3 特征选择

相关系数法：计算各个特征的相关系数

#相关性矩阵
corrDf = full.corr() 
corrDf

	Age	Fare	Parch	PassengerId	Sex	SibSp	Survived	Embarked_C	Embarked_Q	Embarked_S	…	Cabin_D	Cabin_E	Cabin_F	Cabin_G	Cabin_T	Cabin_U	FamilySize	Family_Single	Family_Small	Family_Large
Age	1.000000	0.171521	-0.130872	0.025731	0.057397	-0.190747	-0.070323	0.076179	-0.012718	-0.059153	…	0.132886	0.106600	-0.072644	-0.085977	0.032461	-0.271918	-0.196996	0.116675	-0.038189	-0.161210
Fare	0.171521	1.000000	0.221522	0.031416	-0.185484	0.160224	0.257307	0.286241	-0.130054	-0.169894	…	0.072737	0.073949	-0.037567	-0.022857	0.001179	-0.507197	0.226465	-0.274826	0.197281	0.170853
Parch	-0.130872	0.221522	1.000000	0.008942	-0.213125	0.373587	0.081629	-0.008635	-0.100943	0.071881	…	-0.027385	0.001084	0.020481	0.058325	-0.012304	-0.036806	0.792296	-0.549022	0.248532	0.624627
PassengerId	0.025731	0.031416	0.008942	1.000000	0.013406	-0.055224	-0.005007	0.048101	0.011585	-0.049836	…	0.000549	-0.008136	0.000306	-0.045949	-0.023049	0.000208	-0.031437	0.028546	0.002975	-0.063415
Sex	0.057397	-0.185484	-0.213125	0.013406	1.000000	-0.109609	-0.543351	-0.066564	-0.088651	0.115193	…	-0.057396	-0.040340	-0.006655	-0.083285	0.020558	0.137396	-0.188583	0.284537	-0.255196	-0.077748
SibSp	-0.190747	0.160224	0.373587	-0.055224	-0.109609	1.000000	-0.035322	-0.048396	-0.048678	0.073709	…	-0.015727	-0.027180	-0.008619	0.006015	-0.013247	0.009064	0.861952	-0.591077	0.253590	0.699681
Survived	-0.070323	0.257307	0.081629	-0.005007	-0.543351	-0.035322	1.000000	0.168240	0.003650	-0.149683	…	0.150716	0.145321	0.057935	0.016040	-0.026456	-0.316912	0.016639	-0.203367	0.279855	-0.125147
Embarked_C	0.076179	0.286241	-0.008635	0.048101	-0.066564	-0.048396	0.168240	1.000000	-0.164166	-0.778262	…	0.107782	0.027566	-0.020010	-0.031566	-0.014095	-0.258257	-0.036553	-0.107874	0.159594	-0.092825
Embarked_Q	-0.012718	-0.130054	-0.100943	0.011585	-0.088651	-0.048678	0.003650	-0.164166	1.000000	-0.491656	…	-0.061459	-0.042877	-0.020282	-0.019941	-0.008904	0.142369	-0.087190	0.127214	-0.122491	-0.018423
Embarked_S	-0.059153	-0.169894	0.071881	-0.049836	0.115193	0.073709	-0.149683	-0.778262	-0.491656	1.000000	…	-0.056023	0.002960	0.030575	0.040560	0.018111	0.137351	0.087771	0.014246	-0.062909	0.093671
Pclass_1	0.362587	0.599956	-0.013033	0.026495	-0.107371	-0.034256	0.285904	0.325722	-0.166101	-0.181800	…	0.275698	0.242963	-0.073083	-0.035441	0.048310	-0.776987	-0.029656	-0.126551	0.165965	-0.067523
Pclass_2	-0.014193	-0.121372	-0.010057	0.022714	-0.028862	-0.052419	0.093349	-0.134675	-0.121973	0.196532	…	-0.037929	-0.050210	0.127371	-0.032081	-0.014325	0.176485	-0.039976	-0.035075	0.097270	-0.118495
Pclass_3	-0.302093	-0.419616	0.019521	-0.041544	0.116562	0.072610	-0.322308	-0.171430	0.243706	-0.003805	…	-0.207455	-0.169063	-0.041178	0.056964	-0.030057	0.527614	0.058430	0.138250	-0.223338	0.155560
Master	-0.363923	0.011596	0.253482	0.002254	0.164375	0.329171	0.085221	-0.014172	-0.009091	0.018297	…	-0.042192	0.001860	0.058311	-0.013690	-0.006113	0.041178	0.355061	-0.265355	0.120166	0.301809
Miss	-0.254146	0.092051	0.066473	-0.050027	-0.672819	0.077564	0.332795	-0.014351	0.198804	-0.113886	…	-0.012516	0.008700	-0.003088	0.061881	-0.013832	-0.004364	0.087350	-0.023890	-0.018085	0.083422
Mr	0.165476	-0.192192	-0.304780	0.014116	0.870678	-0.243104	-0.549199	-0.065538	-0.080224	0.108924	…	-0.030261	-0.032953	-0.026403	-0.072514	0.023611	0.131807	-0.326487	0.386262	-0.300872	-0.194207
Mrs	0.198091	0.139235	0.213491	0.033299	-0.571176	0.061643	0.344935	0.098379	-0.100374	-0.022950	…	0.080393	0.045538	0.013376	0.042547	-0.011742	-0.162253	0.157233	-0.354649	0.361247	0.012893
Officer	0.162818	0.028696	-0.032631	0.002231	0.087288	-0.013813	-0.031316	0.003678	-0.003212	-0.001202	…	0.006055	-0.024048	-0.017076	-0.008281	-0.003698	-0.067030	-0.026921	0.013303	0.003966	-0.034572
Royalty	0.059466	0.026214	-0.030197	0.004400	-0.020408	-0.010787	0.033391	0.077213	-0.021853	-0.054250	…	-0.012950	-0.012202	-0.008665	-0.004202	-0.001876	-0.071672	-0.023600	0.008761	-0.000073	-0.017542
Cabin_A	0.125177	0.020094	-0.030707	-0.002831	0.047561	-0.039808	0.022287	0.094914	-0.042105	-0.056984	…	-0.024952	-0.023510	-0.016695	-0.008096	-0.003615	-0.242399	-0.042967	0.045227	-0.029546	-0.033799
Cabin_B	0.113458	0.393743	0.073051	0.015895	-0.094453	-0.011569	0.175095	0.161595	-0.073613	-0.095790	…	-0.043624	-0.041103	-0.029188	-0.014154	-0.006320	-0.423794	0.032318	-0.087912	0.084268	0.013470
Cabin_C	0.167993	0.401370	0.009601	0.006092	-0.077473	0.048616	0.114652	0.158043	-0.059151	-0.101861	…	-0.053083	-0.050016	-0.035516	-0.017224	-0.007691	-0.515684	0.037226	-0.137498	0.141925	0.001362
Cabin_D	0.132886	0.072737	-0.027385	0.000549	-0.057396	-0.015727	0.150716	0.107782	-0.061459	-0.056023	…	1.000000	-0.034317	-0.024369	-0.011817	-0.005277	-0.353822	-0.025313	-0.074310	0.102432	-0.049336
Cabin_E	0.106600	0.073949	0.001084	-0.008136	-0.040340	-0.027180	0.145321	0.027566	-0.042877	0.002960	…	-0.034317	1.000000	-0.022961	-0.011135	-0.004972	-0.333381	-0.017285	-0.042535	0.068007	-0.046485
Cabin_F	-0.072644	-0.037567	0.020481	0.000306	-0.006655	-0.008619	0.057935	-0.020010	-0.020282	0.030575	…	-0.024369	-0.022961	1.000000	-0.007907	-0.003531	-0.236733	0.005525	0.004055	0.012756	-0.033009
Cabin_G	-0.085977	-0.022857	0.058325	-0.045949	-0.083285	0.006015	0.016040	-0.031566	-0.019941	0.040560	…	-0.011817	-0.011135	-0.007907	1.000000	-0.001712	-0.114803	0.035835	-0.076397	0.087471	-0.016008
Cabin_T	0.032461	0.001179	-0.012304	-0.023049	0.020558	-0.013247	-0.026456	-0.014095	-0.008904	0.018111	…	-0.005277	-0.004972	-0.003531	-0.001712	1.000000	-0.051263	-0.015438	0.022411	-0.019574	-0.007148
Cabin_U	-0.271918	-0.507197	-0.036806	0.000208	0.137396	0.009064	-0.316912	-0.258257	0.142369	0.137351	…	-0.353822	-0.333381	-0.236733	-0.114803	-0.051263	1.000000	-0.014155	0.175812	-0.211367	0.056438
FamilySize	-0.196996	0.226465	0.792296	-0.031437	-0.188583	0.861952	0.016639	-0.036553	-0.087190	0.087771	…	-0.025313	-0.017285	0.005525	0.035835	-0.015438	-0.014155	1.000000	-0.688864	0.302640	0.801623
Family_Single	0.116675	-0.274826	-0.549022	0.028546	0.284537	-0.591077	-0.203367	-0.107874	0.127214	0.014246	…	-0.074310	-0.042535	0.004055	-0.076397	0.022411	0.175812	-0.688864	1.000000	-0.873398	-0.318944
Family_Small	-0.038189	0.197281	0.248532	0.002975	-0.255196	0.253590	0.279855	0.159594	-0.122491	-0.062909	…	0.102432	0.068007	0.012756	0.087471	-0.019574	-0.211367	0.302640	-0.873398	1.000000	-0.183007
Family_Large	-0.161210	0.170853	0.624627	-0.063415	-0.077748	0.699681	-0.125147	-0.092825	-0.018423	0.093671	…	-0.049336	-0.046485	-0.033009	-0.016008	-0.007148	0.056438	0.801623	-0.318944	-0.183007	1.000000

32 rows × 32 columns

#主要看与生存情况（Survived）的相关系数，ascending=False表示降序
corrDf['Survived'].sort_values(ascending=False)

Survived         1.000000
Mrs              0.344935
Miss             0.332795
Pclass_1         0.285904
Family_Small     0.279855
Fare             0.257307
Cabin_B          0.175095
Embarked_C       0.168240
Cabin_D          0.150716
Cabin_E          0.145321
Cabin_C          0.114652
Pclass_2         0.093349
Master           0.085221
Parch            0.081629
Cabin_F          0.057935
Royalty          0.033391
Cabin_A          0.022287
FamilySize       0.016639
Cabin_G          0.016040
Embarked_Q       0.003650
PassengerId     -0.005007
Cabin_T         -0.026456
Officer         -0.031316
SibSp           -0.035322
Age             -0.070323
Family_Large    -0.125147
Embarked_S      -0.149683
Family_Single   -0.203367
Cabin_U         -0.316912
Pclass_3        -0.322308
Sex             -0.543351
Mr              -0.549199
Name: Survived, dtype: float64

可以看到头衔Mrs与生存情况存在强烈的正相关

在这里选择 头衔（titleDf）、船舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）作为模型输入

#特征选择
full_X=pd.concat([titleDf,
                 pclassDf,
                 familyDf,
                 full['Fare'],
                 cabinDf,
                 embarkedDf,
                 full['Sex']
                 ],axis=1)
full_X.head()

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	…	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	…	1	0	1	1
1	0	0	1	1	0	2	…	0	1	0	0
2	1	0	0	0	1	1	…	1	0	1	0
3	0	0	1	1	0	2	…	0	0	1	0
4	0	1	0	0	1	1	…	1	0	1	1

5 rows × 27 columns

4. 构建模型

4.1 建立训练数据集和测试数据集

#原始的数据集有891行
sourceRow=891
#原始数据集：特征
source_X=full_X.loc[0:sourceRow-1,:]
#原始数据集：标签
source_Y=full.loc[0:sourceRow-1,'Survived']
#预测数据集：特征
pred_X=full_X.loc[sourceRow:,:]

#确认选取的数据集
print('原始数据集有多少行：',source_X.shape[0])
print('预测数据集有多少行：',pred_X.shape[0])

原始数据集有多少行： 891
预测数据集有多少行： 418

#选择交叉验证
from sklearn.cross_validation import train_test_split

#建立模型用的训练数据集和测试数据集
train_X,test_X,train_Y,test_Y=train_test_split(source_X,source_Y,train_size=.8)
#输出数据集大小
print ('原始数据集特征：',source_X.shape, 
       '训练数据集特征：',train_X.shape ,
      '测试数据集特征：',test_X.shape)

print ('原始数据集标签：',source_Y.shape, 
       '训练数据集标签：',train_Y.shape ,
      '测试数据集标签：',test_Y.shape)

原始数据集特征： (891, 27) 训练数据集特征： (712, 27) 测试数据集特征： (179, 27)
原始数据集标签： (891,) 训练数据集标签： (712,) 测试数据集标签： (179,)

4.2 选择机器学习算法

#使用逻辑回归
#第一步：导入算法
from sklearn.linear_model import LogisticRegression
#第二步：创建模型：逻辑回归（logisic regression）
model=LogisticRegression()

4.3 训练模型

#第三步：训练模型
model.fit(train_X,train_Y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

5. 模型评估

#通过score得到模型的准确率
model.score(test_X,test_Y)

0.8268156424581006

6. 方案实施

使用预测数据集得到预测结果，保存到csv文件中

#使用机器学习模型，对预测数据集中的生存情况进行预测
pred_Y=model.predict(pred_X)
'''
生成的预测值是浮点数
Kaggle要求提交的是整型
对数据类型转换
'''
pred_Y=pred_Y.astype(int)
#乘客Id
passenger_id=full.loc[sourceRow:,'PassengerId']
#数据框：乘客id，预测生存情况的值
predDf=pd.DataFrame(
    {'PassengerId':passenger_id,
    'Survived':pred_Y})
predDf.shape
predDf.head()
#保存结果
predDf.to_csv(path+'/titanic_pred.csv',index=False)

你可能感兴趣的:(kaggle)

推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
免费GPU平台教程，助力你的AI, pytorch tensorflow 支持cuda zhangfeng1133 人工智能 pytorch tensorflow
Colab：https://drive.google.com/drive/home阿里天池实验室：https://tianchi.aliyun.com/60个小时gputianchi.aliyun.com/notebook-ai/天池实验室_实时在线的数据分析协作工具，享受免费计算资源-阿里云天池移动九天：https://jiutian.10086.cn/edu/#/homekagglekaggl
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
李沐《动手学深度学习》课程笔记：15 实战：Kaggle房价预测 + 课程竞赛：加州2020年房价预测非文的NLP修炼笔记 #李沐《动手学深度学习》课程笔记深度学习人工智能
15实战：Kaggle房价预测+课程竞赛：加州2020年房价预测1.访问和读取数据集importhashlibimportosimporttarfileimportzipfileimportrequestsDATA_HUB=dict()DATA_URL='http://d2l_data.s3-accelerate.amazonaws.com/'defdownload(name,cache_dir=
Kaggle Intermediate ML Part Two 卢延吉 New Developer 数据 (Data)ML &ME &GPT Data ML
CategoricalVariablesCategoricalvariables,alsoknownasqualitativevariables,areafundamentalconceptinstatisticsanddataanalysis.Here'sabreakdowntohelpyouunderstandthem:Whatarethey?Categoricalvariablesrepre
【工业智能】VSB Power Line Fault Detection-chapter1 凭轩听雨199407 学习 python 制造数据挖掘
VSBPowerLineFaultDetection-chapter1backgrounddataset数据介绍信号处理方法EDAtrainfeatureengineeringmodeltraintry信息来源：KaggleCompetition:VSBPowerLineFaultDetectionbackground中压高架线路绵延上百公里来为城市提供电力。因为距离很远，所以人工检测那些没有立即
【工业智能】VSB Power Line Fault Detection-chapter2 凭轩听雨199407 数据挖掘
工业智能】VSBPowerLineFaultDetection-chapter2关键信息依赖版本信息名词术语tricks信息来源：KaggleCompetition:VSBPowerLineFaultDetection分析冠军代码。源文件URL：https://www.kaggle.com/code/mark4h/vsb-1st-place-solution关键信息LGB标准5折验证9个特征所有特
机器学习网格搜索超参数优化实战(随机森林) ##4 恒c 机器学习随机森林人工智能
文章目录基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理模块时序特征衍生第一轮网格搜索第二轮搜索第三轮搜索第四轮搜索第五轮搜索基于Kaggle电信用户流失案例数据（可在官网进行下载）导入库#基础数据科学运算库importnumpyasnpimportpandasaspd#可视化库importseabornassnsimportmatplotlib.pyplotasplt#时间模块
多元统计分析课程论文-聚类效果评价 talle2021 数据分析机器学习聚类数据挖掘机器学习
数据集来源：UnsupervisedLearningonCountryData(kaggle.com)代码参考：Clustering:PCA|K-Means-DBSCAN-Hierarchical||Kaggle基于特征合成降维和主成分分析法降维的国家数据集聚类效果评价目录1.特征合成降维2.PCA降维3.K-Means聚类3.1对特征合成降维的数据聚类分析3.2对PCA降维的数据聚类分析摘要：本
R语言课程论文-飞机失事数据可视化分析 talle2021 数据分析 r语言数据分析数据可视化
数据来源：AirplaneCrashesSince1908(kaggle.com)代码参考：ExploringhistoricAirPlanecrashdata|Kaggle数据指标及其含义指标名含义Date事故发生日期(年-月-日)Time当地时间，24小时制，格式为hh:mmLocation事故发生的地点Operator航空公司或飞机的运营商Flight由飞机操作员指定的航班号Route事故前
Dataframe型数据分析技巧汇总我叫杨傲天学习笔记机器学习数据分析数据挖掘
Kaggle如何针对少量数据集比赛的打法。数据降维的几种方法HF.075|时间序列趋势性分析方法汇总机器学习必须了解的7种交叉验证方法（附代码）这个图！Python也能一键绘制了，而且样式更多..散点图，把散点图画出花来综述：机器学习中的模型评价、模型选择与算法选择！表格任务中的深度学习模型性能比较再见Onehot！KaggleMaster的上分神操作！特征重要性评估方法之排列重要性
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
关于商店销售量的数据处理小问题（Python）不期而遇__ python pandas 数据分析大数据
通过学校举行的某次学科竞赛，我接触到了kaggle上的一道题：StoreSales-TimeSeriesForecasting。由于题主资质尚浅，本文将对前期数据处理的一些小问题做出解答，不涉及后续更难的问题。此处放原题链接：StoreSales-TimeSeriesForecasting题主也是看了很多的资料，也看到了CSDN上另外一位大佬写的文章，收获颇多，此处也放一下链接：Kaggle实战：
学习笔记 2019-04-30 段勇_bf97
HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
数据分析基础之《pandas（8）—综合案例》 csj50 机器学习数据分析
一、需求1、现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data2、问题1想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？3、问题2对于这一组电影数据，如果我们想看Rating、Runtime(Minutes)的分布情况，应该如何呈现数据？4、问题3对于这
XGBoost算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
XGBoost在机器学习中被广泛应用于多种场景，特别是在结构化数据的处理上表现出色，XGBoost适用于多种监督学习任务，包括分类、回归和排名问题。在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。XGBoost是一种基于梯度提升决策树（GBDT）的算
Kaggle Intro Model Validation and Underfitting and Overfitting 卢延吉 New Developer 数据 (Data)ML &ME &GPT 机器学习
ModelValidationModelvalidationisthecornerstoneofensuringarobustandreliablemachinelearningmodel.It'stherigorousassessmentofhowwellyourmodelperformsonunseendata,mimickingreal-worldscenarios.Doneright,it
kaggle实战语义分割-Car segmentation（附源码）橘柚jvyou python 人工智能计算机视觉深度学习 pytorch
目录前言项目介绍数据集处理数据集加载定义网络训练网络验证网络前言本篇文章会讲解使用pytorch完成另外一个计算机视觉的基本任务-语义分割。语义分割是将图片中每个部分根据其语义分割出来，其相比于图像分类的不同点是，图像分类是对一张图片进行分类，而语义分割是对图像中的每个像素点进行分类。我们这里使用的语义分割数据集是kaggle上的一个数据集。数据集来源：https://www.kaggle.com
kaggle实战图像分类-Intel Image Classification（附源码）橘柚jvyou 分类人工智能 pytorch 计算机视觉深度学习
目录前言数据集加载定义网络训练网络验证网络前言本篇文章会讲解一个使用pytorch这个深度学习框架完成一个kaggle上的图像分类任务。主要会介绍如何加载数据集，导入网络训练数据，保存损失，精度变化曲线和最终模型，以及测试模型在验证集上的好坏。其数据集介绍可以看一下kaggle的网址，这里就不过多介绍。数据集来源：https://www.kaggle.com/datasets/puneet6060
机器学习 | 深入集成学习的精髓及实战技巧挑战亦世凡华、 #机器学习机器学习集成学习人工智能 boosting xgboost
目录xgboost算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，接下来将较详细的介绍XGBoost的算法原理。最优模型构建方法：构建最优模
称霸kaggle的XGBoost究竟是啥？猴小白
一、前言：kaggle神器XGBoost相信入了机器学习这扇门的小伙伴们一定听过XGBoost这个名字，这个看起来朴实无华的boosting算法近年来可算是炙手可热，别的不说，但是大家所熟知的kaggle比赛来看，说XGBoost是“一统天下”都不为过。业界将其冠名“机器学习竞赛的胜利女神”，当然，相信很多小伙伴也看过很多文章称其为“超级女王”。那么问题来了，为啥是女的？（滑稽~）XGBoost全
烹饪第一个U-Net进行图像分割小北的北 python 开发语言
今天我们将学习如何准备计算机视觉中最重要的网络之一：U-Net。如果你没有代码和数据集也没关系，可以分别通过下面两个链接进行访问：代码：https://www.kaggle.com/datasets/mateuszbuda/lgg-mri-segmentation?source=post_page-----e812e37e9cd0--------------------------------Ka
北京房价预测——Kaggle数据 GavinHarbus
日暮途远，人间何世将军一去，大树飘零概述之前学习了加州房价预测模型，便摩拳擦掌，从kaggle上找到一份帝都房价数据，练练手。实验流程实验数据从Kaggle中选择了帝都北京住房价格的数据集，该数据集摘录了2011～2017年链家网上的北京房价数据。image下载并预览数据下载并解压数据image预览数据image每一行代表一间房，每个房子有26个相关属性，其中以下几个需要备注：DOM:市场活跃天数
kaggle：泰坦尼克号获救预测_Titanic_EDA## 卜咦
问题数据来源于Kaggle，通过一组列有泰坦尼克号灾难幸存者或幸存者的训练样本集，我们的模型能否基于不包含幸存者信息的给定测试数据集确定这些测试数据集中的乘客是否幸存。代码与数据分析导入必要的包和titanic数据image数据集基本信息将数据分为不同类别，分别为类别型数据和数字型数据类别数据：Survived,Sex,andEmbarked.Ordinal:Pclass数字型数据：Age,Far
基于LLM的数据漂移和异常检测新缸中之脑 LLM
大型语言模型(LLM)的最新进展被证明是许多领域的颠覆性力量（请参阅：通用人工智能的火花：GPT-4的早期实验）。和许多人一样，我们非常感兴趣地关注这些发展，并探索LLM影响数据科学和机器学习领域的工作流程和常见实践的潜力。在我们之前的文章中，我们展示了LLM使用Kaggle竞赛中的表格数据提供预测的潜力。只需很少的努力（即数据清理和/或功能开发），我们基于LLM的模型就可以在几个竞赛参赛作品中获
Xgboost 大雄的学习人生
在最近的Kaggle竞赛中，利用Xgboost的队伍经常能问鼎冠军，那么问题来了，Xgboost为什么这么强呢？算法释义Xgboost是一种带有正则化项，并利用损失函数泰勒展开式中二阶导数信息优化求解并增加一些计算优化的梯度提升树。Xgboost的目标函数定义为：其中l为损失函数，Ω(ft(x))是用于惩罚ft(x)模型复杂度的正则化项。根据上述目标函数可以得到Xgboost在每一轮前向分步算法中
机器学习数据预处理方法（数据重编码） ##2 恒c 机器学习人工智能数据分析
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）一、离散字段的数据重编码1.OrdinalEncoder自然数排序2.OneHotEncoder独热编码3.ColumnTransformer转化流水线二、连续字段的特征变换1.标准化（Standardization）和归一化（Normalization）2.连续变量分箱3.连续变量特征转化的ColumnTransform
机器学习逻辑回归模型训练与超参数调优 ##3 恒c 机器学习逻辑回归人工智能
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）逻辑回归模型训练逻辑回归的超参数调优基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理部分可见：机器学习数据预处理方法（数据重编码）逻辑回归模型训练fromsklearn.metricsimportaccuracy_score,recall_score,precision_score,f1_score,ro
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
机器学习本科课程实验1 线性模型 11egativ1ty 机器学习本科课程机器学习人工智能
第三章线性模型3.1一元线性回归3.2多元线性回归3.3对数几率回归，线性判别分析（二选一）3.4类别不均衡3.1一元线性回归——Kaggle房价预测使用Kaggle房价预测数据集：打乱数据顺序，取前70%的数据作为训练集，后30%的数据作为测试集分别以LotArea,BsmtUnfSF,GarageArea三种特征作为模型的输入，SalePrice作为模型的输出在训练集上，使用最小二乘法求解模型
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	…	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	…	1	0	1	1
1	0	0	1	1	0	2	…	0	1	0	0
2	1	0	0	0	1	1	…	1	0	1	0
3	0	0	1	1	0	2	…	0	0	1	0
4	0	1	0	0	1	1	…	1	0	1	1

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	…	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	…	1	0	1	1
1	0	0	1	1	0	2	…	0	1	0	0
2	1	0	0	0	1	1	…	1	0	1	0
3	0	0	1	1	0	2	…	0	0	1	0
4	0	1	0	0	1	1	…	1	0	1	1