Rick_Restart

Python-泰坦尼克号生存率预测

链接: kaggle算法泰坦尼克号生存率预测.

1. 准备工具

# 导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

#准备前置工作
sns.set(style='darkgrid')   #使用画图风格
warnings.filterwarnings('ignore') #忽略警告
%matplotlib inline

2. 读取数据

train_data = pd.read_csv(r'titanic\train.csv')
test_data = pd.read_csv(r'titanic\test.csv')

3. 先观察数据内容

先观察训练集数据：

train_data.head()

PassengerId：旅客序号，对生存率无影响
Survived：生存（目标值）（“0”代表死亡，“1”代表生存）
Pclass：阶层，社会地位（分为1，2，3阶层，1阶层地位最高）
Name：旅客姓名
Sex：性别
Age：年龄
SibSp：船上的兄弟姐妹和配偶数量；
Parch：船上的父母子女数量；
Ticket：船票
Fare：票价
Cabin：船舱
Embarked：登船点

查看数据基本描述

train_data.describe()

训练集一共有891人，很明显“年龄”存在缺失值，再具体查看哪些特征值还包含缺失值。

train_data.isnull().sum()

训练集：“Age”缺失177个，“Cabin”缺失687个，“Embarked”缺失2个。由于“Cabin”缺失数量比较多，该特征值难以填补，预测时将会删除。

再看看测试集特征值缺失情况（方便分析中一起填补）：

test_data.isnull().sum()

测试集：“Age”缺失86个，“Cabin”缺失327个，“Fare”缺失1个。

4. 观察各特征值因素对生存率的影响

4.1 幸存者总体情况

fig,ax=plt.subplots(1,2,figsize=(16,7))
train_data.Survived.value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True,fontsize=13)
ax[0].set_title('Survived',fontsize=13)
ax[0].set_ylabel('')
sns.countplot('Survived',data=train_data,ax=ax[1])
ax[1].set_title('Survived',fontsize=13)
for y, x in enumerate(train_data.Survived.value_counts()):
    plt.text(y, x , x, fontsize=13)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.show()

训练集中总人数为891人，其中幸存者342人，占比38.4%，生存率比较低。

4.2 性别因素影响的情况

pd.crosstab(train_data['Sex'],train_data['Survived'],margins=True).style.background_gradient(cmap='Greens')

pd.crosstab(train_data['Sex'],train_data['Survived'],normalize=0,margins=True).style.background_gradient(cmap='Greens')

fig,ax = plt.subplots(1,2,figsize=(18,8))
train_data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex',fontsize=13)
sns.countplot('Sex',hue='Survived',data=train_data,ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead',fontsize=13)
plt.show()

登船人数中，女性一共314人，男性577人，女性生存率为74.20%，男性为18.89%，女性生存率远高于男性。该特征值为重要特征值。

4.3 社会地位因素影响的情况

pd.crosstab(train_data['Pclass'],train_data['Survived'],margins=True).style.background_gradient(cmap='Greens')

pd.crosstab(train_data['Pclass'],train_data['Survived'],normalize=0,margins=True).style.background_gradient(cmap='Greens')

fig,ax=plt.subplots(1,2,figsize=(18,8))
train_data['Pclass'].value_counts().plot.bar(color=['darkgreen','lightseagreen','skyblue'],ax=ax[0]) 
ax[0].set_title('Number of Passengers By Pclas',fontsize=13)
ax[0].set_ylabel('Count')
sns.countplot('Pclass',hue='Survived',data=train_data,ax=ax[1])
ax[1].set_title('pclas:Survived vs Dead',fontsize=13)
plt.show()

1阶层生存率最高，约63%；3阶层人数最多，生存率最低，约24%；2阶层比较均衡。特征值为重要特征值。

4.4 性别与社会地位因素共同影响的情况

pd.crosstab([train_data.Sex,train_data.Survived],train_data.Pclass,margins=True).style.background_gradient(cmap='Greens')

sns.factorplot('Pclass','Survived',hue='Sex',data=train_data)
plt.show()

无论处于哪个阶层，女性的生存率始终比男性高，两因素相比，“性别”特征值的重要性大于“阶层”。（女士优先）

4.5 年龄因素影响的情况

年龄存在缺失值，先观察年龄的基本情况。

train_data.Age.describe()

最小值为0.42岁（5个多月？），最大值为80岁。缺失177个数据。

fig,ax=plt.subplots(1,2,figsize=(18,8))
sns.violinplot('Pclass','Age',hue='Survived',data=train_data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived',fontsize=13)
ax[0].set_yticks(range(0,110,10))
sns.violinplot('Sex','Age',hue='Survived',data=train_data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived',fontsize=13)
ax[1].set_yticks(range(0,110,10))
plt.show()

年龄分布基本集中在20-38岁之间，从上图数据观测，年龄偏小的生存率比年龄偏大的生存率高。（小孩优先）

填充年龄缺失值

根据名字中的称呼分组，计算各组年龄均值作为缺失值填充依据。
训练集

train_data['Initial']=train_data.Name.str.extract('([A-Za-z]+)\.')
pd.crosstab(train_data.Sex,train_data.Initial)

各称谓年龄分布

pd.pivot_table(train_data,index=["Initial"],values=["Age"],aggfunc=[np.mean,len],margins=True)

train_data.Initial.value_counts().plot.bar()
plt.title("train_data['Initial'].count")
fig=plt.gcf()
fig.set_size_inches(18,5)
plt.show()

头衔的解读：（归类）

Mr:既可以用于已婚男性，也可以用于未婚男性
Mrs:已婚女士
Miss:称呼未婚女士，有时也用于自己不了解的年龄较大的妇女
Master:男童或男婴
Don:大学老师
Rev:牧师
Dr:医生或者博士
Mme:女士
Ms:既可以用于已婚女士也可以用于未婚女士
Major:陆军少校
Lady:公侯伯爵的女儿
Sir:上级长官
Mile:小姐
Col:上校（常用于陆空军）
Capt:船长
Countess:伯爵夫人
Jonkheer:乡绅

再观察训练集缺失值的称谓：

train_data[train_data.Age.isnull()].groupby('Initial')['Initial'].count()

训练集的称谓分布基本集中在：Mr，Miss，Mrs，Master，缺失值也基本集中在这些称谓中。

测试集

test_data['Initial']=test_data.Name.str.extract('([A-Za-z]+)\.')
pd.crosstab(train_data.Sex,train_data.Initial).style.background_gradient(cmap='Greens')

pd.pivot_table(test_data,index=["Initial"],values=["Age"],aggfunc=[np.mean,len],margins=True)

test_data.Initial.value_counts().plot.bar()
plt.title("test_data['Initial'].count")
fig=plt.gcf()
fig.set_size_inches(18,5)
plt.show()

再观察测试集缺失值的称谓：

test_data[test_data.Age.isnull()].groupby('Initial')['Initial'].count()

测试集的称谓分布基本集中在：Mr，Miss，Mrs，Master，缺失值也基本集中在这些称谓中。

缺失值填充按训练集与测试集数据拼接后的平均值进行填充。

train_AI = train_data[['Age','Initial']]
test_AI = test_data[['Age','Initial']]
tt_AI = pd.concat((train_AI,test_AI))
pd.pivot_table(tt_AI,index=["Initial"],values=["Age"],aggfunc=[np.mean,len],margins=True)

Age缺失值填充
训练集Age缺失值填充

train_data.loc[(train_data.Age.isnull())&(train_data.Initial=='Dr'),'Age']=44
train_data.loc[(train_data.Age.isnull())&(train_data.Initial=='Master'),'Age']=6
train_data.loc[(train_data.Age.isnull())&(train_data.Initial=='Miss'),'Age']=22
train_data.loc[(train_data.Age.isnull())&(train_data.Initial=='Mr'),'Age']=33
train_data.loc[(train_data.Age.isnull())&(train_data.Initial=='Mrs'),'Age']=28

测试集Age缺失值填充

test_data.loc[(test_data.Age.isnull())&(test_data.Initial=='Master'),'Age']=6
test_data.loc[(test_data.Age.isnull())&(test_data.Initial=='Miss'),'Age']=22
test_data.loc[(test_data.Age.isnull())&(test_data.Initial=='Mr'),'Age']=33
test_data.loc[(test_data.Age.isnull())&(test_data.Initial=='Mrs'),'Age']=37
test_data.loc[(test_data.Age.isnull())&(test_data.Initial=='Ms'),'Age']=28

检查数据是否填充成功

In:	train_data.Age.isnull().sum()
Out:0
In:	test_data.Age.isnull().sum()
Out:0

填充数据后再观察数据：

fig=plt.figure(figsize=(18,16))
ax1=fig.add_subplot(2,2,1)
sns.violinplot('Pclass','Age',hue='Survived',data=train_data,split=True,ax=ax1)
ax1.set_title('Pclass and Age vs Survived(Comparison with the original data)',fontsize=13)
ax2=fig.add_subplot(2,2,2)
sns.violinplot('Sex','Age',hue='Survived',data=train_data,split=True,ax=ax2)
ax2.set_title('Sex and Age vs Survived(Comparison with the original data)',fontsize=13)
ax3=fig.add_subplot(2,2,3)
x1=list(range(0,85,5))
ax3.set_xticks(x1)
train_data[train_data['Survived']==0].Age.plot.hist(ax=ax3,bins=20,edgecolor='black',color='darkred')
ax3.set_title('Survived= 0',fontsize=13)
ax4=fig.add_subplot(2,2,4)
train_data[train_data['Survived']==1].Age.plot.hist(ax=ax4,color='darkgreen',bins=20,edgecolor='black')
ax4.set_title('Survived= 1',fontsize=13)
x2=list(range(0,85,5))
ax4.set_xticks(x2)
plt.show()

Age缺失值填充完与原数据(含缺失值)在形态上并没太大出入。死亡人数与生存人数基本集中在15-35岁之间，这与船上人员的年龄分布相符合，值得注意的是0-15岁之间获救的人数也比较多。

结合社会地位观察主要年龄段(称谓)生存率的趋势

train_Initial_find=train_data[(train_data.Initial=='Miss')|(train_data.Initial=='Mr')|(train_data.Initial=='Mrs')|(train_data.Initial=='Master')]
sns.factorplot('Pclass','Survived',col='Initial',data=train_Initial_find)
plt.show()

几乎各年龄段的社会地位越低，生存率越低。

4.6 登船点因素影响的情况

pd.crosstab([train_data.Embarked],train_data.Survived,margins=True).style.background_gradient(cmap='Greens')

fig = plt.figure(figsize=(18,6))
ax1 = fig.add_subplot(1,3,1)
ax1 = sns.countplot('Embarked',data=train_data)
for y, x in enumerate(train_data.Embarked.value_counts()):
    plt.text(y, x , x, fontsize=13,horizontalalignment='center')
ax1.set_title('Embarked Total number of people')
ax2 = fig.add_subplot(1,3,2)
ax2 = sns.countplot('Embarked',hue='Survived',data=train_data)
ax2.set_title('Embarked vs Survived Total number of people')
ax3=fig.add_subplot(1,3,3)
ax3 =sns.barplot('Embarked','Survived',data=train_data)
ax3.set_title('Embarked survival rate')
ax4 = fig.add_subplot(1,3,3)
ax4 = sns.factorplot('Embarked','Survived',data=train_data)
plt.show()

S港口的登船人数最多，幸存者人数也最多，但生存率最低。

fig,ax = plt.subplots(1,3,figsize=(18,8))
train_data[train_data.Embarked=='S'].groupby(['Sex'])['Embarked'].count().plot.pie(explode=[0,0.1],labels=['female, 203','male, 441'],
                                                                                 autopct='%1.1f%%',shadow=True,fontsize=12,ax=ax[0])
ax[0].set_title('Embarked=S',fontsize=13)
ax[0].set_ylabel('')
train_data[train_data.Embarked=='Q'].groupby(['Sex'])['Embarked'].count().plot.pie(explode=[0,0.1],labels=['female, 36','male, 41'],
                                                                                 autopct='%1.1f%%',shadow=True,fontsize=12,ax=ax[1])
ax[1].set_title('Embarked=Q',fontsize=13)
ax[1].set_ylabel('')
train_data[train_data.Embarked=='C'].groupby(['Sex'])['Embarked'].count().plot.pie(explode=[0,0.1],labels=['female, 73','male, 95'],
                                                                                 autopct='%1.1f%%',shadow=True,fontsize=12,ax=ax[2])
ax[2].set_title('Embarked=C',fontsize=13)
ax[2].set_ylabel('')
plt.show()

每个登船点的男女比例：

sns.factorplot('Pclass','Survived',hue='Sex',col='Embarked',data=train_data)
plt.show()

性别+社会地位对生存率的影响

每个登船点人数男性比女性多，但是每个登船点无论是哪个阶层都是女性的生存率比男性高。S登船点阶层1的生存率>阶层2的生存率>阶层3的生存率，但C、Q登船点的男性生存率却不符合这一规则，这可能是C，Q登船点的阶层1阶层2的基数很小导致的。

pd.pivot_table(train_data,index=['Embarked','Pclass','Sex'],values=['Survived'],aggfunc=[len,sum],margins=True)

sns.countplot('Embarked',hue='Pclass',data=train_data)
plt.show()

从以上数据看出，C登船点的阶层2人数很少，Q登船点机会没有阶层1跟阶层2的，这就符合我们之前的判断了。

登船点缺失值填补
登船点缺失值有两个，先看看这两个缺失值对应的社会地位。

train_data[train_data.Embarked.isnull()]

两个缺失值都是阶层1的，阶层1人数最多的登船点是S港，这里的缺失值填补将直接使用“S”值填充。

train_data.Embarked[train_data.Embarked.isnull()]="S"

再检查一下缺失值：

In：train_data.Embarked.isnull().sum()
Out:0

缺失值填充完成

4.7兄弟姐妹数量(sibsip)和父母和孩子数量(Parch)因素影响的情况

pd.crosstab(train_data.SibSp,[train_data.Survived,train_data.Pclass],margins=True).style.background_gradient(cmap='Greens')
pd.crosstab(train_data.Parch,[train_data.Survived,train_data.Pclass],margins=True).style.background_gradient(cmap='Greens')

先看基本情况

fig,ax = plt.subplots(1,2,figsize=(18,8))
sns.factorplot('SibSp','Survived',data=train_data,ax=ax[0])
sns.factorplot('Parch','Survived',data=train_data,ax=ax[1])
plt.close(1)
plt.show()

可以看到，SibSp人数在1-2个内生存率有所提高，Parch人数在1-3个生存率也也有提高。再结合社会地位看看生存率情况。

fig,ax = plt.subplots(1,2,figsize=(20,8))
sns.barplot('SibSp','Survived',hue='Pclass',data=train_data,ax=ax[0])
ax[0].set_title('SibSp&Pclass vs Survived')
sns.barplot('Parch','Survived',hue='Pclass',data=train_data,ax=ax[1])
ax[1].set_title('Parch&Pclass vs Survived')
plt.show()

无论哪个阶层，SibSp数量在1-2个内比0个生存率高，阶层1和阶层3在SibSp生存率也比0个高，而阶层3就骤然下降。Parch数量在1-3个内比0个生存率高。从数据看出，SibSp和Parch数量大于3生存率都不高，并且数量大于3这种大家庭几乎都在阶层3。

4.8船票价格因素的影响

先看基本描述：

train_data.Fare.describe()

最大值为512.3292，最小值为0

社会地位对应的票价分布

f,ax=plt.subplots(1,3,figsize=(20,8))
sns.distplot(train_data[train_data['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(train_data[train_data['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(train_data[train_data['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()

可以看到阶层1的票价普遍高于阶层2票价高于阶层3票价。再看看每个价格段对应的生存率，这里将票价分成12份，主要是这样分出来的人数比较均匀。

train_data['Fare_Range']=pd.qcut(train_data.Fare,12)
Fare_S = train_data.groupby('Fare_Range')['Survived'].sum()  #每个分段存活人数
Fare_T = train_data.groupby('Fare_Range')['Survived'].count() #每个分段总人数
Fare_STR = pd.concat([Fare_S,Fare_T],axis=1)
Fare_STR.columns = ['Survived','Total']
Fare_STR['Rate']= (Fare_S/Fare_T)
Fare_STR

plt.figure(figsize=(18,5))
plt.scatter(range(12),Fare_STR.Rate,color="green")
plt.plot(range(12),Fare_STR.Rate)
plt.xticks(range(12),Fare_STR.index)
plt.show()

基本上票价高的比票价低有更高的生存率。

处理测试集：

由于测试集的Fare存在缺失值，
先查看缺失值信息：阶层3，男性

test_data[test_data.Fare.isnull()]

填补策略按阶层和性别的平均值填补。

test_data.groupby(['Pclass','Sex'])['Fare'].mean()

test_data.Fare[test_data.Fare.isnull()]=11.830688

填补完成后，按训练集的方法同样处理测试集

test_data['Fare_Range']=pd.qcut(test_data.Fare,12)

4.9船票号码因素的影响(最后的结果显示，加了这步得分更低，决定放弃）

由于船票号存在相同号码，于是我做了个统计，船票不相同（count=1）有547张，生存人数有163人，生存率为0.297989，详细见下图。

table=pd.pivot_table(train_data,index=['Ticket'],values=['Survived'],aggfunc=[len,sum],margins=True)
tf = pd.DataFrame(table)
tf.columns = ['count','Survived']
Ticket_count = pd.concat([tf.groupby('count')['Survived'].sum(),tf.groupby('count')['count'].sum()],axis=1)
Ticket_count['Rate']=tf.groupby('count')['Survived'].sum()/tf.groupby('count')['count'].sum()
Ticket_count

将票号出现的次数插入到train_data表里

train_data = pd.merge(train_data,table['count'],on="Ticket")
train_data.rename(columns={'count':'Ticket_count'},inplace=True) #改列名
train_data.head()

sns.factorplot('Ticket_count','Survived',data=train_data)
plt.show()

可以看Ticket_count数量在2-4张之间的生存率要比1张高，大于4张后生存率下降。

同样处理测试集

table_test=pd.pivot_table(test_data,index=['Ticket'],values=['PassengerId'],aggfunc=len,margins=True)
tf_test = pd.DataFrame(table_test)
tf_test.columns = ['count']
test_data = pd.merge(test_data,tf_test['count'],on="Ticket")
test_data.rename(columns={'count':'Ticket_count'},inplace=True)

test_data.groupby('Ticket_count')['Ticket_count'].count()

票号相同的数据也是不少的。

概况特征值影响状况：

性别因素对生存率的影响：女性>男性
社会地位因素对生存率的影响：阶层1>阶层2>阶层3
年龄因素对生存率的影响：0-15岁有较高的生存率，大于60岁生存率较低，幸存者集中在15-35岁之间。
登船点因素对生存率的影响：S港口登船人数最多，也是阶层3登船人数最多的一个港口，生存率最低。该因素其实不是很重要。
兄弟姐妹数量与父母孩子数量对生存率的影响：SibSp人数在1-2个内生存率有所提高，Parch人数在1-3个生存率也也有提高。
船票价格因素对生存率的影响：高昂的船票价格生存率比低价的船票生存率普遍要高。
船票号码因素对生存率的影响：有2-4张船票号码相同的能提高生存率。（类似SibSp和Parch分析）

5.特征工程和数据清洗

5.1 年龄分段

先观察年龄分布

plt.figure(figsize=(18,8))
train_data.Age.plot.hist(bins=80)
plt.xlim(0,80)
plt.xticks(range(81))
plt.show()

将年龄分为5份：每份组距16。

train_data['Age_band']=0
train_data.loc[train_data['Age']<=16,'Age_band']=0
train_data.loc[(train_data['Age']>16)&(train_data['Age']<=32),'Age_band']=1
train_data.loc[(train_data['Age']>32)&(train_data['Age']<=48),'Age_band']=2
train_data.loc[(train_data['Age']>48)&(train_data['Age']<=64),'Age_band']=3
train_data.loc[train_data['Age']>64,'Age_band']=4

同样处理测试集

test_data['Age_band']=0
test_data.loc[test_data['Age']<=16,'Age_band']=0
test_data.loc[(test_data['Age']>16)&(test_data['Age']<=32),'Age_band']=1
test_data.loc[(test_data['Age']>32)&(test_data['Age']<=48),'Age_band']=2
test_data.loc[(test_data['Age']>48)&(test_data['Age']<=64),'Age_band']=3
test_data.loc[test_data['Age']>64,'Age_band']=4

5.2 家庭总人数

将SibSp和Parch合在一起，构成一个新的特征值

train_data['Family_Size']=0
train_data['Family_Size']=train_data['Parch']+train_data['SibSp'] #family size
train_data['Alone']=0
train_data.loc[train_data.Family_Size==0,'Alone']=1 #Alone

test_data['Family_Size']=0
test_data['Family_Size']=test_data['Parch']+test_data['SibSp'] #family size
test_data['Alone']=0
test_data.loc[test_data.Family_Size==0,'Alone']=1 #Alone

5.3 船票价格

处理训练集

train_data['Fare_cat']=0
train_data.loc[train_data['Fare']<=7.91,'Fare_cat']=0
train_data.loc[(train_data['Fare']>7.91)&(train_data['Fare']<=14.454),'Fare_cat']=1
train_data.loc[(train_data['Fare']>14.454)&(train_data['Fare']<=31),'Fare_cat']=2
train_data.loc[(train_data['Fare']>31)&(train_data['Fare']<=513),'Fare_cat']=3

处理测试集

test_data['Fare_cat']=0
test_data.loc[test_data['Fare']<=7.91,'Fare_cat']=0
test_data.loc[(test_data['Fare']>7.91)&(test_data['Fare']<=14.454),'Fare_cat']=1
test_data.loc[(test_data['Fare']>14.454)&(test_data['Fare']<=31),'Fare_cat']=2
test_data.loc[(test_data['Fare']>31)&(test_data['Fare']<=513),'Fare_cat']=3

5.4转换特征值

处理训练集

train_data['Sex'].replace(['male','female'],[0,1],inplace=True)
train_data['Embarked'].replace(['S','C','Q'],[0,1,2],inplace=True)
train_data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Mr','Mr','Mr','Mr','Mr','Mr'],inplace=True)
train_data['Initial'].replace(['Mr','Mrs','Miss','Master'],[0,1,2,3],inplace=True)

处理测试集

test_data['Sex'].replace(['male','female'],[0,1],inplace=True)
test_data['Embarked'].replace(['S','C','Q'],[0,1,2],inplace=True)
test_data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don','Dona'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Mr','Mr','Mr','Mr','Mr','Mr','Mrs'],inplace=True)
test_data['Initial'].replace(['Mr','Mrs','Miss','Master'],[0,1,2,3],inplace=True)

5.5 删除多余特征值

处理训练集

train_data.drop(['Name','Age','Ticket','Fare','Cabin','PassengerId','Ticket_count'],axis=1,inplace=True)

处理测试集

test_data.drop(['Name','Age','Ticket','Fare','Cabin','PassengerId','Ticket_count'],axis=1,inplace=True)

显示处理后的效果

train_data

sns.heatmap(train_data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

6.机器学习建模

#importing all the required ML packages
from sklearn.linear_model import LogisticRegression #logistic regression
from sklearn import svm #support vector Machine
from sklearn.ensemble import RandomForestClassifier #Random Forest
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.naive_bayes import GaussianNB #Naive bayes
from sklearn.tree import DecisionTreeClassifier #Decision Tree
from sklearn.model_selection import train_test_split #training and testing data split
from sklearn import metrics #accuracy measure
from sklearn.metrics import confusion_matrix #for confusion matrix

from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction

kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
xyz=[]
accuracy=[]
std=[]
classifiers=['Linear Svm','Radial Svm','Logistic Regression','KNN','Decision Tree','Naive Bayes','Random Forest']
models=[svm.SVC(kernel='linear'),svm.SVC(kernel='rbf'),LogisticRegression(),KNeighborsClassifier(n_neighbors=9),DecisionTreeClassifier(),GaussianNB(),RandomForestClassifier(n_estimators=100)]
for i in models:
    model = i
    cv_result = cross_val_score(model,X,Y, cv = kfold,scoring = "accuracy")
    cv_result=cv_result
    xyz.append(cv_result.mean())
    std.append(cv_result.std())
    accuracy.append(cv_result)
new_models_dataframe2=pd.DataFrame({'CV Mean':xyz,'Std':std},index=classifiers)       
new_models_dataframe2

得分最高的是Radial Svm模型,着重对Svm模型进行调参。

from sklearn.model_selection import GridSearchCV
C=[0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
kernel=['rbf','linear']
hyper={'kernel':kernel,'C':C,'gamma':gamma}
gd=GridSearchCV(estimator=svm.SVC(),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

训练模型，输出结果：

submission = pd.read_csv(r'titanic\gender_submission.csv')
model=svm.SVC(kernel='rbf',C=0.6,gamma=0.1,random_state=30)
model.fit(train_X,train_Y)
prediction1=model.predict(test_X)
print('Accuracy for rbf SVM is ',metrics.accuracy_score(prediction1,test_Y))
pred= model.predict(test_data)
submission['Survived']=preds
submission.to_csv('prediction.csv',index=None)

最后得分：0.78947 。（尝试了很多次调整数据，都无法突破0.8，等学完深度学习再看看）

方法参考“黑马python人工智能”

你可能感兴趣的:(案例,机器学习)

机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
西门子PLC转MQTT协议OPC协议网关应用案例钡铼技术网关工业物联网关钡铼PLC采集网关 PLC物联网关物联网 PLC转MQTT网关 PLC采集网关嵌入式OPC UA网关
BL102是一款采集西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC数据转换为ModbusTCP、OPCUA、MQTT、华为云IoT、亚马逊云IoT、阿里云IoT、金鸽云等协议的网关。BL102下行支持：西门子、三菱、欧姆龙、台达、AB、施耐德等各种PLC。BL102上行支持：ModbusTCP、MQTT、OPCUA、华为云IoT、阿里云IoT、AWSIoT、金鸽云等协议。BL102支持OPC
证券交易系统核心技术解析：LinkTrader 的毫秒级响应架构与风控实践 Ashlee_code 架构 python java c++
一、行业痛点：为什么传统交易系统正在被淘汰？2024年，证券行业guweng22346的技术竞争已从“功能完备”转向**“速度+智能”的极限博弈**。以下是传统系统的三大致命缺陷：数据延迟：非官方行情源导致套利窗口丢失（实测延迟普遍>0.1秒）；风控低效：依赖人工监控，凌晨时段风险拦截率不足30%；扩展性差：单体架构下订单处理峰值低于10万/秒，极易崩溃。典型案例：某券商因系统延迟0.05秒，单日
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
AI如何创作音乐及其案例 alankuo 人工智能
AI创作音乐主要有以下几种方式：基于深度学习的生成模型深度神经网络：通过大量的音乐数据训练，让AI学习音乐的结构、旋律、和声、节奏等特征。如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。两者相互对抗、不断优化，使生成器生成更逼真的音乐。变分自编码器（
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
第二十五篇 SQL优化杀手锏：用分析函数让你的查询快如闪电随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录一、初识分析函数：外卖骑手的一天1.1真实工作场景二、分析函数三板斧（超直观对比表）三、手把手教学：5大核心函数详解️3.1排名三剑客（班级成绩单案例）3.1.1ROW_NUMBER()：唯一学号式排名3.1.2RANK()：运动会颁奖式排名3.1.3DENSE_RANK()：电梯楼层式排名3.2时间旅行函数（股票分析案例）3.3滑动窗口函数（疫情数据分析）四、性能优化三大绝招（让老板眼前一亮
第十一篇 SQL高级处理：窗口函数和GROUPING运算符，看这篇就够了随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录1.窗口函数：像班级排名一样分析数据1.1什么是窗口函数？1.2三大排名函数对比（附生活案例）1.3累计统计：你的工资今年涨了多少？1.4移动平均：预测股票走势的秘密武器2.GROUPING运算符：自动生成Excel式合计行2.1ROLLUP：自动加小计和总计2.2CUBE：所有维度组合统计2.3GROUPINGSETS：只生成我需要的统计3.实战技巧+避坑指南✅必看技巧⚠️常见错误4.互动问
第十六篇 SQL优化之计划控制：进阶之路带上这篇文章，快到起飞随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录一、执行计划是啥？为啥要控制它？1.1执行计划就像导航路线1.2不管控执行计划的后果二、操控执行计划的「三板斧」2.1第一招：HINT大法（直接下指令）2.2第二招：暗度陈仓（间接引导）方法1：统计信息大法方法2：虚拟列黑科技方法3：分区表妙用2.3第三招：计划冻结术（一劳永逸）SQLProfilevsBaseline对比表三、实战演练：从青铜到王者案例：分页查询优化（5秒→0.1秒）四、课后
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
OpenStack Heat模板实战：快速创建用户、容器、网络与云主机类型冯·诺依曼的 openstack 网络 ssh 运维云计算
Heat是OpenStack中的编排服务，通过YAML模板自动化资源管理。本文通过4个实战案例，详解如何用Heat模板创建用户体系、Swift容器、网络资源及云主机类型。一、创建用户、Domain、租户及用户绑定目标：在chinaskillsDomain下创建beijing_group租户，并创建用户cloud。#user_create.ymlheat_template_version:2016-
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
系统架构师备考——系统架构设计篇（软件架构）牛马程序员小邓系统架构师备考笔记系统架构
系统架构师备考日记（2.24）第7章系统架构篇（一）——软件架构文章目录系统架构师备考日记（2.24）考点一、软件架构定义二、软件架构设计与生命周期2.1生命周期2.1.1需求分析阶段2.1.2设计阶段2.1.3实现阶段2.1.4构件组装阶段2.1.5部署阶段2.1.6后开发阶段三、软件架构的重要性总结考点单项选择题（约占8～15分）和下午案例题（25分），论文一、软件架构定义软件体系结构是指系统
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
嵌入式开发中的Doxygen注释规范实践剁椒鱼头炖香菇 c语言 stm32 单片机
目录一、为什么需要规范的注释？二、Doxygen注释规范详解1.文件注释2.函数注释3.宏定义注释4.结构体注释三、注释规范最佳实践1.文件注释模板2.函数注释模板3.代码注释原则四、常见注释误区与解决方案误区1：过度注释误区2：过时注释误区3：模糊注释五、工具推荐六、项目实践案例七、总结一、为什么需要规范的注释？在嵌入式开发中，规范的代码注释如同精密仪器的说明书，具有以下重要作用：提高可读性：使
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
《动态磁盘RAID阵列：深度解析与实战指南》懂技术的小又又计算机服务器 linux 数据库运维 windows 计算机网络
目录一、RAID技术概述常见RAID级别RAID0：条带化，提升读写性能，无冗余RAID1：镜像，数据冗余，提供数据保护RAID5：奇偶校验，提供冗余和负载均衡RAID10：镜像+条带化，兼具数据保护和高性能二、动态磁盘管理动态磁盘的优势三、动态磁盘RAID阵列实战实验环境搭建（vmvareworkstation）四、实际应用案例五、RAID技术的优化与维护六、RAID技术的未来发展七、软RAID
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
HarmonyNext实战：基于ArkTS的跨平台文件管理系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台文件管理系统开发引言随着HarmonyNext的发布，ArkTS作为其核心开发语言，为开发者提供了更高效、更灵活的编程体验。本文将围绕文件管理系统的开发，详细讲解如何利用ArkTS构建一个跨平台的高效文件管理工具。通过本案例，您将掌握ArkTS的核心语法、HarmonyNext的API调用以及实际开发中的最佳实践。一、项目背景与需求分析1.1项目背
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
CSS3学习教程，从入门到精通，CSS3 列表样式语法知识点及案例代码（8）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 css html5 html Java开发
CSS3列表样式语法知识点及案例代码一、列表样式类型1.list-style-type属性用于指定列表项标记的样式类型。语法格式：list-style-type:;取值说明：对于无序列表（），常见的取值有：disc：实心圆（默认值）。circle：空心圆。square：实心方块。none：无标记。对于有序列表（），常见的取值有：decimal：数字（默认值）。lower-roman：小写罗马数字。
CSS3学习教程，从入门到精通，CSS3 选择器权重问题语法知识点及案例代码（5）知识分享小能手网页开发编程语言如门前端开发 css3 学习前端 html5 html java css
CSS3选择器权重问题语法知识点及案例代码一、选择器权重概述在CSS中，当多个选择器同时匹配同一个元素时，浏览器会根据选择器的权重来决定哪个样式生效。权重高的选择器的样式会覆盖权重低的选择器的样式。二、选择器权重计算规则1.内联样式（InlineStyles）内联样式直接写在HTML元素的style属性中，权重为1000。2.ID选择器（IDSelectors）ID选择器以#开头，权重为100。3
CSS3学习教程，从入门到精通，CSS3 常用文本属性语法知识点及案例代码（6）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 css html5 javascript web开发
CSS3常用文本属性语法知识点及案例代码一、文本颜色(color)语法:color:;取值:颜色名称:例如red,blue,green等十六进制颜色值:例如#ff0000,#00ff00,#0000ff等RGB颜色值:例如rgb(255,0,0),rgb(0,255,0),rgb(0,0,255)等RGBA颜色值:例如rgba(255,0,0,0.5),rgba(0,255,0,0.5),rgba
CSS3学习教程，从入门到精通， CSS3 样式引入语法知识点及案例代码（2）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 html5 html 开发语言 css
CSS3样式引入语法知识点及案例代码一、CSS3样式引入方式CSS3样式可以通过以下几种方式引入到HTML文档中：1.内联样式(InlineStyles)语法：直接在HTML元素的style属性中编写CSS代码。优点：优先级最高，方便调试。缺点：不利于维护和复用，代码冗余。案例：这是一个段落。2.内部样式表(InternalStyleSheet)语法：在HTML文档的标签内使用标签定义CSS样式。
探索大模型应用：构建基于检索的RAG实战指南李逍遥猿人工智能计算机视觉 microsoft AIGC 开源深度学习神经网络
在AI技术的浪潮中，大模型以其强大的问题回答能力，正逐渐渗透到各行各业，成为推动行业发展的新引擎。然而，大模型并非万能，它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制，本文将带你深入了解如何利用检索增强生成模型（RAG）来扩展大模型的能力，并通过一个实战案例，展示如何构建一个基于RAG的AI知识库。一、大模型的局限与RAG的机遇大模型虽然在处理通用问题上表现出色，但在面对实时数据和私有领
Python入门到精通（三）：数据结构第一部分 love9599 Python入门到精通 python 开发语言
python的常用数据结构类型字符型字典列表元组、集合一、序列序列：是python中的一类数据类型，比如字符串、列表序列类型的对象是可以进行循环变例的1.1序列特性索引：指的是在序列中找到指定元素的索引编号切片：指的是从序列中提取一部分内容加法：序列对象可以将多个序列合并成一个乘法：可以将序列通过乘法输出多个相同的1.2序列操作索引操作格式：序列名[索引值]#案例1：str1="hello"#定义
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
HarmonyOS NEXT开发实战：Navigation页面跳转对象传递案例一晃有一秋鸿蒙实例鸿蒙 harmonyos 华为鸿蒙鸿蒙系统 android
介绍本示例主要介绍在使用Navigation实现页面跳转时，如何在跳转页面得到转入页面传的类对象的方法。实现过程中使用了第三方插件class-transformer，传递对象经过该插件的plainToClass方法转换后可以直接调用对象的方法，效果图预览使用说明从首页进入本页面时，会传递一个类对象UserBookingInfo。点击“换个座位”按钮会调用该类对象的generateRandSeatN
HarmonyOS NEXT开发实战：视频全屏切换案例一晃有一秋鸿蒙鸿蒙实例 harmonyos 华为鸿蒙鸿蒙系统 android 音视频
介绍本示例介绍了@ohos.multimedia.media组件和@ohos.window接口实现媒体全屏的功能。该场景多用于首页瀑布流媒体播放等。效果图预览使用说明：点击全屏按钮，横屏媒体窗口。点击恢复窗口按钮，恢复媒体窗口。实现步骤初始化@ohos.multimedia.media的AVPlayer。asyncInit():Promise{awaitthis.release();constco
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Python-泰坦尼克号生存率预测

1. 准备工具

2. 读取数据

3. 先观察数据内容

4. 观察各特征值因素对生存率的影响

4.1 幸存者总体情况

4.2 性别因素影响的情况

4.3 社会地位因素影响的情况

4.4 性别与社会地位因素共同影响的情况

4.5 年龄因素影响的情况

4.6 登船点因素影响的情况

4.7兄弟姐妹数量(sibsip)和 父母和孩子数量(Parch)因素影响的情况

4.8船票价格因素的影响

4.9船票号码因素的影响(最后的结果显示，加了这步得分更低，决定放弃）

概况特征值影响状况：

5.特征工程和数据清洗

5.1 年龄分段

5.2 家庭总人数

5.3 船票价格

5.4转换特征值

5.5 删除多余特征值

显示处理后的效果

6.机器学习建模

你可能感兴趣的:(案例,机器学习)

4.7兄弟姐妹数量(sibsip)和父母和孩子数量(Parch)因素影响的情况