Tensorflow——预测泰坦尼克号乘客的存活率

一、数据预处理

首先,我们手上的数据有三个文件:train.csv是用于训练的,test.csv是用于测试的,gender.csv是对应于test的一个标签。

首先,我们来分析数据集的结构:

Tensorflow——预测泰坦尼克号乘客的存活率_第1张图片

对于是否获救来说,Id、姓名(Name)、票号(Ticket)并没有影响,所以我们将这三列剔除:

data = pd.read_csv('./data/train.csv')
#剔除影响较小的特征
data = data[[ 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp',
       'Parch',  'Fare', 'Cabin', 'Embarked']]

我们需要将数据集中的字母类型转化为数字编码:

对于Cabin,他是由字母和数字同时组成的,这里使用了pd.factorize(),关于这个方法的解释,可以参考https://blog.csdn.net/ssswill/article/details/86555935,于是代码如下:

data['Cabin'] = pd.factorize(data.Cabin)[0]

由于数据集中存在一些空值,所以要去填充这些空值为0,fillna()中的inplace为True时代表直接修改原对象,为False代表创建副本后修改副本,于是代码如下:

data.fillna(0,inplace = True)

对于性别一栏的处理相对简单,如下:

data['Sex'] = [1 if x == 'male' else 0 for x in data.Sex]

Pclass一栏代表船舱等级,为了避免将编号理解成倍数数值关系,这里使用类似于独热编码的方式,将编号转换成三列的编码,完成后,删除原来的Pclass这列,如下:

#使用独立编码,避免出现数值倍数关系
data['p1'] = np.array(data['Pclass'] == 1).astype(np.int32)
data['p2'] = np.array(data['Pclass'] == 2).astype(np.int32)
data['p3'] = np.array(data['Pclass'] == 3).astype(np.int32)
#然后删除pclass这行
del data['Pclass']

港口号的处理方式也与上述类似:

#先查看港口号有哪几类
#print(data.Embarked.unique())
#处理港口号
data['e1'] = np.array(data['Embarked'] == 'S').astype(np.int32)
data['e2'] = np.array(data['Embarked'] == 'C').astype(np.int32)
data['e3'] = np.array(data['Embarked'] == 'Q').astype(np.int32)
del data['Embarked']

以上,训练数据就处理完毕,接下来的测试数据集也是用相同的方法:

data_test = pd.read_csv('./data/test.csv')
#这里主义测试数据集没有Survived这列,他对应的Survived在gender.csv里
data_test = data_test[['Pclass', 'Sex', 'Age', 'SibSp','Parch',  'Fare', 'Cabin', 'Embarked']]
data_test['Age'] = data_test['Age'].fillna(data_test['Age'].mean())
data_test['Cabin'] = pd.factorize(data_test.Cabin)[0]
data_test.fillna(0,inplace = True)
data_test['Sex'] = [1 if x == 'male' else 0 for x in data_test.Sex]
data_test['p1'] = np.array(data_test['Pclass'] == 1).astype(np.int32)
data_test['p2'] = np.array(data_test['Pclass'] == 2).astype(np.int32)
data_test['p3'] = np.array(data_test['Pclass'] == 3).astype(np.int32)
del data_test['Pclass']
data_test['e1'] = np.array(data_test['Embarked'] == 'S').astype(np.int32)
data_test['e2'] = np.array(data_test['Embarked'] == 'C').astype(np.int32)
data_test['e3'] = np.array(data_test['Embarked'] == 'Q').astype(np.int32)
del data_test['Embarked']

数据处理完成后,我们就得到以下可使用的数据组:

data_train 是要喂入的X数据;data_target是训练对应的标签(GT); data_test是测试用的数据;test_label是测试对应的标签。

data_train = data[['Sex', 'Age', 'SibSp','Parch',  'Fare', 'Cabin', 'p1','p2','p3','e1','e2','e3']]
data_target = data['Survived'].values.reshape(len(data),1)

test_label = pd.read_csv('./data/gender.csv')
test_label = np.reshape(test_label.Survived.values.astype(np.float32),(418,1))

 

二、模型建立

模型用的是最常规最简单的方法:

x = tf.placeholder(shape=[None,12],dtype = tf.float32)
y = tf.placeholder(shape=[None,1],dtype = tf.float32)

weight = tf.Variable(tf.random.normal([12,1]))
bias = tf.Variable(tf.random.normal([1]))
output = tf.matmul(x,weight)+bias

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(labels=y,logits=output))
step = tf.train.GradientDescentOptimizer(0.0003).minimize(loss)

pred = tf.cast(tf.sigmoid(output)>0.5,tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(pred,y),tf.float32))

init = tf.global_variables_initializer()
with tf.Session() as sess:
    loss_train = []
    train_acc = []
    test_acc = []
    sess.run(init)
    for i in range(25000):
        for n in range(len(data_target)//100+1):
            batch_xs = data_train[n*100:n*100+100]
            batch_ys = data_target[n * 100:n * 100 + 100]
            sess.run(step,feed_dict={x:batch_xs,y:batch_ys})
        if i%1000 == 0:
            loss_temp = sess.run(loss,feed_dict={x:batch_xs,y:batch_ys})
            loss_train.append(loss_temp)
            train_acc_temp = sess.run(accuracy,feed_dict={x:batch_xs,y:batch_ys})
            train_acc.append(train_acc_temp)
            test_acc_temp = sess.run(accuracy,feed_dict={x:data_test,y:test_label})
            test_acc.append(test_acc_temp)
            print(loss_temp,train_acc_temp,test_acc_temp)

训练部分可以考量的有loss的选择(这里用的是交叉熵)、学习率、训练批数的选择。

 

三、PLT可视化

简单考察一下训练效果:

plt.plot(loss_train,'k-')
plt.title('train loss')
plt.show()

plt.plot(train_acc,'b-',label = 'train_acc')
plt.plot(test_acc,'r--',label = 'test_acc')
plt.title('train and test accuracy')
plt.legend()
plt.show()

 

你可能感兴趣的:(tenserflow笔记)