一、数据预处理
首先,我们手上的数据有三个文件:train.csv是用于训练的,test.csv是用于测试的,gender.csv是对应于test的一个标签。
首先,我们来分析数据集的结构:
对于是否获救来说,Id、姓名(Name)、票号(Ticket)并没有影响,所以我们将这三列剔除:
data = pd.read_csv('./data/train.csv')
#剔除影响较小的特征
data = data[[ 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp',
'Parch', 'Fare', 'Cabin', 'Embarked']]
我们需要将数据集中的字母类型转化为数字编码:
对于Cabin,他是由字母和数字同时组成的,这里使用了pd.factorize(),关于这个方法的解释,可以参考https://blog.csdn.net/ssswill/article/details/86555935,于是代码如下:
data['Cabin'] = pd.factorize(data.Cabin)[0]
由于数据集中存在一些空值,所以要去填充这些空值为0,fillna()中的inplace为True时代表直接修改原对象,为False代表创建副本后修改副本,于是代码如下:
data.fillna(0,inplace = True)
对于性别一栏的处理相对简单,如下:
data['Sex'] = [1 if x == 'male' else 0 for x in data.Sex]
Pclass一栏代表船舱等级,为了避免将编号理解成倍数数值关系,这里使用类似于独热编码的方式,将编号转换成三列的编码,完成后,删除原来的Pclass这列,如下:
#使用独立编码,避免出现数值倍数关系
data['p1'] = np.array(data['Pclass'] == 1).astype(np.int32)
data['p2'] = np.array(data['Pclass'] == 2).astype(np.int32)
data['p3'] = np.array(data['Pclass'] == 3).astype(np.int32)
#然后删除pclass这行
del data['Pclass']
港口号的处理方式也与上述类似:
#先查看港口号有哪几类
#print(data.Embarked.unique())
#处理港口号
data['e1'] = np.array(data['Embarked'] == 'S').astype(np.int32)
data['e2'] = np.array(data['Embarked'] == 'C').astype(np.int32)
data['e3'] = np.array(data['Embarked'] == 'Q').astype(np.int32)
del data['Embarked']
以上,训练数据就处理完毕,接下来的测试数据集也是用相同的方法:
data_test = pd.read_csv('./data/test.csv')
#这里主义测试数据集没有Survived这列,他对应的Survived在gender.csv里
data_test = data_test[['Pclass', 'Sex', 'Age', 'SibSp','Parch', 'Fare', 'Cabin', 'Embarked']]
data_test['Age'] = data_test['Age'].fillna(data_test['Age'].mean())
data_test['Cabin'] = pd.factorize(data_test.Cabin)[0]
data_test.fillna(0,inplace = True)
data_test['Sex'] = [1 if x == 'male' else 0 for x in data_test.Sex]
data_test['p1'] = np.array(data_test['Pclass'] == 1).astype(np.int32)
data_test['p2'] = np.array(data_test['Pclass'] == 2).astype(np.int32)
data_test['p3'] = np.array(data_test['Pclass'] == 3).astype(np.int32)
del data_test['Pclass']
data_test['e1'] = np.array(data_test['Embarked'] == 'S').astype(np.int32)
data_test['e2'] = np.array(data_test['Embarked'] == 'C').astype(np.int32)
data_test['e3'] = np.array(data_test['Embarked'] == 'Q').astype(np.int32)
del data_test['Embarked']
数据处理完成后,我们就得到以下可使用的数据组:
data_train 是要喂入的X数据;data_target是训练对应的标签(GT); data_test是测试用的数据;test_label是测试对应的标签。
data_train = data[['Sex', 'Age', 'SibSp','Parch', 'Fare', 'Cabin', 'p1','p2','p3','e1','e2','e3']]
data_target = data['Survived'].values.reshape(len(data),1)
test_label = pd.read_csv('./data/gender.csv')
test_label = np.reshape(test_label.Survived.values.astype(np.float32),(418,1))
二、模型建立
模型用的是最常规最简单的方法:
x = tf.placeholder(shape=[None,12],dtype = tf.float32)
y = tf.placeholder(shape=[None,1],dtype = tf.float32)
weight = tf.Variable(tf.random.normal([12,1]))
bias = tf.Variable(tf.random.normal([1]))
output = tf.matmul(x,weight)+bias
loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(labels=y,logits=output))
step = tf.train.GradientDescentOptimizer(0.0003).minimize(loss)
pred = tf.cast(tf.sigmoid(output)>0.5,tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(pred,y),tf.float32))
init = tf.global_variables_initializer()
with tf.Session() as sess:
loss_train = []
train_acc = []
test_acc = []
sess.run(init)
for i in range(25000):
for n in range(len(data_target)//100+1):
batch_xs = data_train[n*100:n*100+100]
batch_ys = data_target[n * 100:n * 100 + 100]
sess.run(step,feed_dict={x:batch_xs,y:batch_ys})
if i%1000 == 0:
loss_temp = sess.run(loss,feed_dict={x:batch_xs,y:batch_ys})
loss_train.append(loss_temp)
train_acc_temp = sess.run(accuracy,feed_dict={x:batch_xs,y:batch_ys})
train_acc.append(train_acc_temp)
test_acc_temp = sess.run(accuracy,feed_dict={x:data_test,y:test_label})
test_acc.append(test_acc_temp)
print(loss_temp,train_acc_temp,test_acc_temp)
训练部分可以考量的有loss的选择(这里用的是交叉熵)、学习率、训练批数的选择。
三、PLT可视化
简单考察一下训练效果:
plt.plot(loss_train,'k-')
plt.title('train loss')
plt.show()
plt.plot(train_acc,'b-',label = 'train_acc')
plt.plot(test_acc,'r--',label = 'test_acc')
plt.title('train and test accuracy')
plt.legend()
plt.show()