泰坦尼克生还者预测总结

这篇总结是在做完Kaggle上的竞赛题Titanic: Machine Learning from Disaster之后写的一点关于python使用以及数据分析方面的总结。

目录

  • python使用
  • 数据分析

1. python使用

  • 当使用np.array()方法将数据data转换成数组data_arr之后,只要data中有一个元素是字符串,那么转换之后的data_arr元素类型是字符串型。如图1。


    泰坦尼克生还者预测总结_第1张图片
    图 1
  • 数组可以使用单独的下标获取某一行,而dataframe只能使用一个下标的序列来获取某一行。如图2。


    泰坦尼克生还者预测总结_第2张图片
    图 2
  • 注意data_arr的size方法:该方法为统计data_arr中的元素个数,而非行数。需要得到行数使用len方法。如图3。


    泰坦尼克生还者预测总结_第3张图片
    图 3
  • 当从二维数组中抽出一列时,抽出的这一列数据不再具有二维属性,不能同时使用行列下标来获取数据。如图4。


    泰坦尼克生还者预测总结_第4张图片
    图 4
  • df.info()方法可以瞬间查看缺失值,好东西!!!


    泰坦尼克生还者预测总结_第5张图片
    图 5
  • 绘制直方图可以使用很方便的df中的hist()方法。


    泰坦尼克生还者预测总结_第6张图片
    图 6
  • df的loc方法非常牛逼,可以很容易的使用条件过滤定位到df中的某一行,并重新赋值。notebook这个东西更厉害,以后可以不用写笔记了。

2. 数据分析

  • 在拿到数据后,我想第一件事应该就是弄清楚数据的各个属性含义、属性之间的关系等。
  • 我当时的整个过程应该写在notebook上的。
  • 了解哪些属性需要高度关注。这得建立在背景知识的了解上。
  • 如果要对离散值进行分级,那么首先应该观察该属性值的分布,了解大部分数据都落在哪个位置,以便确定等级划分。就如泰坦尼克号的数据集中的Fare属性。
  • 在进行数据分析时,缺失值的处理非常重要,如果再跑大型程序突然终止,而终止原因是因为缺失值未处理,那人都要死!!!
  • 对于缺失值的填充,有多种方法。
  • 使用中位数、众数或者均值填充。但是使用这种方法时也不是一味的将某个属性所有值的中位数(众数/均值)用来填充缺失值,而是观察这些数据是否可以分成若干个子集。就像票价(Fare)这个属性的缺失值处理,我们可以使用根据社会经济等级(Pclass)划分的众数来填补。
  • 可以使用其他属性值来预测:这一块还没有经验。
  • 逻辑推断:这一块还没有经验。
  • 在对原始数据进行转换时,一般都转换成数值型数据,便于统计及机器学习。
  • 在特征选取方面,可以通过多个特征的组合来产生一个新的特征。就如这个例子中将年龄(Age)和社会经济地位(Pclass)的乘积作为一个新的特征。

你可能感兴趣的:(泰坦尼克生还者预测总结)