预测泰坦尼克号乘客是否遇难

第一篇文章也是泰坦尼克号乘客预测的主题，但是是结合了保险行业的需求，不仅仅是单一的0/1分类问题，详细可以参考第一篇文章(●'◡'●)

今天这篇文章依然是泰坦尼克号主题，且是简单的0/1预测，继续看这样一个项目的初衷是想了解这个主题的初始研究目标，重点事项学习数据如何清理，特征如何选取，以及去了解完成一个数据项目的流程以及每个步骤的常见套路，所以今天，我们没有具体完整的代码，重点是关于数据预处理分析部分的分析和流程的记录(●ˇ∀ˇ●)

1）定义问题
遇到一个待解决的问题——>产生一个新的需求——>想到一系列解决方案——>为验证解决方案设计实施步骤——>为了实施需要使用的技术。
经常地，我们往往沉迷于新的技术，而不明白我们实际想解决的问题是什么。明白自己的问题是什么，业务需求是什么，研究一个算法优化一个模型才是有意义的。

在这个案例中，
问题是根据乘客性别，社会等级，年龄等一系列信息，如果这个乘客在泰坦尼克号游船上，他能不能幸存？
需求可以描述为，能不能根据历史数据，预测泰坦尼克号乘客是否遇难？
解决方案需要考虑到妇女儿童有限，社会等级高的人有限，很明显，遇难/幸存，是一个二分类问题。

2）收集数据
数据已经存在（结构化的&非结构化的，主观的&客观的，etc），在于我们如何找到它。
收集数据在于我们明确的自己的研究的问题目标和需求，去收集相关的各种数据。

3）准备数据
旨在将无序的数据清理为有序的能满足我们业务需求的格式数据。
我们需要完成两部分工作，
1.分析每个数据变量，确定因变量和自变量

4C：
Correcting，纠正异常值（年龄=800，城市距离=3000Km 等等）
Completing，填补缺失值（均值，中位数，众数等等）
Creating，组合新的特征用于分析（基于当前特征组合新的特征，如两地经纬度差值，）
Converting，转换数据格式

4）探索性分析，描述性，图形化的分析，定性特征和定量特征的区分，对于厘清数据中潜在的相关性关系，非常关键。

5）数据建模，错误的模型，好的情况表现为性能差，查到情况会得到错误的结论。所以，模型很强大，但是我们依然是选择模型的master.

6）模型验证和实施，过拟合，欠拟合，通用化的。

7）模型优化并给出分析结果。
从两个方面，一个是技术本身，模型能不能再优化，结果是否合理；一个是业务本身，模型是否已经满足需求，模型的输出是否解决问题。

下一篇，我们尝试一下，数据分析在整车市场有哪些应用呢？

55783122.jpg

预测泰坦尼克号乘客是否遇难

你可能感兴趣的:(预测泰坦尼克号乘客是否遇难)