Kaggle-ML-How Models Work(2)

探索你的数据


Using Pandas to Get Familiar With Your Data

任何机器学习项目的第一步都是熟悉数据。你将使用Pandas这个库来处理你的数据。Pandas是科学家用于探索和操纵数据的主要工具。大部分人在他们的代码中会把pandas简写成pd。我们使用这个命令来执行这个操作

import pandas as pd

Pandas库中最重要的部分就是 DataFrame。DataFrame包含你可能认为是表的数据类型。它有点类似于Excel中的sheet或SQL数据库中的table。

对于你希望使用此类数据进行的大多数事情,Pandas都有强大的方法。

作为一个示例,我们来看一个澳大利亚墨尔本的房价数据。在处理数据的练习中,你可以把相同的处理步骤应用到其他数据集上,比如爱荷华州的房价。

这个示例数据 (Melbourne) 在这个路径下
../input/melbourne-housing-snapshot/melb_data.csv.

示例数据下载

我们使用以下命令导入并探索数据:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()

Interpreting Data Description

结果显示原始数据集中每列的8个数字。第一个数字 count 表示有多少行具有非缺失值,缺失值产生的原因有很多。比如说,在调查只有一间卧室的房子时,不会收集第二间卧室的大小。我们将回到缺失数据的主题。

第二个值是mean ,就是平均值。在此之下,std 是标准偏差,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。

把每列从最低值到最高值进行排序,第一个(最小的)值是 min 。如果你在列表中走四分之一,你会发现一个大于值的25%并且小于值的75%的数字。这就是 25% ,其他几个值的含义同理。


Your Turn

第一个编程练习


原课程链接
Machine Learning Course Home Page.

其他学习资源
十分钟快速入门Pandas.

你可能感兴趣的:(Kaggle)