数据加载及探索性数据分析——入门

千里之行始于足下,入门数据科学首先从学会用工具进行基本操作开始,当然使用工具是手段而非目的。加载、操作数据并通过观察得到初步结论是数据分析第一步。

加载数据

import pandas as pd
import numpy as np

data_path = "../../data/titanic/"
train_path = data_path + "train.csv"
df_train = pd.read_csv(train_path)
df_train.head(10)

总览
数据加载及探索性数据分析——入门_第1张图片
在处理数据时数据可能以各种形式如.csv、.tsv、xlxs等,.csv和.tsv本质是文本文件,区别在于字段分隔符,常用逗号和制表符,也有使用 '|'的。

查看数据的基本信息,比较缺失情况

缺失值分布

df_train.info()
df_train.isnull().sum()

数据加载及探索性数据分析——入门_第2张图片

数据加载及探索性数据分析——入门_第3张图片

初步处理观察数据

数据排序

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)
by参数指向要排列的列,ascending参数指向升序还是降序,默认为True升序排列。axis=0或’index’表示按照指定列中数据大小排序,axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0

按票价和年龄两列进行综合排序(降序排列)

df_train.sort_values(by=['Fare', 'Age'], ascending=False).head(20)

数据加载及探索性数据分析——入门_第4张图片
前20的乘客中存活的有14个,可以简单地推断票价与存活率的正相关关系。

数据筛选

以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage

midage = df_train[(df_train["Age"]>10)& (df_train["Age"]<50)]
midage.head(100)

数据加载及探索性数据分析——入门_第5张图片
将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage = midage.reset_index(drop=True)
midage.head(100)

数据加载及探索性数据分析——入门_第6张图片
reset_index(drop = true) 更新索引,参数drop=True则不将原索引作为单独一列保留,在如果不使用该函数则原索引100对应的并不是100行

你可能感兴趣的:(数据分析)