1 第一章:数据载入及初步观察
1.1 载入数据
1.1.1 任务一:导入numpy和pandas
import pandas as pd
import numpy as np
1.1.2 任务二:载入数据
df = pd.read_csv("./train.csv")
df = pd.read_table("./train.csv", sep=',')
1.1.3 任务三:每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('./train.csv', chunksize=10)
for i in chunker:
print(i)
1.1.4 任务四:将表头改成中文,索引改为乘客ID
df = pd.read_csv("./train.csv", names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐 妹个数','父母子女个数','船票信息','票价','客舱','登船港口'], index_col='乘客ID', header=0)
df.rename(cloumns={'A':'B'})
df.columns=['A','B'...]
1.2 初步观察
1.2.1 任务一:查看数据的基本信息
df.info()
df.describe()
1.2.2 任务二:观察表格前10行的数据和后15行的数据
df.head(10)
df.tail(15)
1.2.3 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull()
df.isnull().any(axis=0)
1.3 保存数据
1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件
df.to_csv("./train_chinese.csv")
df.to_csv("./train_chinese.csv", enconding='utf-8-sig')