第一章 数据载入及初步观察
1、导入模块
import pandas as pd
import numpy as np
2、读取数据(绝对路径和相对路径)
df_train = pd.read_csv('train.csv')
df_train = pd.read_csv(r'C:\Users\Administrator\jupytercode\datawhale\data\train.csv')
3、将表头改成中文,索引改为乘客ID
方法一:df.rename;使用字典的方式;更改指定的列名、定义索引
1.inplace = True:删除原表信息; 然后重设索引df_train.set_index("乘客ID")
输入:
df_train.rename(columns={'PassengerId':'乘客ID', 'Survived':'是否幸存', 'Pclass':'乘客等级(1/2/3等舱位)','Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息','Fare':'票价','Cabin':'客舱','Embarked':'登船港口'},inplace = True)
df_train.columns
输出:
Index(['乘客ID', '是否幸存', '乘客等级(1/2/3等舱位)', '乘客姓名', '性别', '年龄', '堂兄弟/妹个数', '父母与小孩个数', '船票信息', '票价', '客舱', '登船港口'], dtype='object')
输入:
df_train.set_index("乘客ID")
设置索引结果:
(疑问:重设索引之后,读取的时候乘客ID又不是单独的索引了?)
2.inplace = Fasle:不删除原表信息
输入:
df_train.rename(columns={'PassengerId':'乘客ID', 'Survived':'是否幸存', 'Pclass':'乘客等级(1/2/3等舱位)','Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息','Fare':'票价','Cabin':'客舱','Embarked':'登船港口'},inplace = False)
df_train.columns
输出:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
方法二:输入导入的时候直接设置列名、设置索引;(为学习项目的参考答案);此时读取的索引均正常;
df_train = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
方法三:df.columns = new_columns;需要注意新旧列名的长度必须一致;此方法已修改原始数据;然后重设索引df_train.set_index("乘客ID")
rename = ['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口']
df_train.columns = rename
df_train.set_index("乘客ID")
4、观察数据的基本信息,查看前/后n行等基本信息
df_train.columns
df_train.head()
df_train.tail()
df_train.info()
df_train.describe()
输出结果:
5、判断数据是否为空,为空的地方返回True,其余地方返回False
df_train.isnull().head()
6、保存数据:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
df_train.to_csv('train_chinese.csv')
df_train.to_csv('train_chinese.csv')
备注:本人为新手学习,基础和理论知识薄弱,笔记主要为自己记录自己的学习过程,方便后期自己多次复现和思考,期间存在许多问题,请大家指正。