Datawhale_动手数据分析_Part01_数据加载

1 第一章:数据载入及初步观察

1.1 载入数据

1.1.1 任务一:导入numpy和pandas

# 导包
import pandas as pd
import numpy as np

1.1.2 任务二:载入数据

  • 使用相对路径载入数据
  • 使用绝对路径载入数据
# 相对路径
df = pd.read_csv("./train.csv")
# read_csv和read_table区别,后者是整行读取,需要自己设定分隔符
df = pd.read_table("./train.csv", sep=',')

1.1.3 任务三:每1000行为一个数据模块,逐块读取

# chunksize分块读取,设置每一块的大小,形成可迭代对象
chunker = pd.read_csv('./train.csv', chunksize=10)
for i in chunker:
    print(i)

1.1.4 任务四:将表头改成中文,索引改为乘客ID

# 1.读取数据时,直接names重新设定columns,此时header=0
df = pd.read_csv("./train.csv", names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐 妹个数','父母子女个数','船票信息','票价','客舱','登船港口'], index_col='乘客ID', header=0)
# 2.读取数据后设定columns,讲A变成B
df.rename(cloumns={'A':'B'})
df.columns=['A','B'...]

1.2 初步观察

1.2.1 任务一:查看数据的基本信息

# 查看表格整体信息,字段类型,数量等
df.info()
# 查看表格统计学基本数据
df.describe()

1.2.2 任务二:观察表格前10行的数据和后15行的数据

df.head(10)
df.tail(15)

1.2.3 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

# 每个字段进行判断是否是空值
df.isnull()
# 判断整行或者整列是否全为空(all),或者存在空值(any)
df.isnull().any(axis=0)

1.3 保存数据

1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件

df.to_csv("./train_chinese.csv")
# 如果有中文乱码现象
df.to_csv("./train_chinese.csv", enconding='utf-8-sig')

你可能感兴趣的:(python,数据分析)