加粗样式数据集下载 https://www.kaggle.com/c/titanic/overview
import numpy as np
import pandas as pd
##这里用相对路径进行数据的载人,也可以用绝对路径的方式进行载人
df = ps.read_csv('train.csv')
df.head(4)
如果数据过大可以逐块读取
chunker = pd.read_csv(‘train.csv’, chunksize=1000)
df = pd.read_csv('train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息',
'票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()
df.info()
前后数据
#前10条数据
df.head(10)
#后10条数据
df.tail(10)
查看空信息
#为空的返回True,否则返回False
df.isnull().head()
#将数据保存在当前目录下并命名为‘train_chinese.csv’
df.to_csv('train_chinese.csv')
创建一个series
data = {'1':100,'2':200,'3':300,'4':400}
data1 = pd.Series(data)
data1
data2 = {'AA':['A',2,3,4,5,6,7,8,9],
'BB':['B',8,7,6,5,4,3,2,1]}
data3=pd.DataFrame(data2)
data3
载人数据
#载人‘train.csv'’文件
df = pd.read_csv('train.csv')
df.head(4)
df.columns
df['Cabin']
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
数据筛选
# 筛选出Age小于10的数据
df[df.Age<10].head(3)
#
筛选出Age大于10并且小于50的数据
midage = df[(df.Age>10) & (df.Age<50)]
创建一个DataFrame
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
index=['2','1'],
columns=['d','a','b','c'])
frame
frame.sort_values(by='c',ascending=False)
frame.sort_index()
frame.sort_index(axis=1,ascending=False)
data.sort_values(by=['票价','年龄'],ascending=False).head(20)
创建两个DataFrame,分别是data_a和data_b
data_a 和 data_b 相加
data_a + data_b
查看数据所有的信息
data.describe()
'''
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
'''