1.在用read_csv()函数读取数据时,有时数据量会很大,可以用chunksize参数来设置读取的长度,分批读取并分批处理。
2.当dataframe中的特征是英文时可以,可以将其转化为中文。
df.rename(columns={'PassengerId':'乘客编号', 'Survived':'是否幸存', 'Pclass':'乘客仓位等级', 'Name':'乘客名字', 'Sex':'性别', 'Age':'年龄', 'SibSp':'堂兄弟/妹个数', 'Parch':'父母与小孩个数', 'Ticket':'船票信息', 'Fare':'票价', 'Cabi':'客舱', 'Embarke':'登船港口'}, inplace = True)
3.可以将重新更换特征名称的数据集另存为。
df.to_csv('train_Chinese.csv')
4.删除dataframe的某一列可用两种方法。
# 此种方法直接在原dataframe中删除'a'列
del df_test['a']
# 此方法删除'a'列后返回删除后的列,但不在原dataframe中删除列。
# 即print()两个打他frame,df_test比a要多一列'a'。
df_test = pd.read_csv('test_1.csv')
a = df_test.drop('a', axis=1)
print(a)
print(df_test)
# 第一行代码可以看作将['PassengerId','Name','Age','Ticket']列隐藏,展示其他数据。
# df本身依然不变。
# axis=1表示删除列,0表示删除行。
df.drop(['PassengerId','Name','Age','Ticket'], axis=1)
df
# 当inplace设为True时,就在原先的dataframe上直接删除。
df_test.drop(['PassengerId','Name','Age','Ticket'], axis=1, inplace=True)
df_test
5.reset_index()重置索引,不想保留原来的index,使用参数 drop=True,默认 False。
midage = midage.reset_index()
midage.head(20)
midage = midage.reset_index(drop=True)
midage.head(20)
6.将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来。
midage.loc[[100, 105, 108],["Pclass", "Sex", "Name"]]
7.使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来。
midage.iloc[[100, 105, 108], [2, 3, 4]]
8.sort_values可以根据行或列的值来进行重新排序。
dataframe = pd.DataFrame(np.arange(12).reshape((3, 4)),
index=['3', '2', '1'],
columns=['d', 'c', 'b', 'a'])
dataframe
# 通过'b'列排序。
dataframe.sort_values(by='b', ascending=False)
dataframe
# 让列索引降序排序
dataframe.sort_index(axis=1, ascending=False)