跟着Datawhale动手学数据分析

跟着Datawhale动手学数据分析

环境搭建

由于之前用过Python处理科学计算,所以这次就直接用之前安装过的Anaconda了,在学习群里第一次学到Windows系统下在文件目录中用“shift”+“ctrl”+“右键”打开“Power shell”,再打开jupyter notebook。之前都是在默认路径下载入ipynb文件。。。

数据载入

本次学习的数据是泰坦尼克号的乘员信息,来源于kaggle,上面有许多用于机器学习的数据,看来是个值得收藏的宝库。

接下来是载入数据。

#相对路径
df = pd.read_csv('train.csv')
#绝对路径
df = pd.read_csv('D:\\files\\Python\\hands-on-data-analysis-master\\第一单元项目集合\\train.csv')

值得注意的是,在使用绝对路径访问时,最好用"\",我开始把文件保存在桌面,载入时提示“\u”被识别错误。

划重点

“加载的数据是所有工作的第一步,我们的工作会接触到不同的数据格式(eg:.csv;.tsv;.xlsx),但是加载的方法和思路都是一样的,在以后工作和做项目的过程中,遇到之前没有碰到的问题,要多多查资料吗,使用googel,了解业务逻辑,明白输入和输出是什么。”

pandas库基本操作

pandas库本身内容很丰富,简单介绍下用到的一些功能。

DataFrame和Series是最常用的两种数据结构。

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。

Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。

逐块读入

#每一百行
chunker = pd.read_csv('train.csv',chunksize=100)

查看基本信息

df.info()

查看数据

#前10行
df.head(10)
#后15行
df.tail(10)

以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage。

midge = df[(df['Age']>10) & (df['Age']<50)]
midge

使用loc和iloc方法可以显示指定行,但loc根据index来索引,而iloc是根据行号来索引。

#使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midge.loc[[100,105,108],['Pclass','Name','Sex']]
#使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midge.iloc[[100,105,108],[2,3,4]]

排序

#行索引升序排序
data.sort_index()
#让列索引升序排序
data.sort_index(axis=1)
#让列索引降序排序
data.sort_index(axis=1,ascending=False)

使用Pandas describe()函数查看数据基本统计信息

df.describe()

总结

第一章的三节内容比较基础,展示了python中数据分析的一些基本功能。回到数据分析,工具是其次,思维最重要:怎么收集到需要的数据,如何对自己的数据进行分析,得到什么的结果,已经怎么验证结果的可靠性。
后面的章节将开始对数据进行清洗,学习如何进一步分析。

你可能感兴趣的:(跟着Datawhale动手学数据分析)