python第三方库pandas_Python入门-利用Pandas库进行数据读入

Python数据导入方法(先从最简单最常用的表格文件开始)

上代码前的一些感触

在读研的时候,为了研究方向(也就是毕业论文= =|||)正式接触了Python。那时候唯一的想法不是扎扎实实学Python,而是到网上找些现成代码,看能不能套的上自己研究的东西(要站在巨人的肩膀上,我才能更好的学习......)。

代码找好了,别人博客上提供的公开数据一导入,OK~出结果了

好,代码没问题(窃喜),换我自己的数据试试= =|||......我相信好多人都有这样的经历,代码跑不过三行,报错了,尴尬。一查,数据导入有问题,因为没有系统学过Python,都不会改错,那时候就知道了,还是脚踏实地的好点。

数据导入

只要代码和数据挂钩,首要工作就是把已有的数据进行导入。只有数据导入了,你才能谈接下来的各种操作。

今天学习有关第三方库pandas中某些函数的使用方法,作为初学者,表格文件读取够用了。

python强大的一点在于:第三方库,真的好用!真的好用!真的好用!

首先是利用Python学堂-3中提到的方法进行pandas库的安装马什么靖什么秦靖:战疫情,停课不停学(Python学堂-3)​zhuanlan.zhihu.compython第三方库pandas_Python入门-利用Pandas库进行数据读入_第1张图片

附上搜索到的下载界面

安装好之后,数据读取代码只需两行搞定(初学接触,前提是默认读取所有数据,不做筛选)

找到文件路径:如图所示是我存的表格文件的路径,文件名是data

故,加载文件的路径为D:\PycharmProjects\Data exercises\数据可视化\data.xlsx

数据导入代码如下:

import pandas as pd

df = pd.read_excel('D:\PycharmProjects\Data exercises\数据可视化\data.xlsx')

print(df)

第一行代码用于导入pandas库,并将库名简称为pd(为啥要简称?pandas字母多啊,敲得人手酸,pd多省事,才两个字母)

第二行代码用于读取data.xlsx这个文件中的所有数据,并存在自变量df中

第三行代码用于打印一下df中存的东西

运行代码,显示如下(我的是基于pycharm开发软件,其他编辑器相同)

让我们看一下data.xlsx中的原始数据,如下图

对比可知,一模一样,数据读取成功

注意!!!pandas读取到的数据是6行6列,原始表格中的数据是7行6列

原因在于,pandas默认把第一行作为表头剔除在数据之外了

有同学就说,哎呀,原始表格文件中,第一行不就是属性名称么,当然不是数据了

上述想法不对!在表格文件中每一行都是数据,我们可以做如下验证,我再创建一个表格文件data2.xlsx,表格文件内容如下图所示

大家会发现,哎呀,明明是数据的第一行,被当做了属性名,造成了数据的丢失!

这点千万要牢记!!!

其余细节操作,下节课继续~

你可能感兴趣的:(python第三方库pandas_Python入门-利用Pandas库进行数据读入)