Python文件数据读取——.xlsx/.csv/.txt

本来是打算自己写一篇关于数据读取和处理的长文的,零零散散搜集了很多资料,又多又杂,就略作整理放在这里吧,主要想感叹一下pandas库功能的强大,简单总结如下:

仅对基础文件做全文数据读取:

1 .xlsx

import pandas as pd
df = pd.read_excel('data.xlsx')
data=df.values.tolist()
print(data)

2 .csv

import pandas as pd
df= pd.read_csv('data.csv')
data=df.values.tolist()
print(data)

3 .txt

with open("data.txt", "r") as f:  # 打开文件
    data = f.read()  # 读取文件
    print(data)

注:open()函数通常用于.txt文件的读取和写入操作,用于其他文件格式出错率较高。

以上三种文件读取的方式中,前两者结构基本一致,第三种方式略显不同,其区别在于:

①前两者需要先导入pandas库,再使用文件读取函数;而open()函数不需要提前导入其他任何库

②前两者文件读取结果df均为DataFrame格式,具备DataFrame的基本属性,获取值需要使用 .values方法,转换为列表'list'格式用tolist方法;而第三种格式读取的数据data则为字符串str类型

如果想对pandas库的DataFrame数据类型的操作有更多了解,参考:

Pandas DataFrame入门_莽撞少年的博客-CSDN博客_pandas打印前5行

针对.xlsx文件,如果存在多张工作表以及表标签等因素,可以采用如下方式获取工作表的值:

import pandas as pd

df=pd.read_excel('data.xlsx',#文件名称及存储地址
                 sheet_name='Sheet1',#工作表名称:'sheet1'
                 header=1,#表标签:第2(1)行
                 index_col=0)#索引:第1(0)列, #skiprows=0 跳过读取:第1(0)行

data=df.values.tolist()#获取工作表值
print(data)

同时有兴趣的友友可以参考一下笔者关于使用xlrd操作.xlsx文件的避坑指南:

https://mp.csdn.net/mp_blog/creation/editor/125637937

你可能感兴趣的:(python,pandas)