Python 基本操作-文件/数据读取

1、查询/切换操作目录

Python有默认执行的操作目录,可以用以下代码进行操作目录切换。

import os          
>>> import os
>>> os.chdir(路径)  #切换操作目录
>>> os.getcwd()     #获取当前的工作目录

2、路径的表达方式

三种:

1.  ”c:\\path\\data.txt”     #双斜杠
2.  r”c:\path\data.txt”      #用r,就直接正常复制路径就可以。
3.  “data.txt”               #如果文件就在当前工作目录下,直接写文件名就可以。

3、文件读取

(1) open 和 withopen

open()的操作如下:

file_path = ’c:\\path\\data.txt‘
f = open(file_path,'r')
print (f.read())
f.close()             #open操作以后,一定要close,这是跟withopen最大的区别

withopen()的操作如下:

file_path = ’c:\\path\\data.txt‘
withopen(file_path,'r') as f:  #记住此处要有冒号
print (f.read())

推荐使用 withopen 方法。

(2)read() 、readline() 和readlines()

read():
该函数会一次性读取文件的全部内容,如果能确保文件的大小,自然可以。但若文件过大,内存就爆了(如果文件大小>2倍内存则有问题),所以,可以反复调用read(size)方法,每次最多读取size个字节的内容。如果数据是中文,由于一个中文会占多个字节,故read(size) 部分会乱码.
返回的是str。

readline():
该函数每次只读取一行内容,返回的也是str。

readlines():
可以一次读取所有内容,并按行返回list。所以,应该它是最常用的。readlines(数字),则不知道表示什么,以后再研究

(3)利用pandas读取数据(主要采用的方法)

包括read_csv、read_table、read_excel、read_sql等,但是没有read_txt,txt文件一般就用read_table读取了。

基本操作:

import pandas as pd
data = pd.read_table('data.txt')         #读取数据,默认将第一行作为标签
data = pd.read_table('data.txt',names=['miles','times','p','likes'])  #如果数据没有变量名,需要添加,则使用names方法。
data.head()                              #显示数据的前五行

主要参数设置介绍:
sep 用于设置数据分割,在read_table中默认的是'\t',空格;在read_csv中默认是',',逗号
header ,int or list of ints,表示选择第几行作为表头,如果是第n行,则前面n-1行数据去掉。如果数据中没有变量名,可以写为header=None,则把所有的行都作为数据。
names 用于设置变量名,具体用法参考上面,如果不设置,默认第一行。

还可以采用.columns来为设置变量名,如

df.columns = ['a','b','c','d']

参考:pandas.read_csv参数详解

Python数据分析Pandas04本地数据的导入导出

本文只介绍了常用的一些函数,更具体的可以参考:pandas关于数据输入输出I/O的官方说明文档,各种函数和变量解释更为详细。

你可能感兴趣的:(Python 基本操作-文件/数据读取)