目录
os模块常用方法
pandans 读取文件
os模块常用方法
摘自 :https://www.jianshu.com/p/eb3d65879a90
os模块的主要功能:系统相关、目录及文件操作、执行命令和管理进程
在使用os模块的时候,如果出现了问题,会抛出OSError异常,表明无效的路径名或文件名,或者路径名(文件名)无法访问,或者当前操作系统不支持该操作。
import os
os.chdir('d:\\l')
FileNotFoundError Traceback (most recent call last)
in ()
----> 1 os.chdir('d:\\l')
FileNotFoundError: [WinError 2] 系统找不到指定的文件。: 'd:\\l'
os模块提供了一些操作系统相关的变量,可以在跨平台的时候提供支持,便于编写移植性高,可用性好的代码。所以在涉及操作系统相关的操作时,请尽量使用本模块提供的方法,而不要使用当前平台特定的用法或格式,否则一旦移植到其他平台,可能会造成难以解决的困扰。
下面列举os模块中常用的方法和变量,及其用途解释。
os.name #查看当前操作系统的名称。windows平台下返回‘nt’,Linux则返回‘posix’。
os.environ #获取系统环境变量
os.sep #当前平台的路径分隔符。在windows下,为‘\’,在POSIX系统中,为‘/’。
os.altsep #可替代的路径分隔符,在Windows中为‘/’。
os.extsep #文件名和文件扩展名之间分隔的符号,在Windows下为‘.’。
os.pathsep #PATH环境变量中的分隔符,在POSIX系统中为‘:’,在Windows中为‘;’。
os.linesep #行结束符。在不同的系统中行尾的结束符是不同的,例如在Windows下为‘\r\n’。
os.devnull #在不同的系统上null设备的路径,在Windows下为‘nul’,在POSIX下为‘/dev/null’。
os.defpath #当使用exec函数族的时候,如果没有指定PATH环境变量,则默认会查找os.defpath中的值作为子进程PATH的值。
os模块中包含了一系列文件操作相关的函数,其中有一部分是Linux平台专用方法。Linux是用C写的,底层的libc库和系统调用的接口都是C API,Python的os模块中包括了对这些接口的Python实现,通过Python的os模块,可以调用Linux系统的一些底层功能,进行系统编程。关于Linux的相关方法,内容较为复杂,可根据需要自行查阅官方文档,这里只介绍一些常用的,各平台通用的方法。
os.getcwd() #获取当前工作目录,即当前python脚本工作的目录路径
os.chdir("dirname") #改变当前脚本工作目录;相当于shell下cd
os.curdir #返回当前目录: ('.')
os.pardir #获取当前目录的父目录字符串名:('..')
os.makedirs('dir1/dir2') #可生成多层递归目录
os.removedirs(‘dirname1’) #递归删除空目录(要小心)
os.mkdir('dirname') #生成单级目录
os.rmdir('dirname') #删除单级空目录,若目录不为空则无法删除并报错
os.listdir('dirname') #列出指定目录下的所有文件和子目录,包括隐藏文件
os.remove('filename') #删除一个文件
os.rename("oldname","new") #重命名文件/目录
os.stat('path/filename') #获取文件/目录信息
os.path.abspath(path) #返回path规范化的绝对路径
os.path.split(path) #将path分割成目录和文件名二元组返回
os.path.dirname(path) #返回path的目录。其实就是os.path.split(path)的第一个元素
os.path.basename(path) #返回path最后的文件名。如果path以/或\结尾,那么就会返回空值。
os.path.exists(path或者file) #如果path存在,返回True;如果path不存在,返回False
os.path.isabs(path) #如果path是绝对路径,返回True
os.path.isfile(path) #如果path是一个存在的文件,返回True。否则返回False
os.path.isdir(path) #如果path是一个存在的目录,则返回True。否则返回False
os.path.join(path1[, path2[, ...]]) #将多个路径组合后返回,第一个绝对路径之前的参数将被忽略
os.path.getatime(path) #返回path所指向的文件或者目录的最后存取时间
os.path.getmtime(path) #返回path所指向的文件或者目录的最后修改时间
os.path.getsize(filename) #返回文件包含的字符数量
pandans 读取文件
文本格式的读写
read_csv 从文件、URL或稳健性对象读取分隔好的数据,逗号是默认分隔符
read_table 从文件、URL或稳健性对象读取分隔好的数据,制表符'\t'是默认分隔符
read_clipboard read_table的剪贴板版本,在将包个从web页面上转化成数据时有用
read_excel 从excel的xls或xlsx文件中读取表格数据
read_hdf 读取pandas存储的HDF5送文件
read_html 从HTML文件中读取所有表格数据
read_json 从json字符串中读取数据
read_msgpack
read_sas 读取存储在sas系统中定制存储格式的sas数据集
read_sql 将sql传的结果读取为pandas的DataFrame
read_stata 读取stata格式的数据
read_feature 读取Feature二进制格式
#导入包
import pandas as pd
import numpy as np
import os
#导入数据
# data=pd.read_csv('train.csv') #查看当前工作目录
path=os.getcwd()#获取路径
data=pd.read_csv(path+'\\train.csv')#使用绝对路径
# d=pd.read_table('train.csv',sep=',')# read_table 默认的分隔符是/t 而该文件是以,分隔
#数据太大,可以采用分块读取的方法
chuner=pd.read_csv('train.csv',iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
try:
chunk = chuner.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
#更改表头
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()
#方法二
names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口']
# data.columns=names
# data.head()
#方法三
# data.rename(columns={字典格式},inplace=True)
# 查看数据的基本信息
df.shape #数据大小
df.info()#数据大小 雷兵以及缺失值情况
df.describe()
df.head(15) #前15行
df.tail(15)# 后15行
df.isnull().head()
#读取姓名这列的方法
df.姓名.head()
df.iloc[:,2]
df.loc[:,'姓名'].head()
import numpy as np
train=pd.read_csv('train.csv')
test=pd.read_csv('test_1.csv')
set(test.columns)-set(train.columns) #通过集合操作
del test['a']
# 我们以"Age"为筛选条件,显示年龄在10岁-50岁的乘 客信息
df[(df.年龄>10)&(df.年龄<50)].head()
# 我们以"Age"为筛选条件,显示年龄<10岁或>50岁的乘 客信息
df[(df.年龄<10)|(df.年龄>50)].head()
#对于筛选出来的数据可以使用reset_index
midage = df[(df["年龄"]>10)& (df["年龄"]<50)]
midage=midage.reset_index(drop=True)
midage.loc[100,['性别','姓名']]
##探索性数据分析
df.sort_values(by=['票价', '年龄'], ascending=False).head(3)
#分类变量和连续变量可以用groupby
df.groupby('是否幸存')['票价'].describe()
df.groupby('是否幸存')['票价'].mean().plot(kind='bar')
df.groupby('是否幸存')['年龄'].describe()#死亡的人年龄较大,25% 50% 75%都是的,max不是,进一步说明可能是异常值
df.groupby('仓位等级')['票价'].mean()
# 票价512 貌似是个异常值,并且是右偏
#年龄最小不到半岁,最大80要看是否是异常值
import seaborn as sns
pd.crosstab(df.仓位等级,df.是否幸存)#1等仓生存最多
df.describe()
pd.crosstab(df.兄弟姐妹个数,df.是否幸存)#1独生子女存活多
pd.crosstab(df.父母子女个数,df.是否幸存)#父母子女个数少的存活多