python知识复习(一)--(磁盘)IO编程

一·input和raw_input
input()输入严格按照Python的语法，是字符就加 ' ' ，数字就是数字，并且input()可以接收一个Python表达式作为输入，并将运算结果返回。
raw_input()随便输都是字符串，会从标准输入（sys.stdin）读取一个输入并返回一个字符串，且尾部的换行符从末尾移除。
测试代码如下：

x1 = input('input number:')
x2 = input('input string:')
print type(x1),type(x2)

x3 = raw_input('raw_input number:')
x4 = raw_input('raw_input string:')
print type(x3),type(x4)

x5 = input('input [x*2 for x in range(5)]:')
x6 = raw_input('raw_input [x*2 for x in range(5)]:')
print x5,x6

x7 = input('input "[x*2 for x in range(5)]":')
x8 = raw_input('raw_input "[x*2 for x in range(5)]":')
print x7,x8

运行结果：

运行结果1.png

二·文件读写
1.open(file_name [, access_mode][, buffering])
filename:如果只只传入这一参数，文件不存在时会返回一个错误。
access_mode:决定了打开文件的模式：只读，写入，追加等,这个参数是非强制的，默认文件访问模式为只读(r)
buffering:为0，I/O操作为无缓冲，直接写入磁盘，为1，有缓冲，先写到内存，在调用flush和close时更新到磁盘，大于1，表示缓冲区的大小(单位：字节)，-1为使用默认缓冲区大小。
为了避免在打开文件时产生IO error，以及提高代码的健壮性，可将打开文件代码写为：

        with open(r'../test.txt','w+') as f:
        f.write(‘......’)

打开文件，读写完毕后要调用close关闭释放资源，避免浪费有限的IO资源。
下面是几种常用mode对应的文件权限图：

模式-权限.png

2.文件读取，可以采用read()和readlines()一次性将文件全部读入内存中，文件太大时，应采用read(size)和readline()的方式进行读取。(但readline()不能输出指定行。可使用text = linecache.getline(filename, 2)来读取指定行)。此外还可以通过迭代文件的方式读取(文件也是个可迭代对象)：

with open(filename, 'r') as flie:
    for line in file:
        ....

3.文件写入
使用write写入字符串，但不可写入可迭代对象，而writelines则相反。
三.操作文件和目录
在 Python中对文件和目录的操作经常用到os模块和 shutil模块。接下来主要介绍一些操作文件和目录的常用方法：
获得当前 Python脚本工作的目录路径： os.getcwd。

返回指定目录下的所有文件和目录名： os.listdir()。
例如返回C盘下的文件os.listdir("C: \")

删除一个文件： os.remove(filepath)

删除多个空目录： os.removedirs(r"d:\python")

检验给出的路径是否是一个文件： os.path.isfile( filepath)

检验给出的路径是否是一个目录： os.path.isdir( filepath)

判断是否是绝对路径： os.path.isabs()。

检验路径是否真的存在： os.path.exists()。例如检测D盘下是否有 Python文件夹os.path.exists(r"d: \ python")

分离一个路径的目录名和文件名： os.path. split()。例如：
os.path.split(r" home/qiye/qiye. txt")，返回结果是一个元组：('home/qiye','qiye.txt')

分离扩展名： os path.splitext()。例如 os.path. splite(r"/home/ /qiye/qiye.txt")，返回结果
是一个元组：('/home/ qiye/qiye','.txt')

获取路径名： os.path.dirname( filetpath)

获取文件名： os.path.basename( filepath)

读取和设置环境变量： os.getenv()与 os.putenv()。

给出当前平台使用的行终止符： os.linesep(),Windows使用"\r\n'， Linux使用'\n'而Mac使用'\r'

指示你正在使用的平台：os.name对于 Windows，它是nt，而对于 Linux/Unix用户,它是'posix'。

重命名文件或者目录： os.rename( old, new).

创建多级目录： os.makedirs(r"c:\Python\test")。

创建单个目录： os.mkdir("test")

获取文件属性： os.stat(file)

修改文件权限与时间戳： os.chmod(file)

获取文件大小： os.path.getsize(filename)

复制文件夹： shutil.copytree(" olddir"," newdir") o olddir和 newdir都只能是目录，且 newdir
必须不存在。

复制文件： shutil.copyfile(" oldfile"," newfile")， oldfile和 newfile都只能是文件； shutil
copy("oldfile"," newfile"), oldfile只能是文件， newfile可以是文件，也可以是目标目录。

移动文件(目录)： shutil.move("oldpos"," nepos").

删除目录： os.rmdir("dir")，只能删除空目录；
shutil.rmtree("dir"),空目录、有内容的
目录都可以删.
四.字符编码
字符编码

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件：

>>> f = open('test.txt', 'r', encoding='gbk')
>>> f.read()

遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略：

>>> f = open('test.txt', 'r', encoding='gbk', errors='ignore')

五.序列化与反序列化
可从这查看原文廖雪峰-序列化
把变量从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思。
序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

Python提供两个模块来实现序列化：cPickle和pickle。这两个模块功能是一样的，区别在于cPickle是C语言写的，速度快，pickle是纯Python写的，速度慢，跟cStringIO和StringIO一个道理。用的时候，先尝试导入cPickle，如果失败，再导入pickle：

try:
    import cPickle as pickle
except ImportError:
    import pickle

两个例子：

>>> d = dict(name='Bob', age=20, score=88)
>>> pickle.dumps(d)

"(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns."

pickle.dumps()方法把任意对象序列化成一个str，然后，就可以把这个str写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object：

>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f)
>>> f.close()

看看写入的dump.txt文件，一堆乱七八糟的内容，这些都是Python保存的对象内部信息。

当我们要把对象从磁盘读到内存时，可以先把内容读到一个str，然后用pickle.loads()方法反序列化出对象，也可以直接用pickle.load()方法从一个file-like Object中直接反序列化出对象。我们打开另一个Python命令行来反序列化刚才保存的对象：

>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}

当然，这个变量和原来的变量是完全不相干的对象，它们只是内容相同而已。
Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

JSON

要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对应如下：

JSON类型 Python类型
{} dict
[] list
"string" 'str'或u'unicode'
1234.56 int或float
true/false True/False
null None

Python内置的json模块提供了非常完善的Python对象到JSON格式的转换：

>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'

dumps()方法返回一个str，内容就是标准的JSON。类似的，dump()方法可以直接把JSON写入一个file-like Object。

要把JSON反序列化为Python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化：

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{u'age': 20, u'score': 88, u'name': u'Bob'}

有一点需要注意，就是反序列化得到的所有字符串对象默认都是unicode而不是str。由于JSON标准规定JSON编码是UTF-8，所以我们总是能正确地在Python的str或unicode与JSON的字符串之间转换。

JSON进阶

对Python的类如定义Student类，进行序列化：

import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score

s = Student('Bob', 20, 88)
print(json.dumps(s))

运行代码，毫不留情地得到一个TypeError：

Traceback (most recent call last):
  ...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable

错误的原因是Student对象不是一个可序列化为JSON的对象。

仔细看看dumps()方法的参数列表，可以发现，除了第一个必须的obj参数外，dumps()方法还提供了一大堆的可选参数：

https://docs.python.org/2/library/json.html#json.dumps

这些可选参数就是让我们来定制JSON序列化。前面的代码之所以无法把Student类实例序列化为JSON，是因为默认情况下，dumps()方法不知道如何将Student实例变为一个JSON的{}对象。

可选参数default就是把任意一个对象变成一个可序列为JSON的对象，我们只需要为Student专门写一个转换函数，再把函数传进去即可：

def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

print(json.dumps(s, default=student2dict))

这样，Student实例首先被student2dict()函数转换成dict，然后再被顺利序列化为JSON。

不过，下次如果遇到一个Teacher类的实例，照样无法序列化为JSON。我们可以偷个懒，把任意class的实例变为dict：

print(json.dumps(s, default=lambda obj: obj.__dict__))

同样的道理，如果我们要把JSON反序列化为一个Student对象实例，loads()方法首先转换出一个dict对象，然后，我们传入的object_hook函数负责把dict转换为Student实例：

def dict2student(d):
    return Student(d['name'], d['age'], d['score'])

json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))

运行结果如下：

<__main__.Student object at 0x10cd3c190>

打印出的是反序列化的Student实例对象。

小结

Python语言特定的序列化模块是pickle，但如果要把序列化搞得更通用、更符合Web标准，就可以使用json模块。

python知识复习(一)--(磁盘)IO编程

JSON

JSON进阶

小结

你可能感兴趣的:(python知识复习(一)--(磁盘)IO编程)