说一说\r与\n

动机

        今天在用Python读取txt文件的时候,遇到了一个比较坑的问题,那就是“\n”和“\r”究竟有什么区别?”

历史

        在计算机还没有出现之前,人们设计了一种机器叫做电传打字机,这种机器每秒钟可以打10个字符。不过它有个问题,就是打完一行换行的时候,需要0.2s,正好可以打印两个字符,如果这个时候有新的字符传过来,那么这两个新的字符将会丢失。怎么办?研发人员就想了一个办法,在每行后面加上两个表示结束的字符,一个是“回车(return)”,另一个是“换行(newline)”。“回车”表示将打印机的打印头移回到左边界,“换行”表示将打印纸往上推一行(从而达到打印头往下移一行的效果)。
        通常我们将“\r”称作回车,而“\n”叫做换行。在Windows中,每行的结尾是“\r\n”,而Linux中,每行的结尾则是“\n”,在Mac中,则只有“\r”。这三者的区别导致了一个现象的发生:将Linux/Mac系统下的文件在Windows中打开时,所有的文字将会变成一行;而将Windows里的文件在Linux/Mac中打开时,则每行的结尾会多一个^M的符号。
        知道了文件在不同系统下每行结尾所用的符号差异之后,我们就知道如何解决文件打开的问题了。比如说,如果我们在Windows下打开某个文件,发现所有文字变成一行,那么我们可以使用文本编辑器将里面的所有“\n”或者“\r”换成“\r\n”

在Python中如何处理

        假如有一个txt文件,其中保存了一些数据,我们想要将这些数据读取出来,怎么办?比如:

data block1
1 2 3

data block2
4

data block3
5 6

        首先,我们需要打开文件:

with open(file_path, 'r') as lines:
    ...

        这个时候我们就以只读的方式打开了文件,并且是一行一行读取的,如果我们想要将其中的三个数据块分开怎么办?我们可以先用join()方法将这些lines结合为一个string,然后利用split()方法将它们拆开,但问题是,以什么样的标准拆开呢?或者说,给split()传入什么参数?这就涉及到该文件每行以什么方式结尾了。比方说,如果文件以“\r\n”结尾,则我们可以这么写:

array = []
with open(file_path, 'r') as lines:
    for line in lines:
        array.append(line)
array_string = ''.join(array)
data = array_string.split('\r\n\r\n')

        通过上面的“\r\n\r\n”我们成功地将三个block分开了。不过这样做的话,我们得先确认文件以什么方式结尾,虽然这并不麻烦( print(list(array)) )就可以了。Python为我们提供了一个不用确认文件每行结尾的方式:

with open(file_path, 'rU') as lines:
...

        U表示通用换行模式(Universal new line mode),这种模式将会把所有的换行符(“\r\n”)替换为“\n”,所以我们只需要这样写:

array = []
with open(file_path, 'rU') as lines:
    for line in lines:
        array.append(line)
array_string = ''.join(array)
data = array_string.split('\n\n')

        这样看起来就开心很多了,不是么。




你可能感兴趣的:(Python学习笔记)