使用Python进行txt文件逐行读取时,对编码是有特殊要求的。一般进行逐行读取的语句为
filepath = 'D:/filename.txt'
f = open(filepath,'r')
lines = f.readlines()
for line in lines:
print line
方法一:打开txt文件,点击左上角的“文件”,点击“另存为”,查看下方的编码方式。
方法二:使用Python的chardet模块查看文件中字符的编码格式
import chardet
f = open('D:/filename.txt','r')
line = f.readline()
print chardet.detect(line)
#-*- coding: utf-8 -*-
import string
import codecs
file1 = "F:/filename/wer.txt"
file2 = "F:/filename/wer_test.txt"
def changecode():
tt = codecs.open(file1, 'rb', 'utf-16') # 111.txt为unicode编码文件,以unicode编码打开,utf-16=unicode
mm = codecs.open(file2, 'wb', 'utf-8')
ff = tt.readlines()
for i in ff:
mm.write(i.encode('utf-8'))
tt.close
mm.close
changecode()