UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: i报错问题

最近处理一个文本的去重问题,下面是代码
# -*- coding: utf-8 -*-
"""
Created on Sat Mar 24 13:38:25 2018

@author: Administrator
"""
import pandas as pd
inputfile = 'E:/pythondata/meidi_jd1.txt' #评论文件
outputfile = 'E:/pythonresult/meidi_jd_process_1.txt' #评论处理后保存路径
data = pd.read_csv(inputfile,encoding='utf-8',header = None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False,encoding='utf-8')
print(u'删除了%s条评论。' %(l1 - l2))

看似一切完美,但是运行完之后,却报出下面的错误:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: 

上网查了一下,原来是一个编码的问题,百度上面有很多解决的方式,但是都没有解决我的问题。最后我突发奇想,将我要处理的文本文档导入到Notepad++上进行了一次格式的转换,没想到竟然运行了,哈哈..

具体操作是将文本导入到Notepad++的编译器上,注意到这里有个编码模块。


点击进去后,将文本转换为utf-8编码,然后运行程序就解决问题啦..

另外说一句,这两个文档之间字节数差距真是大,


meidi_jd文档是我们运行出错文档,而meidi_jd1文档是我们成功运行的文本文档.

直观感受到这两个文本文档的字节差距.

你可能感兴趣的:(机器学习)