1. 问题发现
最近在进行一项研究,刚刚开始最初的数据预处理阶段。我的原始数据是存放在excel表格中的,我先把excel表格转换成csv文件,然后利用python代码进行预处理。当我想把csv文件放到pycharm目录下时,pycharm每次都会提示我编码错误,请求reload in 'GBK',如图所示。
2.问题解释
出现这种情况,说明我的这个csv文件的解码方式错误,此时pycharm的解码方式用的是utf-8格式,这里建议我reload in GBK,意思是以GBK编码方式解码当前文档,说明我的这个csv文档的网页编码格式为GB系列(GBK、GB18030等...)。关于编码解码问题,网上帖子一大堆,也可以看我上一篇文章中推荐的博文。
很明显,如果需求仅仅是要能够以正确的方式打开该csv文件,即能在pycharm中看到文件中的文本,只需要点击此处的 reload in GBK就可以啦。可是,如果我后面的处理步骤都要求是utf-8编码格式呢?
此时,有一种一劳永逸的方法,需要同时在pycharm端和excel端同时操作,这样,我们再进行类似的处理时,再也不用出现解码问题啦,直接用utf-8编码格式即可。
如图所示,依次点击File、settings、Editor、File Ecodings,这时我们可以看到下图
从上往下依次是全局编码格式、项目编码、具体文件的编码格式、默认文件编码格式,具体含义顾名思义,我们可以都设置成utf-8格式。
点击选项
依次点击高级、web选项
点击编码,可以发现,此时我的另存为时的默认编码格式为GB18030,我们只需要把这个改成utf-8即可。
此时,我们再将excel或者转换成的csv文件拖到pycharm中时,就可以用utf-8编码格式进行解码查看了。