一些NLP coding中的小知识(python)——持续更新

1. 读文件时,如果遇到了类似 "gbk’ codec can’t decode bytes in position 31023: illegal multibyte sequence" 这样的编码错误,有两个解决方法可以尝试:

方法一:用notepad++将文本编码转换为特定的方式,再用这种编码方式对文件进行读取:

  • e.g. (预先用notepad++等工具转码为'utf-8')f = open(path, encoding='utf-8')

方法二:在对文件进行open操作的时候,对引起编码错误的字符采取'ignore'处理,具体如下:

  • e.g. f = open(path, encoding='gbk', errors='ignore')
2. 有时候我们想查看的python第三方库的安装路径,可以通过以下方式查看:
  • 首先在命令行输入'python',进入python编辑界面
  • import sys, 然后输入 sys.path 即可显示出若干安装路径,一般在site-packages。

你可能感兴趣的:(一些NLP coding中的小知识(python)——持续更新)