【Python+中文自然语言处理】实践篇 ——用户评论文本分类:从中文csv处理到分类

本文为博主心得笔记,如有不足之处,还望包容,代码部分见下方链接。


中文CSV处理

    1.Excel的中文表格文件,直接另存为.csv文件

    2.解决各种csv用各种代码编辑器出现error的一劳永逸的方法:把.csv文件编码改为utf-8编码方式。

       方法:首先,将.csv文件鼠标右击用记事本打开。

                  然后,文件-另存为。

                  随后,在保存窗口右下方,将编码选择utf-8。保存即可。

    3.CSV文件特点:

  • 读取出的数据一般为字符类型,如果是数字需要人为转换为数字

  • 以行为单位读取数据

  • 列之间以半角逗号或制表符为分隔,一般为半角逗号

  • 一般为每行开头不空格,第一行是属性列,数据列之间以间隔符为间隔无空格,行之间无空行。

     行之间如果有空行或者数据集中行末有空格,读取数据时一般会出错,引发错误!!!

 【补充】代码链接:https://download.csdn.net/download/walk_power/10716952

你可能感兴趣的:(自然语言处理NLP)