小白自总结【数据预处理】英文数据预处理

任务介绍

(2——6)

小白自总结【数据预处理】英文数据预处理_第1张图片

任务心得

1)平时学习Python的过程中缺少实践,使得实际修改代码时花费较长时间;

2)对字符编码不清楚,如在“gbk”、“utf-8”上纠结很久,最后只好从头捋,了解各编码;

3)不为完任务而完任务,就像之前镶嵌数据集和目视解译,学而不思则罔,需要有所收获。

参考

Python下的英文预处理:http://m.blog.csdn.net/article/details?id=21690911

Python做中文自然语言预处理 :http://www.tuicool.com/articles/zaa6ny

python去除停用词:http://www.cnblogs.com/xiaoli2018/p/4953170.html    http://www.do1234.com/python/jieba_fenci.html

Python对一个文件夹下的多个txt文本进行去停用词:https://segmentfault.com/q/1010000005994107/revision

分步截图

jieba全应用入门  http://blog.csdn.net/jinruoyanxu/article/details/51636350

2.excel下→小写

小白自总结【数据预处理】英文数据预处理_第2张图片

3.去掉停顿词(测试对比)

小白自总结【数据预处理】英文数据预处理_第3张图片

4、5——只保留字母(测试前后)

浅析python 中if__name__ = '__main__' 的作用:http://www.jb51.net/article/51892.htm

“我简单的理解就是加入if __name__ == "__main__"后,它后面的代码在其它地方引用时,就不执行,从而方便了代码的重用。例如我有个脚本add.py如下: def add(x,y): return x+y if __name__ == "__main__" print add(3,4) 当我在其它地方引用这个add.py时,就不执行print"

小白自总结【数据预处理】英文数据预处理_第4张图片

6.去空行(测试前后)、合并多个空格为一个

注:这步操作我是在excel中完成的,方便快捷去重复空格(因数据多为空两格/三格,用替换OK)、去开头空格(excel中的trim函数)、去空行操作(数据筛选,筛选条件取消勾选“空白”,再复制等)

小白自总结【数据预处理】英文数据预处理_第5张图片


补充:在后续得到“词”以后,才意识到前面的预处理做得不够啊!只提取单词(筛除如“chn”等非单词)是能够做到,然而,文本中单词的三单/复数/过去式等形式,臣妾做不到啊…于是乎,就有了下面的“词干化”处理:

NLTK在Anaconda中有,而WordNet语料库需要手动下载(怪不得报错):http://blog.csdn.net/mmc2015/article/details/50939265

python读取大文件并逐行写入另外一个文件:http://blog.csdn.net/dxldehuali/article/details/51350713

python3处理文件中每个词:http://blog.csdn.net/houyj1986/article/details/21248327

词干化处理:

小白自总结【数据预处理】英文数据预处理_第6张图片


词干化处理的部分处理过程:

小白自总结【数据预处理】英文数据预处理_第7张图片


去不是单词的词:

小白自总结【数据预处理】英文数据预处理_第8张图片


续(去词频<5的词):

小白自总结【数据预处理】英文数据预处理_第9张图片











你可能感兴趣的:(实验记录)