对搜狗语料库进行想要格式编码的处理

1. 下载数据

搜狗语料库:http://www.sogou.com/labs/resource/cs.php,下载解压.

对搜狗语料库进行想要格式编码的处理_第1张图片

2. 数据编码处理

在ubuntu环境下,编写一个sh文件:

find ./ -type f -name "*.txt"|while read line;do
echo $line
iconv -f gb18030 -t UTF-8 $line > ${line}.utf8
mv $line ${line}.gb2312
mv ${line}.utf8 $line
done

保存为process.sh

对搜狗语料库进行想要格式编码的处理_第2张图片

对搜狗语料库进行想要格式编码的处理_第3张图片

运行:

对搜狗语料库进行想要格式编码的处理_第4张图片

结果为:

对搜狗语料库进行想要格式编码的处理_第5张图片

3. 数据清洗

 

reference:

https://blog.csdn.net/sgfmby1994/article/details/53436228

 

 

 

 

 

你可能感兴趣的:(自然语言处理)