文本分类中遇到的小问题总结

1.当语料很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。

比如要转换当前目录下所有文件的编码为utf8

for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done

2.使用fscanf读取文件中的数据时,当数据很大时,往往会失败。这个时候很有可能是我们的语料中出现了它不能识别的

字符,导致了读取失败,造成指针不移动,要重新检查一下你的语料。

3.递归处理文件夹的文件时,这个适合会改变当前的工作目录,加入你的程序中其他地方使用了相对路径,可以会打开文件

失败。

4.测试程序的时候,选择数据量较小的数据进行测试,一来方便检测,而也可以节省时间。

5.对于一些特殊的字符需要处理时,可以准备一个字典,当复查语料信息时,可以加入进去。

6.[error]stack smashing detecte 此类问题一般都是数组越界造成的,输入的数组大小小于要接受的内容。

未完。

你可能感兴趣的:(文本分类)