text文件编码的检测

做了半年的专职程序员,现在又回到业余,又有时间来写一些小博客了。

相信很多程序员都尝试过文件编码的检测,我搜索了一下网络,但没有找到一个java library来处理这个事情。于是尝试了一下,从昨天(星期天早上开始),在oschina的码云上开了一个项目。 https://git.oschina.net/jianglibo/char-encode-detector

项目介绍:

1、作为一个小功能的库,最好不要有依赖,java compile level 选的是1.6,从guava copy了10几行代码。

2、用gradle组织项目


fork -》 cd project directory -》gradlew.bat eclipse,然后从eclipse import exist project即可。


建这个项目的目的只有一个:

非常喜欢git的协作开发,希望有人fork和pullrequest,结交一些代码朋友


进展:

完成了gb2313,gbk,utf-8的检测,其中utf8在阅读wiki之后,个人觉得100%可以识别正确,但是对于gb2312和gbk的差异没有体现出来,如果识别一个byte[],那么检测出来是gb2312和gbk问题不大。如果检测一个文件的话,除非检测整个文件,因为gbk包含gb2312,如果作为抽样的片段刚好在gb2312范围内,而文档的其它部分超出了gb2312的范围就会有问题。


目前需要big5的特征,有这个方面经验的同学看到,请留言帮助。




你可能感兴趣的:(text文件编码的检测)