cool! ruby版编码探测器[Universal Encoding Detector in Ruby]

以前一直想用java来作一个类似的东西, 今天看到ruby这边已经有了
-----
gem install chardet -y
-----

require 'rubygems'
require 'UniversalDetector'
require 'net/http'
Net::HTTP.version_1_2
Net::HTTP.start( 'www.sina.com.cn' ) {|http|
    data = http.get("/").body
    p UniversalDetector::chardet(data)
}
它是python版本的移植,  居然有个confidence参数 , 偶测试了国内几个站点, 都很准确, 不过偶发现只要是utf8或者gb2312, 返回的confidence全部都是0.99, 只有国外某些纯ascii的网页会返回1.0

你可能感兴趣的:(encoding)