《深入浅出Android》一书当中有一章提到用SAX和DOM解析Google Weather API获取的天气信息。尝试以后发现书上的代码对返回的中文XML有一定的问题。具体症状表现在用SAX解析会出现一个异常,而用DOM来解析则会出现乱码,google好多讨论区都有提到这个问题。初步判断是返回的XML的编码问题。
首先来看一下这个API,使用这个URL:http://www.google.com/ig/api?hl=zh-cn&weather=shanghai,china,能返回一个关于指定地区天气信息的XML,URL当中的参数hl表示XML使用的语言,hl=zh-cn表示简体中文,回到最初提到的那个错误,我尝试了下hl=en这个参数,返回英文以后发现解析完全正常,于是进一步地证实可能由于XML编码的问题导致了这一切的异常和乱码问题。
我们来看看返回的XML的结构
<?xml version="1.0" ?> <xml_api_reply version="1"> <weather module_id="0" tab_id="0" mobile_row="0" mobile_zipped="1" row="0" section="0"> <forecast_information> <city data="Shanghai, Shanghai" /> <postal_code data="shanghai,china" /> <latitude_e6 data="" /> <longitude_e6 data="" /> <forecast_date data="2010-05-17" /> <current_date_time data="2010-05-17 17:00:00 +0000" /> <unit_system data="SI" /> </forecast_information> <current_conditions> <condition data="多云" /> <temp_f data="73" /> <temp_c data="23" /> <humidity data="湿度: 78%" /> <icon data="/ig/images/weather/mostly_cloudy.gif" /> <wind_condition data="风向: 东南、风速:7 米/秒" /> </current_conditions> <forecast_conditions> <day_of_week data="周一" /> <low data="22" /> <high data="28" /> <icon data="/ig/images/weather/chance_of_rain.gif" /> <condition data="可能有雨" /> </forecast_conditions> <forecast_conditions> <day_of_week data="周二" /> <low data="22" /> <high data="29" /> <icon data="/ig/images/weather/chance_of_storm.gif" /> <condition data="可能有暴风雨" /> </forecast_conditions> <forecast_conditions> <day_of_week data="周三" /> <low data="17" /> <high data="26" /> <icon data="/ig/images/weather/chance_of_rain.gif" /> <condition data="可能有雨" /> </forecast_conditions> <forecast_conditions> <day_of_week data="周四" /> <low data="18" /> <high data="24" /> <icon data="/ig/images/weather/chance_of_rain.gif" /> <condition data="可能有雨" /> </forecast_conditions> </weather> </xml_api_reply>
仔细看这个XML的头部,<?xml version="1.0" ?>,跟标准的XML头部相比缺少了类似encoding=UTF-8这样的编码声明。于是怀疑正是由于这一点导致SAX或者DOM解析器把本不是UTF-8的字符编码当作UTF-8来处理,于是导致了乱码和异常。经过google搜索证实当使用hl=zh-cn时返回的是GBK编码的XML,并且有许多用到这个API的php代码都做了GBK->UTF-8的转换处理。
问题到了这里其实就很简单了,既然是GBK编码SAX和DOM默认当UTF-8来处理,并且我们不可能去更改GOOGLE的Servlet让他返回一个在XML头部带encoding=GBK的XML。那么我们只有两个办法,要嘛就把返回的XML从GBK编码转码到UTF-8,要嘛就让SAX和DOM解析器把XML当GBK来处理。第二种方法我找了半天没找到SAX和DOM有这个功能的函数,于是着手从第一种办法来解决。
可以添加这么一个函数
protected String getResponse(String queryURL) { URL url; try { url = new URL(queryURL.replace(" ", "%20")); URLConnection urlconn = url.openConnection(); urlconn.connect(); InputStream is = urlconn.getInputStream(); BufferedInputStream bis = new BufferedInputStream(is); ByteArrayBuffer buf = new ByteArrayBuffer(50); int read_data = -1; while ((read_data = bis.read()) != -1) { buf.append(read_data); } //String resp = buf.toString(); String resp = EncodingUtils.getString(buf.toByteArray(), "GBK"); return resp; } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace(); return ""; } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); return ""; } }
JAVA本身的String是UTF-8的,所以只要利用这样的办法读取XML数据并做转码即可。参数queryURL就是http://www.google.com/ig/api?hl=zh-cn&weather=shanghai,china
然后获取到了XML的String形式存放,这个时候XML已经是UTF-8编码了,然后在加入到DOM和SAX解析器进行解析就可以了。
SAX解析部分:
SAXParserFactory spf = SAXParserFactory.newInstance(); SAXParser sp = spf.newSAXParser(); String resp = getResponse(queryURL); XMLReader reader = sp.getXMLReader(); //省略SetContentHandler的代码 InputSource is = new InputSource(); is.setByteStream(new ByteArrayInputStream(resp.getBytes())); reader.parse(is); //部分处理代码省略
DOM的解析代码
String resp = getResponse(queryURL); ByteArrayInputStream is = new ByteArrayInputStream(resp.getBytes()); DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); DocumentBuilder db = dbf.newDocumentBuilder(); Document doc = db.parse(is); //具体解析代码和错误处理代码省略