android中网络请求回来数据之后,我们要对其解析。请求的返回的结果格式如果不是自定义协议;那么返回的数据通常是xml,json,html形式的数据了。
下面就是针对上面3种格式进行解析。
xml解析使用工具:在android中推荐使用pull解析,还有其他的dom,sax解析。
json解析使用工具:推荐使用Fastjson,由阿里提供。还有其他的如JackSon,Gson解析。
html解析使用工具:推荐使用Jsoup,还有其他的如HtmlParser;关于使用这个,网络上的爬虫就是这样子的。
//android推荐的解析方式 public class PULL { public static List<Person> pullXML() throws Exception { // 获取person文件的输入流 InputStream is = PULL.class.getClassLoader().getResourceAsStream( "person.xml"); // 用来存放解析的person对象 List<Person> persons = null; // 一个标记 boolean flag = false; Person person = null; // 实例化一个XmlPullParser对象 XmlPullParser parser = Xml.newPullParser(); // 设置输入流的编码 parser.setInput(is, "UTF-8"); // 设置第一个事件,从这个事件开始解析文档 int eventCode = parser.getEventType(); // 设定结束标记,如果是END_DOCUEMNT,解析就结束了 while (eventCode != XmlPullParser.END_DOCUMENT) { switch (eventCode) { case XmlPullParser.START_DOCUMENT: // 开始解析的时候我们一般做一些初始化的操作 persons = new ArrayList<Person>(); break; case XmlPullParser.START_TAG: // 判断当前的元素是否是需要检索的元素 if ("person".equals(parser.getName())) { flag = true; person = new Person(); //"person"节点的第一个属性值 person.setId(Integer.valueOf(parser.getAttributeValue(0))); } if (flag) { // 为检索的元素赋值 if ("name".equals(parser.getName())) { //"name"节点后的值 person.setName(parser.nextText()); } else if ("age".equals(parser.getName())) { person.setAge(Integer.valueOf(parser.nextText())); } } break; case XmlPullParser.END_TAG: // 结束标签,判断一个对象是否结束,结束后添加到集合中 if ("person".equals(parser.getName()) && person != null) { flag = false; persons.add(person); person = null; } break; } // 这一步很重要,该方法返回一个事件码,也是触发下一个事件的方法 eventCode = parser.next(); // 取下个标签 } return persons; } }
public class DOM { public static List<Person> domXML() throws Throwable { // 获得xml文件的输入流 InputStream is = MainActivity.class.getClassLoader() .getResourceAsStream("person.xml"); List<Person> persons = new ArrayList<Person>(); // 定义一个工厂API,程序可以从这个API里得到一个能够从XML文档中产生DOM对象的解析器- 翻译的不好 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); DocumentBuilder builder = factory.newDocumentBuilder(); Document document = builder.parse(is); // 返回文档的根元素 Element rootElement = (Element) document.getDocumentElement(); // 获取一个Node集合 NodeList nodes = rootElement.getElementsByTagName("person"); // 遍历Node集合 for (int i = 0; i < nodes.getLength(); i++) { Element personElement = (Element) nodes.item(i); Person person = new Person(); person.setId(Integer.valueOf(personElement.getAttribute("id"))); NodeList childNodes = personElement.getChildNodes(); for (int j = 0; j < childNodes.getLength(); j++) { Node childNode = childNodes.item(j); // 判断子Note的类型为元素Note if (childNode.getNodeType() == Node.ELEMENT_NODE) { Element childElement = (Element) childNode; if ("name".equals(childElement.getNodeName())) { person.setName(childElement.getFirstChild() .getNodeValue()); } else if ("age".equals(childElement.getNodeName())) { person.setAge(Integer.valueOf(childElement .getFirstChild().getNodeValue())); } } } persons.add(person); } return persons; } }
public class SAX extends DefaultHandler { public static List<Person> sax_XML() throws Exception { InputStream inputStream = MainActivity.class.getClassLoader() .getResourceAsStream("person.xml"); if (inputStream != null) { Log.d("inputStream", inputStream + ""); } else { Log.e("inputStream", inputStream + "为空"); } SAX saXforHandler = new SAX(); SAXParserFactory spf = SAXParserFactory.newInstance(); SAXParser saxParser = spf.newSAXParser(); saxParser.parse(inputStream, saXforHandler); List<Person> list = saXforHandler.getPersons(); inputStream.close(); return list; } /** * This is log.d TAG */ private static final String TAG = "SAXTag"; /** * Store persons 存储人数组 */ private List<Person> persons; /** * a Person */ private Person person; /** * recode the name of current tag */ private String tag; /** * When startDocument,you can initial something in this method * 当文档开始时,会调用这个方法 */ @Override public void startDocument() throws SAXException { persons = new ArrayList<Person>(); Log.d(TAG, "the sax is starting"); } /** * invoke the method after endDocument 文档结束时会调用这个方法 */ @Override public void endDocument() throws SAXException { Log.d(TAG, "endDocument"); } /** * invoke when startElement 开始读取元素时候调用这个方法 */ @Override public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { if ("person".equals(localName)) { for (int i = 0; i < attributes.getLength(); i++) { Log.d(TAG, "attributes.getLength" + attributes.getLength()); Log.d(TAG, "attributesName: " + attributes.getLocalName(i) + "_attributesValue" + attributes.getValue(i)); person = new Person(); person.setId(Integer.valueOf(attributes.getValue(i))); } } tag = localName; Log.i(TAG, "localName = " + localName); } /** * read the element content 读取元素里面的内容。 比如说读到age,age的内容是21.这个方法就是来读21的 */ @Override public void characters(char[] ch, int start, int length) throws SAXException { String data = new String(ch, start, length).trim(); if (!"".equals(data)) { Log.i(TAG, "Content: " + data); } if ("name".equals(tag)) { person.setName(data); } else if ("age".equals(tag)) { person.setAge(Integer.valueOf(data)); } } /** * 一个元素结束时候调用 就是遇到反斜杠时候调用 */ @Override public void endElement(String uri, String localName, String qName) throws SAXException { if ("person".equals(localName) && person != null) { persons.add(person); person = null; } tag = null; } private List<Person> getPersons() { return persons; } }
/** * * * JSON.toJSONString;用于将实体类对象或实体集合转为Json格式字符 * JSON.parseObject,JSON.parseArray用于将json格式字符转为实体对象或实体集合 * * 类似的实体与JSON格式之间的转换工具还有Gson,JackSon; * * @author ZhangSheng * */ public class FastJson { private static String TAG = "FastJson"; /** * 将实体对象或集合转为jsonsString * * @param object * @return */ public static String toJsonString(Object object) { return JSON.toJSONString(object); } /** * 将jsonString转为实体对象 * * @param text * @param clazz * @return */ public static <T> T parseObject(String text, Class<T> clazz) { T object = JSON.parseObject(text, clazz); return object; } /** * 将jsonString转为实体集合 * * @param text * @param clazz * @return */ public static <T> List<T> parseArray(String text, Class<T> clazz) { List<T> array = JSON.parseArray(text, clazz); return array; } /****************************** 测试 ***************************************/ public static void test() { StudentInfo studentInfo1 = new StudentInfo("11", "11", 11); StudentInfo studentInfo2 = new StudentInfo("11", "11", 11); List<StudentInfo> students = new ArrayList<>(); students.add(studentInfo1); students.add(studentInfo2); ClassInfo classInfo = new ClassInfo("1", "1", students); String students_Str = FastJson.toJsonString(students); Log.d(TAG, "students_Str=" + students_Str + "\n\n"); String studentInfo_Str = FastJson.toJsonString(studentInfo1); String classInfo_Str = FastJson.toJsonString(classInfo); Log.d(TAG, "studentInfo_Str=" + studentInfo_Str + "\n classInfo_Str=" + classInfo_Str); StudentInfo parseObject = FastJson.parseObject(studentInfo_Str, StudentInfo.class); Log.d(TAG, "studentInfo=" + parseObject + "\n\n"); List<StudentInfo> parseArray = FastJson.parseArray(students_Str, StudentInfo.class); Log.d(TAG, "StudentInfos=" + parseArray + "\n\n"); } public static class StudentInfo { public String id; public String name; public int age; public StudentInfo() { super(); } public StudentInfo(String id, String name, int age) { super(); this.id = id; this.name = name; this.age = age; } @Override public String toString() { return "StudentInfo [id=" + id + ", name=" + name + ", age=" + age + "]"; } } public static class ClassInfo { public String id; public String name; public List<StudentInfo> students; public ClassInfo(String id, String name, List<StudentInfo> students) { super(); this.id = id; this.name = name; this.students = students; } public ClassInfo() { super(); } @Override public String toString() { return "ClassInfo [id=" + id + ", name=" + name + ", students=" + students + "]"; } } }
<p>Jsoup相关内容:涉及到html数据的输入,从html中抽取数据,修改html中的数据这三个部分。</p><h4>html数据的输入:</h4>
1.解析一个Html字符串: 使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri) 如: String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); 另一个方法提供的参数 baseUri 是用来将相对 URL 转成绝对URL; 一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据 2.解析一个body片段: 假如你有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。 使用Jsoup.parseBodyFragment(String html) String html = "<div><p>Lorem ipsum.</p>"; Document doc = Jsoup.parseBodyFragment(html); Element body = doc.body(); 使用Document.body()方法能够取得文档body元素的所有子元素,与 doc.getElementsByTag("body")相同。 3.从一个网站Url上加载一个Document: 使用Jsoup.connect(String url) 如: Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title(); 或者使用 该方法,只支持http和https协议; Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); 4.加载本地硬盘上的html文件: 使用Jsoup.parse(File in, String charsetName, String baseUri) baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。 另外还有一个方法Jsoup.parse(File in, String charsetName) 它使用文件的路径做为 baseUri, 这个方法适用于如果被解析文件位于网站的本地文件系统,且相关链接也指向该文件系统。 如: File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); <h4>html数据的抽取:</h4>
1.使用dom方法来遍历一个document: 经过上面的数据的输入之后,我们可以获取到一个document对象。之后我们将对这个对象做数据抽取; 基本代码如下:这是是一个本地html文件抽取: File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text(); } 下面是一些常见的方法: 查找元素 getElementById(String id) getElementsByTag(String tag) getElementsByClass(String className) getElementsByAttribute(String key) (and related methods) Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling() Graph: parent(), children(), child(int index) 元素数据 attr(String key)获取属性attr(String key, String value)设置属性 attributes()获取所有属性 id(), className() and classNames() text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素内的HTML内容 outerHtml()获取元素外HTML内容 data()获取数据内容(例如:script和style标签) tag() and tagName() 操作HTML和文本 append(String html), prepend(String html) appendText(String text), prependText(String text) appendElement(String tagName), prependElement(String tagName) html(String value) 2.使用选择器语法来查找元素: 使用Element.select(String selector) 和 Elements.select(String selector) 如: File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Elements links = doc.select("a[href]"); //带有href属性的a元素 Elements pngs = doc.select("img[src$=.png]"); //扩展名为.png的图片 Element masthead = doc.select("div.masthead").first(); //class等于masthead的div标签 Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素 说明 jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。. 这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。 Select方法将返回一个Elements集合,并提供一组方法来抽取和处理结果。 Selector选择器概述 tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素 #id: 通过ID查找元素,比如:#logo .class: 通过class名称查找元素,比如:.masthead [attribute]: 利用属性查找元素,比如:[href] [^attr]: 利用属性名前缀来查找元素,比如:可以用[^data-] 来查找带有HTML5 Dataset属性的元素 [attr=value]: 利用属性值来查找元素,比如:[width=500] [attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素,比如:[href*=/path/] [attr~=regex]: 利用属性值匹配正则表达式来查找元素,比如: img[src~=(?i)\.(png|jpe?g)] *: 这个符号将匹配所有元素 Selector选择器组合使用 el#id: 元素+ID,比如: div#logo el.class: 元素+class,比如: div.masthead el[attr]: 元素+class,比如: a[href] 任意组合,比如:a[href].highlight ancestor child: 查找某个元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素 parent > child: 查找某个父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body标签下所有直接子元素 siblingA + siblingB: 查找在A元素之前第一个同级元素B,比如:div.head + div siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ p el, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如:div.masthead, div.logo 伪选择器selectors :lt(n): 查找哪些元素的同级索引值(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小于三列的元素 :gt(n):查找哪些元素的同级索引值大于n,比如: div p:gt(2)表示哪些div中有包含2个以上的p元素 :eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素 :not(selector): 查找与选择器不匹配的元素,比如: div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 :contains(text): 查找包含给定文本的元素,搜索不区分大不写,比如: p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex): 查找哪些元素的文本匹配指定的正则表达式,比如:div:matches((?i)login) :matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素 注意:上述伪选择器索引是从0开始的,也就是说第一个元素索引值为0,第二个元素index为1等 可以查看Selector API参考来了解更详细的内容 3.抽取元素属性,文本,html 要取得一个属性的值,可以使用Node.attr(String key) 方法 对于一个元素中的文本,可以使用Element.text()方法 对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法 如: String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>"; Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现 Element link = doc.select("a").first();//查找第一个a元素 String text = doc.body().text(); // "An example link"//取得字符串中的文本 linkHref = link.attr("href"); // "http://example.com/"//取得链接地址 String linkText = link.text(); // "example""//取得链接地址中的文本 String linkOuterH = link.outerHtml(); // "<a href="http://example.com"><b>example</b></a>" String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容 说明 上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用: Element.id() Element.tagName() Element.className() and Element.hasClass(String className) 这些访问器方法都有相应的setter方法来更改数据. 4.处理URLs: 在你解析文档时确保有指定base URI,然后使用 abs: 属性前缀来取得包含base URI的绝对路径 如: Document doc = Jsoup.connect("http://www.open-open.com").get(); Element link = doc.select("a").first(); String relHref = link.attr("href"); // == "/" String absHref = link.attr("abs:href"); // "http://www.open-open.com/" <h4>Html数据的修改:</h4>
1.设置属性的值: 使用 Element.attr(String key, String value), 和 Elements.attr(String key, String value). Element.addClass(String className) 和 Element.removeClass(String className) 方法。 如: doc.select("div.masthead").attr("title", "jsoup").addClass("round-box"); 2.设置一个元素的Html内容: Element.html(String html) 这个方法将先清除元素中的HTML内容,然后用传入的HTML代替。 Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容 Element.wrap(String around) 对元素包裹一个外部HTML内容。 如: Element div = doc.select("div").first(); // <div></div> div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div> div.prepend("<p>First</p>");//在div前添加html内容 div.append("<p>Last</p>");//在div之后添加html内容 // 添完后的结果: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div> Element span = doc.select("span").first(); // <span>One</span> span.wrap("<li><a href='http://example.com/'></a></li>"); // 添完后的结果: <li><a href="http://example.com"><span>One</span></a></li> 3.设置一个元素的文本内容: Element.text(String text) 将清除一个元素中的内部HTML内容,然后提供的文本进行代替 Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。 对于传入的文本如果含有像 <, > 等这样的字符,将以文本处理,而非HTML。 如: Element div = doc.select("div").first(); // <div></div> div.text("five > four"); // <div>five > four</div> div.prepend("First "); div.append(" Last"); // now: <div>First five > four Last</div> <h4>最后是一个获取所有链接的例子:</h4>
/** * Example program to list links from a URL. */ public class ListLinks { public static void main(String[] args) throws IOException { Validate.isTrue(args.length == 1, "usage: supply url to fetch"); String url = args[0]; print("Fetching %s...", url); Document doc = Jsoup.connect(url).get(); Elements links = doc.select("a[href]"); Elements media = doc.select("[src]"); Elements imports = doc.select("link[href]"); print("\nMedia: (%d)", media.size()); for (Element src : media) { if (src.tagName().equals("img")) print(" * %s: <%s> %sx%s (%s)", src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"), trim(src.attr("alt"), 20)); else print(" * %s: <%s>", src.tagName(), src.attr("abs:src")); } print("\nImports: (%d)", imports.size()); for (Element link : imports) { print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel")); } print("\nLinks: (%d)", links.size()); for (Element link : links) { print(" * a: <%s> (%s)", link.attr("abs:href"), trim(link.text(), 35)); } } private static void print(String msg, Object... args) { System.out.println(String.format(msg, args)); } private static String trim(String s, int width) { if (s.length() > width) return s.substring(0, width-1) + "."; else return s; } }