JSOUP初探

JSOUP是偶然看到的一个处理HTML的JAVA 类库,其官方网址是:http://jsoup.org/

1、编写相关的试用程序(只需要在工程中引用jsoup-1.3.3.jar即可):

[java]  view plain copy
  1. import java.io.File;  
  2. import java.io.IOException;  
  3.   
  4. import org.jsoup.Jsoup;  
  5. import org.jsoup.nodes.Document;  
  6. import org.jsoup.select.Elements;  
  7.   
  8. public class Test {  
  9.     public static void main(String[] args) {  
  10.         Test t = new Test();  
  11.         t.parseFile();  
  12.     }  
  13.   
  14.     public void parseString() {  
  15.         String html = "blog

    Parsed HTML into a doc.

    "
    ;  
  16.         Document doc = Jsoup.parse(html);  
  17.         System.out.println(doc);  
  18.         Elements es = doc.body().getAllElements();  
  19.         System.out.println(es.attr("onload"));  
  20.         System.out.println(es.select("p"));  
  21.     }  
  22.   
  23.     public void parseUrl() {  
  24.         try {  
  25.             Document doc = Jsoup.connect("http://www.baidu.com/").get();  
  26.             Elements hrefs = doc.select("a[href]");  
  27.             System.out.println(hrefs);  
  28.             System.out.println("------------------");  
  29.             System.out.println(hrefs.select("[href^=http]"));  
  30.         } catch (IOException e) {  
  31.             e.printStackTrace();  
  32.         }  
  33.     }  
  34.   
  35.     public void parseFile() {  
  36.         try {  
  37.             File input = new File("input.html");  
  38.             Document doc = Jsoup.parse(input, "UTF-8");  
  39.             // 提取出所有的编号  
  40.             Elements codes = doc.body().select("td[title^=IA] > a[href^=javascript:view]");  
  41.             System.out.println(codes);  
  42.             System.out.println("------------------");  
  43.             System.out.println(codes.html());  
  44.         } catch (IOException e) {  
  45.             e.printStackTrace();  
  46.         }  
  47.     }  
  48. }  


 

2、parseString的输出:

[java]  view plain copy
  1.   
  2.    
  3.   blog  
  4.    
  5.  "test()">  
  6.   

    Parsed HTML into a doc.

      
  7.    
  8.   
  9. test()  
  10.   
  11. Parsed HTML into a doc.

      


 

3、parseUrl的输出:

[java]  view plain copy
  1. "/gaoji/preferences.html">设置  
  2. "http://passport.baidu.com/?login&tpl=mn">登录  
  3. "http://news.baidu.com">新 闻  
  4. "http://tieba.baidu.com">贴 吧  
  5. "http://zhidao.baidu.com">知 道  
  6. "http://mp3.baidu.com">MP3  
  7. "http://image.baidu.com">图 片  
  8. "http://video.baidu.com">视 频  
  9. "http://map.baidu.com">地 图  
  10.   
  11. "#" name="ime_hw">手写  
  12.   
  13. "#" name="ime_py">拼音  
  14.   
  15. "#" name="ime_cl">关闭  
  16. "http://hi.baidu.com">空间  
  17. "http://baike.baidu.com">百科  
  18. "http://www.hao123.com">hao123  
  19. "/more/">更多>>  
  20. "st" οnclick="this.style.behavior='url(#default#homepage)';this.setHomePage('http://www.baidu.com')" href="http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com">把百度设为主页  
  21. "http://e.baidu.com/?refer=888">加入百度推广  
  22. "http://top.baidu.com">搜索风云榜  
  23. "http://home.baidu.com">关于百度  
  24. "http://ir.baidu.com">About Baidu  
  25. "/duty/">使用百度前必读  
  26. "http://www.miibeian.gov.cn" target="_blank">京ICP证030173号  
  27. ------------------  
  28. "http://passport.baidu.com/?login&tpl=mn">登录  
  29. "http://news.baidu.com">新 闻  
  30. "http://tieba.baidu.com">贴 吧  
  31. "http://zhidao.baidu.com">知 道  
  32. "http://mp3.baidu.com">MP3  
  33. "http://image.baidu.com">图 片  
  34. "http://video.baidu.com">视 频  
  35. "http://map.baidu.com">地 图  
  36. "http://hi.baidu.com">空间  
  37. "http://baike.baidu.com">百科  
  38. "http://www.hao123.com">hao123  
  39. "st" οnclick="this.style.behavior='url(#default#homepage)';this.setHomePage('http://www.baidu.com')" href="http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com">把百度设为主页  
  40. "http://e.baidu.com/?refer=888">加入百度推广  
  41. "http://top.baidu.com">搜索风云榜  
  42. "http://home.baidu.com">关于百度  
  43. "http://ir.baidu.com">About Baidu  
  44. "http://www.miibeian.gov.cn" target="_blank">京ICP证030173号  


 

3、parseFile的输出:

[java]  view plain copy
  1. "javascript:view('67530','67530','0');">IA100908-002  
  2.   
  3. "javascript:view('67529','67529','0');">IA100908-001  
  4.   
  5. "javascript:view('67544','67544','0');">IA100908-016  
  6.   
  7. "javascript:view('67364','67364','0');">IA100903-008  
  8.   
  9. "javascript:view('67363','67363','0');">IA100903-007  
  10.   
  11. "javascript:view('66104','66104','0');">IA100710-013  
  12.   
  13. "javascript:view('57916','57916','0');">IA100515-013  
  14.   
  15. "javascript:view('56962','56962','0');">IA100430-022  
  16.   
  17. "javascript:view('66958','66958','0');">IA100830-001  
  18.   
  19. "javascript:view('66319','66319','0');">IA100713-003  
  20.   
  21. "javascript:view('66317','66317','0');">IA100713-001  
  22.   
  23. "javascript:view('66321','66321','0');">IA100713-005  
  24.   
  25. "javascript:view('66967','66967','0');">IA100830-010  
  26.   
  27. "javascript:view('66999','66999','0');">IA100831-001  
  28.   
  29. "javascript:view('67377','67377','0');">IA100904-004  
  30.   
  31. "javascript:view('67378','67378','0');">IA100904-005  
  32.   
  33. "javascript:view('3271','3271','0');">IA080115-031  
  34. ------------------  
  35. IA100908-002  
  36. IA100908-001  
  37. IA100908-016  
  38. IA100903-008  
  39. IA100903-007  
  40. IA100710-013  
  41. IA100515-013  
  42. IA100430-022  
  43. IA100830-001  
  44. IA100713-003  
  45. IA100713-001  
  46. IA100713-005  
  47. IA100830-010  
  48. IA100831-001  
  49. IA100904-004  
  50. IA100904-005  
  51. IA080115-031  


补充下,input.html的基本结果如图:

JSOUP初探_第1张图片

你可能感兴趣的:(基础知识,代码类)