Java发送Http请求,解析html返回

转载:http://blog.csdn.net/wish_silence/archive/2009/07/17/4353815.aspx

声明:本文系JavaEye网站发布的原创博客文章,未经作者书面许可,严禁任何网站转载本文,否则必将追究法律责任!

今天是2008 年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google的翻译,所以想把google的翻译整合到我的开始页面中来,于是乎就遇到了一个问题,怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出?另外,google的翻译页面是使用post的方法提交数据的,无法直接通过网址进行处理,于是乎,这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问(花了我 20分),找到了一个htmlparser的jar包组件,据说是可以很高效率的进行html的解析。于是乎,立马下载了一个过来。(文后附件中有)试了一下果然不错。同时,在这个过程中也学会了怎样利用java来和其它网站交互,这可是一个非常不错的功能,配合htmlparser,可以随心所欲的截取别人网站的信息了!
废话不多说了,下面是具体的使用步骤。

首先,向一个Web站点发送POST请求只需要简单的几步:
注意,这里不需要导入任何第三方包
Java代码
1. package com.test;    
2.     
3. import java.io.BufferedReader;    
4. import java.io.IOException;    
5. import java.io.InputStream;    
6. import java.io.InputStreamReader;    
7. import java.io.OutputStreamWriter;    
8. import java.net.URL;    
9. import java.net.URLConnection;    
10.     
11. public class TestPost {    
12.     
13.     public static void testPost() throws IOException {    
14.     
15.         /**  
16.          * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如: // Using  
17.          *  java.net.URL and //java.net.URLConnection  
18.          */    
19.         URL url = new URL("http://www.faircanton.com/message/check.asp");    
20.         URLConnection connection = url.openConnection();    
21.         /**  
22.          * 然后把连接设为输出模式。URLConnection通常作为输入来使用,比如下载一个Web页。  
23.          * 通过把URLConnection设为输出,你可以把数据向你个Web页传送。下面是如何做:  
24.          */    
25.         connection.setDoOutput(true);    
26.         /**  
27.          * 最后,为了得到OutputStream,简单起见,把它约束在Writer并且放入POST信息中,例如: ...  
28.          */    
29.         OutputStreamWriter out = new OutputStreamWriter(connection    
30.                 .getOutputStream(), "8859_1");    
31.         out.write("username=kevin&password=*********"); //post的关键所在!    
32.         // remember to clean up    
33.         out.flush();    
34.         out.close();    
35.         /**  
36.          * 这样就可以发送一个看起来象这样的POST:   
37.          * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:  
38.          * text/plain Content-type: application/x-www-form-urlencoded  
39.          * Content-length: 99 username=bob password=someword  
40.          */    
41.         // 一旦发送成功,用以下方法就可以得到服务器的回应:    
42.         String sCurrentLine;    
43.         String sTotalString;    
44.         sCurrentLine = "";    
45.         sTotalString = "";    
46.         InputStream l_urlStream;    
47.         l_urlStream = connection.getInputStream();    
48.         // 传说中的三层包装阿!    
49.         BufferedReader l_reader = new BufferedReader(new InputStreamReader(    
50.                 l_urlStream));    
51.         while ((sCurrentLine = l_reader.readLine()) != null) {    
52.             sTotalString += sCurrentLine + "\r\n";    
53.     
54.         }    
55.         System.out.println(sTotalString);    
56.     }    
57.     
58.     public static void main(String[] args) throws IOException {    
59.     
60.         testPost();    
61.     
62.     }    
63.     
64. }   

   1. package com.test; 
   2.  
   3. import java.io.BufferedReader; 
   4. import java.io.IOException; 
   5. import java.io.InputStream; 
   6. import java.io.InputStreamReader; 
   7. import java.io.OutputStreamWriter; 
   8. import java.net.URL; 
   9. import java.net.URLConnection; 
  10.  
  11. public class TestPost { 
  12.  
  13.     public static void testPost() throws IOException { 
  14.  
  15.         /**
  16.          * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如: // Using
  17.          *  java.net.URL and //java.net.URLConnection
  18.          */ 
  19.         URL url = new URL("http://www.faircanton.com/message/check.asp"); 
  20.         URLConnection connection = url.openConnection(); 
  21.         /**
  22.          * 然后把连接设为输出模式。URLConnection通常作为输入来使用,比如下载一个Web页。
  23.          * 通过把URLConnection设为输出,你可以把数据向你个Web页传送。下面是如何做:
  24.          */ 
  25.         connection.setDoOutput(true); 
  26.         /**
  27.          * 最后,为了得到OutputStream,简单起见,把它约束在Writer并且放入POST信息中,例如: ...
  28.          */ 
  29.         OutputStreamWriter out = new OutputStreamWriter(connection 
  30.                 .getOutputStream(), "8859_1"); 
  31.         out.write("username=kevin&password=*********"); //post的关键所在! 
  32.         // remember to clean up 
  33.         out.flush(); 
  34.         out.close(); 
  35.         /**
  36.          * 这样就可以发送一个看起来象这样的POST: 
  37.          * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:
  38.          * text/plain Content-type: application/x-www-form-urlencoded
  39.          * Content-length: 99 username=bob password=someword
  40.          */ 
  41.         // 一旦发送成功,用以下方法就可以得到服务器的回应: 
  42.         String sCurrentLine; 
  43.         String sTotalString; 
  44.         sCurrentLine = ""; 
  45.         sTotalString = ""; 
  46.         InputStream l_urlStream; 
  47.         l_urlStream = connection.getInputStream(); 
  48.         // 传说中的三层包装阿! 
  49.         BufferedReader l_reader = new BufferedReader(new InputStreamReader( 
  50.                 l_urlStream)); 
  51.         while ((sCurrentLine = l_reader.readLine()) != null) { 
  52.             sTotalString += sCurrentLine + "\r\n"; 
  53.  
  54.         } 
  55.         System.out.println(sTotalString); 
  56.     } 
  57.  
  58.     public static void main(String[] args) throws IOException { 
  59.  
  60.         testPost(); 
  61.  
  62.     } 
  63.  
  64. } 

执行的结果:(果真是返回了验证后的html阿!神奇!)

  Java代码
1. <html>    
  2. <head>    
  3. <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />    
  4. <title>账户已经冻结</title>    
  5. <style type="text/css">    
  6. <!--    
  7. .temp {    
  8.     font-family: Arial, Helvetica, sans-serif;    
  9.     font-size: 14px;    
10.     font-weight: bold;    
11.     color: #666666;    
12.     margin: 10px;    
13.     padding: 10px;    
14.     border: 1px solid #999999;    
15. }    
16. .STYLE1 {color: #FF0000}    
17. -->    
18. </style>    
19. </head>    
20.     
21. <body>    
22. 
    
23. 
    
24. 
    
25. <table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">    
26.   <tr>    
27.     <td width="135" height="192">
<img src="images/err.jpg" width="54" height="58">
</td>    
28.     <td width="563"><span class="STYLE1">登录失败</span><br>    
29.         <br>    
30.     您的帐户活跃指数低于系统限制,您的帐户已经被暂时冻结。<br>    
31.     请您联系网络主管或者人事主管重新激活您的帐户。
    
32.     </td>    
33.   </tr>    
34. </table>    
35. 
    
36. </body>    
37. </html>   

1. <html> 
   2. <head> 
   3. <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> 
   4. <title>账户已经冻结</title> 
   5. <style type="text/css"> 
   6. <!-- 
   7. .temp { 
   8.     font-family: Arial, Helvetica, sans-serif; 
   9.     font-size: 14px; 
  10.     font-weight: bold; 
  11.     color: #666666; 
  12.     margin: 10px; 
  13.     padding: 10px; 
  14.     border: 1px solid #999999; 
  15. } 
  16. .STYLE1 {color: #FF0000} 
  17. --> 
  18. </style> 
  19. </head> 
  20.  
  21. <body> 
  22. 
 
  23. 
 
  24. 
 
  25. <table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp"> 
  26.   <tr> 
  27.     <td width="135" height="192">
<img src="images/err.jpg" width="54" height="58">
</td> 
  28.     <td width="563"><span class="STYLE1">登录失败</span><br> 
  29.         <br> 
  30.     您的帐户活跃指数低于系统限制,您的帐户已经被暂时冻结。<br> 
  31.     请您联系网络主管或者人事主管重新激活您的帐户。
 
  32.     </td> 
  33.   </tr> 
  34. </table> 
  35. 
 
  36. </body> 
  37. </html> 

一些Web站点用POST形式而不是GET,这是因为POST能够携带更多的数据,而且不用URL,这使得它看起来不那么庞大。使用上面列出的大致的代码,Java代码可以和这些站点轻松的实现对话。


得到html以后,分析内容就显得相对轻松了。现在就可以使用htmlparser了,下面是一个简单的示例程序,过多的解释我就不说了,相信代码能够说明一切的!

   Java代码
1. package com.test;    
   2.     
   3. import org.htmlparser.Node;    
   4. import org.htmlparser.NodeFilter;    
   5. import org.htmlparser.Parser;    
   6. import org.htmlparser.filters.TagNameFilter;    
   7. import org.htmlparser.tags.TableTag;    
   8. import org.htmlparser.util.NodeList;    
   9.     
  10. /**  
  11. * 标题:利用htmlparser提取网页纯文本的例子  
  12. */    
  13. public class TestHTMLParser {    
  14.   public static void testHtml() {    
  15.     try {    
  16.         String sCurrentLine;    
  17.         String sTotalString;    
  18.         sCurrentLine = "";    
  19.         sTotalString = "";    
  20.         java.io.InputStream l_urlStream;    
  21.         java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");    
  22.         java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();    
  23.         l_connection.connect();    
  24.         l_urlStream = l_connection.getInputStream();    
  25.         java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));    
  26.         while ((sCurrentLine = l_reader.readLine()) != null) {    
  27.           sTotalString += sCurrentLine+"\r\n";    
  28.         //  System.out.println(sTotalString);    
  29.         }    
  30.         String testText = extractText(sTotalString);    
  31.         System.out.println( testText );    
  32.     
  33.     } catch (Exception e) {    
  34.         e.printStackTrace();    
  35.     }    
  36.     
  37.   }    
  38.      
  39.   public static String extractText(String inputHtml) throws Exception {    
  40.     StringBuffer text = new StringBuffer();    
  41.     Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");    
  42.     // 遍历所有的节点    
  43.     NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {    
  44.         public boolean accept(Node node) {    
  45.           return true;    
  46.         }    
  47.     });    
  48.     
  49.     System.out.println(nodes.size()); //打印节点的数量    
  50.     for (int i=0;i<nodes.size();i++){    
  51.          Node nodet = nodes.elementAt(i);    
  52.          //System.out.println(nodet.getText());     
  53.         text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");              
  54.     }    
  55.     return text.toString();    
  56.   }    
  57.      
  58.   public static void test5(String resource) throws Exception {    
  59.     Parser myParser = new Parser(resource);    
  60.     myParser.setEncoding("GBK");    
  61.     String filterStr = "table";    
  62.     NodeFilter filter = new TagNameFilter(filterStr);    
  63.     NodeList nodeList = myParser.extractAllNodesThatMatch(filter);    
  64.     TableTag tabletag = (TableTag) nodeList.elementAt(11);    
  65.          
  66.   }    
  67.     
  68.   public static void main(String[] args) throws Exception {    
  69.     // test5("http://www.ggdig.com");    
  70.     testHtml();    
  71.   }    
  72. }   

你可能感兴趣的:(java,html,.net,Web,asp.net)