转载:http://blog.csdn.net/wish_silence/archive/2009/07/17/4353815.aspx
声明:本文系JavaEye网站发布的原创博客文章,未经作者书面许可,严禁任何网站转载本文,否则必将追究法律责任!
今天是2008 年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google的翻译,所以想把google的翻译整合到我的开始页面中来,于是乎就遇到了一个问题,怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出?另外,google的翻译页面是使用post的方法提交数据的,无法直接通过网址进行处理,于是乎,这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问(花了我 20分),找到了一个htmlparser的jar包组件,据说是可以很高效率的进行html的解析。于是乎,立马下载了一个过来。(文后附件中有)试了一下果然不错。同时,在这个过程中也学会了怎样利用java来和其它网站交互,这可是一个非常不错的功能,配合htmlparser,可以随心所欲的截取别人网站的信息了!
废话不多说了,下面是具体的使用步骤。
首先,向一个Web站点发送POST请求只需要简单的几步:
注意,这里不需要导入任何第三方包
1. package com.test;
2.
3. import java.io.BufferedReader;
4. import java.io.IOException;
5. import java.io.InputStream;
6. import java.io.InputStreamReader;
7. import java.io.OutputStreamWriter;
8. import java.net.URL;
9. import java.net.URLConnection;
10.
11. public class TestPost {
12.
13. public static void testPost() throws IOException {
14.
15. /**
16. * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如: // Using
17. * java.net.URL and //java.net.URLConnection
18. */
19. URL url = new URL("http://www.faircanton.com/message/check.asp");
20. URLConnection connection = url.openConnection();
21. /**
22. * 然后把连接设为输出模式。URLConnection通常作为输入来使用,比如下载一个Web页。
23. * 通过把URLConnection设为输出,你可以把数据向你个Web页传送。下面是如何做:
24. */
25. connection.setDoOutput(true);
26. /**
27. * 最后,为了得到OutputStream,简单起见,把它约束在Writer并且放入POST信息中,例如: ...
28. */
29. OutputStreamWriter out = new OutputStreamWriter(connection
30. .getOutputStream(), "8859_1");
31. out.write("username=kevin&password=*********"); //post的关键所在!
32. // remember to clean up
33. out.flush();
34. out.close();
35. /**
36. * 这样就可以发送一个看起来象这样的POST:
37. * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:
38. * text/plain Content-type: application/x-www-form-urlencoded
39. * Content-length: 99 username=bob password=someword
40. */
41. // 一旦发送成功,用以下方法就可以得到服务器的回应:
42. String sCurrentLine;
43. String sTotalString;
44. sCurrentLine = "";
45. sTotalString = "";
46. InputStream l_urlStream;
47. l_urlStream = connection.getInputStream();
48. // 传说中的三层包装阿!
49. BufferedReader l_reader = new BufferedReader(new InputStreamReader(
50. l_urlStream));
51. while ((sCurrentLine = l_reader.readLine()) != null) {
52. sTotalString += sCurrentLine + "\r\n";
53.
54. }
55. System.out.println(sTotalString);
56. }
57.
58. public static void main(String[] args) throws IOException {
59.
60. testPost();
61.
62. }
63.
64. }
执行的结果:(果真是返回了验证后的html阿!神奇!)
1. <html>
2. <head>
3. <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
4. <title>账户已经冻结</title>
5. <style type="text/css">
6. <!--
7. .temp {
8. font-family: Arial, Helvetica, sans-serif;
9. font-size: 14px;
10. font-weight: bold;
11. color: #666666;
12. margin: 10px;
13. padding: 10px;
14. border: 1px solid #999999;
15. }
16. .STYLE1 {color: #FF0000}
17. -->
18. </style>
19. </head>
20.
21. <body>
22. <p> </p>
23. <p> </p>
24. <p> </p>
25. <table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
26. <tr>
27. <td width="135" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td>
28. <td width="563"><p><span class="STYLE1">登录失败</span><br>
29. <br>
30. 您的帐户活跃指数低于系统限制,您的帐户已经被暂时冻结。<br>
31. 请您联系网络主管或者人事主管重新激活您的帐户。</p>
32. </td>
33. </tr>
34. </table>
35. <p> </p>
36. </body>
37. </html>
一些Web站点用POST形式而不是GET,这是因为POST能够携带更多的数据,而且不用URL,这使得它看起来不那么庞大。使用上面列出的大致的代码,Java代码可以和这些站点轻松的实现对话。
得到html以后,分析内容就显得相对轻松了。现在就可以使用htmlparser了,下面是一个简单的示例程序,过多的解释我就不说了,相信代码能够说明一切的!
1. package com.test;
2.
3. import org.htmlparser.Node;
4. import org.htmlparser.NodeFilter;
5. import org.htmlparser.Parser;
6. import org.htmlparser.filters.TagNameFilter;
7. import org.htmlparser.tags.TableTag;
8. import org.htmlparser.util.NodeList;
9.
10. /**
11. * 标题:利用htmlparser提取网页纯文本的例子
12. */
13. public class TestHTMLParser {
14. public static void testHtml() {
15. try {
16. String sCurrentLine;
17. String sTotalString;
18. sCurrentLine = "";
19. sTotalString = "";
20. java.io.InputStream l_urlStream;
21. java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
22. java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
23. l_connection.connect();
24. l_urlStream = l_connection.getInputStream();
25. java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
26. while ((sCurrentLine = l_reader.readLine()) != null) {
27. sTotalString += sCurrentLine+"\r\n";
28. // System.out.println(sTotalString);
29. }
30. String testText = extractText(sTotalString);
31. System.out.println( testText );
32.
33. } catch (Exception e) {
34. e.printStackTrace();
35. }
36.
37. }
38.
39. public static String extractText(String inputHtml) throws Exception {
40. StringBuffer text = new StringBuffer();
41. Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
42. // 遍历所有的节点
43. NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
44. public boolean accept(Node node) {
45. return true;
46. }
47. });
48.
49. System.out.println(nodes.size()); //打印节点的数量
50. for (int i=0;i<nodes.size();i++){
51. Node nodet = nodes.elementAt(i);
52. //System.out.println(nodet.getText());
53. text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
54. }
55. return text.toString();
56. }
57.
58. public static void test5(String resource) throws Exception {
59. Parser myParser = new Parser(resource);
60. myParser.setEncoding("GBK");
61. String filterStr = "table";
62. NodeFilter filter = new TagNameFilter(filterStr);
63. NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
64. TableTag tabletag = (TableTag) nodeList.elementAt(11);
65.
66. }
67.
68. public static void main(String[] args) throws Exception {
69. // test5("http://www.ggdig.com");
70. testHtml();
71. }
72. }