转自:http://www.webkaka.com/blog/archives/ASPNet-WebClient-WebRequest-HtmlCode.html
前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码。下面分别说明这两种方法的实现。
WebClient类获取网页源代码
WebClient类
WebClient类位于System.Net命名空间下,WebClient类提供向URI标识的任何本地、Intranet或Internet资源发送数据以及从这些资源接收数据的公共方法。
源代码
///引用命名空间 using System.IO; using System.Net; using System.Text; PageUrl = "http://www.webkaka.com"; //需要获取源代码的网页 WebClient wc = new WebClient(); // 创建WebClient实例提供向URI 标识的资源发送数据和从URI 标识的资源接收数据 wc.Credentials = CredentialCache.DefaultCredentials; // 获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。 ///方法一: Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312 Byte[] pageData = wc.DownloadData(PageUrl); // 从资源下载数据并返回字节数组。 ContentHtml.Text = enc.GetString(pageData); // 输出字符串(HTML代码),ContentHtml为Multiline模式的TextBox控件 /// 方法二: /// ***************代码开始********** /// Stream resStream = wc.OpenRead(PageUrl); //以流的形式打开URL /// Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312 /// StreamReader sr = new StreamReader(resStream,enc); //以指定的编码方式读取数据流 /// ContentHtml.Text = sr.ReadToEnd(); //输出(HTML代码),ContentHtml为Multiline模式的TextBox控件 /// resStream.Close(); /// **************代码结束******** /// wc.Dispose();
///引用命名空间 using System.IO; using System.Net; using System.Text; PageUrl = "http://www.webkaka.com"; //需要获取源代码的网页 WebRequest request = WebRequest.Create(PageUrl); //WebRequest.Create方法,返回WebRequest的子类HttpWebRequest WebResponse response = request.GetResponse(); //WebRequest.GetResponse方法,返回对 Internet 请求的响应 Stream resStream = response.GetResponseStream(); //WebResponse.GetResponseStream 方法,从 Internet 资源返回数据流。 Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312 StreamReader sr = new StreamReader(resStream, enc); //命名空间:System.IO。 StreamReader 类实现一个 TextReader (TextReader类,表示可读取连续字符系列的读取器),使其以一种特定的编码从字节流中读取字符。 ContentHtml.Text = sr.ReadToEnd(); //输出(HTML代码),ContentHtml为Multiline模式的TextBox控件 resStream.Close(); sr.Close();