在做一个项目,由于网页限制的原因,不能直接获取源码,系统返回一个500错误之后就跳出了。(源码如下)
public static string GetSource(string Url) { using (WebClient myWebClient = new WebClient()) { try { using (Stream myStream = myWebClient.OpenRead(Url)) { using (StreamReader sr = new StreamReader(myStream, System.Text.Encoding.Default)) { return sr.ReadToEnd(); } } } catch (Exception E) { MessageBox.Show(E.Message); return null; } } }
由于必须用浏览器访问才能看到返回的错误信息(需要关闭浏览器的“友好信息”提示)
所以需要从WebBrowser提取数据。于是,乱码出现了……
切记,千万不要从DocumentText下手,那样的话输出字符的时候编码就已经确定了。
正确解法是处理DocumentStream。这个方法是写在DocumentCompleted事件下的:
Stream SS = WB.DocumentStream; StreamReader Sr = new StreamReader(SS, Encoding.GetEncoding("euc-kr")); richTextBox1.AppendText(Sr.ReadToEnd() + Environment.NewLine);
需要说明的是,“euc-kr”是朝鲜文,也就是我在处理的数据,需要用什么编码输出,直接指定就可以了。