问题描述:有一个网页列表,准备用webBrowser的navigate一个个去访问,然后获取页面内容。但navigate是异步的,一调用之后,不等待页面加载完毕,因为访问网页需要时间,取决于网速,程序就返回循环继续用下一个网址调用navigate,导致navigate不停的被调用,结果是一个网页都打不开,只有列表中最后一个列表,因为没有后续的干扰能被完整加载。
网上发现有人跟我情况一样,提供的方法能解决问题,引述如下:
-----------------------------------------------------------------------------------------------------------------
net(c#)在循环语句中执行WebBrowser.Navigate();方法,每次循环等待网页加载完后继续执行的解决方案.http://www.cnblogs.com/yangxiaohu1/archive/2009/01/06/1370693.html
最近在写一个小程序的时候,遇到这样的需求:
已知一组网页url地址,想获取每一个网页的html,实际上就是想利用循环语句里面使用WebBrowser来加载每一个网页,然后获取他们的html,
要实现这个功能,想想应该是件很简单的事情,但是在实际操作中却遇到了问题,因为循环语句和WebBrowser的加载不同步的原因,导致前一个
前一个网页还没加载完,下一次循环又开始了....最终的结果是WebBrowser只获取到了最后一个页面的html.要解决这个问题,我们要做的就是
让循环执行完前一次后等待网页加载完,然后执行下一次循环去加载下面的网页.....,按照这个思路,写了以下程序,经测试果然有效.
bool loading = true; //该变量表示网页是否正在加载.
string html = string.Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml(string[] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach (string url in urls)
{
loading = true; //表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents();//等待本次加载完毕才执行下次循环.
}
}
}
void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)
{
html = browser.DocumentText; //获取到的html.
loading = false;//在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
上面的问题解决了,下面随之而来的问题是: 有时候加载一张页面的时候,browser_Navigated会执行多次.
查了下网上的资料,原因是页面中含有<iframe></iframe>,每一个<iframe>都会触发一次browser_Navigated,
所以,以上程序可以完善如下:
bool loading = true; //该变量表示网页是否正在加载.
string html = string.Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml(string[] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach (string url in urls)
{
loading = true; //表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents();//等待本次加载完毕才执行下次循环.
}
}
}
int i = 0;
void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)
{
i++;
if (i % 3 == 0) // 假设每张页面要执行3次browser_Navigated方法,那么这表示网页全部内容加载完成.(至于这个3要怎么样得到,那是仁者见仁的事情了,呵呵)
{
html = browser.DocumentText; //获取到的html.
loading = false;//在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
}
-----------------------------------------------------------------------------------------------------------------
这位网友在Navigated事件中将loading设为false,而我则改在documentcompleted事件中来判断页面是否加载完毕。当然页面加载完毕的判断要考虑多种情况,如多个frame,对我所处理的情况,用documentcompleted事件比较合适。
下面是我的代码概况:
bool loading = true;
while (articleUrl.Count > 0)//列表不为空
{
loading = true;
string url = articleUrl.Dequeue();
webBrowser1.Navigate(url);
while (loading)
{
Application.DoEvents();
}
}
private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
if (webBrowser1.ReadyState == WebBrowserReadyState.Complete)//判断加载完毕
{
............
loading = false;
}
}
另外,数据量大时,Application.DoEvents()的效率,所以这个问题应该用线程同步来解决,或者所谓委托回调。这个还没试过。下面是另一网友对Application.DoEvents()的性能测试
-----------------------------------------------------------------------------------------------------------------
关于Application.DoEvents()
记得第一次使用Application.DoEvents()是为了在加载大量数据时能够有一个数据加载的提示,不至于系统出现假死的现象,当时也没有深入的去研究他的原理是怎样的,结果在很多地方都用上了Application.DoEvents(),今天看到了关于这方面的一些文章,知道我以前有些用法是不当的,有些地方需要慎用Application.DoEvents()。
首先我们先看看在循环比较大的程序中,它的作用还是不错的,起到了一个实时响应的效果,例如:
如果没有加上 DoEvents的话,由于循环时间会比较久就会出现假死的状态,而且程序不能处理其他的事件。而如果加上DoEvents的话就会对文本框的值实时响应,给用户带来较好的用户体验,可是DoEvents也带来了效率上的问题,处理同样的一个事件调用了DoEvents后效率降低了好几倍,这也是为什么要慎用的原因了。下面是我做的一个测试:
for (int q = 0; q < 1000000; q++)
{
textBox1.Text = q.ToString();
Application.DoEvents();//实时响应文本框中的值
}
private void button1_Click(object sender, EventArgs e)
{
expendTime.start();
for (int q = 0; q < 100000; q++)
{
textBox1.Text = q.ToString();
Application.DoEvents();
}
label2.Text = expendTime.ComputerTime();//计算耗时
}
private void button2_Click(object sender, EventArgs e)
{
expendTime.start();
for (int q = 0; q < 100000; q++)
{
textBox2.Text = q.ToString();
}
label3.Text = expendTime.ComputerTime();//计算耗时
}
执行耗时对比:
从较大数据的循环中可以看出效率是很低的,所以如果能不调用DoEvents就尽量不用。也可以通过别的方法来处理的,例如多线程异步调用等。
MSDN中的定义:
当运行 Windows 窗体时,它将创建新窗体,然后该窗体等待处理事件。该窗体在每次处理事件时,均将处理与该事件关联的所有代码。所有其他事件在队列中等待。在代码处理事件时,应用程序并不响应。例如,当将另一窗口拖到该窗口前面时,该窗口不重新绘制。如果在代码中调用 DoEvents,则您的应用程序可以处理其他事件。例如,如果您有向 ListBox 添加数据的窗体,并将 DoEvents 添加到代码中,那么当将另一窗口拖到您的窗体上时,该窗体将重新绘制。如果从代码中移除 DoEvents,那么在按钮的单击事件处理程序执行结束以前,您的窗体不会重新绘制。
通常,您在循环中使用该方法来处理消息。
具体可参考这里。
-----------------------------------------------------------------------------------------------------------------
解决这个问题,我走了很多弯路,去看了WebBrowser的Activex 控件,用axwebBrowser代替webBrowser重写了一遍代码,但两者的navigate都是异步的。后来想用线程同步来解决诶,因为时间紧,不熟悉,所以没弄成。现在凑巧用DoEvents解决了。但最终我想还是 要用线程同步来解决的。比如用信号量,比如ManualResetEvent.
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/sclxf/archive/2009/05/03/4144863.aspx