前言:
这里说的负载均衡并非大家熟悉的网络中的负载均衡。
只是这里我使用了和负载均衡同样的一种思维来优化程序罢了,其实就是压力分摊。
问题描述:
对于上一篇《分离生产者和消费者来优化爬虫程序》博客中遗留的问题:线程阻塞。
当我们的程序运行到一定时间之后,会出现线程池中的500条线程不够用的情况,进而程序长期处于等待的状态。
压力测试实验:
本实验基于之前的爬虫程序,线程池中的线程最大为320条。下面是对在主线程中以不同时间间隔执行程序的测试结果:
sleep 300ms
sleep 500ms
sleep 1000ms
内存使用状态图:
代码优化逻辑:
1.python代码优化
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from time import clock, sleep
import threading
from list_web_parser import ListWebParser
import get_html_response as geth
def visited_html(html):
myp = ListWebParser()
get_html = geth.get_html_response(html)
myp.feed(get_html)
link_list = myp.getLinkList()
myp.close()
for item in link_list:
if item[0] and item[1]:
print item[0], '$#$', item[1]
global thread_done_flag
thread_done_flag = True
def count_down():
start = clock()
while True:
sleep(1)
end = clock()
if int(end - start) >= 2:
print 'TIME OUT'
global thread_done_flag
thread_done_flag = True
break
thread_done_flag = False
def start_work(url):
thread1 = threading.Thread(target=visited_html, args=(url,))
thread2 = threading.Thread(target=count_down)
thread1.setDaemon(True)
thread2.setDaemon(True)
thread1.start()
thread2.start()
while not thread_done_flag:
''
if __name__ == "__main__":
if not sys.argv or len(sys.argv) < 2:
print 'You leak some arg.'
start_work(sys.argv[1])
这段代码做了一件事,主线程跟随第一个子线程结束而结束。
目的是为了让程序在1秒钟之内结束运行,而超过1秒的html解析,我们将抛弃。我想这是合理的。因为我们不可能让Python一直占用我们的线程资源,这样很快线程就会出现阻塞。而且,随着我们解析HTML的线程数的增加。CPU的消耗也很快,这样我们的计算机就会出现卡顿的情况。
2.Java代码优化
public void visittingUrl(String startAddress) {
// url 合法性判断
if (startAddress == null) {
return;
}
// 种子url 入库
SpiderBLL.insertEntry2DB(startAddress);
// 解析种子url
PythonUtils.fillAddressQueueByPython(mUnVisitedQueue, startAddress, 0);
if (mUnVisitedQueue.isQueueEmpty()) {
System.out.println("Your address cannot get more address.");
return;
}
boolean breakFlag = false;
int index = 0;
startThread();
while (!breakFlag) {
WebInfoModel model = mUnVisitedQueue.poll();
if (model == null) {
System.out.println("------ 此URL为NULL ------");
continue;
}
// 判断此网站是否已经访问过
if (DBBLL.isWebInfoModelExist(model)) {
// 如果已经被访问,进入下一次循环
System.out.println("已存在此网站(" + model.getName() + ")");
continue;
}
poolQueueFull(mThreadPool);
System.out.println("LEVEL: [" + model.getLevel() + "] NAME: " + model.getName());
mThreadPool.execute(new ParserRunner(mResultSet, model, index++, mResultMap));
SystemBLL.cleanSystem(index);
// 对已访问的address进行入库
DBBLL.insert(model);
model = null;
SystemBLL.sleep(300);
}
mThreadPool.shutdown();
}
Java代码的代码主要体现在,我们每次调用Python进行解析HTML时,都会sleep 300毫秒。这样我们CPU的压力就转移到时间上了。而这300毫秒其实对整体程序的影响不大,算是优点大于缺点吧。
关于上一篇:
1.覆盖equals时总要覆盖hashCode
我们需要覆盖WebInfoModel的equals和hashCode方法,目的是我们把这个对象保存到HashSet中,需要保证它的唯一性。那么我们就必须自己来写一些唯一性的策略:重写equals方法。而重写equals时,必须要重写hashCode方法。关于这一点,大家可以参看笔者的另一篇博客《Effective Java:对于所有对象都通用的方法》
@Override
public int hashCode() {
return (name.hashCode() + address.hashCode() + level);
}
@Override
public boolean equals(Object obj) {
if (!(obj instanceof WebInfoModel)) {
return false;
}
if (((WebInfoModel)obj).getName() == name && ((WebInfoModel)obj).getAddress() == address && ((WebInfoModel)obj).getLevel() == level) {
return true;
}
return false;
}
遗留的问题:
1.python无故停止运行
下一步的目标:
1.解决python程序停止运行的Bug
2.分布式
(终于,终于可以开始利用分布式来优化我的蜘蛛程序了。想想还有一点小激动呢 ^_^)