python网络爬虫

爬虫是封装在WebCrawler类中的,Test.py调用爬虫的craw函数达到下载网页的功能。

运用的算法:广度遍历

关于网络爬虫的详细信息请参考百度百科

 

Test.py
-------------------------------------------------------------------------

[python]  view plain copy
  1. # -*- coding: cp936 -*-  
  2. import WebCrawler  
  3.   
  4. url = raw_input('设置入口url(例-->http://www.baidu.com): \n')  
  5. thNumber = int(raw_input('设置线程数:'))    #之前类型未转换出bug  
  6. Maxdepth = int(raw_input('最大搜索深度:'))  
  7.   
  8. wc = WebCrawler.WebCrawler(thNumber, Maxdepth)  
  9. wc.Craw(url)  


WebCrawler.py
-------------------------------------------------------------------------
[python]  view plain copy
  1. # -*- coding: cp936 -*-  
  2. import threading  
  3. import GetUrl  
  4. import urllib  
  5.   
  6. g_mutex = threading.Lock()  
  7. g_pages = []      #线程下载页面后,将页面内容添加到这个list中  
  8. g_dledUrl = []    #所有下载过的url  
  9. g_toDlUrl = []    #当前要下载的url  
  10. g_failedUrl = []  #下载失败的url  
  11. g_totalcount = 0  #下载过的页面数  
  12.   
  13. class WebCrawler:  
  14.     def __init__(self,threadNumber,Maxdepth):  
  15.         self.threadNumber = threadNumber  
  16.         self.threadPool = []  
  17.         self.Maxdepth = Maxdepth  
  18.         self.logfile = file('#log.txt','w')                                   ##  
  19.   
  20.     def download(self, url, fileName):  
  21.         Cth = CrawlerThread(url, fileName)  
  22.         self.threadPool.append(Cth)  
  23.         Cth.start()  
  24.   
  25.     def downloadAll(self):  
  26.         global g_toDlUrl  
  27.         global g_totalcount  
  28.         i = 0  
  29.         while i < len(g_toDlUrl):  
  30.             j = 0  
  31.             while j < self.threadNumber and i + j < len(g_toDlUrl):  
  32.                 g_totalcount += 1    #进入循环则下载页面数加1  
  33.                 self.download(g_toDlUrl[i+j],str(g_totalcount)+'.htm')  
  34.                 print 'Thread started:',i+j,'--File number = ',g_totalcount  
  35.                 j += 1  
  36.             i += j  
  37.             for th in self.threadPool:  
  38.                 th.join(30)     #等待线程结束,30秒超时  
  39.             self.threadPool = []    #清空线程池  
  40.         g_toDlUrl = []    #清空列表  
  41.   
  42.     def updateToDl(self):  
  43.         global g_toDlUrl  
  44.         global g_dledUrl  
  45.         newUrlList = []  
  46.         for s in g_pages:  
  47.             newUrlList += GetUrl.GetUrl(s)   #######GetUrl要具体实现  
  48.         g_toDlUrl = list(set(newUrlList) - set(g_dledUrl))    #提示unhashable  
  49.                   
  50.     def Craw(self,entryUrl):    #这是一个深度搜索,到g_toDlUrl为空时结束  
  51.         g_toDlUrl.append(entryUrl)  
  52.         self.logfile.write('>>>Entry:\n')                                      ##  
  53.         self.logfile.write(entryUrl)                                           ##  
  54.         depth = 0  
  55.         while len(g_toDlUrl) != 0 and depth <= self.Maxdepth:  
  56.             depth += 1  
  57.             print 'Searching depth ',depth,'...\n\n'  
  58.             self.downloadAll()  
  59.             self.updateToDl()  
  60.             content = '\n>>>Depth ' + str(depth)+':\n'                         ##  
  61.             self.logfile.write(content)                                        ##  
  62.             i = 0                                                              ##  
  63.             while i < len(g_toDlUrl):                                          ##  
  64.                 content = str(g_totalcount + i + 1) + '->' + g_toDlUrl[i] + '\n'#   ##  
  65.                 self.logfile.write(content)                                    ##  
  66.                 i += 1                                                         ##  
  67.            
  68. class CrawlerThread(threading.Thread):  
  69.     def __init__(self, url, fileName):  
  70.         threading.Thread.__init__(self)  
  71.         self.url = url    #本线程下载的url  
  72.         self.fileName = fileName  
  73.   
  74.     def run(self):    #线程工作-->下载html页面  
  75.         global g_mutex  
  76.         global g_failedUrl  
  77.         global g_dledUrl  
  78.         try:  
  79.             f = urllib.urlopen(self.url)  
  80.             s = f.read()  
  81.             fout = file(self.fileName, 'w')  
  82.             fout.write(s)  
  83.             fout.close()  
  84.         except:  
  85.             g_mutex.acquire()    #线程锁-->锁上  
  86.             g_dledUrl.append(self.url)  
  87.             g_failedUrl.append(self.url)  
  88.             g_mutex.release()    #线程锁-->释放  
  89.             print 'Failed downloading and saving',self.url  
  90.             return None    #记着返回!  
  91.           
  92.         g_mutex.acquire()    #线程锁-->锁上  
  93.         g_pages.append(s)  
  94.         g_dledUrl.append(self.url)  
  95.         g_mutex.release()    #线程锁-->释放  



GetUrl.py
-------------------------------------------------------------------------
[python]  view plain copy
  1. urlSep = ['<','>','//','(',')', r'"', r"'", ' ', '\t', '\n']  
  2. urlTag = ['http://']  
  3.   
  4. def is_sep(ch):  
  5.     for c in urlSep:  
  6.         if c == ch:  
  7.             return True  
  8.     return False  
  9.   
  10. def find_first_sep(i,s):  
  11.     while i < len(s):  
  12.         if is_sep(s[i]):  
  13.             return i  
  14.         i+=1  
  15.     return len(s)  
  16.   
  17. def GetUrl(strPage):  
  18.     rtList = []  
  19.     for tag in urlTag:  
  20.         i = 0  
  21.         i = strPage.find(tag, i, len(strPage))  
  22.         while i != -1:  
  23.             begin = i  
  24.             end = find_first_sep(begin+len(tag),strPage)  
  25.             rtList.append(strPage[begin:end])  
  26.             i = strPage.find(tag, end, len(strPage))  
  27.   
  28.     return rtList  

你可能感兴趣的:(python网络爬虫)