对网页信息的抓取。
一.常用的用是re,BeautifulSoup以及lxml。其中re,lxml速度快。
re比较复杂,当页面发生变化时正则表达式还需修改。
BeautifulSoup比较简单,但是速度慢。
lxml+cssselect速度快,也比较简单,可以说是集合了re和BeautifulSoup的优点。
二.用lxml来抓取网站信息
1.以一个网站为例:
抓取面积信息
url='http://example.webscraping.com/places/view/United-Kingdom-239'
还是用之前写的download函数
from urllib.request import *
from urllib.parse import *
from urllib.error import URLError
import lxml.html
def download(url,User_agent='wswp',proxy=None,num_retry=2):
print('Downloading:',url)
headers={'User-agent':User_agent}
request=Request(url,headers=headers)
#加入代理服务器的处理,就不用urlopen来下载网页了,而是用自己构建的opener来打开
opener=build_opener()
#若设置了代理,执行下面操作加入代理到opener中
if proxy:
proxy_params={urlparse(url).scheme:proxy}
opener.add_handler(ProxyHandler(proxy_params))#在自己构建的浏览器中加入了代理服务器
#当没有设置代理时,下面的打开方式和urlopen是一样的
try:
html=opener.open(request).read()
except URLError as e:#引入URLError进行分析
html=None
print('Download error:',e.reason)
if num_retry>0:
if hasattr(e,'code') and 500<=e.code<600:
return download(url,num_retry=num_retry-1)
return html
html=download(url).decode()#lxml的输入要是字符串形式
tree=lxml.html.fromstring(html)
td=tree.cssselect('tr#places_area__row>td.w2p_fw')[0]#cssselect选择出来的是一个列表,所以要取出里面的元素
ares=td.text_content()
print(ares)
2.要抓取全部的信息
fields={'area','population','iso','country','capital','continent','tld','currency_code','currency_name','phone','postal_code_format','postal_code_regex','languages','neighbours'}
def lxml_scraper(html):
tree=lxml.html.fromstring(html)
results={}
for field in fields:
td=tree.cssselect('tr#places_%s__row>td.w2p_fw'%field)[0]
result=td.text_content()
results[field]=result
return results
3.加入爬虫中:回调函数
def scrape_callback(url,html):
if re.search('/view/',url):
tree=lxml.html.fromstring(html)
row=[tree.cssselect('table>tr#places_%s__row>td.w2p_fw'%field)[0].text_content() for field in fields]
print(url,row)
4.在回调中写人csv文件:
import csv
class ScrapeCallback:
def __init__(self):
self.fields=['area','population','iso','country','capital','continent','tld','currency_code','currency_name','phone','postal_code_format','postal_code_regex','languages','neighbours']
self.writer=csv.writer(open(r'C:\Users\Desktop\python学习笔记\table1.csv','w',newline=''))
self.writer.writerow(self.fields)
def __call__(self,url,html):
if re.search('/view/',url):
row=[]
for field in self.fields:
tree=lxml.html.fromstring(html)
row.append(tree.cssselect('table>tr#places_%s__row>td.w2p_fw'%field)[0].text_content())
self.writer.writerow(row)
link_crawler('http://example.webscraping.com','/(index|view)',delay=1,maxdepth=-1)
最终版本:
import time
import re
from urllib import parse
from urllib import robotparser
import csv
from urllib.request import *
from urllib.parse import *
from urllib.error import URLError
import lxml.html
class Timedelay:
#初始化
def __init__(self,delay):
#设置延迟时间
self.delay=delay
#创建记录主站的字典
self.domains={}
#创建等待函数,同时还要实现记录走后一次访问时间
def wait(self,url):
netloc=urlparse(url).netloc
last_time=self.domains.get(netloc)
if self.delay and last_time:
sleeptime=self.delay-(time.time()-last_time)
if sleeptime>0:
time.sleep(sleeptime)
#每次暂停后,或者没暂停都重置最后一次访问时间
self.domains[netloc]=time.time()
class ScrapeCallback:
def __init__(self):
self.fields=['area','population','iso','country','capital','continent','tld','currency_code','currency_name','phone','postal_code_format','postal_code_regex','languages','neighbours']
self.writer=csv.writer(open(r'C:\Users\Desktop\python学习笔记\table1.csv','w',newline=''))
self.writer.writerow(self.fields)
def __call__(self,url,html):
if re.search('/view/',url):
row=[]
for field in self.fields:
tree=lxml.html.fromstring(html)
row.append(tree.cssselect('table>tr#places_%s__row>td.w2p_fw'%field)[0].text_content())
self.writer.writerow(row)
def download(url,User_agent='wswp',proxy=None,num_retry=2):
print('Downloading:',url)
headers={'User-agent':User_agent}
request=Request(url,headers=headers)
#加入代理服务器的处理,就不用urlopen来下载网页了,而是用自己构建的opener来打开
opener=build_opener()
#若设置了代理,执行下面操作加入代理到opener中
print('start proxy',proxy)
if proxy:
print('proxy is:',proxy)
proxy_params={urlparse(url).scheme:proxy}
opener.add_handler(ProxyHandler(proxy_params))#在自己构建的浏览器中加入了代理服务器
#当没有设置代理时,下面的打开方式和urlopen是一样的
try:
html=opener.open(request).read()
except URLError as e:#引入URLError进行分析
html=None
print('Download error:',e.reason)
if num_retry>0:
if hasattr(e,'code') and 500<=e.code<600:
return download(url,num_retry=num_retry-1)
return html
def get_link(html):
webpage_patt=re.compile(']+href=["\'](.*?)["\']',re.IGNORECASE)
return webpage_patt.findall(html.decode())#返回一个包含所以页面link的列表
def link_crawler(seed_url,link_res,User_agent='wswp',delay=None,proxy=None,maxdepth=2,scrape_callback=ScrapeCallback()):
crawl_queue=[seed_url]
#seen=set(crawl_queue)
seen={}
seen[seed_url]=0
#读取robots.txt
rp=robotparser.RobotFileParser()
rp.set_url('http://example.webscraping.com/robots.txt')
rp.read()
timedelay=Timedelay(delay)#同样是初始化
'''
这里的前几行是初始赋值的作用,后面的循环中
就不再需要赋值了,特别是在循环中很难操作set()
使其增加
'''
while crawl_queue:
url=crawl_queue.pop()
#检查该url是否能被禁止爬取
if rp.can_fetch(User_agent,url):
timedelay.wait(url)#暂停,并记下本次主站下载开始时间
html=download(url,proxy=proxy)
dept=seen[url]#获取现在的深度
links=[]
links.extend(scrape_callback(url,html.decode()) or [])
#加入一个过滤器#在过滤器中看是否重复
if dept!=maxdepth:
for link in get_link(html):
if re.match(link_res,link):
link=parse.urljoin(seed_url,link)
if link not in seen:#先筛选符合条件的link,再进行筛选是否看过,这个顺序能减少工作量。
crawl_queue.append(link)
seen[link]=dept+1#新加入的网址都要在原来的深度上加一
else:
print('Blocked by robots.txt',url)
print(seen,links)
def get_link(html):
webpage_patt=re.compile(']+href=["\'](.*?)["\']',re.IGNORECASE)
return webpage_patt.findall(html.decode())#返回一个包含所以页面link的列表
link_crawler('http://example.webscraping.com','/(index|view)',delay=1,maxdepth=-1)