爬虫学习一

1.使用BeautifulSoup库解析网页

from bs4 import BeautifulSoup

2.使用requests库取得网页

import requests
url= 'http://xxx.html'
wb_data = requests.get(url)

3.将网页通过lxml方法简析

soup = BeautifulSoup(wb_data, 'lxml')

4.通过css selector 选择需要爬去的位置信息,通过[0]索引并以文本形式输出

title = soup.select('div.con_l > div.pho_info > h4')[0].text

你可能感兴趣的:(爬虫学习一)