python爬虫第一步

首先,我们需要拿到一个网页的全部内容

例如:

url = 'http://example.webscraping.com/'
# 1
from urllib import request
html = request.urlopen(url)
print(html.read())
# 2
from requests import get
html = get(url)
print(html.text)
# 3
from pyquery import PyQuery as pq
html = pq(url)
print(html)

这3种方法都可以简单地拿到一个网页的内容,urllib是python3自带的库,requests和pyquery是第三方库,需要安装(pip install requests/pyquery)一般来讲,新手推荐使用自带的urllib,根据一些大神的测试,requests库的效率会比urllib高,另外pyquery虽然可以拿到网页内容,但一般是用来作为解析工具所以个人建议使用urllib和requests库

你可能感兴趣的:(python)