Python爬虫学习1

Python爬虫学习1

1、简单制作爬虫小程序

爬取百度首页源代码:

import urllib.request
url = "http://www.baidu.com"
page_info = urllib.request.urlopen(url).read()
page_info = page_info.decode('utf-8')
print(page_info)

urllib是一个非常重要的一个模块 ,可以非常方便的模拟浏览器访问互联网,对于python 3 爬虫来说, urllib更是一个必不可少的模块,它可以帮助我们方便地处理URL.
urllib.request是urllib的一个子模块,可以打开和处理一些复杂的网址

urllib.request.urlopen()方法实现了打开url,并返回一个 http.client.
HTTPResponse对象,通过http.client.HTTPResponse的read()方法,获得response body,转码最后通过print()打印出来.

你可能感兴趣的:(Python爬虫学习1)