使用urllib爬取网页内容

urllib简介

用于处理一系列url的操作

  • urllib.request:用于爬取页面内容
  • urllib.parse:用于解析url

跟着顺序做即可

  • 分析链接 http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50
    关键词 kw
    防止乱码 ie
    pn 表示每页几行数据
  • 导入我们使用到的包
import urllib.parse as up
import urllib.request as ur
  • 根据刚刚的链接分析,定义字典存储需要使用到的参数
data = {
		'kw':'python‘,
		'ie':'utf-8',
		'pm':'200'  #第四页
		}
  • 如果参数带有空格特殊字符时使用.
    当字符串数据以url的形式传递给web服务器时,字符串中是不允许出现空格和特殊字符的,所以我们需要对参数 进行解码
    将特殊字符转换为*%E5%B0%B1%E4%B8%9A%E5%89%8D%E6%99%AF*这样的形式
    data_url=up.urlencode(data) #解码
    data = up.unquote(data_url) #编码

  • 请求链接

#data_url为刚编码后的数据
request = ur.Request('https://www.baidu.com/s?' + data_url)
  • 获取页面
    response = ur.urlopen(request).read()
  • 将页面存至本地
with open('%s.html' % kw, 'wb') as f:
    f.write(response)

你可能感兴趣的:(Python)