爬虫基础系列urllib——get请求(7)

1920664-0c61644217f76c3a.jpg

get请求

  • 处理get请求实际上就是处理参数,比如在百度中搜索java,网址为http://www.baidu.com/s?wd=java
  • 但如果是汉字比如北京网址为http://www.baidu.com/s?wd=%e5%8c%97%e4...汉字会转化为Url编码因此在处理汉字的get请求中涉及将中文编译成url编码的问题。
wd={"wd":"北京"}
url=r"http://www.baidu.com/s?"
#构造url编码
wdd= urllib.parse.urlencode(wd)
print(wdd)
urll=url+str(wdd)

首先get参数通过构造成字典形式数据,再通过urllib.parse.urlencode(wd)进行编码,最后拼接成完整的url,这就是get请求的方法。
完整代码:

import urllib
from urllib import request

wd={"wd":"北京"}
url=r"http://www.baidu.com/s?"
#构造url编码
wdd= urllib.parse.urlencode(wd)
print(wdd)
urll=url+str(wdd)
print(urll)
req=request.Request(urll)
reponse=request.urlopen(req).read().decode()
#能用urlopen则用,后期构造复杂的爬虫用opener
print(reponse)

你可能感兴趣的:(爬虫基础系列urllib——get请求(7))