爬虫基础---URL

URL编码
发送请求时需要进行转码,这里主要针对汉字
例如:
原地址:http://www.oschina.net/search?scope=bbs&q=C语言
编码后:http://www.oschina.net/search?scope=bbs&q=C%E8%AF%AD%E8%A8%80
语言:%E8%AF%AD      %E8%A8%80   (三个%代表一个汉字)

URL拼接:
urllib 的 urlencode() 接收的参数是一个字典:
wd = {"wd" : "奥特曼"}
urllib.urlencode(wd)
结果:wd=%E5%A5%A5%E7%89%B9%E6%9B%BC


#一个url拼接小例子

import urllib
import urllib.request as urllib2
 

url = "http://www.baidu.com/s"                #就采用http吧
keyword = input("请输入要查询的字符串:")
wd = {"wd": keyword}                               #字典类型

#Python2: urllib.encode() == python3: urllib.parse.encode()
wd = urllib.parse.urlencode(wd)              #编码转换
fullurl = url + "?" + wd

headers = {"User-Agent": "Mozilla........."}
request = urllib2.Request(fullurl, headers = headers)
response = urllib2.urlopen(request)
print(fullurl)
# print(response.read().decode('utf-8'))

你可能感兴趣的:(Python进阶)