爬虫再学习_urllibrequest


import urllib.request

# 获取一个get请求
response = urllib.request.urlopen('https://www.baidu.com') # response 是个object
print(response.read().decode('utf-8')) # 对获取到的网页源码进行utf-8解码

# 获取一个post请求
import urllib.parse
data = bytes(urllib.parse.urlencode({'user':'test','password':'112233'}),encoding='utf-8')  #转换二进制的包
response = urllib.request.urlopen('https://httpbin.org/post', date=date) # 这个常用post测试网站
print(response.read().decode('utf-8')) # 对获取到的网页源码进行utf-8解码


# 超时处理
response = urllib.request.urlopen('https://www.baidu.com',timeout=0.1) # response 是个object

# 其他属性
response.status
response.getheaders()
response.getheader('Server')

# 模拟浏览器
url = '''https://www.douban.com'''
headers = {
    'User-Agent':'...'
}
req = urllib.request.Request(url=url,data=data,headers=headers)
response = urllib.request.urlopen(req)

# user-agent 的找法: 审阅元素 -- net_work -- 刷新 -- 最前面点击 -- header -- name地方点击 -- 下拉最后寻找user-agent -- 复制即可   


你可能感兴趣的:(爬虫再学习_urllibrequest)