Pyhon : 爬虫Requests高级用法--POST 多个分块编码的文件

POST 多个分块编码的文件

你可以在一个请求中发送多个文件。例如,假设你要上传多个图像文件到一个 HTML 表单,使用一个多文件 field 叫做 “images”:

要实现,只要把文件设到一个元组的列表中,其中元组结构为 (form_field_name, file_info):

url = ‘http://httpbin.org/post’
multiple_files = [
(‘images’, (‘foo.png’, open(‘foo.png’, ‘rb’), ‘image/png’)),
(‘images’, (‘bar.png’, open(‘bar.png’, ‘rb’), ‘image/png’))]

r = requests.post(url, files=multiple_files)
r.text
{

‘files’: {‘images’: ‘data:image/png;base64,iVBORw …’}
‘Content-Type’: ‘multipart/form-data; boundary=3131623adb2043caaeb5538cc7aa0b3a’,

}

我们强烈建议你用二进制模式(binary mode)打开文件。这是因为 requests 可能会为你提供 header 中的 Content-Length,在这种情况下该值会被设为文件的字节数。如果你用文本模式打开文件,就可能碰到错误。
事件挂钩

Requests有一个钩子系统,你可以用来操控部分请求过程,或信号事件处理。

可用的钩子:

response:
从一个请求产生的响应

你可以通过传递一个 {hook_name: callback_function} 字典给 hooks 请求参数为每个请求分配一个钩子函数:

hooks=dict(response=print_url)

callback_function 会接受一个数据块作为它的第一个参数。

def print_url(r, *args, **kwargs):
print(r.url)

若执行你的回调函数期间发生错误,系统会给出一个警告。

若回调函数返回一个值,默认以该值替换传进来的数据。若函数未返回任何东西,也没有什么其他的影响。

我们来在运行期间打印一些请求方法的参数:

requests.get(‘http://httpbin.org’, hooks=dict(response=print_url))
http://httpbin.org

自定义身份验证

Requests 允许你使用自己指定的身份验证机制。

任何传递给请求方法的 auth 参数的可调用对象,在请求发出之前都有机会修改请求。

自定义的身份验证机制是作为 requests.auth.AuthBase 的子类来实现的,也非常容易定义。Requests 在 requests.auth 中提供了两种常见的的身份验证方案: HTTPBasicAuth 和 HTTPDigestAuth 。

假设我们有一个web服务,仅在 X-Pizza 头被设置为一个密码值的情况下才会有响应。虽然这不太可能,但就以它为例好了。

from requests.auth import AuthBase

class PizzaAuth(AuthBase):
“”“Attaches HTTP Pizza Authentication to the given Request object.”""
def init(self, username):
# setup any auth-related data here
self.username = username

def __call__(self, r):
    # modify and return the request
    r.headers['X-Pizza'] = self.username
    return r

然后就可以使用我们的PizzaAuth来进行网络请求:

requests.get(‘http://pizzabin.org/admin’, auth=PizzaAuth(‘kenneth’))

流式请求

使用 Response.iter_lines() 你可以很方便地对流式 API (例如 Twitter 的流式 API ) 进行迭代。简单地设置 stream 为 True 便可以使用 iter_lines 对相应进行迭代:

import json
import requests

r = requests.get(‘http://httpbin.org/stream/20’, stream=True)

for line in r.iter_lines():

# filter out keep-alive new lines
if line:
    decoded_line = line.decode('utf-8')
    print(json.loads(decoded_line))

当使用 decode_unicode=True 在 Response.iter_lines() 或 Response.iter_content() 中时,你需要提供一个回退编码方式,以防服务器没有提供默认回退编码,从而导致错误:

r = requests.get(‘http://httpbin.org/stream/20’, stream=True)

if r.encoding is None:
r.encoding = ‘utf-8’

for line in r.iter_lines(decode_unicode=True):
if line:
print(json.loads(line))

警告

警告

iter_lines 不保证重进入时的安全性。多次调用该方法 会导致部分收到的数据丢失。如果你要在多处调用它,就应该使用生成的迭代器对象:

lines = r.iter_lines()

保存第一行以供后面使用,或者直接跳过

first_line = next(lines)

for line in lines:
print(line)

代理

如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:

import requests

proxies = {
“http”: “http://10.10.1.10:3128”,
“https”: “http://10.10.1.10:1080”,
}

requests.get(“http://example.org”, proxies=proxies)

你也可以通过环境变量 HTTP_PROXY 和 HTTPS_PROXY 来配置代理。

$ export HTTP_PROXY=“http://10.10.1.10:3128”
$ export HTTPS_PROXY=“http://10.10.1.10:1080”

$ python

import requests
requests.get(“http://example.org”)

若你的代理需要使用HTTP Basic Auth,可以使用 http://user:password@host/ 语法:

proxies = {
“http”: “http://user:[email protected]:3128/”,
}

要为某个特定的连接方式或者主机设置代理,使用 scheme://hostname 作为 key, 它会针对指定的主机和连接方式进行匹配。

proxies = {‘http://10.20.1.128’: ‘http://10.10.1.10:5323’}

注意,代理 URL 必须包含连接方式。
SOCKS

2.10.0 新版功能.

除了基本的 HTTP 代理,Request 还支持 SOCKS 协议的代理。这是一个可选功能,若要使用, 你需要安装第三方库。

你可以用 pip 获取依赖:

$ pip install requests[socks]

安装好依赖以后,使用 SOCKS 代理和使用 HTTP 代理一样简单:

proxies = {
‘http’: ‘socks5://user:pass@host:port’,
‘https’: ‘socks5://user:pass@host:port’
}

你可能感兴趣的:(Python)