爬虫(总结)

infos={

     "

user-agent:   ,

"

}


通过正则方便加引号变成字典形式:

  ret=re.sub(r"(.+?):(\s*)(.+)",r" '\1':'\3',",infos)

print('{'+ret+'}')

(二)urllib和urlib2的区别

urllib可以对数据进行编码

#不指定编码形式

data = urllib.urlencode(get_param)

#指定编码形式

data=urllib.parse.urlencode(data).encode('utf-8')

(三)爬虫遇到的问题 ssl

def sslwrap(func):

@wraps(func)

def bar(*args, **kw):

    kw['ssl_version'] = ssl.PROTOCOL_TLSv1

    return func(*args, **kw)

    return bar

ssl.wrap_socket = sslwrap(ssl.wrap_socket)

你可能感兴趣的:(爬虫(总结))