requests 入门

现在网络上渐渐流行起来的爬虫,web

有想学习的冲动,但网上的教程残缺不全,现在,简明版的来了

正所谓,磨刀不误砍柴工,先来安装一下requests库

pip3 install requests
或
pip install requests

然后才是正题

import requests as r #导入库
url='http://httpbin.org'#声明url变量作为网址
res=r.get(url)#get方法 获取网页构造
'''
同样的
r.request()#构造一个请求,支撑一下各方法的基础方法
r.get()#获取HTML网页的主要方法,对应于HTTP的GET
r.head()#获取HTML网页头信息的方法,对应于HTTP的HEAD
r.post()#向HTML网页提交POST请求的方法,对应于HTTP的POST
r.put()#向HTML网页提交POST请求的方法,对应于HTTP的PUT
r.patch()# 向HTML网页提交局部修改请求,对应于HTTP的PATCH
r.delete()#向HTML页面提交删除请求,对应于HTTP的DELETE
'''
print(res.text)

下面是输出内容





    
    httpbin.org
    
    
    
    



    
        
    
    
        
            
                
            

            
                
            

            
                
            

            
                
            

            
                
            


            
                
            

            
                
            

        
    


    

httpbin.org
0.9.2

[ Base URL: httpbin.org/ ]

A simple HTTP Request & Response Service.

Run locally: $ docker run -p 80:80 kennethreitz/httpbin

[Powered by Flasgger]

Other Utilities



这只是他的冰山一角

下面加点难度

#注:3个引号同为注释
import requests
url='http://httpbin.org'
headers = {'user-agent': 'my-app/0.0.1'}#请求头
res=r.get(url,headers=headers)
print(res.text)#res.text就是res所返回的Respon对象以文本的格式书写出来
#当然,也有content表示的2进制,在爬取图片,文件,音频,视频时很有用
#如
'''
import requests as r
url='https://gss0.baidu.com/-Po3dSag_xI4khGko9WTAnF6hhy/zhidao/wh%3D600%2C800/sign=34a8f6402b1f95caa6a09ab0f9275306/77094b36acaf2edd006ebad7831001e939019375.jpg'
headers={'headers': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
         }
res=r.get(url,headers=headers).content
if __name__=='__main__':
    with open('pyaduck.jpg','wb') as f:
        f.write(res)
        print('seccessful')
'''
#此部分知识点以后做讲解

这时候,你可能会问,headers到底是什么意思

我刚开始学的时候也很迷惑,后来经过查找资料发现所谓headers其实是“身份证”!

譬如说有些网站对爬虫的要求很严格,他不会轻易让爬虫访问自己的网站,这时候headers就发挥作用了

上面的headers其实是自己电脑的一些配置,严格点来说上面的‘headers’应该改为'User-Agent'

headers有很多键,主要以'User-Agent'和‘host’,host在英文里的释义是主人,存储网站,也就是说这就是你的主网址

如何获得'User-Agent'

找到你所爬取的网站,右键点击检查(用些浏览器是审查元素)

点击网络

按F5刷新

此时再按Ctrl+R

点击第一个文件

滑到最下面

就是User-Agent了

有了headers的身份证就能小试身手了

你可能感兴趣的:(爬虫)