爬虫实例1-爬取豆瓣top250电影名

1.在请求头headers里查看 user-agent 和host

response=requests.get(url)

response.status_code  响应状态吗,200代表请求成功,4XX表示客户端错误,5XX表示服务器响应错误

response.encoding 文本编码方式

response.text 字符串方式的响体

下面的代码为get请求,出了get请求以外,有时还需要发送一些编码为表单形式的数据,如在登录的时候就使用POST请求,GET请求密码会显示在URL中,如果要实现POST请求,就传递一个字典给requests中的data参数,这个数据字典就会在发出请求的时候自动编码为表单形式

# -*-ooding:utf-8-*-
import requests
from bs4 import BeautifulSoup
def get_movie():
    headers={
        'Host': 'movie.douban.com',
        'User-Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36'
    }
    movie_list=[]
    for i in range(10):
        url='https://movie.douban.com/top250?start='+str(i*25)
        response=requests.get(url,headers=headers,timeout=10)
        #print(response.text)
        print(str(i+1),'页响应状态编码',response.status_code)
        soup=BeautifulSoup(response.text,'lxml')
        div_list=soup.find_all('div',class_='hd')
        for each in div_list:
            movie=each.a.span.text.strip()
            movie_list.append(movie)
    print(movie_list)

get_movie()
上述代码爬取所有电影名称


    


    

你可能感兴趣的:(爬虫实例1-爬取豆瓣top250电影名)