第三章 数据解析(十二) 2019-12-22

十二、bs4 – 实战– 豆瓣Top250爬虫实战(1

 

爬取内容

爬取豆瓣Top250


注意事项

1、headers

2、编码

3、使用BeautifulSoup


网站:

https://movie.douban.com/top250



示例代码:


import requests

from bs4 import BeautifulSoup

 

headers= {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

 

# 获取详情页面url

defget_detail_urls(url):

    resp = requests.get(url, headers=headers)

    # print(resp.text)

    html = resp.text

    soup = BeautifulSoup(html, 'lxml')

    lis = soup.find('ol',class_='grid_view').find_all('li')

    detail_urls = []

    for li in lis:

        detail_url = li.find('a')['href']

        print(detail_url)

        detail_urls.append(detail_url)

        return detail_urls

 

 

defmain():

    url ='https://movie.douban.com/top250?start=0&filter='

    #调用get_detail_urls函数

    detail_urls = get_detail_urls(url)

    for detail_url in detail_urls:

        #解析详情页面内容

             待续

 

 

if__name__ == '__main__':

    main()



上一篇文章 第三章 数据解析(十一) 2019-12-21 地址: 

https://www.jianshu.com/p/316f6974f6c5

下一篇文章 第三章 数据解析(十二)续 2019-12-23 地址:

https://www.jianshu.com/p/c01fdad1daae



以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

你可能感兴趣的:(第三章 数据解析(十二) 2019-12-22)