爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析)

上篇我们通过一个例子介绍了一下Xpath的用法和爬虫的基本思路,这一篇我们还是承接上篇,主要介绍正则、Beautiful Soup的简单实用

1.正则表达式

首先我们来看一下正则表达式的解析方式,前面的请求什么的就不多说了,按照上篇的思路,从上往下提取,首先提取排名、电影名称、电影图片,直接上代码:

        # 排名
        movie_index_list = re.findall('
.*?board-index.*?>(.*?)', req_result, re.S) print(movie_index_list) # 电影名称 movie_name_list = re.findall('', req_result, re.S) print(movie_name_list) # 电影图片 movie_picture_list = re.findall('

看下结果:

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

下面就是电影主演,上映时间,评分,最后的评分需要做个简单的处理,上代码:

        # 电影主演
        movie_star_list = re.findall(r'(.*?)

', req_result, re.S) movie_star_list = [movie_star.strip() for movie_star in movie_star_list] print(movie_star_list) # 上映时间 show_time_list = re.findall(r'(.*?)

', req_result, re.S) print(show_time_list) # 电影评分 movie_grade_list = re.findall(r'(.*?)(.*?)

', req_result, re.S) movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list] print(movie_grade_list)

看下结果:

['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

下面看一下整个处理过程:

    def regular_parse(self, req_result):
        """
        正则表达式解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        # 排名
        movie_index_list = re.findall(r'
.*?board-index.*?>(.*?)', req_result, re.S) print(movie_index_list) # 电影名称 movie_name_list = re.findall(r'', req_result, re.S) print(movie_name_list) # 电影图片 movie_picture_list = re.findall(r'(.*?)

', req_result, re.S) movie_star_list = [movie_star.strip() for movie_star in movie_star_list] print(movie_star_list) # 上映时间 show_time_list = re.findall(r'(.*?)

', req_result, re.S) print(show_time_list) # 电影评分 movie_grade_list = re.findall(r'(.*?)(.*?)

', req_result, re.S) movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list] print(movie_grade_list) for i in range(len(movie_index_list)): movie_info_dict = dict() movie_info_dict['movie_index'] = movie_index_list[i] movie_info_dict['movie_name'] = movie_name_list[i] movie_info_dict['movie_picture'] = movie_picture_list[i] movie_info_dict['movie_star'] = movie_star_list[i] movie_info_dict['show_time'] = show_time_list[i] movie_info_dict['movie_grade'] = movie_grade_list[i] movie_info_list.append(movie_info_dict) return movie_info_list

这是第一页的处理,剩余的跟上篇文章相同,就不再重复了。

2.Beautiful Soup

接下来看一下Beautiful Soup的解析方式,之前的文章中说了bs是依赖于解析器的,在这里我们还是使用lxml解析器来做
在这之前我们先装好bs

pip install bs4

同样的,还是先取排名、电影名、电影图片:

        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="star")]
        print(movie_star_list)

看下结果:

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '天空之城']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

获取主演、上映时间、评分:

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]

看下结果:

['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

完整方法如下:

    def bs_parse(self, req_result):
        """
        Beautiful Soup解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
        print(movie_grade_list)
        for i in range(len(movie_index_list)):
            movie_info_dict = dict()
            movie_info_dict['movie_index'] = movie_index_list[i]
            movie_info_dict['movie_name'] = movie_name_list[i]
            movie_info_dict['movie_picture'] = movie_picture_list[i]
            movie_info_dict['movie_star'] = movie_star_list[i]
            movie_info_dict['show_time'] = show_time_list[i]
            movie_info_dict['movie_grade'] = movie_grade_list[i]
            movie_info_list.append(movie_info_dict)
        return movie_info_list

1.结语

这篇主要以一个实例介绍了正则跟bs在采集中的解析方法,主要是一些比较简单的应用,在一些其他的比较复杂的页面中,根据自己的理解,感觉还是Xpath使用起来比较方便,比较清晰。

你可能感兴趣的:(爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析))