python爬取猫眼电影数据--正则表达式

猫眼电影榜单网址:https://maoyan.com/board/4

目标数据描述:(1)排名 (2)电影名称 (3)主演 (4)上映时间 (5)评分

python爬取猫眼电影数据--正则表达式_第1张图片铛铛 代码来了

import requests
import re

#获取URL信息,输出URL内容
def getHTMLText(url):
    try:
        headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
        r=requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return " error"

#将页面放到ulist列表中,输出
def fillUnivList(ulist,html):
    f_ = re.compile('
.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">+'.*?>(.*?).*?star">(.*?)

.*?releasetime">(.*?)

'
+'.*?integer">(.*?).*?fraction">(.*?).*?
'
,re.S) ulist=re.findall(f_,html) for i in ulist: print(i) def main(): uinfo=[] for i in range(11): # 多页爬取排名 #在网址中加入参数 urls= {"https://maoyan.com/board/4?offset="+str(i*10)} 遍历网址 for url in urls: html = getHTMLText(url) fillUnivList(uinfo, html) main()

运行的时候可能会触发网站的反爬虫机制,比如验证(我就遇到了,惨兮兮,调试半天)解决方法:复制网址用浏览器打开,手动验证。哒哒哒,不可以的话,那就好好研究研究喽
python爬取猫眼电影数据--正则表达式_第2张图片

你可能感兴趣的:(python爬虫)