正则表达式提取豆瓣T250中的部分信息

import requests
import re

url = "https://movie.douban.com/top250?start=0&filter="
head = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
  }
resp = requests.get(url, headers=head)



obj = re.compile(r'(?P.*?)'
                 r'.*?
(?P.*?) ',re.S) result = obj.finditer(resp.text) for item in result: name = item.group("name") year = item.group("year") print(name,year)

运行结果

肖申克的救赎 
                            1994
霸王别姬 
                            1993
阿甘正传 
                            1994
泰坦尼克号 
                            1997
这个杀手不太冷 
                            1994
千与千寻 
                            2001
美丽人生 
                            1997
辛德勒的名单 
                            1993
星际穿越 
                            2014
盗梦空间 
                            2010
楚门的世界 
                            1998
忠犬八公的故事 
                            2009
海上钢琴师 
                            1998
三傻大闹宝莱坞 
                            2009
放牛班的春天 
                            2004
机器人总动员 
                            2008
疯狂动物城 
                            2016
无间道 
                            2002
控方证人 
                            1957
大话西游之大圣娶亲 
                            1995
熔炉 
                            2011
教父 
                            1972
触不可及 
                            2011
当幸福来敲门 
                            2006
末代皇帝 
                            1987

Process finished with exit code 0

1:确定自己需要爬虫的内容在哪一个url中

2:发送请求(get/post),收到url的网页源代码或者网页数据

3:使用正则表达式提取有用信息。(compile,findall,research,finditer)

大体的处理思路如上。

你可能感兴趣的:(正则表达式,python,scrapy)