import requests
import re
url = "https://movie.douban.com/top250?start=0&filter="
head = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
resp = requests.get(url, headers=head)
obj = re.compile(r'(?P.*?) '
r'.*?
(?P.*?) ',re.S)
result = obj.finditer(resp.text)
for item in result:
name = item.group("name")
year = item.group("year")
print(name,year)
运行结果
肖申克的救赎
1994
霸王别姬
1993
阿甘正传
1994
泰坦尼克号
1997
这个杀手不太冷
1994
千与千寻
2001
美丽人生
1997
辛德勒的名单
1993
星际穿越
2014
盗梦空间
2010
楚门的世界
1998
忠犬八公的故事
2009
海上钢琴师
1998
三傻大闹宝莱坞
2009
放牛班的春天
2004
机器人总动员
2008
疯狂动物城
2016
无间道
2002
控方证人
1957
大话西游之大圣娶亲
1995
熔炉
2011
教父
1972
触不可及
2011
当幸福来敲门
2006
末代皇帝
1987
Process finished with exit code 0
1:确定自己需要爬虫的内容在哪一个url中
2:发送请求(get/post),收到url的网页源代码或者网页数据
3:使用正则表达式提取有用信息。(compile,findall,research,finditer)
大体的处理思路如上。