php 正则表达式获取html标签内容_爬虫系列第三篇 使用requests与正则表达式爬取豆瓣电影Top250...
在本篇中,我们将使用requests库与正则表达式实现我们的第一个爬虫---爬取豆瓣电影Top250。写一个爬虫前,首先应该分析网页结构,然后明确自己想要爬取的信息,最后才是写爬虫。一、网页分析我们要抓取的网页url为https://movie.douban.com/top250,打开之后即可看到榜单信息,如图所示。可以看到每一个电影显示的信息有排名、电影名、导演与主演、上映时间/地点/类型、评分