python学习日常-----豆瓣top250电影爬取(附问题及解决方案)

一.题目:

1.爬取豆瓣电影Iop250电影信息,包括观看链接,名称、图片链接等一系列信息
2.爬取后的结果保存到excel文件、数据库文件
3.进行网页设计,将爬取结果进行flask可视化处理

注:本学习内容来自b站IT私塾,文章末尾附视频链接。

二.设计思路&代码:
1.导入模块

import re  # 正则表达式,进行文字匹配
import urllib.error  # 指定URL,获取网页数据
import urllib.request

import xlwt  # 进行excel操作
from bs4 import BeautifulSoup  # 网页解析,获取数据
import sqlite3  # 进行SQlite数据库操作
import ssl

各个模块功能已经注释列出,这里不再细说。

2.爬取网页
要爬取网页内容,我们的主要思路就是模拟浏览器访问网页,网页内容都隐藏在网页代码中,成功访问到网页以后,我们需要对网页的有用信息进行查找,筛选,得到自己需要的数据。
以本程序为例:
我们首先需要打开目标网站分析:
(1)从图中可以看出,排名前250的电影一共有十页,每页25条数据,所以这里我们需要一个for循环,对十个页面进行逐一访问,并将每次访问的返回信息(网页代码)保存在html变量中;
python学习日常-----豆瓣top250电影爬取(附问题及解决方案)_第1张图片(2)观察网页源代码(快捷键:F12),可以看出每一个

你可能感兴趣的:(python学习,python,正则表达式,sqlite,数据挖掘)