(以https://movie.douban.com/top250为例)
https://movie.douban.com/top250
每一页的链接:url = ‘https://movie.douban.com/top250?start=’+ str(page*25)+’&filter=’(page是页数-1)
1.Fn+F12
2.点击[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h9bUCdiE-1644636543579)(C:\Users\荔枝\Desktop\11.png)]
3.点击网页内容:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oHpzYn7I-1644636543582)(C:\Users\荔枝\AppData\Roaming\Typora\typora-user-images\image-20220204143802608.png)]
我们根据层级结构确定数据位置:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uAuwQR4t-1644636543582)(C:\Users\荔枝\Desktop\11.png)]
headers:我们发送的请求
response:返回的请求
一般python程序第一行要加入(这样可以在代码中包含中文)
#-*-coding:utf-8-*-
或者
#coding=utf-8
用于测试程序:(定义程序入口)
def main():
print("hello")
if__name__=="__main__":#下划线有两根,当程序执行时调用函数
main()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8aUO9Xg-1644636543583)(C:\Users\荔枝\AppData\Roaming\Typora\typora-user-images\image-20220204150503347.png)]
方法1:
点击Terminal
pip install 库名
eg:pip bs4
方法2:
File->settings->Project douban->Project Intrpreter->±>搜索要安装的包->Install Package
from bs4 import BeautifulSoup #网页解析,获取数据beautifulsoup4
import re #正则表达式,文字匹配
import urllib.request,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
t,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作