第一课 准备工作

第一课 准备工作

(以https://movie.douban.com/top250为例)

一、找网址:

https://movie.douban.com/top250

每一页的链接:url = ‘https://movie.douban.com/top250?start=’+ str(page*25)+’&filter=’(page是页数-1)

二、找数据的位置:

方法1:元素(element)

1.Fn+F12

2.点击[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h9bUCdiE-1644636543579)(C:\Users\荔枝\Desktop\11.png)]

3.点击网页内容

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oHpzYn7I-1644636543582)(C:\Users\荔枝\AppData\Roaming\Typora\typora-user-images\image-20220204143802608.png)]

我们根据层级结构确定数据位置:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uAuwQR4t-1644636543582)(C:\Users\荔枝\Desktop\11.png)]

方法2:网络(network)

headers:我们发送的请求

response:返回的请求

三、编码规范

一般python程序第一行要加入(这样可以在代码中包含中文)

#-*-coding:utf-8-*-
或者
#coding=utf-8

用于测试程序:(定义程序入口)

def main():
    print("hello")
if__name__=="__main__":#下划线有两根,当程序执行时调用函数
    main()

四、引入模块

引入自己写的模块:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8aUO9Xg-1644636543583)(C:\Users\荔枝\AppData\Roaming\Typora\typora-user-images\image-20220204150503347.png)]

引入系统的模块:

1.安装库:

方法1:

点击Terminal

pip install 库名

eg:pip bs4

方法2:

File->settings->Project douban->Project Intrpreter->±>搜索要安装的包->Install Package

2.代码
from bs4 import BeautifulSoup #网页解析,获取数据beautifulsoup4
import re #正则表达式,文字匹配
import urllib.request,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作

t,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作


你可能感兴趣的:(python,爬虫)