首先你可能需要一些html、css知识。
python基本知识---->可以参考我之前的博客
控制台F12知识包括请求头相应头,重点为User-Agent(用来伪装客户端,防止不能爬)、cookie(存客户端信息的)—>参考
-*- coding = utf-8 -*- 或者#coding=utf-8
可以在File–> Settings -->File and Code Templates -->Python Script里面设置默认模板
#-*- coding = utf-8 ---*-
#@Time :${DATE} ${time}
#@Author :千千
#@File : ${NAME}.py
#@Software :${PRODUCT_NAME}
if __name__ == '__main__':
多行可以用快捷键 ctrl+/
可以引入自定义模块(自己建的包下的文件)、系统模块(sys、os)、第三方模块(re)
from xx import xx
第一种使用cmd pip xxx
或者使用powershell 在pycharm下面的Terminal
第二种 (常用)
如下路径点击加号,搜索库,点击Install Package开始安装,出现绿色就安装成功了。不成功的话就多安装几次。
爬取豆瓣top250电影
豆瓣网站
爬取 名称、豆瓣评分、评价数、电影概况以及电影链接
网站规律:
每页25条数据start从0开始,每页网址为(n-1)*25.[n为页数]
https://movie.douban.com/top250?start=0/25/50
库 | 用途 | 是否要手动下载 |
---|---|---|
urllib.request,urllib.error | 指定URL | 不需要 |
bs4 | 网页解析,获取数据 | 需要下载 |
re | 正则表达式,文字匹配 | 不需要 |
xlwt | 进行execl操作 | 需要下载 |
sqlite3 | 进行SQLite数据库操作 | 2.5版本以上自带 |
视频来源:B站 IT私塾