python第四天之实战项目准备

首先你可能需要一些html、css知识。
python基本知识---->可以参考我之前的博客
控制台F12知识包括请求头相应头,重点为User-Agent(用来伪装客户端,防止不能爬)、cookie(存客户端信息的)—>参考

一、代码要注意

1、第一行要有 (代码可包含中文)

 -*- coding = utf-8 -*- 或者#coding=utf-8   

可以在File–> Settings -->File and Code Templates -->Python Script里面设置默认模板

#-*- coding = utf-8 ---*-
#@Time :${DATE} ${time} 
#@Author :千千
#@File : ${NAME}.py
#@Software :${PRODUCT_NAME}

2、测试入口 一般为main函数 ,便于理清思路

if __name__ == '__main__':

3、单行注释#

多行可以用快捷键 ctrl+/

4、引入模块

可以引入自定义模块(自己建的包下的文件)、系统模块(sys、os)、第三方模块(re)
from xx import xx

5、引入库的方式

第一种使用cmd pip xxx
或者使用powershell 在pycharm下面的Terminal

第二种 (常用)
如下路径点击加号,搜索库,点击Install Package开始安装,出现绿色就安装成功了。不成功的话就多安装几次。
python第四天之实战项目准备_第1张图片
python第四天之实战项目准备_第2张图片

二、了解爬取网页

爬取豆瓣top250电影
豆瓣网站

1、目的

爬取 名称、豆瓣评分、评价数、电影概况以及电影链接

网站规律:
每页25条数据start从0开始,每页网址为(n-1)*25.[n为页数]
https://movie.douban.com/top250?start=0/25/50

2、使用到的库

用途 是否要手动下载
urllib.request,urllib.error 指定URL 不需要
bs4 网页解析,获取数据 需要下载
re 正则表达式,文字匹配 不需要
xlwt 进行execl操作 需要下载
sqlite3 进行SQLite数据库操作 2.5版本以上自带

视频来源:B站 IT私塾

你可能感兴趣的:(python,python,开发语言)