type() 函数:查询对象的类型
input() 函数在:函数接受一个标准输入数据,返回为 string 类型
range() 函数:用于构造一个从[start, stop) (不包含stop)之间的连续的不可变的整数序列对象
len() 函数: 用于获取容器对象中的元素个数
reversed() 函数:反转序列对象,你可以将字符串进行反转,将列表进行反转,将元组反转
random() 函数:返回随机生成的一个实数,它在[0,1)范围内。
strip()、lstrip()、rstrip() 函数:去除空格
str.upper() 函数:返回一个字符串中小写字母转化成大写字母的字符串
str.swapcase() 函数:返回字符串中的大写字母转小写,小写字母转大写的字符串
str.capitalize() 函数:返回字符串中的首字母大写,其余小写的字符
break : 跳出最近所在的循环(跳过整个循环语句)
continue : 跳到最近所在循环的开头处(来到循环的首行)
pass:什么事也不做,只是空占位语句
return:函数返回值
import:访问、导入模块
if、elif、else:选择条件语句
for....in...:遍历文件
requests第三方模块:是python的一个HTTP客户端库,跟urllib,urllib2类似
bs4模块:解析HTML的神器
csv系统模块:把数据写成csv格式
MySQL第三方模块:把数据写入MySQL里面
在Python开发中,pip是一个重要的软件包管理工具,用于安装、升级和管理Python包和模块。
pip --version 显示pip的版本信息
python -m ensurepip --default-pip Windows命令提示符(CMD)或PowerShell安装pip
sudo easy_install pip macOS和Linux系统安装pip
pip install lxml 安装Python包
pip install --upgrade package_name 升级Python包
pip uninstall package_name 卸载Python包
pip list 查看已安装的包
pip freeze > requirements.txt 导出和安装依赖
pip install -r requirements.txt 安装依赖项
pip search package_name 搜索包
import requests
from util import (
parse_json
)
class SpiSession:
"""
Session相关操作
"""
def __init__(self):
self.cookies_dir_path = "./cookies/"
self.user_agent = global_config.getRaw('config', 'DEFAULT_USER_AGENT')
self.session = self._init_session()
def _init_session(self):
session = requests.session()
session.headers = self.get_headers()
return session