import requests
# requests 是一个用于发送 HTTP 请求的 Python 第三方库。
res.raise_for_status()
# 检查是不是200,不是200报异常
re.encoding = 'utf-8'
# 设置返回结果为UTF-8
from bs4 import BeautifulSoup
# BeautifulSoup 是一个用于解析HTML和XML文档的Python库,它能够将复杂的HTML或XML文档转换成一个可以操作的树形结构,并提供了一系列方法和属性来搜索、遍历和操作这个树形结构。
soup = BeautifulSoup(search.text, features="html.parser")
# 使用html方式进行解析
import pandas as pd
# pandas是一个强大的数据处理和分析库,特别适用于处理表格数据,例如电子表格或SQL表。
df = pd.read_excel(file_path)
# 读取excel
import httpx
# get请求
res = httpx.get('https://www.baidu.com')
print(res.text)
print(res.status_code)
print("--------------------------------------------------")
# 传递参数
res = httpx.get('https://www.baidu.com', params={'wd': 'python'})
print(res.text)
print(res.status_code)
print("--------------------------------------------------")
# post请求
res = httpx.post('https://httpbin.org/post', data={'wd': 'python'})
print(res.text)
print(res.status_code)
print("--------------------------------------------------")
参考:https://www.cnblogs.com/fudonghai/p/10356671.html
import re
content = 'Hello 123 456'
result = re.match(r'^Hello\s\d\d\d\s\d\d\d$', content)
print(result)
# 匹配成功的字符串
print(result.group())
# 匹配字符串的起始位置
print(result.span())
参考:PyQuery 简单使用 - 简书
from pyquery import PyQuery as pq
html = '''
- first item
- second item
- third item
- fourth item
- fifth item
'''
# 初始化
doc = pq(html)
# 选取class为item-0的li节点
li = doc('.item-0.active')
print(li)
# 选取class为item-0的li节点的子节点a
a = doc('.item-0.active a')
print(a)
参考:https://www.cnblogs.com/xiaojuntest/p/14064003.html
1