My.ICBM

【基础】【Python网络爬虫】【11.字体反扒】认识字体、字体加密（附大量案例代码）（建议收藏）

Python网络爬虫基础

字体反扒
- 1. 认识字体
- - 字体概述
- 2. 处理字体
- 3. 练习案例 - 某小说网址字体解密
- - 3.1 请求数据 - 发现问题
  - 3.2 下载字体文件
  - 3.3 解析字体文件
  - 3.4 替换字体
- 4. 字符串形式字体文件
- - 4.1 请求数据 - 发现乱码
  - 4.2 下载字体
  - 4.3 解析字体
  - 4.4 替换数据
- 5. 字体加密
- - 5.1 请求数据 - 发现偏移量
  - 5.2 构建字体映射规则
  - 5.3 替换字体
  - 5.4 多套字体

字体反扒

1. 认识字体

在爬虫爬取页面的时候，页面中的代码是乱码，但是在人眼看到的是原文，这样的映射关系让爬虫无法顺利爬取到网站内容。

以下是在网页中能够正常显示的文本内容，但是在Elements元素面板显示的是看不懂的字符

基于以上的情况，首先在网页的页面我们是能够看到正常显示的字符信息的，但是一旦我们请求数据的时候我们看到的就是看不懂的字符，如下所示：

因此，我们可以想一想为什么导致这样的情况。为什么浏览器能够得到正常的数据，咱们请求下来就不行？难道浏览器背后做了什么转化？答案是：“yes”。

首先，网站使用的是自定义的字体文件，浏览器在渲染数据的时候会根据字体文件引用关系读取字体文件，然后按照每一个字体的映射关系，将每一个正确的字体在网页渲染出来，从而我们在网页中可以看到正常的字体。但是原本的数据并没有变，因此我们请求下来的内容是看不懂的字符。

字体概述

网页字体是一个字形集合，而每个字形是描述字母或符号的矢量形状。很多网站的数据肉眼看着很像，但是是由一些特殊文件渲染出来的，即使得到了数据，但是读取出来会有文件。
在字体加密的网站中用户也是无法直接进行复制网页内容的。
因此，特定字体文件的大小由两个简单变量决定：每个字形矢量路径的复杂程度和特定字体中字形的数量。

网页字体是一个字形集合，而每个字形是描述字母或符号的矢量形状。因此，特定字体文件的大小由两个简单变量决定：每个字形矢量路径的复杂程度和特定字体中字形的数量。

目前网络上使用的字体容器格式有以下几种： EOT、TTF2、WOFF。但是各个浏览器对字体的支持程度不一致。所以为了兼容性考虑，有的网站会给多个字体文件，哪个字体文件能解析，就是使用哪个。浏览器上使用网址通常是以 @font-face 引入使用类型。

2. 处理字体

如果想要把自定义的字体文字变化为系统能够识别的内容，就需要获取自定义字体与通用字体的映射规则，经过转化后就能得到正常文字信息。

安装以下软件即可查看字体文件

安装方式：双击安装包，选择路径，一直点击下一步安装即可。

字体解密的大致流程：

先找到字体文件的位置，查看源码大概就是xxx.woff这样的文件
重复上面那个操作，将两个字体文件保存下来
用上面的软件或者网址打开，并且通过 Python fontTools 将字体文件解析为 xml 文件
根据字体文件解析出来的 xml 文件与类似上面的字体界面找出相同内容的映射规律（重点）
在 Python 代码中把找出的规律实现出来，让你的代码能够通过这个规律还原源代码与展示内容的映射

3. 练习案例 - 某小说网址字体解密

3.1 请求数据 - 发现问题

import requests

url = 'https://www.qidian.com/rank/yuepiao/'
headers = {
    'Cookie': '_yep_uuid=16401b3f-da18-36f9-250b-44791c444165; e1=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; newstatisticUUID=1689595424_1606659668; _csrfToken=6aCHItSuH6xVc1FVDCb7nGXnnDYFr6r6UdurzC7a; fu=801177549; traffic_utm_referer=; Hm_lvt_f00f67093ce2f38f215010b699629083=1689595425; Hm_lpvt_f00f67093ce2f38f215010b699629083=1689595425; _ga=GA1.2.225339841.1689595425; _gid=GA1.2.485020634.1689595425; _ga_FZMMH98S83=GS1.1.1689595425.1.1.1689595594.0.0.0; _ga_PFYW0QLV3P=GS1.1.1689595425.1.1.1689595594.0.0.0',
    'Host': 'www.qidian.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
}

response = requests.get(url=url, headers=headers)
print(response.text)

with open('乱码.html', mode='w', encoding='utf-8') as f:
    f.write(response.text)

"""
1. 下载字体文件
2. 解析字体, 获取字体的映射关系
3. 替换请求到的数据
"""

3.2 下载字体文件

import re
import requests
# 导入包 pip install fontTools
url = 'https://www.qidian.com/rank/yuepiao/'
headers = {
    'Cookie': '_yep_uuid=16401b3f-da18-36f9-250b-44791c444165; e1=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; newstatisticUUID=1689595424_1606659668; _csrfToken=6aCHItSuH6xVc1FVDCb7nGXnnDYFr6r6UdurzC7a; fu=801177549; traffic_utm_referer=; Hm_lvt_f00f67093ce2f38f215010b699629083=1689595425; Hm_lpvt_f00f67093ce2f38f215010b699629083=1689595425; _ga=GA1.2.225339841.1689595425; _gid=GA1.2.485020634.1689595425; _ga_FZMMH98S83=GS1.1.1689595425.1.1.1689595594.0.0.0; _ga_PFYW0QLV3P=GS1.1.1689595425.1.1.1689595594.0.0.0',
    'Host': 'www.qidian.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
}

response = requests.get(url=url, headers=headers)
# print(response.text)

with open('乱码.html', mode='w', encoding='utf-8') as f:
    f.write(response.text)

"""
1. 下载字体文件
2. 解析字体, 获取字体的映射关系
3. 替换请求到的数据
"""

"""下载字体文件"""
# format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('
font_results = re.findall("format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('",
                          response.text,
                          re.S)

print('解析到的字体地址: ', font_results)
font_link = font_results[0]

response_font = requests.get(url=font_link).content  # 字体文件是二进制数据|

with open('qidian.woff', mode='wb') as f:
    f.write(response_font)
    print('字体文件下载完成.........')

3.3 解析字体文件

import re
import requests

url = 'https://www.qidian.com/rank/yuepiao/'
headers = {
    'Cookie': '_yep_uuid=16401b3f-da18-36f9-250b-44791c444165; e1=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; newstatisticUUID=1689595424_1606659668; _csrfToken=6aCHItSuH6xVc1FVDCb7nGXnnDYFr6r6UdurzC7a; fu=801177549; traffic_utm_referer=; Hm_lvt_f00f67093ce2f38f215010b699629083=1689595425; Hm_lpvt_f00f67093ce2f38f215010b699629083=1689595425; _ga=GA1.2.225339841.1689595425; _gid=GA1.2.485020634.1689595425; _ga_FZMMH98S83=GS1.1.1689595425.1.1.1689595594.0.0.0; _ga_PFYW0QLV3P=GS1.1.1689595425.1.1.1689595594.0.0.0',
    'Host': 'www.qidian.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
}

response = requests.get(url=url, headers=headers)
# print(response.text)

with open('乱码.html', mode='w', encoding='utf-8') as f:
    f.write(response.text)

"""下载字体文件"""
# format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('
font_results = re.findall("format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('",response.text,re.S)

print('解析到的字体地址: ', font_results)
font_link = font_results[0]

response_font = requests.get(url=font_link).content  # 字体文件是二进制数据|

with open('qidian.woff', mode='wb') as f:
    f.write(response_font)
    print('字体文件下载完成.........')

"""解析字体文件"""
from fontTools.ttLib import TTFont

font_path = 'qidian.woff'  # 字体文件路径
base_font = TTFont(font_path)

# # 将字体关系保存为 xml 格式
# base_font.saveXML('font.xml')

map_list = base_font.getBestCmap()
print('字体文件读取出来的规则:', map_list)

eng_2_num = {
    'period': ".",
    'two': '2',
    'zero': '0',
    'five': '5',
    'nine': "9",
    'seven': '7',
    'one': '1',
    'three': '3',
    'six': '6',
    'four': '4',
    'eight': '8'
}

for key in map_list.keys():
    map_list[key] = eng_2_num[map_list[key]]

print('最终的字体映射规则:', map_list)

3.4 替换字体

import re
import requests

url = 'https://www.qidian.com/rank/yuepiao/'
headers = {
    'Cookie': '_yep_uuid=16401b3f-da18-36f9-250b-44791c444165; e1=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22l6%22%3A%22%22%2C%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; newstatisticUUID=1689595424_1606659668; _csrfToken=6aCHItSuH6xVc1FVDCb7nGXnnDYFr6r6UdurzC7a; fu=801177549; traffic_utm_referer=; Hm_lvt_f00f67093ce2f38f215010b699629083=1689595425; Hm_lpvt_f00f67093ce2f38f215010b699629083=1689595425; _ga=GA1.2.225339841.1689595425; _gid=GA1.2.485020634.1689595425; _ga_FZMMH98S83=GS1.1.1689595425.1.1.1689595594.0.0.0; _ga_PFYW0QLV3P=GS1.1.1689595425.1.1.1689595594.0.0.0',
    'Host': 'www.qidian.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
}

response = requests.get(url=url, headers=headers)
# print(response.text)

with open('乱码.html', mode='w', encoding='utf-8') as f:
    f.write(response.text)

"""下载字体文件"""
# format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('
font_results = re.findall("format\('eot'\); src: url\('(.*?)'\) format\('woff'\), url\('",
                          response.text,
                          re.S)

print('解析到的字体地址: ', font_results)
font_link = font_results[0]

response_font = requests.get(url=font_link).content  # 字体文件是二进制数据|

with open('qidian.woff', mode='wb') as f:
    f.write(response_font)
    print('字体文件下载完成.........')

"""解析字体文件"""
from fontTools.ttLib import TTFont

font_path = 'qidian.woff'  # 字体文件路径
base_font = TTFont(font_path)

# # 将字体关系保存为 xml 格式
# base_font.saveXML('font.xml')

map_list = base_font.getBestCmap()
print('字体文件读取出来的规则:', map_list)

eng_2_num = {
    'period': ".",
    'two': '2',
    'zero': '0',
    'five': '5',
    'nine': "9",
    'seven': '7',
    'one': '1',
    'three': '3',
    'six': '6',
    'four': '4',
    'eight': '8'
}

for key in map_list.keys():
    map_list[key] = eng_2_num[map_list[key]]

print('最终的字体映射规则:', map_list)

"""替换字体"""
with open('乱码.html', mode='r', encoding='utf-8') as f:
    old_html = f.read()

new_html = old_html

for key, value in map_list.items():
    # 在循环中每一次替换结果用相同的变量覆盖掉
    new_html = new_html.replace('&#' + str(key) + ';', value)
    print(key, value, sep='|')

with open('替换以后的数据.html', mode='w', encoding='utf-8') as f:
    f.write(new_html)
    print('替换完成.......')

4. 字符串形式字体文件

案例网址：https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1

打开目标网址。选择时间数字内容，就可以观察到字体显示的是特殊的符号，这种就是被加密了，可以查看其在网页中是什么样的内容。可以看到这个标签类名上引用了一个特殊的字体cyzone-secret。

查看Elements文件，看到了一段字体样式：

找遍网页所有文件，都没有发现这个字体cyzone-secret 的代码。并且查看网页源码，没有看到相关代码，断定是动态生成的样式片段。

经过观察，发现页面里边有以下这么一段自执行的代码，执行这段代码以后会出现字体，其中的数据经过了url编码，那么我们可以试试，这个数据中有没有字体文件。

4.1 请求数据 - 发现乱码

# 目标网址: https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1
import requests
import parsel

def send_request():
    """请求返回数据和需要解密的字符"""
    url = 'https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1'
    headers = {
        'Authority': 'data.cyzone.cn',
        'Cookie': 'dfxafjs=js/dfxaf3-2cbeaf6b.js; gr_user_id=b033627a-3aae-4a1e-84b4-0f7d97122c12; __bid_n=1887ff83061cab5cb34207; __utmz=22723113.1685774152.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); PHPSESSID=aavtvg47v9gjnmdrf3o6rb03pp; _ga_s=SP03_2; 83f2446e48563cb9_gr_session_id=8de7d4c2-ad4f-48e9-9802-0b75909730fa; 83f2446e48563cb9_gr_session_id_sent_vst=8de7d4c2-ad4f-48e9-9802-0b75909730fa; Hm_lvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1685774152,1686139691; Hm_lpvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1686139691; __utma=22723113.525378970.1685774152.1685774152.1686139691.2; __utmc=22723113; __utmt=1; __utmb=22723113.1.10.1686139691; MRGCY_referrer=https%3A%2F%2Fdata.cyzone.cn%2Fevent%2Flist-0-1-0-0-0-0-1%2F0%3Fclear%3D1; SERVERID=b3cd016c79d33550bea8f593c3ab00e6|1686139693|1686139689; FPTOKEN=1UWRTmznbYsDw5BI3QjXku+nXS84LhtQWq4JhegorZrpfhNgilvhTvubnoMbA7HnWajZPYtd/kH1plvzvrGpQEpmnHDpDGmajS3ulLeczK1+BiYgYojlokT8Sn2PeyRa9PeUWk0jTNgTknnmJwB83xdsYPh3jfPkp8AyRULnMi9QOthmdeH/Erub6CyyJj+j0SNM+RU9B7YvB9GGoz9U+Jr2Hk884DTqaChyCo3spgAZAXmqRj6w2D5yk+iasIpNxM3OdHpjyf0PgVDe7yI6SXcO4RGj/NzeQmjcGbkjVnwjrWK+oiATOoMQAlw/UeK7jmJ0wskRiclWJ845Gf7IuJxgPN/rzZsazldOHfP1rlneha5vCDvFBXB4jqBjpyMUnnYQedhL2fUZNqDPWORbpg==|5XPx2vC7FRbU593hbypxicg9gNsdsgH3YMHIMnuL4gc=|10|f6d0cbefe79313e727b47e3669f78dcb',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
    }

    response = requests.get(url=url, headers=headers)
    html_data = response.text

    selector = parsel.Selector(html_data)
    time_data = selector.css('.list-table3 tr>td:nth-child(7)>span::text').getall()
    print('需要解密的字体:', time_data)

    return html_data, time_data


if __name__ == '__main__':
    # 发送请求
    html_data, time_data = send_request()

4.2 下载字体

# 目标网址: https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1
import base64
import re
import requests
import parsel

def send_request():
    """请求返回数据和需要解密的字符"""
    url = 'https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1'
    headers = {
        'Authority': 'data.cyzone.cn',
        'Cookie': 'dfxafjs=js/dfxaf3-2cbeaf6b.js; gr_user_id=b033627a-3aae-4a1e-84b4-0f7d97122c12; __bid_n=1887ff83061cab5cb34207; __utmz=22723113.1685774152.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); PHPSESSID=aavtvg47v9gjnmdrf3o6rb03pp; _ga_s=SP03_2; 83f2446e48563cb9_gr_session_id=8de7d4c2-ad4f-48e9-9802-0b75909730fa; 83f2446e48563cb9_gr_session_id_sent_vst=8de7d4c2-ad4f-48e9-9802-0b75909730fa; Hm_lvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1685774152,1686139691; Hm_lpvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1686139691; __utma=22723113.525378970.1685774152.1685774152.1686139691.2; __utmc=22723113; __utmt=1; __utmb=22723113.1.10.1686139691; MRGCY_referrer=https%3A%2F%2Fdata.cyzone.cn%2Fevent%2Flist-0-1-0-0-0-0-1%2F0%3Fclear%3D1; SERVERID=b3cd016c79d33550bea8f593c3ab00e6|1686139693|1686139689; FPTOKEN=1UWRTmznbYsDw5BI3QjXku+nXS84LhtQWq4JhegorZrpfhNgilvhTvubnoMbA7HnWajZPYtd/kH1plvzvrGpQEpmnHDpDGmajS3ulLeczK1+BiYgYojlokT8Sn2PeyRa9PeUWk0jTNgTknnmJwB83xdsYPh3jfPkp8AyRULnMi9QOthmdeH/Erub6CyyJj+j0SNM+RU9B7YvB9GGoz9U+Jr2Hk884DTqaChyCo3spgAZAXmqRj6w2D5yk+iasIpNxM3OdHpjyf0PgVDe7yI6SXcO4RGj/NzeQmjcGbkjVnwjrWK+oiATOoMQAlw/UeK7jmJ0wskRiclWJ845Gf7IuJxgPN/rzZsazldOHfP1rlneha5vCDvFBXB4jqBjpyMUnnYQedhL2fUZNqDPWORbpg==|5XPx2vC7FRbU593hbypxicg9gNsdsgH3YMHIMnuL4gc=|10|f6d0cbefe79313e727b47e3669f78dcb',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
    }

    response = requests.get(url=url, headers=headers)
    html_data = response.text

    selector = parsel.Selector(html_data)
    time_data = selector.css('.list-table3 tr>td:nth-child(7)>span::text').getall()
    print('需要解密的字体:', time_data)

    return html_data, time_data


def download_font(html_str):
    """传入html, 通过正则表达式提取字体文件数据内容保存"""
    # let code = unescape\("(.*?)"\);
    result = re.findall('let code = unescape\("(.*?)"\);', html_str, re.S)[0]

    # requests.utils.unquote  url解码
    unquote_code = requests.utils.unquote(result)
    print('url解码后的内容:', unquote_code)

    result2 = re.findall(r"base64,(.*?)'\) format\('truetype", unquote_code, re.S)[0]
    print('提取出来的字符串形式的字体文件:', result2)

    # b64decode() 把字符串形式转化成二进制
    bytes_img = base64.b64decode(result2)

    # 保存二进制形式的图片
    with open('font.woff', mode='wb') as f:
        f.write(bytes_img)

    return None


if __name__ == '__main__':
    # 发送请求
    html_data, time_data = send_request()

    # 解析保存字体文件
    download_font(html_data)

以上是提取出来后的结果，可以发现url解码后的数据是一段标签字符串，设置了style标签，标签内容中引用的是字体样式cyzone-secret，后续还有base64编码的数据内容。由此推测大概率base64编码的数据就是字体文件数据了，由此下保存字体文件。

4.3 解析字体

首先将字体文件转化成xml文件，打开字体文件，观察字体映射规则，发现字体映射规则是固定不变的，由此用字典构建字体映射规则。

# 目标网址: https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1
import base64
import re
import requests
import parsel
from fontTools.ttLib import TTFont


def send_request():
    """请求返回数据和需要解密的字符"""
    url = 'https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1'
    headers = {
        'Authority': 'data.cyzone.cn',
        'Cookie': 'dfxafjs=js/dfxaf3-2cbeaf6b.js; gr_user_id=b033627a-3aae-4a1e-84b4-0f7d97122c12; __bid_n=1887ff83061cab5cb34207; __utmz=22723113.1685774152.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); PHPSESSID=aavtvg47v9gjnmdrf3o6rb03pp; _ga_s=SP03_2; 83f2446e48563cb9_gr_session_id=8de7d4c2-ad4f-48e9-9802-0b75909730fa; 83f2446e48563cb9_gr_session_id_sent_vst=8de7d4c2-ad4f-48e9-9802-0b75909730fa; Hm_lvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1685774152,1686139691; Hm_lpvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1686139691; __utma=22723113.525378970.1685774152.1685774152.1686139691.2; __utmc=22723113; __utmt=1; __utmb=22723113.1.10.1686139691; MRGCY_referrer=https%3A%2F%2Fdata.cyzone.cn%2Fevent%2Flist-0-1-0-0-0-0-1%2F0%3Fclear%3D1; SERVERID=b3cd016c79d33550bea8f593c3ab00e6|1686139693|1686139689; FPTOKEN=1UWRTmznbYsDw5BI3QjXku+nXS84LhtQWq4JhegorZrpfhNgilvhTvubnoMbA7HnWajZPYtd/kH1plvzvrGpQEpmnHDpDGmajS3ulLeczK1+BiYgYojlokT8Sn2PeyRa9PeUWk0jTNgTknnmJwB83xdsYPh3jfPkp8AyRULnMi9QOthmdeH/Erub6CyyJj+j0SNM+RU9B7YvB9GGoz9U+Jr2Hk884DTqaChyCo3spgAZAXmqRj6w2D5yk+iasIpNxM3OdHpjyf0PgVDe7yI6SXcO4RGj/NzeQmjcGbkjVnwjrWK+oiATOoMQAlw/UeK7jmJ0wskRiclWJ845Gf7IuJxgPN/rzZsazldOHfP1rlneha5vCDvFBXB4jqBjpyMUnnYQedhL2fUZNqDPWORbpg==|5XPx2vC7FRbU593hbypxicg9gNsdsgH3YMHIMnuL4gc=|10|f6d0cbefe79313e727b47e3669f78dcb',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
    }

    response = requests.get(url=url, headers=headers)
    html_data = response.text

    selector = parsel.Selector(html_data)
    time_data = selector.css('.list-table3 tr>td:nth-child(7)>span::text').getall()
    print('需要解密的字体:', time_data)

    return html_data, time_data


def download_font(html_str):
    """传入html, 通过正则表达式提取字体文件数据内容保存"""
    # let code = unescape\("(.*?)"\);
    result = re.findall('let code = unescape\("(.*?)"\);', html_str, re.S)[0]

    # requests.utils.unquote  url解码
    unquote_code = requests.utils.unquote(result)
    print('url解码后的内容:', unquote_code)

    result2 = re.findall(r"base64,(.*?)'\) format\('truetype", unquote_code, re.S)[0]
    print('提取出来的字符串形式的字体文件:', result2)

    # b64decode() 把字符串形式转化成二进制
    bytes_img = base64.b64decode(result2)

    # 保存二进制形式的图片
    with open('font.woff', mode='wb') as f:
        f.write(bytes_img)

    return None


def get_mapping():
    """找到字体新的映射关系"""
    text_font = TTFont('font.woff')
    text_font.saveXML("text.xml")
    # 获取映射规则
    text_mapping = text_font.getBestCmap()
    print(text_mapping)

    # text_mapping = text_font['cmap'].tables[0].ttFont.tables['cmap'].tables[0].cmap
    # print('text_mapping:::', text_mapping)
    #
    # 通过比对发现， glyph* 对应的坐标没有变化，即数字值没有变化
    _mapping = {
        'glyph00009': '8',
        'glyph00005': '4',
        'glyph00001': '0',
        'glyph00008': '7',
        'glyph00010': '9',
        'glyph00002': '1',
        'glyph00006': '5',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00007': '6',
    }

    __mapping = {}
    for key, val in text_mapping.items():
        __mapping[key] = _mapping[val]

    print('字体映射规则:', __mapping)
    return __mapping


if __name__ == '__main__':
    # 发送请求
    html_data, time_data = send_request()

    # 解析保存字体文件
    download_font(html_data)

    # 处理字体, 找到字体的映射关系
    font_mapping = get_mapping()

4.4 替换数据

# 目标网址: https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1
import base64
import re
import requests
import parsel
# 导入包 pip install fontTools
from fontTools.ttLib import TTFont


def send_request():
    """请求返回数据和需要解密的字符"""
    url = 'https://data.cyzone.cn/event/list-0-1-0-0-0-0-1/0?clear=1'
    headers = {
        'Authority': 'data.cyzone.cn',
        'Cookie': 'dfxafjs=js/dfxaf3-2cbeaf6b.js; gr_user_id=b033627a-3aae-4a1e-84b4-0f7d97122c12; __bid_n=1887ff83061cab5cb34207; __utmz=22723113.1685774152.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); PHPSESSID=aavtvg47v9gjnmdrf3o6rb03pp; _ga_s=SP03_2; 83f2446e48563cb9_gr_session_id=8de7d4c2-ad4f-48e9-9802-0b75909730fa; 83f2446e48563cb9_gr_session_id_sent_vst=8de7d4c2-ad4f-48e9-9802-0b75909730fa; Hm_lvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1685774152,1686139691; Hm_lpvt_5f6b02d88ea6aa37bfd72ee1b554bf6f=1686139691; __utma=22723113.525378970.1685774152.1685774152.1686139691.2; __utmc=22723113; __utmt=1; __utmb=22723113.1.10.1686139691; MRGCY_referrer=https%3A%2F%2Fdata.cyzone.cn%2Fevent%2Flist-0-1-0-0-0-0-1%2F0%3Fclear%3D1; SERVERID=b3cd016c79d33550bea8f593c3ab00e6|1686139693|1686139689; FPTOKEN=1UWRTmznbYsDw5BI3QjXku+nXS84LhtQWq4JhegorZrpfhNgilvhTvubnoMbA7HnWajZPYtd/kH1plvzvrGpQEpmnHDpDGmajS3ulLeczK1+BiYgYojlokT8Sn2PeyRa9PeUWk0jTNgTknnmJwB83xdsYPh3jfPkp8AyRULnMi9QOthmdeH/Erub6CyyJj+j0SNM+RU9B7YvB9GGoz9U+Jr2Hk884DTqaChyCo3spgAZAXmqRj6w2D5yk+iasIpNxM3OdHpjyf0PgVDe7yI6SXcO4RGj/NzeQmjcGbkjVnwjrWK+oiATOoMQAlw/UeK7jmJ0wskRiclWJ845Gf7IuJxgPN/rzZsazldOHfP1rlneha5vCDvFBXB4jqBjpyMUnnYQedhL2fUZNqDPWORbpg==|5XPx2vC7FRbU593hbypxicg9gNsdsgH3YMHIMnuL4gc=|10|f6d0cbefe79313e727b47e3669f78dcb',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
    }

    response = requests.get(url=url, headers=headers)
    html_data = response.text

    selector = parsel.Selector(html_data)
    time_data = selector.css('.list-table3 tr>td:nth-child(7)>span::text').getall()
    print('需要解密的字体:', time_data)

    return html_data, time_data


def download_font(html_str):
    """传入html, 通过正则表达式提取字体文件数据内容保存"""
    # let code = unescape\("(.*?)"\);
    result = re.findall('let code = unescape\("(.*?)"\);', html_str, re.S)[0]

    # requests.utils.unquote  url解码
    unquote_code = requests.utils.unquote(result)
    print('url解码后的内容:', unquote_code)

    result2 = re.findall(r"base64,(.*?)'\) format\('truetype", unquote_code, re.S)[0]
    print('提取出来的字符串形式的字体文件:', result2)

    # b64decode() 把字符串形式转化成二进制
    bytes_img = base64.b64decode(result2)

    # 保存二进制形式的图片
    with open('font.woff', mode='wb') as f:
        f.write(bytes_img)

    return None


def get_mapping():
    """找到字体新的映射关系"""
    text_font = TTFont('font.woff')
    text_font.saveXML("text.xml")
    # 获取映射规则
    text_mapping = text_font.getBestCmap()
    print(text_mapping)

    # text_mapping = text_font['cmap'].tables[0].ttFont.tables['cmap'].tables[0].cmap
    # print('text_mapping:::', text_mapping)
    #
    # 通过比对发现， glyph* 对应的坐标没有变化，即数字值没有变化
    _mapping = {
        'glyph00009': '8',
        'glyph00005': '4',
        'glyph00001': '0',
        'glyph00008': '7',
        'glyph00010': '9',
        'glyph00002': '1',
        'glyph00006': '5',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00007': '6',
    }

    __mapping = {}
    for key, val in text_mapping.items():
        __mapping[key] = _mapping[val]

    print('字体映射规则:', __mapping)
    return __mapping


def decode_text(mapping, string):
    """
    替换字体数据
    """
    ret_list = []
    for char in string:
        # ord(char)  返回一个字符串的unicode值
        uni = ord(char)
        print('转化后的字符串Unicode值为: ', uni)
        # 字典有uni这个键就获取其值, 没有就返回设置的默认值char
        value = mapping.get(uni, char)  
        ret_list.append(value)

    return ''.join(ret_list)


if __name__ == '__main__':
    # 发送请求
    html_data, time_data = send_request()

    # 解析保存字体文件
    download_font(html_data)

    # 处理字体, 找到字体的映射关系
    font_mapping = get_mapping()

    for char in time_data:
        result = decode_text(font_mapping, char)
        print(result)

5. 字体加密

案例网址：https://sh.ziroom.com/z/

分析流程：他所有的内容均在网页源代码中，不用去寻找api接口，皆大欢喜，但它的价格是css加密过的，即点击styles中的不显示红框中的内容，它的价格就会发生变化，复制它的url地址，会发现是一张雪碧图(爬取的价格图片背景像雪碧，所以叫做雪碧图)，它的价格是根据像素点的变化，定位雪碧图的不同数字显示的。
实现思路：获得图片，通过图片识别，将像素点(偏移量)根雪碧图的数字一一对应，爬取像素点(偏移量)，将识别出来的数字替换偏移量显示价格，实现价格的爬取。（css反爬一般都是通过这种位移的方式来保护它的数据的）

通过上述分析，咱们已经知道在网页前端中是通过一张图片，根据偏移量在图片中显示价格数字的。因此我们只需要把字体图片和价格的偏移量提取出来还原数据即可。

5.1 请求数据 - 发现偏移量

import pprint
import re
import ddddocr
import parsel
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
}

def send_request(url):
    """
    @param url: 请求地址
    @return: 字体图片地址, 解析后的数据
    """
    response = requests.get(url=url, headers=headers)
    html_data = response.text

    with open('数据偏移的网页.html', mode='w', encoding='utf-8') as f:
        f.write(html_data)

    """解析字体图片地址"""
    # 
    # 
    font_url = re.findall('',
                          html_data,
                          re.S)[0]
    font_url = 'https:' + font_url
    # print('字体图片地址:', font_url)

    """解析数据"""
    data_list = []

    selector = parsel.Selector(html_data)
    divs = selector.css('.Z_list-box>div')
    for div in divs:
        names = div.css('h5>a::text').get()

        if not names:  # 页面中有一个数据是广告
            continue

        move_list = []  # 字体偏移量列表
        nums = div.css('span.num')
        for num in nums:
            num_str = num.get()
            num_result = re.findall('background-position: (.*?)"', num_str, re.S)[0]
            move_list.append(num_result)

        data_list.append({'names': names, 'price_list': move_list})
    return font_url, data_list


if __name__ == '__main__':
    """发送请求, 解析图片地址和需要解密的字体数据"""
    font_url, data_list = send_request('https://sh.ziroom.com/z/')
    print('字体图片地址:', font_url)
    print('解析后的数据:', data_list)

5.2 构建字体映射规则

字体的偏移量数据我们可以在标签中可以看到，根据偏移量数据在字体文件图片中定位到特定的位置显示数字。因此我们需要分析每一个字体图片中每个字的偏移规则，然后使用OCR识图模块识别文字，将其字体关系一一映射出来。

通过分析，偏移量的偏移规律从-0px 开始，每个字体数字偏移间隔为 -21.4px ，分析思路如下图：
因为字体文件是一张图片，而且每次都会随时动态改变字体顺序，因此咱们可以使用识图OCR模块识图，不管怎么变，我们都会实时识别，具体代码如下所示：

import pprint
import re

import ddddocr
import parsel
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
}


def send_request(url):
    """
    @param url: 请求地址
    @return: 字体图片地址, 解析后的数据
    """
    response = requests.get(url=url, headers=headers)
    html_data = response.text

    with open('数据偏移的网页.html', mode='w', encoding='utf-8') as f:
        f.write(html_data)

    """解析字体图片地址"""
    # 
    # 
    font_url = re.findall('',
                          html_data,
                          re.S)[0]
    font_url = 'https:' + font_url
    # print('字体图片地址:', font_url)

    """解析数据"""
    data_list = []

    selector = parsel.Selector(html_data)
    divs = selector.css('.Z_list-box>div')
    for div in divs:
        names = div.css('h5>a::text').get()

        if not names:  # 页面中有一个数据是广告
            continue

        move_list = []  # 字体偏移量列表
        nums = div.css('span.num')
        for num in nums:
            num_str = num.get()
            num_result = re.findall('background-position: (.*?)"', num_str, re.S)[0]
            move_list.append(num_result)

        data_list.append({'names': names, 'price_list': move_list})

    return font_url, data_list


def get_font(font_url, font_rule):
    """
    请求字体图片数据, 构建字体映射规则
    @param font_url: 字体图片地址
    @param font_rule: 分析出来的字体偏移规则
    @return: 返回字体映射规则
    """
    font_data = requests.get(url=font_url, headers=headers).content

    with open('font.png', mode='wb') as f:
        f.write(font_data)

    """ddddocr识别图片文字"""
    ocr = ddddocr.DdddOcr(beta=True)  # 指定识别模型
    res = ocr.classification(font_data)
    print('字体图片识别结果:', res)

    """构建字体映射规则"""
    font_rules = dict(zip(font_rule, res))
    return font_rules


if __name__ == '__main__':
    """发送请求, 解析图片地址和需要解密的字体数据"""
    font_url, data_list = send_request('https://sh.ziroom.com/z/')
    print('字体图片地址:', font_url)
    print('解析后的数据:', data_list)

    """请求字体图片数据, 构建字体映射规则"""
    # 分析出来的字体偏移规则
    move = ['-0px', '-21.4px', '-42.8px', '-64.2px', '-85.6px', '-107px', '-128.4px', '-149.8px', '-171.2px',
            '-192.6px']
    mapping = get_font(font_url, move)
    print('字体映射规则:', mapping)

"""
pillow报错可以参考 https://blog.csdn.net/light2081/article/details/131517132
"""

5.3 替换字体

import pprint
import re

import ddddocr
import parsel
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
}


def send_request(url):
    """
    @param url: 请求地址
    @return: 字体图片地址, 解析后的数据
    """
    response = requests.get(url=url, headers=headers)
    html_data = response.text

    with open('数据偏移的网页.html', mode='w', encoding='utf-8') as f:
        f.write(html_data)

    """解析字体图片地址"""
    # 
    # 
    font_url = re.findall('',
                          html_data,
                          re.S)[0]
    font_url = 'https:' + font_url
    # print('字体图片地址:', font_url)

    """解析数据"""
    data_list = []

    selector = parsel.Selector(html_data)
    divs = selector.css('.Z_list-box>div')
    for div in divs:
        names = div.css('h5>a::text').get()

        if not names:  # 页面中有一个数据是广告
            continue

        move_list = []  # 字体偏移量列表
        nums = div.css('span.num')
        for num in nums:
            num_str = num.get()
            num_result = re.findall('background-position: (.*?)"', num_str, re.S)[0]
            move_list.append(num_result)

        data_list.append({'names': names, 'price_list': move_list})

    return font_url, data_list


def get_font(font_url, font_rule):
    """
    请求字体图片数据, 构建字体映射规则
    @param font_url: 字体图片地址
    @param font_rule: 分析出来的字体偏移规则
    @return: 返回字体映射规则
    """
    font_data = requests.get(url=font_url, headers=headers).content

    with open('font.png', mode='wb') as f:
        f.write(font_data)

    """ddddocr识别图片文字"""
    ocr = ddddocr.DdddOcr(beta=True)  # 指定识别模型
    res = ocr.classification(font_data)
    print('字体图片识别结果:', res)

    """构建字体映射规则"""
    font_rules = dict(zip(font_rule, res))
    return font_rules


def decode_text(mapping, datas):
    """
    替换字体数据
    @param mapping: 字体映射规则
    @param datas: 数据
    @return: 替换后的数据
    """

    for data in datas:
        ret_list = []  # 存放偏移结果替换数据
        for move in data['price_list']:
            print('偏移量:', move)
            value = mapping.get(move, move)  # 字典有这个键就获取其值, 没有就返回设置的默认值char
            ret_list.append(value)

        # 重写数据
        data['price_list'] = ret_list

    return datas


if __name__ == '__main__':
    """发送请求, 解析图片地址和需要解密的字体数据"""
    font_url, data_list = send_request('https://sh.ziroom.com/z/p45/')
    print('字体图片地址:', font_url)
    print('解析后的数据:', data_list)

    """请求字体图片数据, 构建字体映射规则"""
    # 分析出来的字体偏移规则
    move = ['-0px', '-21.4px', '-42.8px', '-64.2px', '-85.6px', '-107px', '-128.4px', '-149.8px', '-171.2px',
            '-192.6px']
    mapping = get_font(font_url, move)
    print('字体映射规则:', mapping)

    """替换字体数据, 得到最终结果"""
    result = decode_text(mapping, data_list)
    pprint.pprint(result)

"""
pillow报错可以参考 https://blog.csdn.net/light2081/article/details/131517132
"""

替换字体后，发现有的数据任然替换不了，后续通过分析发现某些页面中会有多套字体图片引用，每套字体的偏移规则不一样，后续通过分析每套字体偏移规则刷字体替换即可，思路和上诉情况一样。

5.4 多套字体

import pprint
import re
import ddddocr
import parsel
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
}

def decode_text(mapping, datas):
    """
    替换字体数据
    @param mapping: 字体映射规则
    @param datas: 数据
    @return: 替换后的数据
    """
    for data in datas:
        ret_list = []  # 存放偏移结果替换数据
        for move in data['price_list']:
            print('偏移量:', move)
            value = mapping.get(move, move)  # 字典有uni这个键就获取其值, 没有就返回设置的默认值char
            ret_list.append(value)

        # 重写数据
        data['price_list'] = ret_list
    return datas

def get_font(font_url, font_rule):
    """
    请求字体图片数据, 构建字体映射规则
    @param font_url: 字体图片地址
    @param font_rule: 分析出来的字体偏移规则
    @return: 返回字体映射规则
    """
    font_data = requests.get(url=font_url, headers=headers).content

    with open('font.png', mode='wb') as f:
        f.write(font_data)
    """ddddocr识别图片文字"""
    ocr = ddddocr.DdddOcr(beta=True)  # 指定识别模型
    res = ocr.classification(font_data)
    print('字体图片识别结果:', res)
    """构建字体映射规则"""
    font_rules = dict(zip(font_rule, res))
    return font_rules

def send_request(url):
    """
    @param url: 请求地址
    @return: 字体图片地址, 解析后的数据
    """
    response = requests.get(url=url, headers=headers)
    html_data = response.text

    with open('数据偏移的网页.html', mode='w', encoding='utf-8') as f:
        f.write(html_data)
    """解析字体图片地址"""
    # 
    # 
    font_url = re.findall('',
                          html_data,
                          re.S)
  ###################################################################################################################################################################################  修改
    font_url_set = set(['https:' + res for res in
                        font_url])  ##########################################################################################################################  修改
    ###################################################################################################################################################################################  修改

    # print('字体图片地址:', font_url)
    """解析数据"""
    data_list = []

    selector = parsel.Selector(html_data)
    divs = selector.css('.Z_list-box>div')
    for div in divs:
        names = div.css('h5>a::text').get()

        if not names:  # 页面中有一个数据是广告
            continue

        move_list = []  # 字体偏移量列表
        nums = div.css('span.num')
        for num in nums:
            num_str = num.get()
            num_result = re.findall('background-position: (.*?)"', num_str, re.S)[0]
            move_list.append(num_result)

        data_list.append({'names': names, 'price_list': move_list})

    return font_url_set, data_list


if __name__ == '__main__':
    # """发送请求, 解析图片地址和需要解密的字体数据"""
    # font_url, data_list = send_request('https://sh.ziroom.com/z/')
    # print('字体图片地址:', font_url)
    # print('解析后的数据:', data_list)
    #
    # """请求字体图片数据, 构建字体映射规则"""
    # # 分析出来的字体偏移规则
    # move = ['-0px', '-21.4px', '-42.8px', '-64.2px', '-85.6px', '-107px', '-128.4px', '-149.8px', '-171.2px', '-192.6px']
    # mapping = get_font(font_url, move)
    # print('字体映射规则:', mapping)
    #
    # """替换字体数据, 得到最终结果"""
    # result = decode_text(mapping, data_list)
    # pprint.pprint(result)

    """解决第二套字体"""
    """发送请求, 解析图片地址和需要解密的字体数据"""
    # 修改函数解析字体图片地址代码逻辑: (列表推导式加https协议)+(集合去重字体图片地址) -->代码注释修改部分
    font_url_set, data_list = send_request('https://sh.ziroom.com/z/p45/')
    print('字体图片地址:', font_url_set)
    print('解析后的数据:', data_list)

    """通过循环去刷字体, 替换"""
    grey_rule = ['-0px', '-15px', '-30px', '-45px', '-60px', '-75px', '-90px', '-105px', '-120px', '-135px']
    yellow_rule = ['-0px', '-21.4px', '-42.8px', '-64.2px', '-85.6px', '-107px', '-128.4px', '-149.8px', '-171.2px',
                   '-192.6px']
    red_rule = ['-0px', '-20px', '-40px', '-60px', '-80px', '-100px', '-120px', '-140px', '-160px', '-180px']

    # 通过分析发现有三套字体 --> 一个是价格删除线的灰色字体, 一个是黄色字体, 一个是红色字体, 且字体顺序会发生改变
    for font_url in font_url_set:

        if 'new-list' in font_url:  # 黄色字体地址中包含 new-list 字符串, 由此做判断逻辑
            mapping = get_font(font_url, yellow_rule)  # 黄色字体映射规则
            data_list = decode_text(mapping, data_list)  # 替换字体, 覆盖上面 data_list 变量
            # pprint.pprint(data_list)

        if 'list_red' in font_url:  # 红色字体地址中包含 list_red-list 字符串, 由此做判断逻辑
            mapping = get_font(font_url, red_rule)  # 红色字体映射规则
            data_list = decode_text(mapping, data_list)  # 替换字体, 覆盖上面 data_list 变量
            # pprint.pprint(data_list)

        if 'list_grey' in font_url:
            mapping = get_font(font_url, grey_rule)  # 灰色字体映射规则
            data_list = decode_text(mapping, data_list)  # 替换字体, 覆盖上面 data_list 变量

    pprint.pprint(data_list)

你可能感兴趣的:(【基础】Python网络爬虫,python,爬虫,javascript)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1