一学就废的小张

Python爬虫（第八周）

一、字体反爬

基于起点中文网案例介绍字体反扒

需求：https://www.qidian.com/rank/yuepiao/ 获取起点中文网月票榜排名的书名极其月票数量

通过抓包可以在 “yuepiao/” 中发现我们所需要的书名和月票数量都是html格式的数据，所以我们要用到 lxml中的 etree 方法，利用xpath进行解析

import requests
from lxml import etree
from fake_useragent import FakeUserAgent

if __name__ == '__main__':
    # 1.确认目标的url
    url_ = 'https://www.qidian.com/rank/yuepiao/'

    # 2.构造请求头信息
    headers_ = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
        'Cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _csrfToken=FJAYOKmb5GpRuB6mdxwLXF1sDkKqgTL0z5gG7Ana; newstatisticUUID=1613732256_1917024121; _yep_uuid=adb684fd-87c1-4108-391c-f50ab9ac0d5c; _gid=GA1.2.180413774.1628410724; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22%22%7D; _ga_FZMMH98S83=GS1.1.1628410723.1.1.1628410744.0; _ga_PFYW0QLV3P=GS1.1.1628410723.1.1.1628410744.0; _ga=GA1.2.707336986.1628410723',
        'Referer': 'https://www.qidian.com/rank/'
    }
    # 3.发送请求,获取相应
    response_ = requests.get(url_, headers=headers_)
    data_ = response_.text

    # 检查拿到的相应是否正确
    with open('qidian.html', 'w', encoding='utf-8') as f:
        f.write(data_)

需要注意的是：起点中文网是一个大网站，请求头信息尽量写完整，检查拿到的响应对象中是否包含我们需要的数据

经检查，我们所需要的数据在响应对象中，下一步就需要在响应对象中提取到所需要的数据，因为是html格式数据，所以提取数据的关键就是调试xpath语法，在提取前进行分析，一页有20本书，即提取结果也应该是20个

书名xpath：//h4/a/text()

月票数量xpath：//span/span/text() 或者 //span[@class="IuAmFihj"]/text()

注：第二种xpath语法在浏览器调试时可以取到数据，但是当我们在pycharm中运行程序时会发现并不能提取到相应数据，这是因为span的class属性值在每一次访问网站时都会发生变化

import requests
from lxml import etree
from fake_useragent import FakeUserAgent

if __name__ == '__main__':
    # 1.确认目标的url
    url_ = 'https://www.qidian.com/rank/yuepiao/'

    # 2.构造请求头信息
    headers_ = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
        'Cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _csrfToken=FJAYOKmb5GpRuB6mdxwLXF1sDkKqgTL0z5gG7Ana; newstatisticUUID=1613732256_1917024121; _yep_uuid=adb684fd-87c1-4108-391c-f50ab9ac0d5c; _gid=GA1.2.180413774.1628410724; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22%22%7D; _ga_FZMMH98S83=GS1.1.1628410723.1.1.1628410744.0; _ga_PFYW0QLV3P=GS1.1.1628410723.1.1.1628410744.0; _ga=GA1.2.707336986.1628410723',
        'Referer': 'https://www.qidian.com/rank/'
    }
    # 3.发送请求,获取相应
    response_ = requests.get(url_, headers=headers_)
    data_ = response_.text

    # # 检查拿到的相应是否正确
    # with open('qidian.html', 'w', encoding='utf-8') as f:
    #     f.write(data_)

    # 4.解析数据,获取书名和月票数量
    html_obj = etree.HTML(data_)
    book_list = html_obj.xpath('//h4/a/text()')
    num_list = html_obj.xpath('//span/span/text()')
    print(book_list)
    print(num_list)

通过正常流程，我们应该拿到了书名和月票数量，但是打印我们提取到的数据是会发现出现了下面情况

['夜的命名术', '不科学御兽', '我有一棵神话树', '我就是不按套路出牌', '从红月开始', '我的云养女友', '大梦主', '深空彼岸', '这个人仙太过正经', '斗罗大陆V重生唐三', '仙狐', '大奉打更人', '星门', '人族镇守使', '东晋北府一丘八', '我只能和S级女神谈恋爱', '我真不想看见bug', '稳住别浪', '赤心巡天', '全职艺术家']
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

书名可以正常显示，但月票数量全是乱码，这就是我们所说的字体反爬

出现的字体反爬：1.span的class属性值在每一次访问网站时都会发生变化

2.不经过特殊处理，无法拿到真实的数据

分析：

作为正常用户在页面直接复制月票数量：

月票

可以看见我们作为正常用户直接复制月票数量数据时都出现了乱码情况，所以普通爬虫更不可能拿到真正的数据

在 yuepiao/ 数据包中找到的月票数量对应的语句：

𘛽𘛽𘛿𘜀𘜄月票

可以看见数字似乎变成了类似𘛽这样的格式

在network中的font里面有三个woff文件，这种文件其实就是用来做字体加密的文件

那我们到底要用到哪一个呢？

我们用检查中左上角的小箭头点击页面中的月票数据，可以跳转到数据对应的标签，前面class属性的值与三个woff文件中有一个文件重名，所以我们猜测要用的就是这个woff文件

下载woff文件：1.双击下载

2.利用python代码发送请求下载

打开发现好像并不能查看woff字体加密文件里面的具体内容，此时我们需要一个第三方库：fontTools 需要我们自己下载

pip install fonttools

使用：

from fontTools.ttLib import TTFont
# 创建对象，参数为字体加密文件
font_obj = TTFont('FryVjKMa.woff')

# 转换格式
font_obj.saveXML('font.xml')

注意：下载时是 fonttools ，导入时是 fontTools

转换后，我们搜索cmap，可以找到：

这就是字体加密的转换规则，map标签就是对应关系（映射表）

阅读代码，就可以大概猜到：0x188c0 对应 8，0x188c2 对应 1 ......（0x开头表示16进制数）

我们将其转化为10进制数：

print(int(0x188c0))  # 100544
print(int(0x188c2))  # 100546

可以发现这与我们在 yuepiao/ 数据包中找到的月票数量对应的语句：

𘛽𘛽𘛿𘜀𘜄月票

中的数字形式很像

所以可以得出结论：0x188c0 对应 8，0x188c0 的十进制数 100544，100544 对应 8

找到对应关系的逻辑后，如何快速得到对应表呢？

from fontTools.ttLib import TTFont

# 创建对象，参数为字体加密文件
font_obj = TTFont('FryVjKMa.woff')

# 转换格式
font_obj.saveXML('font.xml')

# 得到map节点的关系映射表
res_ = font_obj.getBestCmap()
print(res_)

'''
{100544: 'eight', 100546: 'one', 100547: 'zero', 100548: 'three', 100549: 'period', 
 100550: 'four', 100551: 'two', 100552: 'nine', 100553: 'six', 100554: 'five', 
 100555: 'seven'}
'''

看结果，getBestCmap方法帮我们自动把十六进制数转换成了十进制数，并把对应关系以字典形式呈现

当我们做爬虫时，手动去下载字体加密文件是不现实的，所以需要利用代码去下载字体加密文件

我们在 yuepiao/ 数据包的response中搜索woff，可以发现字体加密文件的url在response中

xpath语法：//p/span/style/text()

结果有20个，因为页面有20本书，每一本书都对应同一个woff文件，所以取其中一个就行

import json
import re
from fontTools.ttLib import TTFont
import requests
from lxml import etree

if __name__ == '__main__':
    # 1.确认目标的url
    url_ = 'https://www.qidian.com/rank/yuepiao/'

    # 2.构造请求头信息
    headers_ = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
        'Cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _csrfToken=FJAYOKmb5GpRuB6mdxwLXF1sDkKqgTL0z5gG7Ana; newstatisticUUID=1613732256_1917024121; _yep_uuid=adb684fd-87c1-4108-391c-f50ab9ac0d5c; _gid=GA1.2.180413774.1628410724; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22%22%7D; _ga_FZMMH98S83=GS1.1.1628410723.1.1.1628410744.0; _ga_PFYW0QLV3P=GS1.1.1628410723.1.1.1628410744.0; _ga=GA1.2.707336986.1628410723',
        'Referer': 'https://www.qidian.com/rank/'
    }
    # 3.发送请求,获取相应
    response_ = requests.get(url_, headers=headers_)
    data_ = response_.text

    # # 检查拿到的相应是否正确
    # with open('qidian.html', 'w', encoding='utf-8') as f:
    #     f.write(data_)

    # 4.解析数据,获取字体加密文件,书名,月票数量
    html_obj = etree.HTML(data_)
    # 获取书名
    book_list = html_obj.xpath('//h4/a/text()')

    # 获取字体加密文件
    str_ = html_obj.xpath('//p/span/style/text()')[0]
    '''
    @font-face { font-family: khQtDpBC; src: url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.eot?') format('eot'); 
    src: url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.woff') format('woff'), url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.ttf') 
    format('truetype'); } .khQtDpBC { font-family: 'khQtDpBC' !important;     
    display: initial !important; color: inherit !important; vertical-align: initial !important; }
    '''
    # 从中提取字体加密文件的url
    font_url = re.findall(r" format\('eot'\); src: url\('(.*?)'\) format\('woff'\)", str_)[0]
    # 对字体加密文件的url发送请求,获取相应的文件
    font_response = requests.get(font_url, headers=headers_)
    # 保存字体加密文件
    with open('font.woff', 'wb') as f:
        f.write(font_response.content)
    # 解析字体加密文件
    font_obj = TTFont('font.woff')
    # 转换成明文格式的xml文件
    font_obj.saveXML('font.xml')
    # 得到map节点的关系映射表(十六进制->十进制)
    res_ = font_obj.getBestCmap()
    # 将关系映射表中的英文数字转换为阿拉伯数字
    dict_ = {'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8',
             'nine': '9', 'zero': '0'}
    for i in res_:
        for j in dict_:
            if res_[i] == j:
                res_[i] = dict_[j]

    # 获取月票数量:𘛽𘛽𘛿𘜀𘜄格式
    num_ = re.findall(r'(.*?)月票', data_)
    # 去掉&#
    list_ = []
    for i in num_:
        list_.append(re.findall(r'\d+', i))
    # 替换成一位阿拉伯数字
    for i in list_:
        for j in enumerate(i):
            for k in res_:
                if j[1] == str(k):
                    i[j[0]] = res_[k]
    # ['7', '6', '2', '1', '2']拼接
    for i, j in enumerate(list_):
        new = ''.join(j)
        list_[i] = new

    # 5.保存书名和对应的月票数量
    with open('起点中文网月榜.json', 'a', encoding='utf-8') as f:
        for i in range(len(book_list)):
            book_dict = {}
            book_dict[book_list[i]] = list_[i]
            json_data = json.dumps(book_dict, ensure_ascii=False) + ',\n'
            f.write(json_data)

二、案例翻页

import json
import re
import time

from fontTools.ttLib import TTFont
import requests
from lxml import etree

if __name__ == '__main__':
    for i in range(1, 6):
        # 1.确认目标的url
        url_ = f'https://www.qidian.com/rank/yuepiao/page{i}'

        # 2.构造请求头信息
        headers_ = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
            'Cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _csrfToken=FJAYOKmb5GpRuB6mdxwLXF1sDkKqgTL0z5gG7Ana; newstatisticUUID=1613732256_1917024121; _yep_uuid=adb684fd-87c1-4108-391c-f50ab9ac0d5c; _gid=GA1.2.180413774.1628410724; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22%22%7D; _ga_FZMMH98S83=GS1.1.1628410723.1.1.1628410744.0; _ga_PFYW0QLV3P=GS1.1.1628410723.1.1.1628410744.0; _ga=GA1.2.707336986.1628410723',
            'Referer': 'https://www.qidian.com/rank/'
        }
        # 3.发送请求,获取相应
        response_ = requests.get(url_, headers=headers_)
        data_ = response_.text

        # # 检查拿到的相应是否正确
        # with open('qidian.html', 'w', encoding='utf-8') as f:
        #     f.write(data_)

        # 4.解析数据,获取字体加密文件,书名,月票数量
        html_obj = etree.HTML(data_)
        # 获取书名
        book_list = html_obj.xpath('//h4/a/text()')

        # 获取字体加密文件
        str_ = html_obj.xpath('//p/span/style/text()')[0]
        '''
        @font-face { font-family: khQtDpBC; src: url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.eot?') format('eot'); 
        src: url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.woff') format('woff'), url('https://qidian.gtimg.com/qd_anti_spider/khQtDpBC.ttf') 
        format('truetype'); } .khQtDpBC { font-family: 'khQtDpBC' !important;     
        display: initial !important; color: inherit !important; vertical-align: initial !important; }
        '''
        # 从中提取字体加密文件的url
        font_url = re.findall(r" format\('eot'\); src: url\('(.*?)'\) format\('woff'\)", str_)[0]
        # 对字体加密文件的url发送请求,获取相应的文件
        font_response = requests.get(font_url, headers=headers_)
        # 保存字体加密文件
        with open('font.woff', 'wb') as f:
            f.write(font_response.content)
        # 解析字体加密文件
        font_obj = TTFont('font.woff')
        # 转换成明文格式的xml文件
        font_obj.saveXML('font.xml')
        # 得到map节点的关系映射表(十六进制->十进制)
        res_ = font_obj.getBestCmap()
        # 将关系映射表中的英文数字转换为阿拉伯数字
        dict_ = {'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8',
                 'nine': '9', 'zero': '0'}
        for i in res_:
            for j in dict_:
                if res_[i] == j:
                    res_[i] = dict_[j]

        # 获取月票数量:𘛽𘛽𘛿𘜀𘜄格式
        num_ = re.findall(r'(.*?)月票', data_)
        # 去掉&#
        list_ = []
        for i in num_:
            list_.append(re.findall(r'\d+', i))
        # 替换成一位阿拉伯数字
        for i in list_:
            for j in enumerate(i):
                for k in res_:
                    if j[1] == str(k):
                        i[j[0]] = res_[k]
        # ['7', '6', '2', '1', '2']拼接
        for i, j in enumerate(list_):
            new = ''.join(j)
            list_[i] = new

        # 5.保存书名和对应的月票数量
        with open('起点中文网月榜.json', 'a', encoding='utf-8') as f:
            for i in range(len(book_list)):
                book_dict = {}
                book_dict[book_list[i]] = list_[i]
                json_data = json.dumps(book_dict, ensure_ascii=False) + ',\n'
                f.write(json_data)

        # 6.降低请求频率
        time.sleep(1)

Python --**kwargs 潇湘馆记 python
在Python中，**kwargs是一个特殊语法，用于在函数定义中接收任意数量的关键字参数（即键值对参数），并将这些参数以字典形式存储。它是Python中处理动态参数的强大工具，适用于需要灵活传递参数的场景。1.基本语法定义方式：在函数参数列表中使用**kwargs（名称可以自定义，但通常遵循kwargs约定）。参数类型：kwargs是一个字典，键是参数名，值是对应的参数值。示例defprint_
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
Qt上位机编程命名规范-执行版有追求的菜鸟 qt 开发语言
主要规范原则参考Qt上位机编程命名规范。1.文件/文件夹大小写分析考虑跨平台性，全小写是一种约定俗成的风格，在许多大型开源项目中（如Linux内核、Python标准库）被广泛使用。1.1.配合文件扩展名通常文件名小写配合小写扩展名（如.h,.cpp,.json），使整体风格统一：main.cppconfig.jsonutils.h1.2.文件夹和pri文件命名通常小写、下划线分开：control_
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
python使用Bokeh库实现实时数据的可视化 Oona_01 python 信息可视化数据分析
Python语言以其丰富的数据科学生态系统而闻名,其中Bokeh库作为一种功能强大的可视化工具,为实时数据的可视化提供了优秀的支持,本文将介绍如何使用Bokeh库实现实时数据的可视化,并提供相关代码实例,需要的朋友可以参考下使用Python的Bokeh库进行实时数据可视化的实现Bokeh简介实时数据可视化的需求使用Bokeh实现实时数据可视化的步骤代码示例Bokeh的进阶应用总结使用Python的
Python解决“特定数组的逆序拼接”问题啥都鼓捣的小yao 经典算法练习 python 算法开发语言
Python解决“特定数组的逆序拼接”问题问题描述测试样例解决思路代码问题描述小U得到了一个数字n，他的任务是构造一个特定数组。这个数组的构造规则是：对于每个i从1到n，将数字n到i逆序拼接，直到i等于n为止。最终，输出这个拼接后的数组。例如，当n等于3时，拼接后的数组是[3,2,1,3,2,3]。测试样例样例1：输入：n=3输出：[3,2,1,3,2,3]样例2：输入：n=4输出：[4,3,2,
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
Python3包开发的高效Cookiecutter模板：python-package-template 一只爪子
本文还有配套的精品资源，点击获取简介：本文介绍了一个名为python-package-template的Cookiecutter模板，用于简化Python包的开发过程。该模板遵循Python的最佳实践，并自动创建项目结构，包括setup.py、MANIFEST.in、LICENSE、README.md、.gitignore、requirements.txt、测试配置文件、CI配置文件、测试目录和文
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
Python项目自动化模板构建：深入理解Cookiecutter TEDDYYW
本文还有配套的精品资源，点击获取简介：Python项目的标准化构建过程对于代码的整洁和可维护性至关重要。本文将深入探讨如何利用"cookiecutter"这一Python命令行工具自动化项目的初始化过程。Cookiecutter通过读取预定义模板并根据用户输入自动生成项目结构，简化了项目设置。我们将详细了解"cookiecutter-python-master"模板的组成，包括标准项目结构、初始化
多阶段构建实现 Docker 加速与体积减小：含文件查看、上传及拷贝功能的 FastAPI 应用镜像构建九不多 Docker docker fastapi python YOLO
本文围绕使用Docker构建FastAPI应用镜像展开，着重介绍了多阶段构建的Dockerfile编写及相关操作。借助多阶段构建，不仅实现了Docker构建的加速，还有效减小了镜像体积。1.Dockerfile内容以下是我们要使用的Dockerfile内容：#第一个阶段-构建应用FROMdocker.1ms.run/python:3.9ASbuilder#设置工作目录WORKDIR/app#复制依
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
Python最佳实践项目Cookiecutter常见问题解决方案柯茵沙
Python最佳实践项目Cookiecutter常见问题解决方案python-best-practices-cookiecutterPythonbestpracticesprojectcookiecutter项目地址:https://gitcode.com/gh_mirrors/py/python-best-practices-cookiecutter项目基础介绍本项目是一个Python最佳实践的
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
探秘 Cookiecutter：一个高效项目模板生成器尤琦珺Bess
探秘Cookiecutter：一个高效项目模板生成器cookiecutter项目地址:https://gitcode.com/gh_mirrors/coo/cookiecutter如果你是一位热衷于Python开发的程序员，或者你经常需要初始化新的项目，那么你可能会对感兴趣。这是一个强大的工具，它能够根据预定义的模板快速生成项目结构，极大地提高了开发效率。项目简介Cookiecutter是一个命令
Mac【卸载 Python】 - 3.12.2 Stongtang Python macos python
一、若使用官方安装包安装1.删除Python框架Python官方安装包会将Python安装到/Library/Frameworks/Python.framework/Versions/3.12目录下。你可以在终端中使用以下命令删除该目录：sudorm-rf/Library/Frameworks/Python.framework/Versions/3.12执行此命令时，系统会要求你输入管理员密码，输
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
怎样才能把网页数据保存到网络上？ 2301_79698214 html javascript java 前端 html5
要将网页数据存放到网络中，一般可以通过以下几种常见的方式：1.使用后端服务器自建服务器：你可以搭建自己的服务器，例如使用Node.js的Express框架或者Python的Flask、Django框架。以下是一个使用Flask框架存储数据到服务器的简单示例：pythonApplyfromflaskimportFlask,requestapp=Flask(__name__)@app.route('/
Python列表2 cfjybgkmf Python python 开发语言
print("——————————列表的相关操作————————————")'''lst.append('x')在列表lst最后增加一个元素lst.insert(index,'x')在列表中第index位置增加一个元素lst.clear()清除列表lst中所有元素lst.pop(index)将列表lst中第index位置的元素取出，并从列表中将其删除lst.remove('x')将列表lst中出现
深入了解 Cookiecutter：Python 项目模板的强大工具 boringhex.top python 开源 python 开发语言
在软件开发过程中，创建新的项目往往需要重复执行一系列繁琐的步骤，尤其是在设置项目结构、配置文件和依赖方面。Cookiecutter是一个开源的命令行工具，旨在帮助开发者快速生成项目模板，从而提高开发效率。本文将深入探讨Cookiecutter的功能、工作原理、常见用法以及一些最佳实践。什么是Cookiecutter？Cookiecutter是一个用于创建项目模板的工具，支持多种语言和框架。它允许开
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

Python爬虫（第八周）

一、字体反爬

二、案例翻页

你可能感兴趣的:(Python爬虫,python,爬虫)