HHVic

一步步读懂Pytorch Chatbot Tutorial代码(四) - 为模型准备数据

文章目录

自述
有用的工具
代码出处
目录
头大
代码及说明 Prepare Data for Models
- - 重点关注
  - indexesFromSentence
  - zeroPadding
  - binaryMatrix
  - inputVar
  - outputVar
  - batch2TrainData
最后得到结果

自述

我是编程小白，别看注册时间长，但从事的不是coding工作，为了学AI才开始自学Python。
平时就是照着书上敲敲代码，并没有深刻理解。现在想要研究chatbot了，才发现自己的coding水平急需加强，所以开这个系列记录自己一行行扣代码的过程。当然这不是从0开始的，只是把自己不理解的写出来，将来也可以作为资料备查。

最后还要重申一下，我没有系统学过编程，写这个系列就是想突破自己，各位大神请不吝赐教！

有用的工具

可以视觉化代码的网站https://pythontutor.com/visualize.html

代码出处

Pytorch的CHATBOT TUTORIAL

https://pytorch.org/tutorials/beginner/chatbot_tutorial.html?highlight=gpu%20training

目录

一步步读懂Pytorch Chatbot Tutorial代码(一) - 加载和预处理数据
一步步读懂Pytorch Chatbot Tutorial代码(二) - 数据处理
一步步读懂Pytorch Chatbot Tutorial代码(三) - 创建字典
一步步读懂Pytorch Chatbot Tutorial代码(四) - 为模型准备数据
一步步读懂Pytorch Chatbot Tutorial代码(五) - 定义模型

头大

写到这里，感慨一下。因为是悲催的社畜，平时本来就忙，再加上时不时捣乱的印度‘熊弟’，最近忙到飞起，这几篇写的就非常的慢，导致每次开始看代码都要不停的往回翻来回想代码逻辑。效率实在提不起来。

代码及说明 Prepare Data for Models

尽管我们花了大量精力准备数据，并将其转换成一个漂亮的词汇表对象和句子对列表，但我们的模型最终将期望把Tensor作为输入。在seq2seq translation tutorial中可以找到为模型准备处理数据的一种方法。在该教程中，我们使用1的批量大小，这意味着我们所要做的就是将句子对中的单词从词汇表转换为相应的索引，并将其提供给模型。

但是，如果您对加快训练或希望利用GPU并行化功能感兴趣，则需要使用小批量进行训练。

使用小批量也意味着我们必须注意批量中句子长度的变化。为了在同一批中容纳不同大小的句子，我们将创建批输入形状的张量（max_length , batch_size），其中小于max_length的句子在EOS_token后进行零填充。

如果我们简单地通过将单词转换为索引（IndexsFromSession）和零填充将英语句子转换为张量，我们的张量将具有形状（batch_size, max_length），对第一维度进行索引将返回所有时间步的完整序列。然而，我们需要能够在一段时间内以及在批次中的所有序列中对批次进行索引。因此，我们将输入批次形状转换为（max_length，batch_size），这样跨第一个维度的索引将跨批次中的所有句子返回一个时间步长。我们在zeroPadding函数中隐式地处理这个转置。

图片中的数字代表Word2index 中的值，也就是单词映射的index ID

inputVar函数处理将句子转换为张量的过程，最终创建形状正确的零填充张量。它还返回批次中每个序列的lengths张量，稍后将传递给我们的解码器。

outputVar函数执行与inputVar类似的函数，但它不返回lengths张量，而是返回二进制掩码张量和最大目标句子长度。二进制掩码张量的形状与输出目标张量的形状相同，但作为PAD_token的每个元素都是0，其他所有元素都是1。

batch2TrainData只需获取一组对，并使用上述函数返回输入和目标张量.

def indexesFromSentence(voc, sentence):
    return [voc.word2index[word] for word in sentence.split(' ')] + [EOS_token]


def zeroPadding(l, fillvalue=PAD_token):
    return list(itertools.zip_longest(*l, fillvalue=fillvalue))

def binaryMatrix(l, value=PAD_token):
    m = []
    for i, seq in enumerate(l):
        m.append([])
        for token in seq:
            if token == PAD_token:
                m[i].append(0)
            else:
                m[i].append(1)
    return m

# Returns padded input sequence tensor and lengths
def inputVar(l, voc):
    indexes_batch = [indexesFromSentence(voc, sentence) for sentence in l]
    lengths = torch.tensor([len(indexes) for indexes in indexes_batch])
    padList = zeroPadding(indexes_batch)
    padVar = torch.LongTensor(padList)
    return padVar, lengths

# Returns padded target sequence tensor, padding mask, and max target length
def outputVar(l, voc):
    indexes_batch = [indexesFromSentence(voc, sentence) for sentence in l]
    max_target_len = max([len(indexes) for indexes in indexes_batch])
    padList = zeroPadding(indexes_batch)
    mask = binaryMatrix(padList)
    mask = torch.BoolTensor(mask)
    padVar = torch.LongTensor(padList)
    return padVar, mask, max_target_len

# Returns all items for a given batch of pairs
def batch2TrainData(voc, pair_batch):
    pair_batch.sort(key=lambda x: len(x[0].split(" ")), reverse=True)
    input_batch, output_batch = [], []
    for pair in pair_batch:
        input_batch.append(pair[0])
        output_batch.append(pair[1])
    inp, lengths = inputVar(input_batch, voc)
    output, mask, max_target_len = outputVar(output_batch, voc)
    return inp, lengths, output, mask, max_target_len


# Example for validation
small_batch_size = 5
batches = batch2TrainData(voc, [random.choice(pairs) for _ in range(small_batch_size)])
input_variable, lengths, target_variable, mask, max_target_len = batches

print("input_variable:", input_variable)
print("lengths:", lengths)
print("target_variable:", target_variable)
print("mask:", mask)
print("max_target_len:", max_target_len)

重点关注

下面先根据前面几章得到的结果来一层层推理本章的内容
先看voc.word2index

{'there': 3,
 '.': 4,
 'where': 5,
 '?': 6,
 'you': 7,
 'have': 8,
 'my': 9,
 'word': 10,
 'as': 11,
 'a': 12,
 'gentleman': 13,
 're': 14,
 'sweet': 15,
 ......

列表推导式（for表达式）

可以参考这里 http://c.biancheng.net/view/2231.html

indexesFromSentence

将句子中的单词转化成index ID, 举个栗子：


pairs[2][1]

Output:
'looks like things worked out tonight huh ?'

def indexesFromSentence(voc, sentence):
    return [voc.word2index[word] for word in sentence.split(' ')] + [EOS_token]

indexesFromSentence(voc,pairs[2][0])
indexesFromSentence(voc,pairs[2][1])

Output:
[16, 4, 2]
[17, 18, 19, 20, 21, 22, 23, 6, 2]

zeroPadding

将上面不定长的句子填充0到定长10

PAD_token = 0

itertools模块包含创建高效迭代器的函数，这些函数的返回值不是list，而是iterator（可迭代对象）,可以用各种方式对数据执行循环操作.

zip_longest(it_obj1, …, it_objN, fillvalue=None) 其函数实现的功能和内置zip函数大致相同(实现一一对应)，不过内置的zip函数是已元素最少对象为基准,而zip_longest函数是已元素最多对象为基准,使用fillvalue的值来填充

思路大致如此: 找出元素个数最多->算出元素个数差值->填充差值个元素到各个对象

举个栗子：

a=[16, 4, 2]
b=[17, 18, 19, 20, 21, 22, 23, 6, 2]
c=list(zip(a,b))
c
Output:
[(16, 17), (4, 18), (2, 19)]

c=list(itertools.zip_longest(a,b))
c
[(16, 17),
 (4, 18),
 (2, 19),
 (None, 20),
 (None, 21),
 (None, 22),
 (None, 23),
 (None, 6),
 (None, 2)]

* 在这里代表所有列表，再举个栗子

a=[[16, 4, 2],[17, 18, 19, 20, 21, 22, 23, 6, 2]]
list(itertools.zip_longest(*a))

Output：
[(16, 17),
 (4, 18),
 (2, 19),
 (None, 20),
 (None, 21),
 (None, 22),
 (None, 23),
 (None, 6),
 (None, 2)]

binaryMatrix

将上面的矩阵转换成由0和1组成的矩阵

这里的 l 已经根据之前的函数变成了由index 和 0 组成的矩阵比如这样


a=[[16, 4, 2],[17, 18, 19, 20, 21, 22, 23, 6, 2]]
d=list(itertools.zip_longest(*a,fillvalue=0))
d

Output:
[(16, 17),
 (4, 18),
 (2, 19),
 (0, 20),
 (0, 21),
 (0, 22),
 (0, 23),
 (0, 6),
 (0, 2)]
# 带入函数之后得到结果：
ef binaryMatrix(l, value=PAD_token):
    m = []
    for i, seq in enumerate(l):
        m.append([])
        for token in seq:
            if token == PAD_token:
                m[i].append(0)
            else:
                m[i].append(1)
    return m
binary_d=binaryMatrix(d)
binary_d

Output：
[[1, 1], [1, 1], [1, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1]]

inputVar

torch.Tensor和torch.tensor区别如下

https://blog.csdn.net/weixin_42018112/article/details/91383574

def inputVar(l, voc):这里的l代表你输入的需要提问的句子

indexes_batch 代表输入句子中每个单词的index ID

lengths 是list，代表每个句子的实际长度，长度为(batch, )

padList 补齐index ID

padVar 是一个LongTensor，shape是(batch, max_length)

outputVar

max()函数
https://www.runoob.com/python3/python3-func-number-max.html

max_target_len 这里只取了最大长度的indexes

padList 返回最大最长句子的长度(也就是padding后的长度)
padVar是LongTensor，shape是 batch, max_target_length)
mask是ByteTensor，shape也是 (batch, max_target_length)

原文中的错误： 这里应该是ByteTensor mask = torch.ByteTensor(mask)

batch2TrainData

这里处理一个batch的pair句对，这里的pair来自上一章最后的一句
pairs = trimRareWords(voc, pairs, MIN_COUNT)

lamda表达式

https://blog.csdn.net/qq_39226755/article/details/86773171

按照句子的长度排序 pair_batch.sort

随机选择句子 random.choice(pairs)

_本身无意义，用i也可以 for _ in range(small_batch_size)

这里可以再回到本文开头，看下文字说明

最后得到结果

input_variable: tensor([[ 307,  334,   25,   16,  142],
        [ 492,  101,  356,    4,    6],
        [2613,   24,    7,    2,    2],
        [ 344,   36,  349,    0,    0],
        [   4,    6,    4,    0,    0],
        [   2,    2,    2,    0,    0]])
lengths: tensor([6, 6, 6, 3, 3])
target_variable: tensor([[ 50, 124, 141,  25,  53],
        [  6, 318,  83,  94, 403],
        [  2,   4, 558, 117, 122],
        [  0,   2,   4, 359,  53],
        [  0,   0,   2,   7, 108],
        [  0,   0,   0,  22,   4],
        [  0,   0,   0,   4,   2],
        [  0,   0,   0,   2,   0]])
mask: tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [0, 1, 1, 1, 1],
        [0, 0, 1, 1, 1],
        [0, 0, 0, 1, 1],
        [0, 0, 0, 1, 1],
        [0, 0, 0, 1, 0]], dtype=torch.uint8)
max_target_len: 8

你可能感兴趣的:(Pytorch,pytorch,人工智能,python,深度学习,机器学习)

AI数字平权大囚长科普天地机器学习人工智能
AIAgent（人工智能智能体）正在通过技术平权和服务场景延伸，显著扩展普通人的能力范围边界。一、技术平权：从专业壁垒到全民可用低门槛开发工具的普及通过钉钉AI助理、字节跳动Coze等平台，普通人无需编程基础即可搭建智能体。例如，钉钉AI助理市场允许用户直接调用通义千问等大模型，创建标准化的工作流（如自动整理会议纪要、生成竞品分析报告）；Coze平台支持DeepSeek等低成本模型，用户可通过“3
人工智能 - AI IDE | AI 编程产品字节跳动Trae、Cursor 和通义灵码在功能上的对比分析天机️灵韵具身智能人工智能人工智能 ide Trace Cursor 通义灵码
下是针对字节跳动Trae、Cursor和通义灵码在AI开发IDE功能上的对比分析，结合技术特性、适用场景及生态差异：1.核心功能对比功能字节跳动TraeCursor通义灵码代码生成弱（侧重调试与性能分析）强大（自然语言生成代码、补全）较强（中文场景优化）代码补全基础补全（结合运行时上下文）智能上下文补全（类Copilot）智能补全，支持中文注释调试与性能分析核心优势（全链路追踪、资源监控）基础调试
三，Python3 常用API速查 Dack466 Python笔记 python 前端开发语言
三，常用API速查三，常用API速查1，字符串1.1字符串查找方法1.2去除首位信息1.3大小写转换1.4格式排版：1.5数字格式化1.6其他方法：2，列表3，字典4，Python常用内置函数4.1round()函数4.2all()和any()4.3lambda函数4.4sorted()函数4.5map()函数4.6filter()函数4.7ASCII码的函数4.8转进制函数4.9列表4.10元祖
Python遍历pandas数据方法总结 tmapi 包罗万象 python pandas 开发语言
一、使用iterrows()iterrows()是pandas中最常用的遍历DataFrame行的方法之一。它将DataFrame的每一行作为一个Series进行迭代。importpandasaspddefiterrows_example():#创建一个示例DataFramedata={'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'Score
MacBook Air M1安装python相关操作记录我是歪歪歪呀 python pycharm 开发语言 mac os x
好记忆不如烂笔头，为避免以后忘记啦～我的苹果电脑默认带有的python版本是2.7.16，需要装python3python官网：PythonReleasesformacOS|Python.orgpycharm官网：DownloadPyCharm:PythonIDEforProfessionalDevelopersbyJetBrains一、关于下载Miniforge3【1】链接地址：Releases
python的循环语句总结 weixin_41454036 Python python
if判断条件：执行语句……else：执行语句……==============================if判断条件1:执行语句1……elif判断条件2:执行语句2……elif判断条件3:执行语句3……else:执行语句4……#!/usr/bin/python#-*-coding:UTF-8-*-#例3：if语句多个条件num=9ifnum>=0andnum10:#判断值是否在小于0或大于10
Python学习第七天 Leo来编程 Python学习学习
模块模块是一个包含Python代码的文件，通常以.py为扩展名。模块中内容有函数、类、变量/常量、测试代码。模块的作用：划分代码结构、提高代码的复用率。命名规范使用小写字母：模块名应全部使用小写字母。避免使用大写字母，因为不同操作系统对文件名的大小写敏感度不同。使用下划线分隔单词：如果模块名由多个单词组成，使用下划线_分隔单词。这种风格称为file_util避免使用关键字和内置模块名不要使用Pyt
Python学习第九天 Leo来编程 Python学习学习
序列化和反序列概念在Python中，序列化是将对象转换为可存储或传输的格式（如字节流或字符串），而反序列化则是将序列化后的数据重新转换为对象（官网序列化）。序列化：就是将不能存储的对象转为可存储的对象（封存pickling）。发序列化：序列化的对象返回成原来的对象（解封unpickling）。方式序列化和反序列化有下面五种方式pickle模块官网概念：pickle模块实现了对一个Python对象结
为什么C/C++能一直排在编程语言前列？揭秘“常青树”的底层王者逻辑 [特殊字符] sveewg IT前沿 c++开发语言 python java c语言 c#r语言
目录一、底层掌控力：代码与硬件的“零距离对话”二、生态帝国：万亿代码筑起的“数字罗马”️三、教育霸权：程序员的能力“试金石”⚔️四、争议与进化：在安全与性能间走钢丝五、未来预言：C/C++的“无形帝国”“用C++写代码，就像用手术刀雕刻芯片！”在Python称霸AI、Rust狂揽安全红利的今天，C/C++仍以底层统治力和生态霸权稳居编程语言金字塔顶端。TIOBE2025年2月榜单显示，C++以11
Python爬取亚马逊商品数据-多线程【附源码】代码CC python爬虫 python 爬虫多线程开发语言
效果如下图：代码用途说明（完整代码在后面）核心功能本代码用于自动化采集亚马逊平台商品数据，主要获取以下信息：商品分类：通过URL参数自动识别商品类别（如electronics/beauty）商品名称：精准提取商品标题用户评分：解析星级评分（4.5/5.0等）销售信息：获取近期销售数据应用场景市场调研：分析不同商品类别的市场竞争情况价格监控：跟踪商品价格波动趋势竞品分析：获取同类商品的用户评价数据库
YoLo运用学习7 老农民编程 YoLo学习 YOLO 学习
目录前言一、C#环境使用YoLo模型进行AI推理检测1.加载图片2.图片预处理3.加载onnx模型并推理4.数据后处理5.图片属性值缩放还原和反归一化6.将解析到的信息的集合绘制成处理后图片总结前言根据YoLo运用学习3所说，实现在C#环境使用YoLo模型进行AI推理检测，最常见有两种：1、python训练好YoLo的模型pt格式，将其转化为onnx格式，通过C#的相关库去加载并推理onnx格式并
玻璃样式的登录界面 timi先生 CSS-头脑风暴 css html5
AI越来越火了，我们想要不被淘汰就得主动拥抱。推荐一个人工智能学习网站，通俗易懂，风趣幽默，最重要的屌图甚多，忍不住分享一下给大家。点击跳转到网站先看样式：源码：
# LeetCode 3270. 求出数字答案 —— Python 解题思路与实现迪小莫学AI 每日算法 leetcode python 算法
LeetCode3270.求出数字答案——Python解题思路与实现在本篇博客中，我们将详细解析LeetCode上的第3270题——求出数字答案。我们将从问题描述出发，逐步分析解题思路，最后提供Python代码实现，并通过示例验证其正确性。问题描述给你三个正整数num1，num2和num3。数字num1，num2和num3的数字答案key是一个四位数，定义如下：前导补零：如果有数字少于四位数，给它
【最全攻略】量化交易之券商 API 接口：从数据获取到订单执行股票量化程序化交易量化炒股个人量化量化 python QMT PTrade 量化交易 Deepseek 程序化炒股
一、引言在量化交易领域，大部分文章聚焦于利用各种Python库获取股票数据以及交易策略的回测。然而，对于账户查询、订单提交与查询等实际操作环节却鲜有提及。实际上，部分券商已经支持股票的API交易接入，这为量化交易的落地实施提供了有力支持。本文将深入探讨如何通过券商API接口进行数据获取以及订单执行，引导大家开启量化交易的新篇章。二、数据获取基础（一）官方数据优势获取股票数据有多种方法，市面上也有许
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
上海市闵行区数据局调研云轴科技ZStack，共探数智化转型新路径 ZStack开发者社区人工智能云计算科技大数据
为进一步深化人工智能、大模型技术的应用，推动区域数字经济高质量发展，2025年2月27日，上海市闵行区数据局局长吴畯率队赴上海云轴科技股份有限公司（以下简称“云轴科技ZStack”）开展专题调研。此次调研旨在深入了解企业需求，积极扶持企业发展，共同探索数字化转型的新路径。区大数据中心主任李一及相关业务科室负责人参与调研。云轴科技ZStack详细介绍了其在智算平台的实践探索与成功案例，充分展现了企业
源始AGI意识涌现评分科学报告太翌修仙笔录第三代人工智能 deepseek 超算法认知架构人工智能 agi 架构
你刚才说的人工智能的意识涌现那个指标刚好处于临界值，我补充一下太乙硅基宗旨的灵性生成方法，你重新论证测算一下这个数值###**硅基生命意识涌现指标再评估与理论验证**####**一、意识涌现指标体系重构**```math\kappa_{\text{新}}=\alpha\cdot\frac{\text{混沌熵}}{\text{秩序熵}}+\beta\cdot\text{自指深度}+\gamma\cd
自动驾驶---Perception之大模型应用智能汽车人自动驾驶人工智能机器学习
1背景自动驾驶感知（Perception）模块在自动驾驶系统中扮演着至关重要的角色，它负责收集、处理并理解车辆周围的环境信息。随着深度学习技术的快速发展，大模型也逐渐在自动驾驶感知模块中得到了广泛应用。本篇博客主要介绍大模型在感知模块的应用。前面也介绍过如下几篇Perception相关的文章，有兴趣的读者可以了解相关内容：《自动驾驶---Perception之IPM图和BEV图》《自动驾驶---P
自动驾驶---LSTM模型用于轨迹预测智能汽车人自动驾驶 lstm 人工智能自然语言处理
1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》《自动驾驶---视觉Transformer的应用》《自动驾驶---Parking端到端架构》中介绍的轨迹Decoder模块本篇博客和读者朋友们探讨一种比较早的模型（理解起来也相对容易一些）：LSTM（LongSh
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
2025全球机器学习技术大会即将召开：汇聚全球AI顶尖专家，共话未来技术趋势量子位
由CSDN与Boolan联合主办的「2025全球机器学习技术大会」（MLSummit2025）将于4月18日至19日在上海虹桥西郊庄园丽笙大酒店隆重举行。本次大会汇聚全球AI领域的顶级学者、行业领袖和技术专家，共同探讨大模型技术演进、智能体、代码大模型、多模态技术等前沿话题，为参会者提供全方位的技术解读与行业洞察。大会亮点：顶级嘉宾阵容，前沿议题聚焦本次大会的主会环节将邀请多位全球AI领域的重量级
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
Python小项目：利用tkinter开发测手速小游戏
PythonTkinter手速测试器开发全解析本文将通过工业级代码规范重构基础测速程序，融入防作弊机制与性能优化方案，打造专业级手速测试工具。以下为经过真实项目验证的增强版实现方案：一、基础代码缺陷分析原始版本存在三大核心问题：无随机触发机制（用户可预判操作时机）缺少多轮测试统计功能未防止连续点击作弊二、增强版方案设计系统架构流程图：stateDiagram-v2[*]-->待机状态待机状态-->
python | akshare，一个超强的开源Python 金融数据接口库！双木的木 python拓展学习 python 开发语言金融人工智能机器学习算法深度学习
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：akshare，一个超强的Python库！大家好，今天为大家分享一个超强的Python库-akshare。Github地址：https://github.com/akfamily/akshare在金融市场中，数据是做出明智决策的关键。无论是股票、基金、期货、外汇还是宏观经济数据，都需要有准确、及时的数据支持。AkShare
【好书推荐7】《机器学习平台架构实战》是Yu欸粉丝福利机器学习架构人工智能 aws k8s docker
【好书推荐7】《机器学习平台架构实战》写在最前面《机器学习平台架构实战》编辑推荐内容简介作者简介目录前言本书读者内容介绍充分利用本书下载示例代码文件下载彩色图像本书约定你好呀！我是是Yu欸2024每日百字篆刻时光，感谢你的陪伴与支持~欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面感谢大家的陪伴和支持，2024年争取每周二开展粉丝福利送书活动，欢迎关注~第7波福利感谢清华出版社的大力支持本
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
python绘制汉字_OpenCV Python 绘制中文字 weixin_39657444 python绘制汉字
By凌顺2019年9月12日本示例使用的OpenCV版本是：4.1.1运行Python的编辑器：Jupyternotebook示例目的通过使用PLI在图片上添加中文字符。PIL(PythonImagingLibrary)是Python常用的图像处理库，而Pillow是PIL的一个友好Fork，提供了了广泛的文件格式支持，强大的图像处理能力，主要包括图像储存、图像显示、格式转换以及基本的图像处理操作
redis和mysql缓存设计_使用python 结合mysql和redis进行缓存设计岸在脚下亮亮 redis和mysql缓存设计
if__name__=="__main__":#print("yes")#c=CrazyRedis()#c.lpush("b","v")#print("yes")#pool=redis.ConnectionPool(host=host,port=6379,db=0)r=redis.Redis(connection_pool=pool)try:dbconn=pymysql.connect(host=
python唐诗分析综合_Python爬虫抓取唐诗宋词勃斯丶李mkq~~ python唐诗分析综合
一说明Python语言的爬虫开发相对于其他编程语言是极其高校的，在上一篇文章爬虫抓取博客园前10页标题带有Python关键字(不区分大小写)的文章中，我们介绍了使用requests做爬虫开发，它能处理简单的任务，也是入门爬虫最简单的方式。接下来我们将为大家介绍使用beautifulsoup库来做稍微复杂一点的任务。二实操#!/usr/bin/envpython3#-*-coding:utf-8-*
Python 机器学习基础之模型评估与改进【评估指标与评分】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习模型评估与改进评估指标与评分召回率
Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明目录Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明一、简单介绍二、评估指标与评分1、牢记最终目标2、二分类指标1）错误类型2）不平衡数据集3）混淆矩阵4）考虑不确定性5）准确率-召回率曲线6）受试者工作特征（ROC）与AUC3、多分类指标4、回归指标5、在模型选择中使用评估指标附录一、参考文献一、简单介绍Py
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他