guoxinxin0605

2021李宏毅机器学习笔记--14 conditional generation by RNN & attention

2021李宏毅机器学习笔记--14 Conditional Generation by RNN & Attention

摘要
一、Generation
- 1.1 Generation
- 1.2 Conditional Generation
二、Attention
- 2.1 Attention
- 2.2 Dynamic Conditional Generation
- 2.3 Machine Translation
- 2.4 Speech Recognition
- 2.5 Image Caption Generation（图片字幕生成）
- 2.6 Memory Network(在Memory上做attention)
- 2.7 Neural Turing Machine(神经图灵机)
三、Tips for Generation
- 3.1 Attention的正则化
- 3.2 Mismatch between Train and Test
- - 3.2.1 question
  - 3.2.2 solution(解决办法)
  - - 3.2.2.1 Modifying Training Process
    - 3.2.2.2 Scheduled Sampling
    - 3.2.2.3 Beam Search(光束搜索)
    - 3.2.2.4 Better idea?(输入的再讨论)
- 3.3 Object level v.s.Component level
总结

摘要

本文主要介绍了生成，我们可以生成句子，生成语音或者生成图片，并且也可以让机器学会联系上下文避免陷入重复循环错误等。在生成的时候也会有的曝光偏差问题，当前面开始出现错误的结果时，下一步被当作输入，到最后会导致误差累积，本文也介绍了解决几种办法。

一、Generation

1.1 Generation

我们可以生成很多东西，比如生成一句话，一段音乐等等，拿生成句子为例，在我们生成好的RNNmodel里，我们输入开头，模型可以输出一系列的输出，如下图，我们根据输出得到了床，然后把床作为下一个时间点的输入，得到前，依次类推。当然，这是测试时的一种做法，并不是唯一做法。而在训练RNN模型的时候，并不是拿上一时刻的输出当作下一时刻的输入，而是拿真正的句子序列当作输入的。
如果想生成一张图片，我们可以把图片的每个pixel看成一个character，从而组成一个sentence，比如下图中蓝色pixel就表示blue，红色的pixel表示red,…

接下来就可以用language model来生成图片，最初时间步的输入是特殊字符BOS

对于一般的generation，如下图所示，先根据蓝色pixel生成红色pixel，再根据红色pixel生成黄色pixel，再根据黄色pixel生成灰色pixel，…，并没有考虑pixel之间的位置关系
还有另外一个比较理想的生成图像方法，如果考虑了pixel之间的位置关系，如下图所示，黑色pixel由附近的红色和灰色pixel生成

那么怎么建立模型呢？用到之前了解过的LSTM
看下图的左上角，该lstm块输入了三组参数，也输出了三组参数，把这些方块叠起来就可以达到右部位置图像的效果

1.2 Conditional Generation

有时候，我们不想仅仅是随机生成一些句子，我们希望根据一些情景来生成我们的句子，比如对话系统，根据问题来生成我们的答案，再比如翻译系统，我们要根据给出的句子得到对应的翻译
如果要对一张图片进行解释，我们先使用一个CNN model将image转化为一个vector（红色方框），先生成了第一个单词"A"，在生成第二个单词时，还需要将整个image的vector作为输入，不然RNN可能会忘记image的一些信息
RNN也可以用来做机器翻译，比如我们想要翻译“机器学习”，就先把这四个字分别输入绿色的RNN里面，最后一个时间节点的输出（红色方框）就包含了整个sentence的information，这个过程称之为Encoder
把encoder的information再作为另外一个rnn的input，再进行output，这个过程称之为Decoder

encoder和decoder是jointly train（联合训练）的，这两者的参数可以是一样的，也可以是不一样的
在做Chat-bot的场景要更加复杂一点，正常的对话是
人：hi
机器：hi

但是有可能有其他的情况
机器：hello
人：hi
机器：hi
这种情况就说明是异常的！！！

所以需要把前面说过的话要记住，然后考虑到当前的输出。一种方式是使用双层encoder把前面的话的向量表示加入当当前上文表示中，综合考虑

二、Attention

2.1 Attention

注意力这东西其实挺有意思，但是很容易被人忽略。让我们来直观地体会一下什么是人脑中的注意力模型。首先，请您睁开眼并确认自己处于意识清醒状态；第二步，请找到本文最近出现的一个“Attention Model”字眼（就是“字眼”前面的两个英文单词，…@@）并盯住看三秒钟。好，假设此刻时间停止，在这三秒钟你眼中和脑中看到的是什么？对了，就是“Attention Model”这两个词，但是你应该意识到，其实你眼中是有除了这两个单词外的整个一副画面的，但是在你盯着看的这三秒钟，时间静止，万物无息，仿佛这个世界只有我和你……对不起，串景了，仿佛这个世界只有“Attention Model”这两个单词。这是什么？这就是人脑的注意力模型，就是说你看到了整幅画面，但在特定的时刻t，你的意识和注意力的焦点是集中在画面中的某一个部分上，其它部分虽然还在你的眼中，但是你分配给它们的注意力资源是很少的。其实，只要你睁着眼，注意力模型就无时不刻在你身上发挥作用，比如你过马路，其实你的注意力会被更多地分配给红绿灯和来往的车辆上，虽然此时你看到了整个世界；比如你很精心地偶遇到了你心仪的异性，此刻你的注意力会更多的分配在此时神光四射的异性身上，虽然此刻你看到了整个世界，但是它们对你来说跟不存在是一样的……

这就是人脑的注意力模型，说到底是一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

其实吧，深度学习里面的注意力模型工作机制啊，它跟你看见心动异性时荷尔蒙驱动的注意力分配机制是一样一样的。

2.2 Dynamic Conditional Generation

如果需要翻译的文字非常复杂，无法用一个vector来表示，就算可以表示也没办法表示全部的关键信息，这时候如果decoder每次input的都还是同一个vector，就不会得到很好的结果。

在输出machine这个单词的时候，没有必要去考虑输入中的【学习】这个部分，只用考虑【机器】这个部分就好，要把注意力关注到不同的部分。翻译的时候关注的输入不一样（之前的模型都是把整句话的向量丢过去）。因此我们现在先把“机器”作为decoder的第一个输入，这样就可以得到更好的结果

2.3 Machine Translation

绿色方块为RNN中hidden layer的output；还有一个vector，是可以通过network学出来的；把这两者输入一个match函数，可以得到match分数，这个match函数可以自己设计，可以有参数，也可以没有参数。
得出的结果再输入softmax函数，并且计算c0，c0和起始向量表示得到第一个output
然后根据z1再算注意力和output
一直重复这个过程，只到全部翻译完成

2.4 Speech Recognition

语音信号也可以看成一系列的vector sequence，第一个红色方框所在的帧match分数很高，就把对应的vector放到decoder，machine就会得出“h”
结果虽然没有比传统方法好，但是这个方法还是很牛，应该是因为端到端的训练，而且结果也没有太烂

2.5 Image Caption Generation（图片字幕生成）

image可以分成多个region，每个region可以用一个vector来表示，计算这些vector和z0之间match的分数，为0.7、0.1…，再进行weighted sum，得到红色方框的结果，再输入RNN，得到Word1，此时hidden layer的输出为z^1
再计算z1和vector之间的match分数，把分数作为RNN的input，从而得出Word 2
attention可视化：
视频文字生成：

2.6 Memory Network(在Memory上做attention)

在Memory上做attention，最早是用在阅读理解上，给机器看一篇文章Document，然后让它回答Answer与文章相关的问题Query。
Document可以分为N个句子，每个句子可以表示为一个向量： x1，x2……xn
Query也可以表示为一个向量q
然后用q和Document中的每个句子算match score（相似度）得到 α 1 , α 2 , α 3 , . . . , α N
然后用match score和句向量做加权和。
这一系列操作就是算注意力的标准操作，意思就是我们计算了与Query有关的句子。
然后把Query和注意力的结果丢到DNN里面，得到Answer
Sentence to vector can be jointly trained.
这个模型还有一个更加复杂的版本
就是计算相似度和抽取句向量两部分分开，相当于把句子用不同的参数变成两组不同的向量h和x

注意上面还有一个Hopping，相当于机器算出来注意力之后，再返回去算Match score，相当于不断的思考的过程。
把这过程展开，实际上相当于两层注意力计算的叠加。当然下面的图中上下共四组句向量表示可以是都不一样的。

2.7 Neural Turing Machine(神经图灵机)

除了在memory中进行读之外，还可以在memory中写。
Neural Turing Machine not only read from memory Also modify the memory through attention.
从上图可以看出，神经图灵机包含两个基本组成部分：神经网络控制器和记忆库。

控制器：这是一个基础的前馈神经网络或者递归神经网络，其主要负责从记忆库中读取信息或者在记忆库中写入信息。

记忆库：记忆库通常以记忆矩阵或者记忆池的形式进行展现。我们将在记忆库中存储信息。一般情况下，记忆库是通过两个维度的矩阵所构成，矩阵中的每一个元素是一个记忆细胞。整个记忆矩阵包括N行M列。通过使用控制器，我们可以从记忆库中获取信息，因此，控制器可以从额外的环境中接受内容，并且能够通过与记忆矩阵的交互来做出反应

读头和写头：读头和写头是包含记忆库地址的两个指针，记忆库地址指的是需要读取的地址和需要写入的地址

最简单的策略是通过记录记忆矩阵中行和列的地址来位置index，进而通过索引来访问和写入到记忆矩阵。当时这样存在一个问题，由于我们不能通过一个索引来执行梯度下降算法，所以我们利用这种方式就无法利用梯度下降算法来更新参数。所以NTM的作者就定义了基于读头和写头的模糊操作。这种模糊操作和记忆库中的部分信息进行交互。该操作的核心在于利用Attention机制来重点关注于记忆库的局部那些对于读写重要的信息，而忽略记忆库中的其他位置。因此，我们可以使用一个特殊的读和写操作来决定那些区域需要进行关注。

上面的过程是现有一个初始的attention（蓝色），计算的结果是 r 0 然后把 r 0丢到一个DNN（controller）里面，然后得到一组新的用于调整attention的参数，然后用softmax算出新attention权重（绿色）。上面是最简单的原理图，实际上要比这个复杂（不展开）

实际上，k与memory产生四个新值其实有5个步骤。如下

继续看原理图，在图中我们算出了 e 1和 a 1， e 1的作用是把memory的值清空， a 1的作用是把新的值写入memory，具体公式如下图所示。这个公式专注于修改分布中比较尖的部分，例如下图中 α 1 2 ^ hat比较尖，那么公式倾向于把 α12 ^ hat对应的值清 m 0 2 空，加入新的值。可以想象，如果m的维度是1（尖尖肯定是你），那么每次都是清空，换新的值。
以上步骤可以不断循环，f（黑方块）如果是RNN的话，还会单独参数当前的一个输出h，用于下一个attention的调整：

三、Tips for Generation

3.1 Attention的正则化

attention是可以调节的，有时会出现一些bad attention，在产生第二个word（women）时，focus到第二个component，在产生第四个word时，也focus到第二个component上，也是women，多次attent在同一个frame上，就会产生一些很奇怪的结果。

i表示每一个部分（component），t表示每一个迭代。

3.2 Mismatch between Train and Test

3.2.1 question

在训练阶段，我们在生成第一个A的时候考虑的是开始标签和条件（粉色块），输出第二个B的时候，考虑的是之前的标签A和条件，输出第三个B的时候，考虑的是之前的标签B和条件，整个模型要使得所有生成结果与标签之间的交叉熵的差异越小越好

在生成阶段，我们不知道具体的标签，所以我们只能把RNN生成的结果接过来。在生成结果的时候应该是生成一个分布，然后从这个分布里面进行sample得到生成结果。
发现两个阶段的不同就是参考不一样，一个是看的参考答案，一个是凭感觉。

这个现象叫：Exposure Bias（曝光偏差）。这两个setting不一致会导致误差累积(error accumulate)。误差累积是因为，你在测试的时候，如果前面单元的输出已经是错的，那么你把这个错的输出作为下一单元的输入，那么理所当然就是“一错再错”，造成错误的累积。

正常的应该这样

训练出错是这样：
生成的时候出错直接一步错，步步错

3.2.2 solution(解决办法)

3.2.2.1 Modifying Training Process

那么我们如何解决这种mismatch问题呢？可以尝试modify训练process

如果machine现在output B，即使是错误的output（和reference A不一样），我们也应该让这个错误的output作为下一次的input，那么training和testing就是match的;

但在实际操作中，training是非常麻烦的；现在我们使用gradient descent来进行training，第一个gradient的方向告诉我们要把A的几率增大，output B，在第二个时间点，input为B，看到reference为B，把B的几率增大，就可以和reference相对应起来；

但实际上，第一个output为A的几率上升，那么output发生了变化，第二个时间点的input就发生了变化，是A；那么我们之前学习到的让B上升就没有意义了

3.2.2.2 Scheduled Sampling

由于使用Modifying Training Process很难train，现在我们就使用Scheduled Sampling

对于到底是model里的ouput，还是reference来作为input，我们可以给一个几率；铜板是正面，就使用model的output，如果是反面，就用reference

右上角的图，纵轴表示from reference的几率，一开始只看reference，reference的几率不断变小，model的几率不断增加
如果使用Scheduled Sampling，效果好很多。

3.2.2.3 Beam Search(光束搜索)

The green path has higher score. Not possible to check all the paths
绿色路径得分较高。无法检查所有路径
Beam Search就类似动态规划算法，找出最优路径。
Keep several best path at each step.
假设：Beam size=2
选两条最大值

3.2.2.4 Better idea?(输入的再讨论)

上面讨论的是用模型训练的结果或者标签作为下一个预测的输入。能不能直接用得到的分布作为输入？不好，老师给出的理解：
U : 你得如何？
M：高舆想笑or难过想哭

有以上对话，那么机器的回答其实没有标准答案，两个都是对的，只要不是高舆想哭or难过想笑就可以。
当我们用确定的某个结果作为下一个预测的输入：

机器无论把高舆或难过的几率作为下一个输出的预测的输入是一样的。但是高兴对应想笑的几率比较高，难过对应想哭的几率比较高。
如果把分布作为预测的输入，那么机器学到的东西就是无论是输入高兴还是难过，输出想哭和想笑的几率是一样的。这样就会乱掉了。

3.3 Object level v.s.Component level

要考虑生成对象的整体效果，而不是注重细节。
例如：
下图中的标签是：The dog is running fast.
然后用的累加的交叉熵来衡量损失。

从函数损失曲线看，刚开始错误了5个单词，所以交叉熵比较大，当生成的结果是：

The dog is is fast，会发现损失值和正确标签的损失值差不多了，但是实际上这句话根本就不符合语法。如果用这个模型去做看图说话，就会有一大堆的语法错误（这里是叠字）。

意思是loss很好，但是表现很差。

因此我们要：Optimize object-level criterion instead of component-level cross-entropy.

用整体的效果来衡量损失。object-level criterion: R(y,y^)

y: generated utterance, y^: ground truth

但是这个玩意是否能求偏导做GD？不可以。

但是可以转换思路，用强化学习的思路来解决这个问题，把生成的句子和最后的标签做比较，生成reward，然后目标是最大这个reward。

把 generation 这件事，当成 reinforcement learning 来做。

在结束后，通过R函数判断奖励值。

如上，MIXER是使用了强化学习与传统方法相结合的方法。

总结

本文主要介绍了生成以及注意力机制，针对摘要中提出的问题，文中也给了四种解决办法，可以修改培训流程，也可以预定采样，也可以重新讨论输入来解决问题。

MATLAB 实现 SRCNN 图像超分辨率重建 leo__520 matlab 超分辨率重建开发语言
SRCNN代码实现。该代码使用三层卷积神经网络，进行图像的超分辨率重建，效果比双三次插值好很多SRCNN/Readme.txt,1494SRCNN/SRCNN.m,1267SRCNN/Set14/baboon.bmp,720054SRCNN/Set14/barbara.bmp,1244214SRCNN/Set14/bridge.bmp,263222SRCNN/Set14/coastguard.bm
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
LSTM 论文（Hochreiter & Schmidhuber, 1997）精读（三）
文章：SeppHochreiter,JürgenSchmidhuber;LongShort-TermMemory.NeuralComput1997;9(8):1735–1780.doi:https://doi.org/10.1162/neco.1997.9.8.1735第2节PreviousWork（已有研究），这是论文对以往方法的一个评述，总结了已有递归神经网络在面对时间序列学习、尤其是长时依赖
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用
原文链接：https://tecdat.cn/?p=42891原文出处：拓端数据部落公众号分析师：ZiqiYe视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用作为数据科学领域的从业者，我们常面临这样的挑战：如何让机器真正“看懂”图像中的信息？在为客户完成服装零售行业的图像识别时，这一问题尤为突出。追溯图像识别技术的发展，早期依赖人工设计特征，如边缘检测、纹理分析等，效率低下且适
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
Python实现基于POA-CNN-LSTM-Attention鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行多变量回归预测的详细项目实例 nantangyuxi Python 算法神经网络 python 人工智能深度学习目标检测机器学习
目录Python实她基她POA-CNN-LSTM-Attentikon鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行她变量回归预测她详细项目实例...1项目背景介绍...1项目目标她意义...1提升她变量回归预测精度...2优化模型训练效率...2python复制ikmpoxtos#操作系统接口，用她环境管理和文件操作ikmpoxtqaxnikngs#警告管理模块，控制运行时警
一文读懂 Sigmoid 与 Hard Sigmoid 激活函数：从原理到量化部署算法自动驾驶
在神经网络训练与部署中，激活函数扮演着关键角色，不仅影响模型训练过程，也直接决定了模型部署到实际设备后的性能表现。本文将介绍两种常用激活函数：Sigmoid和HardSigmoid，全面对比它们的原理、优缺点、应用场景，并提供实际代码示例，帮助你更好地理解与使用它们，尤其是在量化和嵌入式设备部署场景中。一、Sigmoid与HardSigmoid简介1.1Sigmoid激活函数介绍Sigmoid激活
Python打卡DAY36
DAY36：复习日恩师@浙大疏锦行在PyTorch中，nn.Model是所有神经网络模块的基类，为构建和训练神经网络提供了丰富的方法，如下：1.模型构建与参数管理__init__方法功能：用于初始化神经网络模块的参数和子模块。在自定义网络时，通常会重写此方法来定义网络的结构。细节解释：在__init__方法中，可以定义各种层，如卷积层、全连接层等。这些层会被自动注册为子模块，方便后续管理。impo
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
【PyTorch】PyTorch中torch.nn模块的卷积层
PyTorch深度学习总结第七章PyTorch中torch.nn模块的卷积层文章目录PyTorch深度学习总结前言一、torch.nn模块1.模块的基本组成部分1.1层（Layers）1.2损失函数（LossFunctions）1.3激活函数（ActivationFunctions）2.自定义神经网络模型3.模块的优势二、torch.nn模块的卷积层1.卷积的定义2.常见的卷积层3.卷积层的重要参
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
PyTorch深度学习优化实战：从理论到实践的现代化技能指南智算菩萨深度学习 pytorch 人工智能
引言：现代PyTorch开发的核心思维在深度学习技术日新月异的今天，掌握PyTorch不仅仅意味着能够搭建和训练神经网络，更重要的是理解如何高效地利用现代硬件资源、优化模型性能并构建可扩展的AI系统。随着PyTorch2.x系列的成熟，特别是最新2.7版本的发布，框架为开发者提供了前所未有的优化工具和性能潜力。本文将深入探讨现代PyTorch开发中的核心优化技能，从编译器优化到注意力机制革新，从内
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默