FavoriteStar

【机器学习】李宏毅——生成式对抗网络GAN

1、基本概念介绍

1.1、What is Generator

在之前我们的网络架构中，都是对于输入x得到输出y，只要输入x是一样的，那么得到的输出y就是一样的。

但是Generator不一样，它最大的特点在于多了另外一个具有随机性的输入，如下图：

其中输入除了x之外，还有一个z，而z是从一个已知的分布之中进行采样得到的，例如高斯分布等等。那么由于z具有一定的随机性，那么由x与z获得的输出y也就不再只是一个确定的值，而是一个复杂的分布。

1.2、Why distribution

为什么需要将输出y变成一个分布呢？来看下面这个例子：

假设我们现在正在做一个画面预测的任务，根据以前的画面数据预测接下来里面的小精灵会往哪里走动。但是以往的数据中可能会存在冲突的数据，即例如同一只小精灵在相同的转角处它选择了不同的选择，某次向左某次向右，这就相当于告诉机器它做出向左向右的预测都是对的，但是它为了拟合这两份数据它就可能在预测的时候直接将一只小精灵进行复制，一只向左一只向右来同时满足最小化误差的学习。但这在我们看来是不合理的。因此我们可以给网络增加一个输入z，由某个分布中取样得到的z来使得y也是一个分布，那么y就根据采样得到的z来决定我这一次是向左转还是向右转。

那么实际上在一些需要一定的创造力的任务中就需要输出是一个分布，即某一些任务并不是只有唯一的答案，它面对相同的输入可以有很多个正确的答案，那么这个时候我们就希望y可以是一个分布，如下图：

1.3、Generative Adversarial Network(GAN)

先介绍一下Contional Generation和Uncontional(无条件、无限制) Generation这两者的差别，前者就是之前讲的网络的输入有x和z，而后者就是网络的输入单纯只有z而已。下面我们将以Uncontional Generation用来生成动漫人脸的例子来进行介绍。

需要注意的是一般来说z都是一个较为低纬度的向量，而输出的y如果是一张图片那么将是一个高维的向量，这中间的转换就是由Generator来实现

而在训练这个生成器之前呢，我们还需要训练一个discriminator，也是一个网络架构，其功能就是输入一张图片，然后输出结果表示这张图片是动漫人脸的可能性有多大，例如：

其内部具体的结构取决于你自己的设计，例如是CNN或者Transformer等都可以。

1.4、Basic Idea of GAN

在最开始GAN的训练方式是：

有一个Generator和一个Discriminator，那么一开始生成器的参数基本都是随机化的，那么它所产生的图像也很难接近真实的动漫人脸，而辨别器的主要任务就是找出生成器生成的图片与真实的动漫图片之间的不同，例如在下面的图片中它第一次辨认的依据是眼睛
那么第二轮呢生成器就学习到应该要产生出眼睛来骗过辨别器，那么其参数调整后就生成出有眼睛的动漫人脸，那么辨别器就需要找出更多的特别来进行辨认，例如嘴巴、头发
第三轮呢生成器就再次调整，生成出嘴巴、头发等，那么这时候辨别器就需要再次调整寻找新的特征
因此生成器和辨别器就是在这个对抗的过程中不断进步

1.5、训练的方法

生成器和辨别器具体的训练步骤如下所示：

Step1：随机初始化生成器和辨别器的参数，并固定住生成器的参数，让生成器接受向量并产生一些图像的输出；另外在真实动漫人脸数据库中采样一些样本出来标识为1，而生成器生成的假图标识为0，然后用这些样本去训练辨别器，让它输出一个0到1之间的数值，1代表越接近于真实的图片。如下所示：

Step2：固定住辨别器的参数，让生成器生成一张图片并传给辨别器得到一个输出，代表该图片为真实图片的可能性，然后调整生成器的参数使辨别器的输出越高越好，那么这里调整的方法跟普通的神经网络类似，可以把生成器和辨别器连在一起看成一个大的网络，是接受一个向量的输入然后输出一个数值，那么就同样可以采用梯度下降等的方式来调整生成器的参数。这个步骤也可以看成是生成器在学习如何欺骗辨别器。

Step3：不断重复Step1和Step2的训练，直到生成器输出的图片能够满足要求

更有趣的应用，如果我们用来训练产生真实人脸，可以实现两张人脸之间的过度，具体我们可以看下图，就是在两张人脸对应的向量之间做插值，我相信这个效果也有很多小伙伴在网络上看过，我也是此刻才明白具体的原理，也就是用各式各样的GAN来实现。

2、GAN的理论

2.1、基础理论介绍

在GAN中，我们可以把我们的目标进行简化，就比如下图，我们希望能够找到一组G的参数，它能够对分布z的输入产生对应的分布 $P_G$ ，而假设我们真实的分布为 $P_{data}$ ，我们希望它们能够越接近越好，即：

其中Div可以用来衡量两个分布之间的距离，例如KL散度等等。但是目前的问题是这个Div很可能写出来是一个非常复杂的积分等等，因为我们根本不知道两个分布是什么，我们根据就不知道怎么表示出来或者说怎么进行最小化，因此这也是GAN在训练的时候会遇到的常见问题。而GAN告诉我们的解决方案就是：不需要知道两个分布的具体函数，只需要有办法能够从分布中进行采样即可，即 $P_G$ 和 $P_{data}$ 只需要知道怎么采样即可，如下图：

具体的实现还是有辨别器来做到的。见下图：

在训练辨别器的时候，像我们之前说到的，使用了从真实数据中采样的数据和生成的假的数据来分别加上标签进行训练，然后重点就在于损失函数的确定，从图中可以看到损失函数的具体是式子为：
$V(G,D)=E_{y-P_{data}}[logD(y)]+E_{y-P_G}[log(1-D(y))]$
那么实际上 $V (G, D)$ 就是加了负号的交叉熵，那我们希望最大化 $V (G, D)$ 就相当于最小化交叉熵，也就相当于将辨别器看成一个二分类的贝叶斯分类器来训练。而另外一个需要注意的点是当你最大化 $V (G, D)$ 的时候，解出来的这个 $V (G, D)$ 的值实际上和 $J S d i v er g e n ce$ 是有关的。这个观点可以直观地进行理解：

当两个分布很接近的时候，即它们之间的divergence很小的时候，辨别器很难完全地将它们分开，因此实际上它训练参数之后得到的最大化的 $V (G, D)$ 还是比较小的，那么跟divergence比较小是对应的
当两个分布不接近，即它们之间的divergence很大的时候，辨别器就能够轻易地将它们分开，因此实际上它训练参数之后得到的最大化的 $V (G, D)$ 就会比较大的，那么跟divergence比较大是对应的

因此，divergence的值和 $V (G, D)$ 的值之间可以认为存在一定的正比例关系，那么我们在一开始中用到Div的目标函数就可以用 $V (G, D)$ 进行替换，即：

而我们之前说到了G和D之间对抗不断调整的过程实际上就是这个新的目标函数的求解过程。

2.2、JS divergence is not suitable

我们需要先了解一下为什么JS divergence存在问题，之后再来了解著名的WGAN。

首先，我们要明确 $P_G$ 和 $P_{data}$ 它们之间相交的部分实在是太少了，具体的理由有两个：

它们都是高维空间中的能够表示为图片（或者说我们想要的动漫人脸）的向量，但是在高维空间中满足条件的向量只占非常小的一部分，例如可以认为它们分别只占二维空间中的一条直线或者曲线，那么它们之间相交之处只能是几个点而已（除非它们重合），那么就可以认为它们之间相交的部分实在特别少
我们是对真实的两个分布之间进行采样的，就算原始的真正的分布它们之间存在重叠的部分，但如果我们采样的不是特别多，不能够完全地描述出两个原来的分布，那还是可以找到一个分界将这两类采样出来的点完全分开，那么也可以认为它们是没有相交的部分的。

而JS divergence的特性在于如果两个分布没有交叠，计算出来永远时log2，可以看下图：

从图中可以看到，第二个情况明明比第一个情况更加接近，但是实际上JS计算出来的值还是一直都是log2，除非它们真的出现了交叠，才会计算出新的值，这样就导致假设我们在分布中采样的样本数不是非常非常多，那我们用之前类似于贝叶斯的思想来训练分类器的时候可以发现我们总是100%的正确率，因为根据这个JS就无法提供指导性的作用，它无法告诉机器说让两个分布越来越接近可以让损失函数越来越小，因此无法训练成功。

2.3、Wasserstein distance

Wasserstein distance是另一种衡量两个分布之间的距离，可以通俗的想象成两个分布分别是两堆土，如下图：

那么两个分布之间的距离就是用推土机将分布P推到分布Q的位置时经过的距离。但实际上的分布可能更复杂一点：

例如上图，那么从分布P经过推土机的操作得到分布Q可以有很多种方式，可以认为每一种方式的d都不一样，那么Wasserstein distance的定义就是穷举所有的d，选取里面最小的d来作为真正的Wasserstein distance。那么也就是说我们还需要解这个Wasserstein distance的优化问题。

那么将计算距离更换为Wasserstein distance，便可以让我们发现在两个分布越来越接近的时候计算出来的距离越来越小，这样就可以指导我们的网络往这个方向去调整。

2.4、WGAN

当用Wasserstein distance取代JS divergence的时候，此时的GAN就称为WGAN。那么现在的问题就在于Wasserstein distance这个距离应该怎么距离计算呢？推导过于复杂，结论就是解下面这个函数，最终得到的值（目标函数的值）就是我们要计算的两个分布之前的Wasserstein distance：
$max_{D\in 1-Lipschitz}~\{E_{y-P_{data}}[D(x)]-E_{y-P_G}[D(x)]\}$

这跟前面那个将目标函数Div更换成贝叶斯那个是同理的。

但是此处对于评估函数D还是有限制的，要求它是足够平滑的，不能够是具有剧烈变化的，否则例如下图：

只要这两堆没有重叠，就会将取值推向两个无穷的极端。

3、生成器效能评估与条件式生成

3.1、训练的问题

虽然已经将评估分布的距离更换成Wasserstein distance，但实际上GAN还是很难训练的，主要原因是生成器和辨别器它们彼此之间是相互砥砺、相互进步的，只要其中有一个训练发生了差错，那么另外一个肯定也无法继续提升，即只要其中一个在某次更新过程中没有更新，那么可能整个训练过程就坏掉了，无法再继续提升下去了。

特别是在将GAN用于生成文字的时候更难训练，例如在下图的模型中，我们产生了一段文字然后让辨别器查看文字是否是机器生成的并且打分，那么如果采用梯度下降的方法我们给生成器的参数带来了一点微小的变动，但由于各个输出向量都是采用取那个概率最大的文字作为输出的方式，因此微小的变化计算能够改变各个概率的值，但一般不会使得概率最大的文字改变，也就是输出没有发生改变，那么也就没有办法进行微分。

另外一个需要注意的点是应该如何评估GAN这种模型所生成结果的好坏呢。

3.2、评估生成器的好坏

这个问题没有一个标注性的答案，在GAN刚出现的时候，对于生成结果都是由人们自己来判断效果，这样主观性太强而且不够稳定。

现在对于生成图像的系统，可以再另外训练一个影像辨识系统来进行验证，例如生成的都是狗的图片，那么在这个影像辨识系统中接受输入，并且输出是概率分布，那我们就希望这个概率分布能够有一个分类，其概率能够越接近于1越好，就说明大部分图片我们将其归为一类，这样就说明可能生成效果还是不错的；而如果分成了很多类而且概率都差不多，那么说明生成效果就不好了。但是在这个评估策略中可能会遇到一个问题，称为Mode Collapse，可以通过下图直观理解，这种问题就是说虽然能够产生出效果比较好的结果，但可能那些结果具有很高的相似性，例如左下方的红色星星都集中的同一个点，很难像真实的分布能够较为广阔；在右边的例子中很可能产生的图像越来越相似，例如我指出来的那几张基本上都一样了，这种情况可能训练到最后只能够输出这一张图片而已。

产生这个现象的原因可以直观理解为：例如左下方的例子中，聚集的地方可以称为辨别器的盲点，只要产生在这附近的结果那么辨别器就无法辨认出来是假的，因此生成器就会不断产生这附近的图片。

另外一个问题是Mode Dropping，它比上一个问题更难侦测到，先来直观说明问题的内容，看下图：

就是虽然产生的数据能够不集中于某一处，分布看起来也还行，但是只学习到真实分布的一部分，另外一部分完全没有学习到，从下图的例子中可以很明显地看出来，虽然在两次产生的图像集中看起来好像有分布得很均匀，但是我们可以发现第一次只有白人，第二次只有黄种人，这就说明它没有学习到真正的分布，只学习到其中某一部分的分布，黑色人种的图片完全没有学习到。

那么评估结果多样性的一个思路是：将产生的所有图片都丢进去一个图像分类系统之中，那么每张图片就会产生对应的分布，我们再将所有分布求和取平均，那么如果得到的最终分布越平坦，就说明多样性越好，如下图：

另外一种测量指标成为FID，其具体的做法为：将图片放进去影像辨识系统之后，由于要进行分类因此肯定最后会经过一个softmax环节，我们将进入softmax之前的最后一层的的输出的这个向量，用来代表这个图片，那么对于真实的图片和生成的图片就都可以得到很多的向量，再将这些向量来计算FID（具体的计算方法就不拓展了），那么FID的评价标准是两个分布越接近其数值就越小，不过计算过程中会假设两个都是高斯分布。这个方法还有一个问题就是为了模拟出真实的分布，它需要很多的样本经过影像辨识系统得到的向量，因此计算量会很大。

4、Conditional Generator

Conditional GAN就是输入的时候除了之前从分布中采样得到的z之外，还有一个x，它可以用x来指定y的输出，例如应用于文字转图像的例子：

那么这种情况下的训练过程也要进行调整，在训练辨别器的时候不仅仅要输入产生的图片，更要输入原始输入x，并且需要将它们进行配对，才能够让机器学习到看到这样配对的文字和图像才能够给高分，而往往在训练辨别器时还要加入一部分特殊的训练资料，即我们将原本数据中图和文字已经配对好的样本，都进行打乱，使得文字和图像并没有关系，那么用这种样本告诉机器说看到这样的样本也要给低分，那么机器才能够一方面学习到图像要接近于真实动漫人脸，还学习到要满足我们的输入x，如下图：

还有另外一种应用是输入x是一张影像，然后希望能够产生另一张图片来满足我们的需求，例如：

还有例如听一段声音然后产生一张图片，即：

5、Cycle GAN

在之前的各种普通的网络结构中，一般样本都是有对应的标注的，即x和y之前的成对的，但是在一些训练任务中它们之间并没有成对，例如下图的影像风格转换的任务中，x是真实的人脸，而y要求是人脸的动漫版本，那么在这个任务中就不具有成对的x和y来进行训练了：

那么实际上，GAN在这种不成对的样本的训练任务中是可以发挥作用的。那么应该怎么应用呢？如果直接套用GAN的思想，如下图：

因为GAN的辨别器要求是辨别你生成器的输出是不是y的那个分布，那这个就会导致生成器发现只要生成一张是动漫人脸的图片就可以让辨别器打高分，而这个动漫人脸是否和输入的人脸相似这并不重要，可以说生成器完全忽略了输入，那么怎么解决这个问题呢？就用到了Cycle GAN，其具体的做法可以看下图：

其最重要的特点在于训练了两个生成器，多出来的生成器用于将第一个生成器生成的动漫人脸还原成真实的人脸，而我们训练的时候会要求原先的人脸和还原的人脸越接近越好。

但这个Cycle GAN好像并没有限制中间产生的动漫人脸必须和原先的人脸非常地相像，例如机器可能学习到原始人脸戴着眼镜就将眼睛去掉然后加上一颗痣，第二个生成器就学习到看到一颗痣就将痣去掉然后加上一副眼镜，这说明在Cycle GAN是没有对原始输入和产生的动漫人脸的相似度进行限制，但在实际训练中这种情况其实很少发生，可以认为网络架构不会去做这么复杂的问题，它会尽量去输出相似的东西而已，这也是在理论上和实际上的不同。

并且这个Cycle GAN可以是双向的，例如下图：

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s