Q渡劫

生成对抗网络

目录

0. Abstract

1. Introduction

2. Relatedwork

3.Experiments

4.Advantages and disadvantages

5.Conclusions and future work（idea）

6. 网络训练源代码

0. Abstract

我们提出了一个新的框架，通过一个对抗的过程来估计生成模型，在此过程中我们同时训练两个模型:一个生成模型G捕获数据分布，和一种判别模型D，它估计样本来自训练数据而不是G的概率。G的训练程序是最大化D犯错的概率，这个框架对应于一个极小极大的双人游戏。在任意函数G和D的空间中，存在唯一解，G可以重现训练数据分布，D处处等于1/2。在G和D由多层感知器定义的情况下，整个系统可以通过反向传播进行训练。在训练或生成样本的过程中，不需要任何马尔科夫链或展开的近似推理网络。通过对生成的样本进行定性和定量评估，实验证明了该框架的潜力。

1. Introduction

深度学习的前景是发现丰富的分层模型，它代表人工智能应用中遇到的各种数据的概率分布，如自然图像、包含语音的音频波形和自然语言语料库中的符号。到目前为止，在深度学习中最显著的成功涉及到判别模型，通常是那些将高维、丰富的感官输入映射到类标签的模型。这些惊人的成功主要是基于反向传播和dropout算法，使用分段线性单元，具有特别良好的梯度。由于在极大似然估计和相关策略中出现的许多难以处理的概率计算的近似性，以及由于难以在生成环境中利用分段线性单元的优点，深度生成模型的影响较小。我们提出了一种新的生成模型估计方法来克服这些困难。

在提出的对抗网框架中，生成模型与对手进行了比较:一个学习确定样本是来自模型分布还是来自数据分布的判别模型。生成模型可以被认为类似于一组伪造者，他们试图制造假币并在不被发现的情况下使用它，而判别模型则类似于警察，试图发现假币，这个游戏的竞争促使两队改进他们的方法，直到仿冒品无法从真品中辨别出来。

该框架可以生成针对多种模型的特定训练算法和优化算法，在这篇文章中，我们探讨了生成模型通过一个多层感知器传递随机噪声来生成样本的特殊情况，而判别模型也是一个多层感知器，我们把这种特殊情况称为对抗网络。在这种情况下，我们可以只使用非常成功的反向传播和dropout算法来训练这两个模型，并且只使用正向传播来训练生成模型的样本，不需要近似推论或马尔科夫链。

2. Relatedwork

有潜在变量的有向图形模型的另一种选择是有潜在变量的无向图形模型，如限制玻尔兹曼机(RBMs)，深玻尔兹曼机(DBMs)及其众多变体。这些模型中的相互作用被表示为未归一化势函数的乘积，由随机变量所有状态的全局求和/积分进行归一化。这个数量(配分函数)和它的梯度是棘手的，但最琐碎的情况下，虽然他们可以由马尔可夫链蒙特卡罗(MCMC)方法估计。对于依赖于MCMC的学习算法来说，混合是一个很重要的问题。

深度置信网络(DBNs)[16]是包含一个无向层和多个有向层的混合模型。虽然存在一种快速的分层近似训练准则，但DBNs存在与无向和有向模型相关的计算困难。

也有人提出了不近似或不限制对数似然的替代标准，如分数匹配和噪声对比估计(NCE)，这两种方法都要求所学习的概率密度被解析指定为一个归一化常数。请注意，在许多具有多层潜在变量(如DBNs和DBMs)的有趣生成模型中，甚至不可能导出可处理的非规范化概率密度，一些模型，如去噪自动编码器[30]和收缩自动编码器的学习规则非常类似于分数匹配应用于RBMs。在NCE中，与本文一样，使用了判别训练准则来拟合生成模型。然而，生成模型本身用于从固定噪声分布的样本中区分生成的数据，而不是拟合一个单独的判别模型。由于NCE使用一个固定的噪声分布，当模型学习到即使是在观察变量的一个小子集上的一个近似正确的分布之后，学习速度也会显著减慢。

最后，一些技术不涉及明确定义概率分布，而是训练生成机器从期望的分布中抽取样本，这种方法的优点是可以通过反向传播来训练这些机器。近期主要的工作包括生成随机网络(GSN)框架：它扩展了广义去噪自动编码器：两者都可以看作是定义一个参数化的马尔科夫链，即一个人学习机器的参数，执行一个步骤的生成马尔科夫链。与GSNs相比，对抗网的采样不需要马尔科夫链，由于反求网络在生成过程中不需要反馈环，所以它们能够更好地利用分段线性单元，这提高了反向传播的性能，但在使用反馈环时存在无限制激活的问题。通过反向传播训练生成机器的最新例子包括自动编码变分贝叶斯和随机反向传播。

当模型都是多层感知器时，对抗性建模框架最容易应用。为了学习生成器在数据x上的分布pg,我们定义了一个输入噪声变量pz (z), G (z;θg)表示将噪声变量映射到数据空间, G是一个可微函数，表示为一个参数为θg的多层感知器。我们还定义一个多层感知器D (x;θd)输出一个标量，D(x)表示x来自数据集而不是pg的概率。我们训练D最大限度地将正确的标签分配给训练样本和来自G的样本的概率，我们同时训练G，使得 log(1 - D(G(z))) 最小化。

换句话说，D和G玩了一个具有值函数V (G,D)的二人极大极小博弈:

在下一节中，我们将对对抗网进行理论分析，主要说明当G和D具有足够的容量时，训练准则允许恢复数据生成分布，例如在非参数极限下。请参见图1，其中对该方法进行了不太正式的、更具教育性的解释。在实践中，我们必须使用迭代的数值方法来实现游戏。优化完成内环的训练在计算上是禁止的，对于有限的数据集会导致过度拟合。相反，我们在优化D的k个步骤和优化G的一个步骤之间交替进行，只要G变化足够慢，D就会保持在其最优解附近，这种策略类似于SML/PCD：训练从一个学习步骤到下一个学习步骤保持来自马尔可夫链的样本，该过程在算法1中正式给出。

在实际应用中，公式1可能无法为G提供足够的梯度来学习。在学习的早期，当G较差时，D可以很有信心地拒绝样本，因为它们与训练数据明显不同。在这种情况下，log(1 - D(G(z)))饱和，与其训练G去最小化log(1 - D(G(z))不如训练G去最大化logD(G(z))这一目标函数的结果与动态函数相同，但在学习中提供了更强的学习效果。

注：图中的黑色虚线表示真实的样本的分布情况，蓝色虚线表示判别器判别概率的分布情况，绿色实线表示生成样本的分布。Z表示噪声，Z到x表示通过生成器之后的分布的映射情况。
我们的目标是使用生成样本分布（绿色实线）去拟合真实的样本分布（黑色虚线），来达到生成以假乱真样本的目的。
可以看到在（a）状态处于最初始的状态的时候，生成器生成的分布和真实分布区别较大，并且判别器判别出样本的概率不是很稳定，因此会先训练判别器来更好地分辨样本。
通过多次训练判别器来达到（b）样本状态，此时判别样本区分得非常显著和良好。然后再对生成器进行训练。
训练生成器之后达到（c）样本状态，此时生成器分布相比之前，逼近了真实样本分布。
经过多次反复训练迭代之后，最终希望能够达到（d）状态，生成样本分布拟合于真实样本分布，并且判别器分辨不出样本是生成的还是真实的（判别概率均为0.5）。也就是说我们这个时候就可以生成出非常真实的样本啦，目的达到。[2]

3.Experiments

包括MNIST, theTorontoFace Database (TFD),和CIFAR-10一系列数据集上训练了对抗网络。生成网络使用rectiﬁer linear and sigmoid两种激活函数，而判别器使用maxout激活。应用dropout训练判别器网络。虽然我们的理论框架允许在生成器的中间层使用dropout和其他噪声，但我们只使用噪声作为生成器网络最底层的输入。

4.Advantages and disadvantages

与以前的建模框架相比，这个新框架有优点也有缺点。缺点主要是没有显式表示的pg (x)，在训练时D必须与G同步。它的优点是不需要使用马尔科夫链，只使用backprop来获得梯度，在学习过程中不需要推理，可以将多种函数合并到模型中。

5.Conclusions and future work（idea）

将c作为G和D的输入，可以得到条件生成模型p(x | c)。
学习近似推理：可以利用一个辅助网络在给定x时来预测z。这与wake-sleep算法训练的推理网络类似，但具有在生成器网络完成训练后，可以对固定生成器网络进行推理网络训练的优点。
通过训练一系列共享参数的条件模型，可以近似地对所有条件p(xS | x)进行建模，其中s是x指标的子集。本质上，我们可以使用对抗网来实现确定性MP-DBM[11]的随机扩展。
半监督学习:当有限的标记数据可用时，鉴别器或推理器的特性可能会降低分类器的性能。
效率改进:在培训过程中，通过划分更好的方法来协调G和D，或者确定更好的z分布，可以大大加快训练的速度。

6. 网络训练源代码

import torch.nn as nn
from torchvision import transforms
import torch
import torch.optim as op
from torchvision import datasets
from torch.utils.data import DataLoader

batch_size = 64
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])

dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
data_loader = DataLoader(dataset, shuffle=True, batch_size=batch_size)
# test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
# test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
"生成器的输入是一组噪声"
class Generator(nn.Module):
    def __init__(self, in_features=64, out_features=784):
        """
        :param in_features: 生成器的in_features，一般输入z的维度z_dim，该值可自定义
        :param out_features: 生成器的out_features，需要与真实数据的维度一致
        """
        super().__init__()
        "nn.Tanh() #用于归一化数据"
        self.gen = nn.Sequential(nn.Linear(in_features, 256),
                                 nn.LeakyReLU(0.1),
                                 nn.Linear(256, out_features),
                                 nn.Tanh()
                                 )
    def forward(self, z):
        gz = self.gen(z)
        return gz

"判别器"
class Discriminator(nn.Module):
    def __init__(self, in_features=784):
        """
        :param in_features: 真实数据的维度、同时也是生成的假数据的
        """
        super().__init__()
        "使用非饱和激活函数nn.LeakyReLU(0.1)，防止梯度下降"
        "nn.Tanh() 是双曲正切函数，通常用于确保生成的输出处于特定的值范围内，例如在 -1 到 1 之间"
        self.disc = nn.Sequential(nn.Linear(in_features, 128),
                                  nn.LeakyReLU(0.1),
                                  nn.Linear(128, 1),
                                  nn.Sigmoid()
                                  )
    def forward(self, data):
        """
        :param data: 输入的data可以是真实数据时，Disc输出dx。输入的data是gz时，Disc输出dgz
        :return:
        """
        return self.disc(data)    # 输出结果为置信度


z_dim = 64
real_data_dim = 784
lr = 0.1
"判断是否有GPU存在"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
"实例化判别器与生成器"
gen = Generator(in_features=z_dim, out_features=real_data_dim)
gen.to(device)
disc = Discriminator(in_features=real_data_dim).to(device)
disc.to(device)
"定义判别器与生成器所使用的优化算法"
op_disc = op.Adam(disc.parameters(), lr=lr, betas=(0.9, 0.999))
op_gen = op.Adam(gen.parameters(), lr=lr, betas=(0.9, 0.999))
"定义损失函数"
criterion = nn.BCELoss(reduction="mean")
if __name__ == "__main__":
    for epoch in range(10):
        for batch_idx, (x, _) in enumerate(data_loader):
            x = x.view(-1, 784).to(device)
            batch_size = x.shape[0]
            # 判别器反向传播==========================================================================
            "------------------------判别器对真实数据的预测概率------------------------"
            dx = disc(x).view(-1)
            "所有真实数据的损失均值"
            loss_real = criterion(dx, torch.ones_like(dx))
            loss_real.backward()
            "判别器对真实数据的预测概率 dx 的平均值，然后使用 .item() 方法将其转换为标量值，并将结果存储在 D_x 变量中"
            D_x = dx.mean().item()
            "------------------------判别器对生成数据的预测概率------------------------"
            noise = torch.randn((batch_size, z_dim)).to(device)
            "将随机噪声 noise 通过生成器模型 gen 生成假数据 gz，这些假数据模拟真实数据的特征"
            gz = gen(noise)
            "使用 gz.detach() 是为了阻止生成数据进入判别器的计算图，以确保在这里只计算判别器对生成数据的预测概率"
            dgz1 = disc(gz.detach())
            "所有生成数据的损失均值，在训练生成对抗网络（GAN）的判别器时，对于生成的数据，我们希望判别器的输出接近零，表示生成数据被正确分类为假数据。因此，我们将目标设置为与生成数据对应的标签，通常是零"
            loss_fake = criterion(dgz1, torch.zeros_like(dgz1))
            loss_fake.backward()
            "判别器对生成数据的预测概率 dx 的平均值，然后使用 .item() 方法将其转换为标量值，并将结果存储在 D_G_Z1 变量中"
            D_G_z1 = dgz1.mean().item()
            "判别器对真实数据的损失和对生成数据的损失之和。这个总损失通常用于衡量判别器的性能"
            errorD = loss_real + loss_fake
            "errorD.backward() #直接对errorD反向传播，也可分别对loss_real，loss_fake执行反向传播"
            "更新判别器上的权重"
            op_disc.step()
            "清零判别器迭代后的梯度"
            disc.zero_grad()

            # 生成器反向传播*==========================================================================
            "注意，由于在此时判别器上的权重已经被更新过了，所以dgz的值会变化，需要重新生成"
            "得到判别器对生成数据的输出 dgz2"
            dgz2 = disc(gz)
            "计算了生成器的损失。与判别器的损失不同，这里我们希望生成器生成的数据被判别器识别为真实数据，所以我们使用目标值为1的损失函数来计算生成器的损失"
            Gloss = criterion(dgz2, torch.ones_like(dgz2))
            "反向传播"
            Gloss.backward()
            "更新生成器上的权重"
            op_gen.step()
            "清零生成器更新后梯度"
            gen.zero_grad()
            D_G_z2 = dgz2.mean().item()
            # print(f"第{ epoch+1 }次训练")

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
量化投资中的投资组合风险溢价模型云策量化量化投资量化交易量化软件量化炒股 QMT 量化交易 PTrade 量化软件量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》量化投资中的投资组合风险溢价模型在量化投资的世界里，风险和回报总是如影随形。投资者们就像是在大海中航行的船长，既要寻找宝藏，又要避开暗礁。今天，我们就来聊聊量化投资中的一个关键工具——投资组合风险溢价模型，它就像是船长的罗盘，帮助我们在风险和回报之间找到平衡。引言：风险与回报的舞蹈在量化投资中，我们经常听到“风险溢价”这个词。
【3D模型】【游戏开发】【Blender】Blender模型分享-狮头木雕附导入方法踏雪无痕老爷子资源介绍 3d blender
导入方法：[Blender]如何导入包含纹理的.blend模型文件在3D建模和渲染工作中，Blender是一款功能强大的免费开源软件。很多时候，我们需要导入.blend后缀的模型文件，同时确保纹理（textures）文件夹中的贴图能够正确加载。本文将介绍详细的导入步骤以及可能遇到的问题和解决方案。1.直接打开.blend文件如果你的.blend文件是一个完整的工程文件，包含了模型和纹理，直接打开即
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
Manus详细介绍 accurater c++算法笔记深度学习人工智能神经网络
第一章Manus的技术背景与核心突破初识ManusAI1.1什么是Manus？Manus是由中国团队Monica.im于2025年3月推出的全球首款通用型AI智能体（AIAgent）。其名称源自拉丁语“MensetManus”，意为“手脑并用”，强调将大模型的逻辑推理能力转化为实际生产力。与传统的对话式AI（如ChatGPT、DeepSeek）不同，Manus的核心定位是“执行型助手”，能够自主完
21.7 ChatGLM3-6B私有化部署实战：2小时快速搭建200 QPS高可用模型服务少林码僧 AI大模型应用实战专栏人工智能 gpt 语言模型
ChatGLM3-6B私有化部署实战：2小时快速搭建200QPS高可用模型服务ChatGLM3-6B私有化部署实战指南关键词：ChatGLM3-6B部署，私有化模型服务，性能优化，容器化部署，API服务封装1.部署环境准备与硬件规划ChatGLM3-6B私有化部署需要充分考虑算力资源与软件生态的适配性，以下是推荐配置方案：
通过LoRA（Low-Rank Adaptation）低秩矩阵分解来高效微调权重变化背太阳的牧羊人模型微调矩阵线性代数深度学习人工智能自然语言处理 LoRA
LoRA的原理LoRA的核心思想是用低秩矩阵分解来建模参数的变化，而不是直接调整整个权重矩阵。这种方法通过减少微调的参数数量来提高训练效率。基本公式假设预训练模型的某一层权重为(W\in\mathbb{R}^{d\timesk})，LoRA的调整方式是：[W’=W+\DeltaW]其中(\DeltaW)是调整后的权重变化。LoRA假设权重变化(\DeltaW)的秩较低，可以表示为两个低秩矩阵的乘积
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
神经网络之参数初始化硬水果糖人工智能神经网络人工智能深度学习
引言：参数初始化是训练深度神经网络的一个关键步骤，目的是给网络中权重（weights）和偏置（biases）赋予初始值。合适的参数初始化方法有助于提高训练速度、避免梯度消失/爆炸问题，并且加速网络的收敛。一、参数初始化目的避免梯度消失和梯度爆炸：在深度神经网络中，参数初始化对梯度流动非常重要。如果初始权重值太大或太小，可能导致梯度爆炸或梯度消失，从而增加网络的训练难度。加速收敛：良好的初始化可以帮
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
glm-4v-9b 踩坑（4-bit量化，bitsandbytes 异常） phynikesi pytorch glm-4v-9b踩坑 bitsandbytes异常
前言本文只分享了自己在体验glm-4v-9b过程中遇到的问题，没有涉及对模型本身以及更多问题的分析，大家可先看问题描述，再决定是否看下去。实验平台：linux系统，RTXA4000。嫌麻烦的可以直接到文未看结论。问题描述16g显卡难以加载模型bitsandbytes异常，模型无法运行加载问题本人设备有限，引用一下别人完整加载模型的数据，大约18.9g。用16g显卡直接报OOM，用8-bit加载还是
大模型——模型上下文协议 (MCP) 不二人生大模型人工智能大模型
大模型——模型上下文协议(MCP)我一直在尝试一种新技术，通过Anthropic提出的一种新兴的开放标准——模型上下文协议（MCP），将知识和功能插入到像聊天这样的AI应用程序中。现在还处于早期阶段，但它已经具有一定的势头。我一直在尝试一种新技术，通过Anthropic提出的一种新兴的开放标准——模型上下文协议（MCP），将知识和功能插入到像聊天这样的AI应用程序中。现在还处于早期阶段，但它已经具
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
【阿里百炼大模型-使用】 y_dd 深度学习语言模型人工智能
参照阿里云百炼网址服务配置开通服务如果没有注册阿里云账号，先注册一个https://www.aliyun.com/?spm=5176.account-console-pc.console-base_top-nav.dlogo.10d24bab70FmIm，注册完毕用它登录阿里云百炼，然后开通服务（即使是免费的开元模型也需要开通）获取API-key在账户这里选择API-KEY，进入这个页面，创建一个
21.11 《ChatGLM3-6B+Gradio工业级落地：多模态交互+60%性能优化，手把手实现生产部署》少林码僧 AI大模型应用实战专栏人工智能 gpt 语言模型性能优化交互
《ChatGLM3-6B+Gradio工业级落地：多模态交互+60%性能优化，手把手实现生产部署》关键词：ChatGLM3-6B应用开发，Gradio界面集成，模型交互优化，Web服务容器化，多模态输入支持使用Gradio赋能ChatGLM3-6B图形化界面通过Gradio实现大模型服务的可视化交互，是生产级AI应用落地的关键环节。本节将深入解析如何构建适配ChatGLM3-6B的工业级交互界面。
DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践 Coderabo DeepSeek R1模型企业级应用政务架构
DeepSeek赋能城市智慧升级：基于RAG架构的市民服务智能知识库构建全解一、需求分析与技术选型1.1市民服务场景需求市民服务智能知识库需要解决政务咨询效率低下、专业术语难理解、多轮对话能力弱等核心问题。系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，
JVM技术八股文小麟School JVM jvm java 开发语言
JVM面试八股文，整理了出来。排版不太好！目录JVM入门部分为什么要学习JVM？你了解哪些JVM产品？JVM的构成有哪几部分？JVM类加载部分你知道哪些类加载器？为什么需要多个类加载器？什么是双亲委派类加载模型？双亲委派方式加载类有什么优势、劣势？描述一下类加载时候的基本步骤是怎样的？什么情况下会触发类的加载？类加载时静态代码块一定会执行吗？如何理解类的主动加载和被动加载？为什么要自己定义类加载器
thinkphp5模型查询数据库，查出来的字段直接修改成另外的名字知码客个人随笔 thinkphp5 php开发
在ThinkPHP5中，如果你希望在查询数据库时将返回的字段名直接修改为其他名称，可以通过以下几种方式实现：方法1：使用field方法指定字段别名在查询时通过field方法直接为字段指定别名（使用AS关键字）。示例代码：//使用Db类查询$result=Db::name('user')->field('idASuser_id,nameASfull_name')->select();//使用模型查询
史上最全JVM面试八股文合集 Java小海. 面试 java 职场和发展程序人生后端
简述JVM内存模型线程私有的运行时数据区:程序计数器、Java虚拟机栈、本地方法栈。线程共享的运行时数据区:Java堆、方法区。简述程序计数器程序计数器表示当前线程所执行的字节码的行号指示器。程序计数器不会产生StackOverflowError和OutOfMemoryError。简述虚拟机栈Java虚拟机栈用来描述Java方法执行的内存模型。线程创建时就会分配一个栈空间，线程结束后栈空间被回收。
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
华为云在工业数字化方面的优势九河智造云华为云人工智能云计算制造
华为云在工业数字化领域展现出全方位的优势，为制造业的转型升级提供了强大的助力。一、专业的数字化诊断治理服务华为云的数字化诊断治理专家服务为企业提供全面的深度诊断、成熟度评估、产业升级分析、创新治理和专家咨询等服务。其诊断模型参考国际国内标准，结合多体系理论与华为自身实践，能够精准定位企业运营中的问题点，并提供针对性的解决方案。同时，华为云拥有丰富的诊断团队和案例，基于全国180余个赋能云创新中心、
deepseek具体应用场景 ahyouxiang 人工智能
DeepSeek的具体应用场景非常广泛，涵盖了多个领域和行业。以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。此外，DeepSeek还被应用于智能安全体产品中，通过安全大模型实现个性化开发和优化。医疗领域在医疗领域，DeepSeek的技术被用于辅助诊断和患者记录管
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
五、AIGC大模型_08Agent基础知识学不会lostfound AI 人工智能 agent 不同生命周期的知识用AI处理 AIGC
0、概述根据知识的生命周期分类，我们通常会采取不同的方法（微调、RAG、Agent）来将知识融入到AI中0.1长生命周期知识这类知识通常具有较高的稳定性和通用性，不会因时间的推移而轻易改变。它们是知识体系中的“基石”，在较长时间内保持有效性和价值。特点：稳定性强：如数学定理、物理公式等，这些知识经过长期验证，具有高度的确定性和普适性基础性强：往往是学习和研究其他知识的基础，例如教科书中的基础知识更
SMOTE算法的改进与扩展 Java 第一深情不平衡数据分类机器学习人工智能
一、SMOTE的改进算法1、Boderline-SMOTE只考虑分布在分类边界附近的少数类样本，并将其作为根样本首先通过k-NN方法将原始数据中的少数类样本划分成“Safe”、“Danger”和“Noise”3类，其中“Danger”类样本是指靠近分类边界的样本。对属于“Danger”类少数类样本进行过采样，可增加用于确定分类边界的少数类样本。这样做可以增加这些关键区域的少数类样本数量，使得模型在
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&