智慧医疗探索者

AIGC：使用生成对抗网络GAN实现MINST手写数字图像生成

1 生成对抗网络

生成对抗网络（Generative Adversarial Networks, GAN）是一种非常经典的生成式模型，它受到双人零和博弈的启发，让两个神经网络在相互博弈中进行学习，开创了生成式模型的新范式。从 2017 年以后，GAN相关的论文呈现井喷式增长。GAN 的应用十分广泛，它的应用包括图像合成、图像编辑、风格迁移、图像超分辨率以及图像转换，数据增强等。

1.1 背景

具有开创性工作的生成对抗网络原文由Goodfellow在2014年发表，当时深度学习领域最好的成果有很大一部分都是判别式模型（比如AlexNet），它们使用反向传播和dropout方法，让模型能够拥有一个良好的梯度结构，从而更迅速地收敛到一个较好的状态。而此时的生成式模型相比之下效果却并不是很好。

论文地址：https://arxiv.org/pdf/1406.2661.pdf

生成式模型的任务是：给你一组原始数据，请你生成一组新数据，使得这两组数据看起来“尽可能的相似”。而这个任务本质上就是让新数据的概率密度尽可能地接近原始数据的概率密度，也就是说我们要学习这个函数。传统的生成式模型会将建模出来，并通过梯度下降优化模型中的参数，最终达到逼近的目的。从理论上来这个方法似乎挺好，但是真实情况下的概率分布往往是难以逼近的，在当时也并没有今天这么多的优化技术，所以实际上这个方法效果一般。

因此，本文作者提供了一种新的思路：我们不去直接逼近，而是添加一个判别器来判断生成出来的数据“像不像”原始数据，并且轮流训练这个判别器和生成器。假如这两个model最终都能收敛，那么收敛到的位置一定是生成效果“最像”，而判别效果“最准”的位置，我们直接取此时的生成器作为最终答案即可。原文中举了一个例子：生成器就好比一个造假币的团伙，判别器就好比警察，现在我们来看他们互相博弈的过程：

第一次，假币团伙没有经验，造了很多7块钱一张的假币，拿出去一花就被警察抓了。

第二次，假币团伙学聪明了，造了很多看起来很正常的假币；警察一开始没有发现，但是在拿到了一张假币样本之后开始研究，发现了假币的一个缺陷（比如没有让盲人摸的手感线），于是向民众推广这种辨别假币的方法，最终假币团伙的假币就花不出去了。

第三次，假币团伙修复了上面的缺陷，造了很多新假币；警察又开始寻找新的缺陷并推广……

久而久之，假币团伙造的假币会越来越接近真币，而警察辨别假币的水平也会越来越高。就像生物学上的协同进化一样，这两个团体会在互相博弈中共同进步。

1.2 工作原理

GAN网络能够在不使用标注数据的情况下来进行生成任务的学习。GAN网络由一个生成器和一个判别器组成。生成器从潜在空间随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成器的输出，其目的是将生成器的输出从真实样本中尽可能分别出来。生成器和判别器相互对抗、不断学习，最终目的使得判别器无法判断生成器的输出结果是否真实。

1.2.1 GAN网络组成

GAN网络由生成器和判别器组成：

生成器。生成器学习如何生成看似合理的数据。对判别器来说，这些生成的实例会变成负面训练样本。
判别器。判别器学习如何通过真实数据的学习来辨别出生成器生成的假数据。判别器将惩罚生成器生成的“不可理（假）”的数据结果。

1.2.2 判别器如何工作

判别器在生成对抗网络中，简单来说是一个分类器。该分类器尝试从生成器生成的假数据中识别真实数据。它可以使用任何适用于数据分类的网络架构。判别器在训练中使用误差反向传播机制来计算损失和更新权重参数。

判别器的训练数据有两处来源，

真实数据。真实数据实例，比如人的照片。在训练中，判别器把这些实例用作正面样本。
虚假数据。生成器生成的实例。在训练中，判别器把这些实例用作负面样本。

上图中两个Sample的框就是这两种输入到判别器的样本。注意，在判别器训练时，生成器不会训练，即在生成器为判别器生成示例数据时，生成器的权重保持恒定。

在训练判别器时，判别器连接到两个损失函数。在训练时，判别器忽略生成器的损失而只使用判别器损失。在训练过程中，

判别器对真实数据和来自生成器生成的假数据进行分类。
判别器的损失函数将惩罚由判别器产生的误判，比如把真实实例判定成假，或者把假的实例判定为真。
判别器通过对来自于判别器网损失函数计算的损失进行反向传播。如上图。

1.2.3 生成器如何工作

生成对抗网络里的生成器，通过接受来自于判别器的反馈来学习如何创建假数据。生成器学习如何让（欺骗）判别器把它的输出归类为真实数据。

相对于判别器的训练，生成器的训练要求生成器与判别器有更加紧密的集成。生成器训练包含：

随机输入。神经网络需要某种形式的输入。通常，为了达到某种目的而输入数据，比如一个输入的实例用来进行分类任务或者预测。但当希望输出一整个全新的数据实例，用什么样输入数据呢？
最常见基础形式里，GAN使用随机噪音作为它的输入。然后，生成器将把随机噪音转换成有意义的输出。通过引入噪音，可以从不同分布形式的不同空间采样，让GAN生成一个宽域的数据
实验结果表明，不同噪音的分布不会产生太大影响。因此，可以选择相对较易的采样来源，比如，均匀分布。方便起见，噪音采样空间的维度一般小于输出空间的维度。注意，有些GAN变种不使用随机输入来形成输出。
生成器网络，负责把随机输入转换成数据实例。
判别器网络，负责把上一步生成的数据归类，判别器输出。
生成器的损失函数，负责惩罚企图蒙骗判别器失败的情况（即生成器生成的假数据，被识别器成功识破）。

1.3 训练

1.3.1 GAN训练的整个步骤

当训练开始，生成器生成一个些很明显的假数据，判别器能快速地学习如何识别出是不是假数据，

随着训练稳步推进，生成器更接近于能生成蒙骗判别器的输出数据。

最终，如果生成器训练得当，在识别真实和虚假方面，判别器变得差强人意，而且将开始把假数据分类为真实数据，识别的准确率降低。

1.3.2 使用判别器训练生成器

要训练神经网络，通过修改网络的权重来减少误差或者输出的损失。在GAN里却不同，生成器不直接连接到损失函数来试图影响损失，而是把生成的数据输出到判别器，而判别器会制造影响误差损失的输出。当生成器生成的数据被判别器成功识别成仿冒时，生成器损失函数会惩罚生成器。

另外，反向传播里也包含网络的额外处理。反向传播通过计算对输出的影响——更改后的权重在多大程度上影响输，来调整每个权重以使其在正确的方向上。但，生成器权重的影响取决于直接输出到判别器的权重的影响。因此，反向传播始于输出且穿过判别器回流到生成器。

在生成器训练时，不希望判别器更改，就像尝试击中一个移动目标，会让一个本身就麻烦的问题变得更加困难。所以，在训练生成器时使用如下流程，

随机噪音采样作为输入。
生成器从采样的随机噪音采样里生成输出。
让判断器判断上述输出是“真”或“假”，以此作为生成器的输出。
从判别器的分类输出计算误差损失。
穿过判别器和生成器的反向传播，从而获得梯度。
使用梯度来更新生成器的权重。

这个流程是生成器训练的一个迭代。

1.3.3 交替训练

生成器和判别器有不同的训练流程，那么如何才能作为一个整体来训练GAN呢？GAN的训练有交替阶段，

判别器训练一个或者多个迭代。
生成器训练一个或者多个迭代。
不断重复1和2步来训练生成器和判别器。

在判别器训练的阶段，保持生成器不变。因为判别器训练会尝试从仿冒数据里分辨出真实数据，判别器必须学习如何识别生成器的缺陷。这就是经过完整训练的生成器和只能生成随机输出的未训练生成器的不同之处。

类似地，在生成器训练的阶段，保持判别器不变。否则，生成器像尝试击中移动目标一样，可能永远无法收敛。

这种往复训练使得GAN能够处理另外一些棘手的数据生成问题。开始于相对较简单的分类任务问题，从而获得一个解决生成难题的立足点。相反地，如果不能训练一个分类器来识别真实数据和生成数据的区别，甚至无法识别与随机初始化输出的区别，那么GAN的训练根本无法开始。

1.3.4 收敛

随着训练进行，生成器不断改善，相对地，由于不能再轻易地识别出真实数据和假冒数据的，判别器的表现越来越差。当生成器完美地成功生成时，判别器的正确率只有50%。基本上和抛一枚硬币来预测正反一样的概率一样。

这种进度展现了作为整体GAN的一个问题，判别器的反馈随着时间的推移越来越不具有意义。过了这个节点之后，即判别器完全给出了随机反馈，如果继续训练GAN，那么生成器将使用判别器给出的无效反馈进行训练，那么生成器的质量可能会崩塌。

对于GAN来说，收敛往往是一个闪现的点，而不是牢固的、稳态的。

2 基于pytorch实现MINIST手写数字图像识别

# -*- coding: utf-8 -*-
import torch
import matplotlib.pyplot as plt
from torchvision import datasets, transforms
from torch import nn, optim
from torch.nn import functional as F
from tqdm import tqdm
import os

os.chdir(os.path.dirname(__file__))


class Generator(nn.Module):
    def __init__(self, latent_size, hidden_size, output_size):
        super(Generator, self).__init__()
        self.linear = nn.Linear(latent_size, hidden_size)
        self.out = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        x = F.relu(self.linear(x))

        x = torch.sigmoid(self.out(x))
        return x


class Discriminator(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(Discriminator, self).__init__()
        self.linear = nn.Linear(input_size, hidden_size)
        self.out = nn.Linear(hidden_size,1)

    def forward(self, x):
        x = F.relu(self.linear(x))
        x = torch.sigmoid(self.out(x))
        return x


loss_BCE = torch.nn.BCELoss(reduction='sum')


# 压缩后的特征维度
latent_size = 16

# encoder和decoder中间层的维度
hidden_size = 128

# 原始图片和生成图片的维度
input_size = output_size = 28*28


epochs = 100
batch_size = 32
learning_rate = 1e-5
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

modelname = ['gan-G.pth', 'gan-D.pth']
model_g = Generator(latent_size, hidden_size, output_size).to(device)
model_d = Discriminator(input_size, hidden_size).to(device)

optim_g = torch.optim.Adam(model_g.parameters(), lr=learning_rate)
optim_d = torch.optim.Adam(model_d.parameters(), lr=learning_rate)

try:
    model_g.load_state_dict(torch.load(modelname[0]))
    model_d.load_state_dict(torch.load(modelname[1]))
    print('[INFO] Load Model complete')
except:
    pass


train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=True, download=True,
                   transform=transforms.ToTensor()),
    batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=False, transform=transforms.ToTensor()),
    batch_size=batch_size, shuffle=False)


for epoch in range(epochs):
    Gen_loss = 0
    Dis_loss = 0
    for imgs, lbls in tqdm(train_loader, desc=f'[train]epoch:{epoch}'):
        bs = imgs.shape[0]
        T_imgs = imgs.view(bs, input_size).to(device)
        T_lbl = torch.ones(bs, 1).to(device)
        F_lbl = torch.zeros(bs, 1).to(device)

        sample = torch.randn(bs, latent_size).to(device)
        F_imgs = model_g(sample)
        F_Dis = model_d(F_imgs)

        loss_g = loss_BCE(F_Dis, T_lbl)
        loss_g.backward()
        optim_g.step()
        optim_g.zero_grad()

        # 训练判别器, 使用判别器分别判断真实图像和伪造图像
        T_Dis = model_d(T_imgs)
        F_Dis = model_d(F_imgs.detach())

        loss_d_T = loss_BCE(T_Dis, T_lbl)
        loss_d_F = loss_BCE(F_Dis, F_lbl)
        loss_d = loss_d_T + loss_d_F
        loss_d.backward()
        optim_d.step()
        optim_d.zero_grad()

        Gen_loss += loss_g.item()
        Dis_loss += loss_d.item()
    print(f'epoch:{epoch}|Train G Loss:', Gen_loss/len(train_loader.dataset),
          ' Train D Loss:', Dis_loss/len(train_loader.dataset))

    model_g.eval()
    model_d.eval()
    Gen_score = 0
    Dis_score = 0
    for imgs, lbls in tqdm(test_loader, desc=f'[eval]epoch:{epoch}'):
        bs = imgs.shape[0]
        T_imgs = imgs.view(bs, input_size).to(device)
        sample = torch.randn(bs, latent_size).to(device)

        F_imgs = model_g(sample)

        F_Dis = model_d(F_imgs)
        T_Dis = model_d(T_imgs)

        Gen_score += int(sum(F_Dis >= 0.5))
        Dis_score += int(sum(T_Dis >= 0.5)) + int(sum(F_Dis < 0.5))

    print(f'epoch:{epoch}|Test G Score:', Gen_score/len(test_loader.dataset),
          ' Test D Score:', Dis_score/len(test_loader.dataset)/2)

    model_g.train()
    model_d.train()

    model_g.eval()
    noise = torch.randn(1, latent_size).to(device)
    gen_imgs = model_g(noise)
    gen_imgs = gen_imgs[0].view(28, 28)
    plt.matshow(gen_imgs.cpu().detach().numpy())
    plt.show()
    model_g.train()

    torch.save(model_g.state_dict(), modelname[0])
    torch.save(model_d.state_dict(), modelname[1])

sample = torch.randn(1, latent_size).to(device)
gen_imgs = model_g(sample)
gen_imgs = gen_imgs[0].view(28, 28)
plt.matshow(gen_imgs.cpu().detach().numpy())
plt.show()

dataset = datasets.MNIST('./data', train=False, transform=transforms.ToTensor())
index = 0
raw = dataset[index][0].view(28, 28)
plt.matshow(raw.cpu().detach().numpy())
plt.show()
raw = raw.view(1, 28*28)
result = model_d(raw.to(device))
print('该图为真概率为：', result.cpu().detach().numpy())

运行结果展示：

epoch:0|Train G Loss: 0.6875885964711507  Train D Loss: 0.900547916316986
[eval]epoch:0: 100%|██████████| 313/313 [00:01<00:00, 156.80it/s]
epoch:0|Test G Score: 0.508  Test D Score: 0.746
[train]epoch:1: 100%|██████████| 1875/1875 [00:16<00:00, 115.81it/s]
[eval]epoch:1:   0%|          | 0/313 [00:00

 
  第一个图是刚开始训练时的生成数据，第二个图是训练到50个epochs生成的数据，第三个图是训练到100epochs生成的数据。 
   
  3 总结 
  生成模型是深度学习领域难度较大且较为重要的一类模型。生成对抗网络能够在半监督或者无监督的应用场景下进行生成任务的学习。目前而言，生成对抗网络在计算机视觉、自然语言处理等领域取得了令人惊叹的成果。生成对抗模型是近年来复杂数据分布上无监督学习最具前景的方法之一。

AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Deepoc大模型在半导体技术芯片性能应用协助突破物理极限 Deepoch 人工智能网络智能化 AI 科技数据分析硬件工程信息与通信
半导体垂直大模型在芯片设计中的应用与技术突破半导体垂直大模型（SemiconductorVerticalLLM）是专为芯片设计、制造与优化领域训练的大规模人工智能模型，其通过融合半导体物理、工艺知识、设计规则及行业经验，正在重构芯片开发全流程。以下从设计流程革新、性能优化、可靠性提升三大维度，结合具体技术路径与行业案例，解析其应用场景与价值。Deepoc模型在半导体技术应用中取得了巨大突破，可以协
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
HCCDA – AI华为云人工智能开发者认证-60道单选题题库及答案_华为人工智能入门级开发者认证题库 2401_89172925 人工智能华为云华为
单选题及答案AI模型的评测指标主要分为精度指标和性能指标，以下哪一项不属于常用的性能指标？A.FPS(FramesPerSecond)B.FLOPs(Floating-pointOperationsPerSecond)C.aPs（QueryPerSecond）D．F1值Mask＿Detection技能模板提供了口罩检测技能，针对每个人，若没有检测到人脸，也没有检测到口罩，则会显示什么信息？A.No
Agent-to-Agent (A2A) 协议全面解析：定义、原理、应用与未来 C7211BA a2a llm mcp
Agent-to-Agent(A2A)协议全面解析：定义、原理、应用与未来在人工智能技术迅猛发展的今天，AI智能体(Agent)正从独立运作向协同工作演进，而Agent-to-Agent(A2A)协议作为这一转变的关键基础设施，正在重塑AI生态系统的协作方式。本文将从A2A协议的基本定义出发，深入剖析其设计原则、核心机制、技术实现、与MCP协议的对比关系、安全考量以及实际应用场景，帮助读者全面理解
大模型的“Tomcat”：一文读懂AI推理引擎（Inference Engine) 人工智能
本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网1推理引擎是啥？从熟悉的“服务器”说起，想象你用Java写好了一个业务应用，如订单处理服务，打成一个JAR或WAR包。这包能直接
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
推动视觉AI边界，智象未来HiDream荣登全球技术先锋榜单雷焰财经人工智能 AIGC 计算机视觉
近日，世界经济论坛“全球技术先锋”荣誉榜单正式揭晓，智象未来HiDream凭借尖端技术成就入选。智象未来HiDream成立于2023年3月，是一家专注于多模态AIGC技术应用的公司，由加拿大工程院外籍院士IEEE/IAPR/CAAIFellow梅涛博士创立。回顾过往，众多知名企业，如Airbnb、Google、Twitter和Spotify等，都曾获得世界经济论坛的“全球技术先锋”称号。然而，今年
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l