Hanxy_Robin

论文阅读笔记|论文总结 AdaGAN、GAIL、SeqGAN等四篇

论文总结

文章目录

论文总结

AdaGAN: Boosting Generative Models
A Connection Between GAN, IRL and EBM
Generative Adversarial Imitation Learning

Motivation
Summary
Deficiency

SeqGAN

Motivation
Summary
Deficiency

Diss

AdaGAN: Boosting Generative Models

AdaGAN论文阅读笔记

A Connection Between GAN, IRL and EBM

###Motivation

Then maximizing likelihood will lead to a distribution which “covers” all of the modes, but puts most of its mass in parts of the space that have negligible density under the data distribution.

A generator trained adversarially will instead try to “fill in” as many of modes as it can.

Complex multimodal distribution很难通过maximize likelihood评估密度分布。它会将尽可能地覆盖 $P_{data}$ 而使其 $P_{G}$ 主要分布在各个mode之间的空白区域；而GAN则会尽量填满 $P_{data}$ 而使 $P_G$ 更接近 $P_{data}$ 。

###Summary

IRL methods are in fact mathematically equivalent to GANs.

In particular, a sample-based algorithm for maximum entropy IRL and a GAN.

Definition

Boltzmann distribution

$p_{\theta}(\tau)=\frac{1}{Z}e^{-E_{\theta}(\tau)}$ .

Partition function

$Z=\int{e^{-E_{\theta}(x)}dx}$ .

Discriminator loss

$\mathcal{L}_{discriminator}(D)=\Bbb{E}_{x \sim p}[-\log D(x)]+\Bbb{E}_{x \sim G}[-\log (1-D(x))]$ .

Generator loss

$\mathcal{L}_{generator}(G)=\Bbb{E}_{x \sim G}[-\log D(x)]+\Bbb{E}_{x \sim G}[\log (1-D(x))]$ .

Calculation

使用cost function $c_{\theta}$ 表示energy $E_{\theta}$ 。

$Z=\int{e^{-c_{\theta}(\tau)}d\tau}$

使用sampling distribution $q(\tau)$ 估算 $Z$ 。

$\mathcal{L}_{cost}(\theta)=\Bbb{E}_{\tau \sim p}[c_{\theta}(\tau)]+\log{(\Bbb{E}_{\tau \sim q}[\frac{e^{-c_{\theta}(\tau)}}{q(\tau)}])}$

通常最小化 $q(\tau)$ 与 $\frac{1}{Z}e^{-c_{\theta(\tau)}}$ 的KL散度来更新 $q(\tau)$ ，其等价于最小化learned cost同时最大化熵值（最小化交叉熵等价于最小化KL散度，花书P49）。

$\mathcal{L}_{sampler}(q)=\Bbb{E}_{\tau \sim q}[c_{\theta}(\tau)]+\Bbb{E}_{\tau \sim q}[\log{q(\tau)}]$

为了防止 $q(\tau)$ 方差过大。我们设mixture distribution $\mu=\frac{1}{2}p+\frac{1}{2}q$ 其中 $\widetilde p(\tau)$ 为demonstration distribution的粗略估算。

$\mathcal{L}_{cost}(\theta)=\Bbb{E}_{\tau \sim p}[c_{\theta}(\tau)]+\log{(\Bbb{E}_{\tau \sim \mu}[\frac{\exp({-c_{\theta}(\tau)})}{\frac{1}{2}\widetilde p+\frac{1}{2}q}])}$

Conclusion

$Z=\Bbb{E}_{\tau \sim \mu}[\frac{exp(-c_{\theta}(\tau))}{\widetilde{\mu}}]$ .

$\partial_{\theta} \mathcal{L}_{cost}(\theta)= \partial_{\theta} \mathcal{L}_{discriminator}(D_\theta)$ .

$\mathcal{L}_{generator}(q)=\mathcal{L}_{cost}(\theta)+\Bbb{E}_{\tau \sim q}[\log q(\tau)]=\log Z + \mathcal{L}_{sampler}(q)$ .

最小化Discriminator loss的 $Z$ 的值可以由重要性采样（花书p285）partition function得到；
对于此 $Z$ 值，Discriminator loss与IRL cost的偏微分相等，即二者梯度下降等价；
Generator loss等于IRL cost减去 $q(\tau)$ 的熵值。

###Deficiency

只做了理论推导，没有做出相关实验。
假设对demonstration distribution的组略估算已经具有较好的效果（IRL 算法的常用假设）。

Generative Adversarial Imitation Learning

Motivation

One approach is to recover the expert’s cost function with inverse reinforcement learning, then extract a policy from that cost function with reinforcement learning. The approach is indirect and can be slow.

instantiation

通过逆强化学习得到专家路线的cost function在通过强化学习得到策略是一种间接的过程（一次逆强化学习中需要多步强化学习的循环）。本文通过GAN，从数据中直接提取策略，就好像是通过逆强化学习后的强化学习，是一种即时性的学习方法。

Summary

Definition

Expectation with respect to the trajectory

$\Bbb{E}_\pi[c(s,a)] \triangleq \Bbb{E}[\sum _{t=0}^{{\infty}\gamma}t c(s_t,a_t)] $,where $ s_0 \sim p_0, a_t \sim \pi(\cdot |s_t)$, and $s_{t+1} \sim P(\cdot | s_t,a_t)$ for $\ge 0$ .

Maximum causal entropy IRL

$\max_{c \in \mathcal{C}}(\min_{\pi \in \Pi} -H(\pi) + \Bbb{E}_\pi[c(s,a)])-\Bbb{E}_{\pi_{E}}[c(s,a)]$ where $H(\pi) \triangleq \Bbb{E}_\pi [-\log \pi (a|s)]$ .

(Maximum causal entropy IRL looks for a cost function c that assigns low cost to the expert policy and high cost to other policies.)

Minimize the expected cumulative cost

${\arg \min}_{\pi \in \Pi} -H(\pi) + \Bbb{E}_{\pi}[c(s,a)]$ .

IRL primitive procedure

$IRL_{\psi}(\pi _ {E}) = \arg \max _ {c \in \Bbb{R}^{\mathcal{S} \times \mathcal{A} }} -\psi© + (\min_{\pi \in \Pi} -H(\pi) + \Bbb{E}{\pi}[c(s,a)]) - \Bbb{E}{\pi _ E}[c(s,a)] $.

(Where cost regularized by $\psi$ , a (closed, proper) convex function.)

Occupancy measure

$\rho_\pi : \mathcal{S} \times \mathcal{A} \to \Bbb{R}$ as $\rho _ \pi (s,a) = \pi(a|s)\sum_{t=0}^{\infty} \gamma^t P(s_t = s|\pi)$ .

(Interpreted as the distribution of state-action pairs with policy $\pi$ )

Calculation

将Occupancy measure代入Expectation式中

$\Bbb{E}_\pi[c(s,a)]=\sum_{s,a}\rho_\pi(s,a)c(s,a)$

（显然这里的 $\rho_\pi(s,a)$ 已经就是一种概率分布，依据概率分布算期望）

可以证明，policy $\pi_\rho(a|s)$ 是occupancy measure $\rho(s,a)$ 唯一对应的policy，即。

$\pi_\rho(a|s) \triangleq \rho(s,a)/ \sum_{a'}\rho(s,a')$

描述 $RL(\widetilde c)$ ，即RL根据IRL学习到的policy

$RL \circ IRL_\psi(\pi_E)=\arg \min_{\pi \in \Pi} -H(\pi) + \psi^*(\rho_\pi - \rho_{\pi_E})$

(convex conjugate $f^*$ ，凸共轭)

IRL的目标是寻找一个鞍点，而RL则去揭示其他鞍点。

我们考虑policy和occupancy measure两种熵

$H(\pi) \triangleq \Bbb{E}_{\pi}[-\log \pi (a|s)] = -\sum_{s,a} \pi(a|s) \log \pi (a|s)$

$\bar H(\rho) \triangleq \Bbb{E}_{\rho}[-\log \pi_\rho(a|s)] = - \sum_{s,a} \rho(s,a) \log(\rho(s,a)/ \sum_{a'}\rho(s,a'))$

可以证明

$H(\pi) = \bar H(\rho_\pi)$

$\bar H(\rho) = H(\pi_\rho)$

设

$L(\pi,c)=-H(\pi)+\Bbb{E}_\pi[c(s,a)]$

$\bar L(\rho,c) = -\bar H(\rho) + \sum_{s,a}c(s,a)( \rho(s,a)-\rho_{\pi_E}(s,a))$

可以证明

$L(\pi,c)=\bar L(\rho_\pi,c)$

$\bar L(\rho,c)=L(\pi_\rho,c)$

上述过程，讲述了如此一个推论，policy和occupancy measure是双射的。

通过构建一个cost regularize

$\psi_{GA}(c) \triangleq \begin{cases} \Bbb{E}_{\pi_E}[g(c(s,a))], & \text{if $c < 0$}\\ +\infty , & \text{otherwise} \end{cases}$

$g(x)=\begin{cases} -x-\log(1-e^x), & \text{if $x < 0$} \\ + \infty , & \text{otherwise} \end{cases}$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FdH6dU2W-1593782415193)(C:\Users\hasee007\AppData\Local\Temp\1525432340607.png)]

构建这个cost regularizer的动机是

$\psi^*_{GA}(\rho_\pi - \rho_{\pi_E}) = \max_{D \in (0,1)^{\mathcal{S} \times \mathcal{A} }} \Bbb{E}_\pi [\log(D(s,a))] + \Bbb{E}_{\pi_E}[\log(1-D(s,a))]$

后者是Jensen-Shannon divergence表达的original GAN。至此，将Imitation Learning与GAN通过凸共轭变换从理论上联系起来。

Conclusion

寻找表达式（Loss function）

$\Bbb{E}_{\pi}[\log(D(s,a))]+\Bbb{E}_{\pi_E}[\log(1-D(s,a))]-\lambda H(\pi)$

鞍点 $(\pi,D)$ ：

使用Adam gradient在 $D_\omega$ 的参数 $\omega$ 使表达式上升；
使用TRPO在 $\pi_\theta$ 的参数 $\theta$ 使表达式下降。

关于这个表达式：

前半部分为Jensen-Shannon divergence（李宏毅PPT GAN P32），同时也是original GAN，通过构建cost regularizer $\psi^*_{GA}$ 做凸共轭变换，并将 $c(s,a)=\log(D(s,a))$ 得到；
后半部分为policy的熵值。

Deficiency

在训练中，对于环境交互的样本效率不高（？），由于TRPO本身需要一些样本数量才能有用（？）。

It is not particularly sample efficient in terms of environment interaction during training.

model free需要更多的环境交互。

SeqGAN

Motivation

GAN has limitations when the goal is for generating sequences of discrete tokens.

The discrete outputs from the generative model make it difficult to pass the gradient update from the discriminative model to the generative model.

The discriminative model can only assess a complete sequence.

It is nontrivial to balance its current score and the future.

生成模型的离散序列输出很难将辨别模型的梯度更新传递回离散模型（可由RL算法解决）。
辨别模型需要对完整的序列进行辨别，如果部分生成序列时，需要平衡当前得分与未来得分（此文用Monte Carlo搜索解决，我们可以用ADA-IRL算法来解决）。

Summary

GAN is designed for generating real-valued, continuous data but has difficulties in directly generating sequences of discrete tokens. The “slight change” makes little sense.

GAN can only give the score loss for an entire sequence when it has been generated.

GAN应用于序列生成时有两大缺点：

GAN的设计目的是生成连续的实数，它利用辨别模型给出的判断对生成模型做微小的工作，然而对于离散模型而言，这种微小的工作不足以使之从有限的字典空间里找到对应的生成；
GAN的辨别模型只能对完整的生成结果进行辨别。

The generative model is treated as an agent of RL; the state is the generated tokens so far and the action is the next token to be generated;

Employ a discriminator to evaluate the sequence and feedback the evaluation to guide the learning of the generative model;

Regard the generative model as a stochastic parametrized policy.

Employ Monte Carlo search to approximate the state-action value.

相应的解决方案：

将生成模型当作一个RL agent，将当前生成当作state，下一步生成当作action（RL基本思路）；
建立一个Discriminator，来评估序列，并反馈给生成模型（Discriminator作为reward function）；
将生成模型是做一个随机参数化的策略（应该是为了公式推导方便，这里即可使用概率分布来表达policy正如GAIL中一样）；
SeqGAN中使用蒙特卡罗搜索（可能耗费较多计算资源）解决缺点2；我们使用IRL的时候对于每一个state-action对都会有一个reward，再将这些reward做 $\gamma$ discounted累加（Q Learning、Sarsa Lambda Learning的思想）即可。

D is trained over the real data and the generated data by G.
G is trained by policy gradient where the final reward signal is provided by D and is passed back to the intermediate action value via Monte Carlo search.

Definition

Generator

$G_\theta(y_t|Y_{1:t-1})$ 可以表达为Sequence： $Y_{1:T}=(y_1,...,y_t,...,y_T),y_t \in \mathcal{Y}$ ，即In timestep $t$ , state $y_1,...,y_{t-1})$ , action $y_t$ .

Expected end reward

$J(\theta) = \Bbb{E}[R_T|s_0, \theta] = \sum _ {y_1 \in \mathcal{Y}} G_\theta(y_1|s_0) \cdot Q_{D_\phi} ^ {G_\theta}(s_0,y_1)$

N-time Monte Carlo search

$\{ Y_{1:T}^1,...,Y_{1:T}^N \} = MC^{G_\beta}(Y_{1:T};N)$

Action-value function

$Q_{D_\phi}^{G_\theta}(s=Y_{1:T-1},a=y_T) = \begin{cases} \frac{1}{N} \sum_{n=1}^N D_\phi (Y_{1:T}^n), Y_{1:T}^n \in MC^{G_\beta}(Y_{1:t};N) , & \text{for $t < T$ } \ D_\phi(Y_{1:t}), & \text{for $t = T$ } \end{cases}$

Training

Update Discriminator

$\min _ \phi - \Bbb{E}_{Y \sim p_{data} } [\log D_\phi(Y)] - \Bbb{E}_{Y \sim G_\theta} [\log (1-D_\phi (Y))]$

Update Generator

$\theta \leftarrow \theta + \alpha_h \nabla_{\theta}J(\theta)$

Deficiency

使用Monte Carlo搜索求未来状态奖励的平均值；
使用一个CNN作为Discriminator，先将生成序列作为列向量concatenation成为一个矩阵，再做卷积和max-over-time pooling。

Diss

Behavioral cloning only tends to succeed with large amounts of data, due to compounding error caused by covariate shift.

Behavioral cloning 毕竟是一种supervised learning。

Many IRL algorithms are extremely expensive to run, requiring reinforcement learning in an inner loop.

IRL算法最大的问题在于其间接获得policy，即使用一个RL算法作为内循环。（讲道理，IRL都是这么干的）

Scheduled sampling(partially fed with its own synthetic data as prefix) is an inconsistent training strategy and fails to address the problem fundamentally.

SS算法会使训练结果一致性不好（？）。

GAN is designed for generating real-valued, continuous data but has difficulties in directly generating sequences of discrete tokens. The “slight change” makes little sense.

GAN can only give the score loss for an entire sequence when it has been generated.

GAN应用于序列生成时有两大缺点：

GAN的设计目的是生成连续的实数，它利用辨别模型给出的判断对生成模型做微小的工作，然而对于离散模型而言，这种微小的工作不足以使之从有限的字典空间里找到对应的生成；
GAN的辨别模型只能对完整的生成结果进行辨别。

不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
DeepSeek解读道德经第五十九章 cal_ 道德经道德经
一、原文与译文原文：治人事天，莫若啬。夫唯啬，是谓早服；早服谓之重积德；重积德则无不克；无不克则莫知其极；莫知其极，可以有国；有国之母，可以长久。是谓深根固柢，长生久视之道。译文：治理百姓侍奉天道，没有比珍爱能量更重要的。唯有珍惜能量，才叫早作准备；早作准备就是厚积德性；厚积德性则无往不胜；无往不胜则力量无穷；力量无穷便可守护国家；掌握治国根本，方能长久延续。这便是根深柢固、长生久存之道。二、核心
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
数据不Ready，一切AI Ready都是伪命题
2025年随着DeepSeekR1通用大模型的爆火，企业级AI应用元年正式来临。“AIReady”这个词随之火了起来，但什么是AIReady？是有了大模型接口，就是Ready？是买了GPU服务器，就能跑出结果？显然不是。在袋鼠云看来，AIReady不等于模型Ready，而是数据Ready。没有可用、可控、可理解的数据，AI只能是空中楼阁。AIReady，首先是DataReady。别让AIReady
小诗《苦》赏析（“诗人”我/智普清言/DeepSeek）梦幻精灵_cq 笔记学习
苦有万千分好坏，人成百样须努力。笔记模板由python脚本于2025-07-1107:22:06创建，本篇笔记适合喜欢中文诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖免费“圣
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
Spring AI 项目实战（十五）：DeepSeek驱动的智能问诊系统实战-从0到1构建AI医疗问诊平台（附完整源码）程序员岳彬 SpringAI 人工智能 spring java ai 后端
智能问诊系列文章序号文章名称1SpringAI项目实战（一）：SpringAI核心模块入门2SpringAI项目实战（二）：SpringBoot+AI+DeepSeek深度实战（附完整源码）3
vue 侦听器watch 之深度监听 deep 以及 immediate 别来打扰我 vue综合基础知识 vue
FullName:{{person.fullname}}FirstName:exportdefault{data(){return{person:{firstname:‘Menghui‘,lastname:‘Jin‘,fullname:‘‘}}},watch:{person:{handler(n,o){this.person.fullname=n.firstname+‘‘+this.person.
Vue 中监测路由变化时，通常不需要开启深度监听（deep: true）咔咔咔索菲斯 vue.js javascript 前端
1.路由变化的本质：引用地址改变Vue路由的核心对象是$route（或通过useRoute()获取的路由对象），当路由发生变化（如跳转页面、参数改变）时，VueRouter会创建一个新的$route对象，而不是修改原有对象的属性。例如：从/home?id=1跳转到/home?id=2时，$route是一个全新的对象（引用地址改变），而非在原对象上修改query.id。这种情况下，普通监听（不开启d
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
少样本图学习（few-shot learning on graph）知识背景 so.far_away 网络空间安全学习机器学习人工智能
Few-ShotLearningonGraph少样本学习简介少样本图学习简介1.SupportSet和QuerySet（针对单个任务）（1）SupportSet（支持集）（2）QuerySet（查询集）2.BaseData和NovelData（针对整个数据集）（1）BaseData/Classes（基类数据）（2）NovelData/Classes（新类数据）少样本学习简介少样本学习（FSL）旨在
在IDEA中无缝接入DeepSeek：智能编程助手指南摆烂大大王 deepseek intellij-idea java ide deepseek AIGC
一、为什么要在IDEA中使用DeepSeek？DeepSeek作为先进的AI编程助手，能提供：智能代码补全与建议实时错误检测与修复方案代码解释与文档生成复杂算法实现建议多语言支持（Python/Java/JS等）二、接入前准备获取API密钥访问DeepSeek官网注册账号在控制台创建APIKey并保存IDEA环境要求IntelliJIDEA2020.3+安装HTTPClient插件（已内置）三、两
Building Apps with AI Tools: ChatGPT, Semantic Kernel, and Langchain 项目推荐滕娴殉
BuildingAppswithAITools:ChatGPT,SemanticKernel,andLangchain项目推荐building-apps-with-ai-tools-chatgpt-semantic-kernel-langchain-4469616ThisisacoderepositoryfortheLinkedInLearningcourseBuildingAppswithAIT
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 czijin 人工智能 deep learning
全球DeepFake攻防挑战赛&DataWhaleAI夏令营——图像赛道赛题背景随着人工智能技术的迅猛发展，深度伪造技术（Deepfake）正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性，同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容，这些内容看起来与真实的毫无二致。然而，这也意味着虚假信息、欺诈行为和隐
量子计算突破：8比特扩散模型实现指数级加速晨曦543210 人工智能
目录一、量子扩散模型（QuantumDiffusion）二、DNA存储生成（Biological-GAN）三、光子计算加速四、神经形态生成五、引力场渲染六、分子级生成七、星际生成网络八、元生成系统极限挑战方向一、量子扩散模型（QuantumDiffusion）量子线路模拟经典扩散过程fromqiskitimportQuantumCircuitfromqiskit_machine_learning.
AI让我焦虑，可有解药？大虫小呓人工智能 AIGC
被AI相关的信息搞焦虑了？这波以生成式人工智能为核心的生产力变革浪潮，从23年开始短短的两年时间里一浪接一浪的奔涌而来，从ChatGPT、AGI，到多模态大模型、Agent、Cursor，到DeepSeek、Manus，到近期的MCP协议、A2A协议等各种新概念、应用或工具的信息接连不断的往我们的脑子冲进来。就像被连续扇耳光，上一个还没反应过来下一个又来了，被扇得脑袋瓜子嗡嗡的！我发现一个普遍的现
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

论文阅读笔记|论文总结 AdaGAN、GAIL、SeqGAN等四篇

论文总结

文章目录

AdaGAN: Boosting Generative Models

A Connection Between GAN, IRL and EBM

Generative Adversarial Imitation Learning

Motivation

Summary

Deficiency

SeqGAN

Motivation

Summary

Deficiency

Diss

你可能感兴趣的:(Reinforcement,Learning,Deep,Learning)