songrotek

Paper Reading - Playing Atari with Deep Reinforcement Learning

来源：NIPS 2013

作者：DeepMind

理解基础：

增强学习基本知识
深度学习特别是卷积神经网络的基本知识

创新点：第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略

具体是将卷积神经网络和Q Learning结合在一起。卷积神经网络的输入是原始图像数据（作为状态）输出则为每个动作对应的价值Value Function来估计未来的反馈Reward

实验成果：使用同一个网络学习玩Atari 2600 游戏，在测试的7个游戏中6个超过了以往的方法并且好几个超过人类的水平。

在这篇文章中，还只是测试7个游戏，到了Nature的文章则测试了更多的游戏，并且取得了更好的效果

优点：

算法具备通用性，一样的网络可以学习不同的游戏（当然，游戏具有相似性）
采用End-to-End的训练方式，无需人工提取Feature（比如游戏中敌人的位置等等）
通过不断的测试训练，可以实时生成无尽的样本用于有监督训练（Supervised Learning）

缺点：

由于输入的状态是短时的，所以只适用于处理只需短时记忆的问题，无法处理需要长时间经验的问题。（比如玩超级玛丽）
使用CNN来训练不一定能够收敛，需要对网络的参数进行精良的设置才行。

改进办法：

使用LSTM 来增强记忆性？
改进Q-Learning的算法提高网络收敛能力。

详细分析

1 前言介绍 Introduction

提出问题：

直接从高维的输入（比如视觉或听觉）来学习一个控制策略是 RL增强学习的长期挑战。个人理解：这个问题是人工智能抽象出来的极其重要的子问题，因为人类都是通过视觉听觉触觉等感觉然后来学习一项技能，比如玩游戏，打篮球，洗碗等等。解决这个问题的意义在于机器人不一定可以具有自我意识，但是却可以实现 机器人彻底代替重复性劳动 的愿景。

以往的解决办法：

人工提取特征（比如物体的位置）
使用线性的value function或者policy策略来表征

性能的好坏主要取决于特征提取的好坏

Deep Learning 带来的机会

当前，深度学习已经在视觉，语音等领域取得突破性进展，根本的方法就是通过神经网络自动提取复杂特征。所以，很自然的我们会考虑一个问题：
增强学习能否收益于深度学习

答案当然是YES

从RL看结合Deep Learning的困难之处

深度学习的成功依赖于大量的有标签的样本，从而进行有监督学习。而增强学习只有一个reward返回值，并且这个值还常常带有噪声，延迟，并且是稀少的（sparse），理解是不可能每个state给个reward。特别是延迟Delay，常常是几千毫秒之后再返回。
深度学习的样本都是独立的，而RL中的state状态却是相关的，前后的状态是有影响的，这显而易见。
深度学习的目标分布是固定的。一个图片是车就是车，不会变。但增强学习，分布却是一直变化的，比如超级玛丽，前面的场景和后面的场景不一样，可能前面的训练好了，后面又不行了，或者后面的训练好了前面又用不了了。

从上面分析出增强学习要结合深度学习存在的三个问题：

没有标签怎么办？
样本相关性太高怎么办？
目标分布不固定怎么办？

确实，如果没有这篇文章的突破性创新，我们如何知道怎么解决这三个问题。这篇文章至少解决了前两个问题及部分解决了第三个问题。

解决之道 CNN + Q-Learning = Deep Q Network

通过Q-Learning使用reward来构造标签
通过experience replay的方法来解决相关性及非静态分布问题

实验环境

使用Arcade Learning Environment 来训练Atari 2600 游戏。
- 目标：使用一个基于神经网络的agent来学习玩各种游戏，玩的越多越好。
- 输入：要求只输入图像数据和得分，和人类基本一样
- 输出：控制动作
- 要求：对于不同游戏，网络的结构及顶层参数设定一样

背景知识 Background

要理解这篇文章，没有背景知识是很难的，虽然作者在这里介绍了一下RL的基本知识及Q-learning算法以及采用神经网络来代替Q矩阵的方法，但篇幅太短，没有基础很难理解。

核心就是几个公式：Q-learning ，用neural network的loss function，梯度公式。

有了这几个公式支撑，整个算法也就理解一半了。
关于背景知识这一块这里不进行分析了，之后专门进行介绍。

TD-gammon

看到这里才知道实际上并不是Deepmind第一次将神经网络用于RL，TD-gammon使用了MLP(Multi-layer percetron)也就是一般的神经网络，一个隐藏层（hidden layer）来训练。并且将其应用到了玩backgammon游戏上取得了人类水平。但是很可惜的是，当时人们把算法用到其他游戏象棋围棋并不成功，导致人们认为TD-gammon算法只适用于backgammon这个特殊的例子，不具备通用性。

本质上，使用神经网络是为了模拟一个非线性的函数（value或者policy都行，比如flappy bird，设定它上升到一个高度下降这就是一个分段函数）。人们发现，将model-free的算法比如Q-learning与非线性函数拟合的方法（神经网络是一种）很容易导致Q-network发散。因此，大部分的工作就使用线性的函数拟合（linear function approximation），收敛性好。

其他人

显然不是Deepmind第一个想到把深度学习和增强学习结合在一起的。之前也有人尝试用深度神经网络来估计环境environment，估值函数value function或者policy策略。这实际上是三个Deep Learning与Reinforcement Learning结合的思路
并且结合Q-learning发散的问题也被Gradient temporal-difference 方法部分解决。（这个方法具体是神马还有待学习）
这些方法用在使用非线性来估计固定策略或者使用线性来估计一个控制策略还是证明可以收敛的。但是这些方法还没有拓展到非线性控制nonlinear control。

这就是研究点！！！！

最相近的工作 NFQ

采用同样的loss function，但是使用RPROP（不懂）来更新参数，问题是采用batch update而不是sgd 需要更多的计算开销而且取决于数据集的大小。

采用deep autoencoder，也是使用visual input。但是不同的是，NFQ是把特征提取和增强学习分开进行的。先提取特征，再应用NFQ训练。
而Deepmind是End-to-End。学习的特征和最后的动作价值是直接关联的。也就是学习什么特征也是网络决定

关于Atari 2600 模拟器

使用它做增强学习研究之前就有，但采用的是线性函数估计和获取的视觉特征（linear function approximation and generic visual features) 总之之前是人工提取特征，降维。
HyperNEAT使用神经网络来代替一个策略，但不同游戏用不同的网络。

Deep reinforcement learning

目标

当前深度学习的方式核心在于采用大量的数据集，然后使用SGD进行权值的更新。所以，这里的目标就是将增强学习的算法连接到深度神经网络中，然后能直接输入RGB的原始图像，并使用SGD进行处理。

对比TD-gammon的改进之处

实际上TD-gammon的思路就是上面的思路，只是训练是直接获取experience样本进行训练，也就是on-policy。而关键是这个算法是20年前的了。所以，经过20年的硬件发展以及深度学习的发展，没有理由说无法在这上面取得突破。

相比于TD-gammon的在线学习方式，Deepmind使用了experience replay的技巧。简单的说就是建立一个经验池，把每次的经验都存起来，要训练的时候就随机的拿出一个样本来训练。这样就可以解决状态state相关的问题。以此同时，动作的选择采用常规的 ϵ -greedy policy。就是小概率选择随机动作，大概率选择最优动作。

然后呢输入的历史数据不可能是随机长度，这里就采用固定长度的历史数据，比如deepmind使用的4帧图像作为一个状态输入。

整个算法就叫做Deep-Q-Learning。

Deep-Q-Learning

算法就是如下了：

算法分析：
1. 训练分成M个episode，每个episode训练T次。我的理解就是比如玩游戏，一局是一个episode，一局里面有很多时间片，就训练多少次，次数不固定。重启新的episode主要是初始化state 作为新的第一个，而不是用上一局的最后的状态作为state输入。
2. 实际上每个循环分成两部分：一部分是输出动作并存储。一部分是随机从经验池里取出minibatch个transitions，然后计算target，根据loss function通过RMSProp更新参数。（minibatch是什么意思？）
3. 这里的算法我们可以看到，参数是一直更新的，而Nature的算法改进了，计算target用的是之前的参数。具体算法的变化等之后分析Nature的文章再说。

算法优点对比standard online Q-learning

每一步的经验都能带来很多权值的更新，拥有更高的数据效率（个人不是很理解这作为一个优点，以前的算法就没有吗？）
就是experience replay的优势，打破数据的相关性，降低数据更新的不确定性variance。
experience replay的另一个优点就是不容易陷入局部最优解或者更糟糕的不收敛。如果是on-policy learning，也就是来一个新的经验就学一个。那么下一个动作就会受当前的影响，如果最大的动作是向左，那么就会一直向左。使用experience replay 获取的行为的分布就比较平均，就能防止大的波动和发散。也因此，这是一个off-policy的学习。

实际应用中，只存储N个经验在经验池里（毕竟空间有限嘛）这个方法的局限性就是这个经验池并没有区分重要的转移transition，总是覆盖最新的transition。
所以，采用有优先级的使用memory是一个更好的方式。这也就是阿蒙说的引导的经验池。

预处理与网络模型架构

因为输入是RGB，像素也高，因此，对图像进行初步的图像处理，变成灰度矩形84*84的图像作为输入，有利于卷积。
接下来就是模型的构建问题，毕竟Q(s,a)包含s和a。一种方法就是输入s和a，输出q值，这样并不方便，每个a都需要forward一遍网络。

Deepmind的做法是神经网络只输入s，输出则是每个a对应的q。这种做法的优点就是只要输入s，forward前向传播一遍就可以获取所有a的q值，毕竟a的数量有限。

具体的模型架构如下：

实验

测试7个游戏
统一不同游戏的reward，正的为1，负的为-1，其他为0。这样做a,R的好处是限制误差的比例并且可以使用统一的训练速度来训练不同的游戏
使用RMSProp算法，就是minibatch gradient descent方法中的一种。Divide the gradient by a running average of its recent magnitude. 梯度下降有很多种方法包括（SGD,Momenturn,NAG,Adagrad,Adadelta,Rmsprop) 相关问题以后再分析。
ϵ -greedy 前1百万次从1 下降到0.1，然后保持不变。这样一开始的时候就更多的是随机搜索，之后慢慢使用最优的方法。
使用frame-skipping technique,意思就是每k frame才执行一次动作，而不是每帧都执行。在实际的研究中，如果每帧都输出一个动作，那么频率就太高，基本上会导致失败。在这里，中间跳过的帧使用的动作为之前最后的动作。这和人类的行为是一致的，人类的反应时间只有0.1，也是采用同样的做法。并且这样做可以提速明显的。那么这里Deepmind大部分是选择k=4，也就是每4帧输出一个动作。

训练

如何在训练的过程中估计训练的效果在RL上是个Challenge。毕竟不像监督学习，可以有training 和validation set。那么只能使用reward，或者说平均的reward来判定。也就是玩的好就是训练的好。

但是存在问题就是reward的噪声很大，因为很小的权值改变都将导致策略输出的巨大变化，从文章的途中可以看出：

以此同时，平均Q值的变化却是稳定的，这是必然的，因为每次的Target计算都是使用Q的最大值。：

而且很关键的是所有的实验都收敛了！！！

虽然没有理论支持为什么保证收敛，但是就是实现了，Deepmind的方法可以在一个稳定的状态下使用大规模的深度神经网络结合增强学习。

显示Value Function

就是看一下每一帧的Q值变化，看了之后答案是惊人的：

在敌人出现时，Q值上升，快消灭敌人时，Q值到顶峰，敌人消失，Q值回到正常水平。这说明Q值确实代表了整个复杂的状态。实际上到后面发现，整个神经网络可以同时跟踪多个图上的目标：

算法评估

算法对比了。
- Sarsa算法。使用Sarsa算法学习一个线性的policy，采用手工获取的特征。
- Contingency算法。采用和Sarsa相同的方法，但是通过学习部分屏幕的表达增强了特征。
上面的方法的特征提取都采用传统的图像处理方法比如背景减除。
总之就是特征提取方式落后。Deepmind的算法是原始输入计算机需要自己去detect物体。（直接解决了detection和tracking的问题）

以此同时，当然是对比人类的水平了。人类的得分是人类玩两小时的结果，反正是蛮高的。但deepmind的方法有几个超过人类
对比的列表就不复制了，总而言之就是方法好，原始输入，并且在使用 ϵ 为0.05的得分还比其他方法强。

总结Conclusion

这篇文章采用了一个全新的方法结合深度学习和增强学习，可以说是deep reinforcement learning的开山之作。采用stochastic minibatch updates以及experience replay的技巧。效果很强，具有通用性。

【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
常见大模型框架 AI小夜 ai
生成对抗网络（GAN）类似框架StyleGAN（及其变体StyleGAN2和StyleGAN3）：开发者：NVIDIA特点：能够生成极高质量的图像，广泛应用于人脸生成、艺术创作等领域。BigGAN：开发者：DeepMind特点：在大规模数据集上训练的高质量图像生成模型，特别适用于高分辨率图像生成。CycleGAN：特点：用于图像到图像的转换任务，如风格迁移，无需成对的训练数据。Pix2Pix：特点
2024.8.14-算法学习（原创+转载）蓝纹绿茶算法学习人工智能
一、投机采样图源自投机采样推理原理-66Ring'sBlog投机采样（SpeculativeDecoding）是Google和DeepMind在2022年同时发现的大模型推理加速方法。它可以在不损失生成效果前提下，获得3x以上的加速比。大型语言模型（LLM）的推理通常需要使用自回归采样。它们的推理过程相当缓慢，需要逐个token地进行串行解码。生成每个标记都需要将所有参数从存储单元传输到计算单元，
王先森日记第49篇：介绍介绍阿尔法狗背后的人工智能公司王先森科技日记
AlphaGo先是战胜了李世石，随后横扫了围棋界的所有选手，今年还战胜了围棋界排名第一的国际冠军柯洁。基本已经形成一个共识，在围棋领域“人类再也不可能战胜人工智能了”。而AlphaGo就是DeepMind公司开发的。介绍DeepMind，首先得介绍它的创始人，他叫DemisHassabis，这个人是个名副其实的大牛人。他从小就是神童，13岁的时候就成为了国际象棋大师，等级分在全球14岁以下棋手当中
全球知名语音大模型介绍科学禅道大模型专栏语音大模型深度学习人工智能语音识别
全球知名的语音大模型包括但不限于以下几种：OpenAIWhisper：OpenAI于2022年发布的Whisper是一个大规模的多语言端到端语音转文本模型，它能够在多个语种上实现高质量的自动语音识别（ASR），并且具备一定的翻译能力。目前最新版本是OpenAIWhisperV3，发布时间为2023年11月7日。DeepMindWaveNet：DeepMind开发的WaveNet是一种开创性的神经网
DeepMind Q&A Dataset-那些著名的数据集 readilen
2015年Hermann等创立的两个非常棒的用于问答研究的数据集，分别包含90k和197k个文档，，每个文档平均有4个问题。每个问题都是一个带有一个缺失单词/短语的句子，可以从随附的文档/上下文中找到。原作者热心地发布了脚本和附带的文档来生成数据集,但是并不太好用。纽约大学整理了数据集。我们又在该数据集基础上利用斯坦福nlp实验的分词工具进一步加工。CNNQuestions:hereStories
谷歌内部开发AI大语言模型“鹅”；OpenAI CEO 寻求大规模AI芯片全球生产投资 go2coding AI日报人工智能语言模型自然语言处理
AI新闻谷歌内部开发AI大语言模型“鹅”摘要：谷歌正在积极将AI技术融入其产品中，并为提升员工效率而开发了一个名为“鹅”的AI大语言模型。这一模型仅供公司内部团队使用，旨在辅助新产品的开发。据悉，“鹅”基于Google“25年的工程专业知识”训练而成，能回答与谷歌特定技术相关的问题，并支持基于自然语言提示编辑代码等新功能。它是由GoogleBrain、DeepMind以及谷歌内部基础设施团队合作开
在充斥着人工智能的时代，职场人要如何前行？媛姐说职场
日前，新华社在第五届世界互联网大会上发布全球首个合成新闻主播——“AI合成主播”，运用最新人工智能技术，“克隆”出与真人主播拥有同样播报能力的“分身，让多少人艳羡的播音员也将职位不保；在今日头条上，一个名叫小明的机器人写作收获过单篇十万+，作家也正在经受人工智能的挑战；开发出阿尔法狗的谷歌DeepMind，开始训练人工智能解读唇语，一定意义上，等于宣告了同声传译这个职业的消亡！近年来，人工智能获得
要玩转这个星际争霸II开源AI，你只需要i5+GTX1050 编程小世界
DeepMind、OpenAI和暴雪对于星际争霸2人工智能的研究仍在进行中，面对复杂的即时战略游戏，人们目前还鲜有进展。尽管近期腾讯、南大、伯克利等均在星际II上攻克了全场游戏，但其训练规模并不是个体研究者所能handle的。最近，来自UniversityofTartu的RomanRing开源了首个星际争霸2的智能体项目，我们也可以在这个前沿领域里展开自己的研究了。Reaver是一个模块化的深度强
天才科学家谢赛宁紧急辟谣！和OpenAI的Sora模型无关夕小瑶人工智能
这几天OpenAI的视频生成模型Sora实在是太火爆了。然而就在昨天有一篇自媒体文章在网上疯传，有接近10w+的阅读，标题为「震惊世界的Sora发明人之一，是毕业于上海交大的天才少年—谢赛宁」。谢赛宁(SainingXie)本科毕业于上海交通大学，2018年获得加州大学圣迭戈分校CS博士学位，师从屠卓文教授。读博期间，他曾在NECLabs、Adobe、Facebook、谷歌、DeepMind当过实
DeepMind加持的GNN框架正式开源,TensorFlow进入图神经网络时代 Python数据挖掘 python python 深度学习神经网络
谷歌在垃圾邮件检测、流量估计以及YouTube内容标签等环境中使用了一种强大的工具GNN（图神经网络）。11月18日，谷歌联合DeepMind对外开源TensorFlowGNN工具，助力流量预测、谣言和假新闻检测、疾病传播建模、物理模拟等领域的基础研究。11月18日，谷歌联合DeepMind发布了TensorFlowGNN（图神经网络）。目前，谷歌已经在诸如垃圾邮件检测、流量估计以及YouTube
【论文阅读】一文读懂Mamba：具有选择状态空间的线性时间序列建模啵啵菜go Mamba 论文阅读 transformer 人工智能深度学习神经网络自然语言处理 nlp
Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpacesMamba：基于选择状态空间的线性时间序列建模论文两位作者AlbertGu和TriDao，博士都毕业于斯坦福大学，导师为ChristopherRé。AlbertGu现在是CMU助理教授，多年来一直推动SSM架构发展。他曾在DeepMind工作，目前是CartesiaAI的联合创始人及首
领先人类 800 年？DeepMind利用深度学习预测 220 万种新晶体人工智能深度学习
AI工具GNoME发现220万种新晶体，相当于人类科学家800年的实验产出，其中38万种新晶体可以成为未来高新技术的稳定材料。从计算机芯片、电池到太阳能电池板，都离不开结构稳定的无机晶体(inorganiccrystals)。传统意义上，发现或者研发一种全新的稳定的无机晶体，往往需要长达数月的艰苦实验。如今借助GoogleDeepMind发布的深度学习工具GNoME，科研人员在短时间内就发现了22
每日一看大模型新闻（2023.12.23-12.25上）李飞飞DeepMind全新「代码链」碾压CoT；2023计算机科学7项重大突破！大模型密集涌现上榜；ChatGPT领衔全球最受欢迎的AI工具超爱玩大模型人工智能自然语言处理 prompt 数据分析语言模型 chatgpt embedding
1.产品发布1.1阿里团队推新AI模型I2VGen-XL：单张静止图像就能生成高质量视频发布日期：2023.12.24阿里团队推新AI模型I2VGen-XL：单张静止图像就能生成高质量视频(msn.cn)主要内容：视频合成领域迎来新突破，阿里团队提出I2VGen-XL模型，通过静态图像引导实现高质量视频生成。I2VGen-XL模型通过两阶段策略，解耦语义与细节，以单张图像为引导实现视频合成。研究人
谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2 xwz小王子机器人多模态变形金刚机器人人工智能
谷歌DeepMind联合斯坦福推出了ALOHA的增强版本——ALOHA2。与一代相比，ALOHA2具有更强的性能、人体工程学设计和稳健性，且成本还不到20万元人民币。并且，为了加速大规模双手操作的研究，ALOHA2相关的所有硬件设计全部开源了，并提供了详细的教程，以及具有系统识别功能的ALOHA2MuJoCo模型。谷歌DeepMind放出了相关论文《ALOHA2:AnEnhancedLow-Cos
Google DeepMind最新研究，将视觉语言大模型作为强化学习的全新奖励来源 TechBeat人工智能社区技术文章自然语言处理计算机视觉视觉语言模型强化学习奖励模型
论文题目：Vision-LanguageModelsasaSourceofRewards论文链接：https://arxiv.org/abs/2312.09187在大型语言模型（LLM）不断发展的进程中，强化学习扮演了重要的角色，ChatGPT就是在GPT-3.5的基础上经过人类反馈的强化学习算法微调得到。而对于强化学习本身而言，如何使其优化算法在各种丰富的开放环境中更好的完成目标是目前研究的主要
加速知识检索：伯克利&DeepMind联合研究，RaLMSpec让语言模型服务飞速提升2-7倍！夕小瑶语言模型人工智能自然语言处理
近年来，随着大型语言模型（LLM）的出现，在多样化的NLP任务上取得了令人瞩目的成果。然而，知识密集型任务仍是NLP领域中的一项挑战，因为这些任务不仅要求模型要理解和生成自然语言，还要能够访问和利用大量的外部知识。然而，要想将大量知识编码进一个完全参数化的模型中，不仅在训练上需要更多努力，在部署时也同样如此。特别是当基础模型需要适应新数据或不同的下游任务时，这一挑战会更加严峻。为了应对这一挑战，最
加速知识检索：伯克利&DeepMind联合研究，RaLMSpec让语言模型服务飞速提升2-7倍夕小瑶学习人工智能 chatgpt 自然语言处理
近年来，随着大型语言模型（LLM）的出现，在多样化的NLP任务上取得了令人瞩目的成果。然而，知识密集型任务仍是NLP领域中的一项挑战，因为这些任务不仅要求模型要理解和生成自然语言，还要能够访问和利用大量的外部知识。然而，要想将大量知识编码进一个完全参数化的模型中，不仅在训练上需要更多努力，在部署时也同样如此。特别是当基础模型需要适应新数据或不同的下游任务时，这一挑战会更加严峻。为了应对这一挑战，最
机器学习---强化学习---目前的坑 Iverson_henry
当前（2019年）机器学习中有哪些研究方向特别的坑？微尘强化学习MAB嗑盐ing；nlp/推荐系统预备卒53人赞同了该回答深度强化学习~1.深度强化学习可能是非常采样低效的（sampleinefficient）：强化学习也有其规划谬误，学习一个策略通常需要比想象更多的样本。在DeepMind的跑酷论文（EmergenceofLocomotionBehavioursinRichEnvironment
全新开源AI代码工具诞生！超越谷歌DeepMind旗下AlphaCode 夕小瑶人工智能
‍听说，谷歌DeepMind开发出的AlphaCode，和上个月刚刚由Gemini推出的AlphaCode2两位“老大哥”被超越了？没错，全新开源人工智能代码生成工具AlphaCodium，诞生了！其开发不得不说受到了两位老大哥的启发，但令人惊喜的是，AlphaCodium现在已经“青出于蓝胜于蓝”，甚至在本周致使X（Twitter）处于混乱和激动的情绪当中。AlphaCodium是前所未有的最好
今日arXiv最热NLP大模型论文：伯克利&DeepMind联合研究，RaLMSpec让检索增强LLM速度提升2-7倍！夕小瑶自然语言处理人工智能
引言：知识密集型NLP任务中的挑战与RaLM的潜力在知识密集型自然语言处理（NLP）任务中，传统的大语言模型面临着将海量知识编码进全参数化模型的巨大挑战。这不仅在训练和部署阶段需要大量的努力，而且在模型需要适应新数据或不同的下游任务时，问题更加严重。为了应对这些挑战，近期的研究提出了检索增强型语言模型（Retrieval-augmentedLanguageModels,RaLM），它通过检索增强将
大模型增强大模型：通过融合扩展能力（Google DeepMind2024） Ly大可爱 LLM 人工智能语言模型自然语言处理
1、写作动机：存在如此多领域特定的模型自然引发一个问题：我们是否能够将一个固定模型与一个特定领域的增强模型组合，以实现新的能力？例如，我们是否可以将增强模型的代码理解能力与固定LLM的语言生成能力组合，以实现代码到文本的生成能力？微调为什么不可行，组合为什么可行？答：因为训练大型模型在计算上是昂贵的，尤其是增强模型本身可能是在大规模数据集上训练的LLM。此外，由于隐私和组织边界的原因，处理来自多个
伯克利&DeepMind联合研究，RaLMSpec让检索增强LLM速度提升2-7倍！ AI知识图谱大本营大模型人工智能
引言：知识密集型NLP任务中的挑战与RaLM的潜力在知识密集型自然语言处理（NLP）任务中，传统的大语言模型面临着将海量知识编码进全参数化模型的巨大挑战。这不仅在训练和部署阶段需要大量的努力，而且在模型需要适应新数据或不同的下游任务时，问题更加严重。为了应对这些挑战，近期的研究提出了检索增强型语言模型（Retrieval-augmentedLanguageModels,RaLM），它通过检索增强将
Yann LeCun荣获全球AI大奖！Keras之父和Deepmind创始人也曾获奖夕小瑶人工智能 keras 深度学习
大家好，我是二狗。就在昨天，图灵奖得主、Meta首席人工智能科学家YannLeCun在推特上祝贺自己获得2023年全球瑞士人工智能奖（2023GlobalSwissAIAward）。在颁奖现场，YannLeCun短暂地用牛铃演奏了一首布鲁斯音乐。YannLeCun因为为深度学习作出的杰出贡献（主要是发明了CNN卷积神经网络）和Hinton和Bengio三人共同获得了图灵奖。最近几年，LeCun所领
谷歌DeepMind科学家「被爆将离职创业」！曾参与AlphaGo、Alphafold工作，首轮融资或超2亿美元夕小瑶人工智能
据彭博社报道，GoogleDeepMind的两位科学家LaurentSifre（下图左）和KarlTuyls（下图右）将离职创业，两人一直在与投资者讨论在法国巴黎创建一家人工智能初创公司。新公司目前名为Holistic，将专注于构建新的人工智能模型。两人目前已发出离职通知，正式离开日子暂时未知，但两人已与潜在投资者就可能超过2.2亿美元的融资进行了讨论。Laurentifre自2014年开始就在D
谷歌危机大爆发！科学家纷纷离职创业、员工裁员不断... 夕小瑶人工智能
‍据TheInformation最新爆料，谷歌DeepMind三名研究员最近离开谷歌，创办了自己的AI创业公司UnchartedLabs（译为探索未知的实验室）。这三名研究人员曾在谷歌DeepMind开发生成图像和音乐AI模型工作，其中一位研究人员DavidDing曾担任谷歌DeepMind一个30人研究团队的技术负责人。据领英显示，DavidDing大学毕业于哈佛大学，毕业后先是去了一家公司做量
人工智能时代的十大核心技术：重塑未来的无限可能 - 第八章 - 深度增强学习，开启AI智能新篇章百家峰会人工智能深度学习人工智能
在这个日益智能化的时代，人工智能技术正在改变着我们的世界。其中，深度增强学习（DeepReinforcementLearning,DRL）作为AI领域的一颗璀璨明星，正引领着AI系统在复杂环境中实现更高的智能水平。那么，深度增强学习究竟是什么呢？本文将带您走进深度增强学习的世界，一起探索它的奥秘。一、什么是深度增强学习？深度增强学习是一种结合了深度学习（DeepLearning）和增强学习（Rei
谷歌DeepMind最新成果：机器人灵巧操作服务我们日常生活 xwz小王子 LLM机器人机器人 Deepmind
谷歌DeepMind最新成果：机器人灵巧操作服务我们日常生活CAAI认知系统与信息处理专委会2024-01-1300:00发表于北京几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。并且是三连发：先是一个主打提高决策速度的新模型，让机器人的操作速度（相比原来的RoboticsTransformer）提高了14%——快的同时，质量也没有下滑，准确度还上升了10.
奥数能力金牌级：DeepMind几何推理模型alphageometry登上Nature，代码开源 javastart 自然语言 aigc 大模型 chatgpt AIGC 人工智能
这项工作代表了AI在数学推理上的能力突破，是开发通用AI系统方面的重要里程碑。这一次，人工智能算法在数学奥林匹克竞赛（IMO）上取得了重大成绩突破。在今天发表的国际权威期刊《自然》杂志最新一期上，论文《Solvingolympiadgeometrywithouthumandemonstrations》向世人介绍了AlphaGeometry，专家表示，这是人工智能朝着具有人类推理能力方向迈进的重要一
用大模型训练实体机器人，谷歌推出机器人代理模型 RPA中国机器人人工智能机器学习
谷歌DeepMind的研究人员推出了一款，通过视觉语言模型进行场景理解，并使用大语言模型来发出指令控制实体机器人的模型——AutoRTAutoRT可有效地推理自主权和安全性，并扩大实体机器人学习的数据收集规模。在实验中，AutoRT指导超过20个实体机器人执行指令，并通过远程操作和自主机器人策略收集了77,000个真实机器人操作的片段。这充分说明，AutoRT收集的机器人操作数据更加多样化，并且在
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul