龙今天超越了自己

《SIMPLIFIED ACTION DECODER FOR DEEP MULTI-AGENT REINFORCEMENT LEARNING 》调研报告

1.背景介绍

近年来，人工智能领域取得了长足的发展。许多人工智能方法在围棋，Dota游戏，Atari游戏等领域都取得了接近甚至超越人类顶级玩家的水平。然而，这些游戏有一个共同点，那就是它们都是被设计成对抗类型的游戏。用博弈论的术语来说就是这些游戏都是零和博弈。但是，与游戏的虚拟世界不同的是，现实世界的成功往往需要不同人类个体的合作和交流。在最近几年，解决卡牌游戏Hanabi被公认为一个新的人工智能领域的挑战。它填补了人工智能在这一领域的空缺。卡牌游戏Hanabi和“思维理论”有着密切的关系——即需要人们高效的从动作推理出其他参与者的打算，意图，与行为准则。同时学着做出富有深意的动作以便于让其他参与者推测出动作发出者当前的处境。从根本上讲强化学习需要智能体一边探索一边发现有效的行动策略，然而如果一味的贪恋已经发现的最优策略，将可能在训练中忽略更有深意的策略。这篇论文提出来了一个新的多智能体深度强化学习方法：Simplified Action Decoder（SAD），解决了中央训练时的这一矛盾。在训练时，SAD方法允许智能体做出两个动作：1.基于当前观测和已知策略做出的最优动作。2.随机的动作。其中1，2都会被所有智能体观察到，但只有动作2会被执行并且对环境产生影响。通过这种简单的直觉方法，SAD在2-5人的Hanabi游戏中达到了一个新的SOTA水平。

2.相关的工作，之前的方法如何解决

在多智能体强化学习中，有几种通用的方法

大多数先前的hanabi最优方法中都是一些启发性的算法打败了多智能体深度强化学习方法，这可能是由于“标准的深度强化学习”方法无法解决以下矛盾：一方面智能体需要随机探索，经历错误和失败，以此来发现更加有效的策略，另一方面，智能体的这种探索行为又会不可避免地在训练过程中引入很多噪声，这使得它们的行为变得更加没有“深意”，这对它们的队友来说是很不友好的。

针对这一困难，一种可能的解决方法是在确定的部分策略的空间中探索，而不是在动作空间中探索。并且对这些策略以一个带有贝叶斯信念的分布进行采样，这就是大名鼎鼎的Bayesian Action Decoder（BAD），目前为止，唯一的一个深度强化学习方法，是所有深度强化学习方法中，在Hanabi纸牌问题上的最优解。虽然这是一个令人振奋的成就，但是它的计算复杂度和普适性都不尽如人意。BAD方法，是利用表演者和批评家方法（actor and critic）训练的，这种方法的样本利用率低并且容易陷入局部最优。为了解决这一问题，BAD有用大量人口为本的训练，这更加增加了样本需求数。

3.方法

3.1基本设置

$$假设在一个部分可观测的环境之中，有N个智能体，在每一步智能体a（a属于1...N）\\会获得一个观测,o_t^a=O(s_t,a),这里的s_t\in S 是马尔科夫状态并且O(s_t,a)是确定的观测方程\\一维我们对思维理论（theory-of- mind）感兴趣，因此在我们的设置中包括了当前执行\\动作的智能体所采取的最新的动作，这个动作将会在下一时间点被所有智能体观察到。这里要注意的\\是东顾总不仅仅在游戏中是会被普遍观测到的，在现实生活中动作也会被普遍观察到\\为了简化问题，我们限制在每一部只有应该执行动作的智能体才能采取动作u_t^a,而这一动作\\是从他们自己的策略中采样而来的u^a\sim \pi_\theta^a(u^a|\tau^a),\tau^a是智能体a的动作和观测历史记录。\\而T是一轮所需要的时间数,而\theta是函数模拟器的参数，比如长短期记忆网络的参数，\\或者全连接神经网络的参数。\\ 和其他的合作类型的多智能体强化学习方法一样，智能体们的目标是最大化整个epsiode的预期回报，\\J_\theta$$

3.2中央训练和非中央控制

$$Q-学习最直接的多智能体的应用就是相互独立的q学习（Independent Q-learning），\\这是一种吧各个智能体是为相互独立的个体，分别估计他们的回报的方法。\\具体执行时，只把每个智能体本身作为一个智能体训练，而把其他智能体全部视为环境的一部分。\\相互独立的Q学习算法的一个问题是各个智能体是相互独立的，探索行为未通过引导中的max\\运算符更正其他代理的错误。同时，值得注意的是IQL方法并没有好好的利用中央训练，\\非中央控制的方法（centralized~ training~ with ~decentralized ~control，简称CT/DC），\\这种方法在训练阶段可以看到所有智能体的信息，而在控制执行部分只能看到当前智能体的信息。\\在CT/DC框架下，有多种方法针对学习连续的q函数（joint~Q~functions）。比如价值分解网络\\（Value-Decomposition-Networks (VDN) (Sunehag et al., 2017)等。）$$

3.3 思维理论和贝叶斯推理

$$想要从另一个智能体的行为中推理出有用信息，一个很关键的点就是贝叶斯推理\\（Bayesian ~reasoning）。根本上来说，想要看出一个被其他智能体给定的动作到底隐含着什么样的信息，\\就需要彻底理解所有的状态和理解为什么这个动作被采用了。\\要打到这一点，我们开始任取一个智能体a。它的动作和观测历史为\tau_t 设B(\tau_t)=P(\tau_t|\tau_t^a)\\,紧接下来智能体观察到上一智能体a'采取了动作u_t^{a'}然后它可以得到以下图形式的贝叶斯更新\\从这里开始，我们使用O(a',\tau_t)来替代原来的\tau_t^a为新的动作今儿观察历史。$$

显然，由于智能体在集中培训期间可以使用其队友的政策，我们原则上可以评估这种明确的贝叶斯信念。然而，除了计算这个明确的信念，当它被用作策略的输入时，它将导致令人望而却步的结果昂贵的高阶信念。

作为上面方法的替代，在我们的工作中将会依靠循环神经网络（recurrent neural network）来学习动作所隐含的表征。在给定动作观察历史的马尔可夫状态分布上，注意到由于上述问题，它们不太可能恢复准确的信念。

3.3简化的动作编码

在这片论文中，一个关键点创新点就是简化的动作解码。这是一种更简单高效的方法。我们注意到以前方法中，关键的一个噪音，

$$\begin{align} 在这片论文中，一个关键点创新点就是简化的动作解码。这是一种更简单高效的方法。\\我们注意到以前方法中，关键的一个噪音，就是\epsilon-greedy 中的\epsilon，这个\epsilon在探索中是\\不可或缺的，但是对于其他的队友智能体来说是一个很大的噪声干扰。更何况，为了其他的\\队友智能体能够在其执行某一个动作后进行进准无误的贝叶斯更新，这一个greedy的动作\\并不一定需要被环境执行。具体而言，如果我们假设其他的队友智能体能够在每一步观察\\到这个贪婪动作u^*,并且依照贝叶斯信念更新，则\epsilon 就可以在贝叶斯信念更新中被完全取代： \end{align}$$

$$\begin{align} 因此我们这个简化动作解码要做的就是允许每一个智能体在集中训练时每一步采取两个动作，这两个\\ 动作中的第一个动作是u^a是一个会被环境执行的动作，这个动作也会被所有其他队友智能体在下一回\\合中观测到就像背景介绍中提到的那样。第二个动作u^*则是当前智能体的贪婪行为，是当前智能体结\\合目前已知可观测信息而做出的最优选择，这个动作并不会被环境执行，但是它任然会被作为一种额外\\信息被输入训练网络中，并且同动作一一样，会在下一回合被所有其他队友智能体观察到，但是不同的\\是，它并不会被环境所采纳执行。这样其他智能体在下一步的训练中就可以得到有用的信息来进行训练\\一目了然的是，在分部控制时（decentralized control），我们并不会允许传递额外信息，幸运的\\是，我们也不需要这样做。因为我们在测试模型性能时把\epsilon设置成了0，我们就可以直接利用动作2作为\\动作1的输入，即就是贪婪的动作同时也是被环境所执行的动作，同时也会被所有其他队友智能体所观\\察。显而易见的是，这个idea相比于其他深度强化学习算法只是一点小小的改动，在实际运用时，\\我们用了循环神经网络版本的深度Q网络，并且加上了分布式训练(distributed~ training),\\ dueling~ networks ~优先回放（prioritized~ replay）等技巧。这在一定程度上缩短了训练时间。 \end{align}$$

4.实验分析

4.1 矩阵游戏

为了测试SAD的性能，我们可以先从一个简单问题入手。即矩阵游戏，它是一个猥琐版本的hanabi游戏，它一共有两位玩家，也需要玩家从队友的动作中推测出当前环境，进而做出更加好的动作选择。游戏规则如下：游戏开始时，每位玩家会获得一张私密的卡牌，卡牌上画着点数1或者2.在观察过自己的私密卡牌后,第一位玩家从1到3之间选取一个数字,第二位玩家在观察过自己的卡片和第一位玩家的动作后也从三种行动中选择一种执行,回报方程式这两位玩家私密牌的点数和两位采取的动作的函数如下图所示:

我们很容易注意到,当两个玩家同时选择动作2时无论什么情况都会得到至少8点的回报,这种明显的策略显然是不需要任何的交流的。不过想要的到更高的回报则需要两个玩家学着用它们的动作进行富有深意的交流，在这种情况下，是有可能让每一种情况下两个玩家都能达到高达十点的回报值的。

如下图所示，在4000epoch次训练之后IQL可以稳定在9.5到9.6分左右，BAD可以稳定在9.5分，而SAD可以稳定在接近10分的水平（准确一点9.97 ± 0.02.）

4.2 Hanabi游戏

游戏设置：

· 将八个传讯指示物放进盒子里，三个错误指示物放在盒子外。

· 将五十张花火牌洗好，面朝下放着做为牌库。(基本版不会用到多色牌。)

· 发给每个人起始的手牌：

2-3人游戏：每个人五张手牌。

4-5人游戏：每个人四张手牌。

* 玩家们不能看到自己手牌的牌面，手牌必须以牌面背对自己，只能看到牌背的方式拿着，所以除了你之外，其他人都可以看到你的手牌。

开始游戏

回合流程

· 身上穿的衣服有最多颜色的人为起始玩家，以顺时针轮流进行游戏。

· 在玩家的回合中，玩家只能从以下三种行动中选择一个执行：

1.传递讯息给其他人。

要传达讯息，你必须从盒子里移出一个传递指示物到盒子外。

如果盒子里已经没有传递指示物，则不能选择此行动执行。

指定一名玩家，告诉他一种颜色或一个数字的所有的牌。

* 玩家必须告诉对方完整的讯息，比如玩家选择告诉他有绿色的牌，就必须把绿色牌全部点。

2.弃掉一张手牌。

弃掉的牌面朝上放在弃牌堆里，然后你可以从盒子外补充一个传递指示物放回盒子里。

从牌库中抽一张新的牌加入自己的手牌中。同样的，也不能看自己新抽出的手牌。

* 如果传递指示物都在盒子内，就不能选择此行动执行。

3.打出一张手牌。

手牌中打出一张牌使用，并且会发生以下两种情况之一：

·将这张牌加入花火之中，然后从牌库抽一张新的牌加入手牌中。

·如果这张牌无法加入花火之中，就将此牌丢进弃牌堆，并将一个错误指示物放进盒子内，然后从牌库抽一张新的牌加入手牌中。

组建花火。条件如下：

1、花火牌只能加在同颜色的花火组里。

2、每组花火只能由一种颜色组成。

3、花火必须由数字1 依序排到数字 5。

4、花火内每个数字只能各有一张。

当有玩家打出数字5的牌并加入花火中，完成一组花火后，就可以获得奖励，将一个传递指示物从盒子外移入盒子内。

* 如果传递指示物都在盒子内，就无法获得此奖励。

游戏结束

花火是合作游戏，身为同一个团队的成员，玩家们必须协力制造漂亮的花火。

所以游戏只有共同的获胜或是失败。

达成下述三种条件之一，游戏就结束：

·如果第三个错误指示物被放进盒子里，则这场游戏就失败。

·如果五组花火都完成，则这场游戏获得满分二十五分。

·当牌库的最后一张牌也被抽走后，所有玩家再轮流进行最后一个回合，游戏结束。

游戏结束后，组建的花火总共有几张牌，这场游戏就获得几分。

如下图所示，只有在三玩家情况下SAD的训练效果稍逊于VDN（Baseline），在2玩家四玩家五玩家的情况下，

5.论文之间的关系分析

文中引用了Jakob Foerster 等人的Bayesian action decoder for deep multi-agent reinforcement learning.这是Hanabi问题的先前的SOTA，也是SAD方法更新的理论基石。该方法主要难题在于运算复杂和样本利用率低，作者就着重在这几点上突破，并且保留其更新理论方法，用在SAD上可谓是取其精华，改其糟粕。

6.个人的思考

从IQL方法上，我突然发现，原来单个智能体的方法，可以在一定条件下运用于多智能体，还是要开放思维，举一反三，推而广之。从SAD在BAD的改进上我感到，对于结构的创新可能会有意想不到的奇效，如果不是这个论文，我从来不会想到原来动作可以只被观察不被执行，一举两得。不能被深度网络的条条框框框住思想，要勇于创新。

7.参考文献

[1]Jakob Foerster, Francis Song, Edward Hughes, Neil Burch, Iain Dunning, Shimon Whiteson, Matthew Botvinick, and Michael Bowling. Bayesian action decoder for deep multi-agent reinforcement learning. In International Conference on Machine Learning, pp. 1942–1951, 2019.

[2]Hengyuan Hu and Jakob N Foerster. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning. arxiv.org/abs/1912.02288v1 (4): 1912.02288, 2021

深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_