小蜗子

基于模型的强化学习笔记

[6] [model-based] Survey on MBRL - 知乎 (zhihu.com)

关于环境模型(world model)的学习 - 知乎

论文地址

1.Overview of Model-based RL

具有高样本复杂度的RL算法很难直接应用于现实世界的任务中，因为在这些任务中，试错代价很高。深度强化学习研究的一个主要重点是提高样本效率，基于模型的强化学习(MBRL)是最重要的方向。

看了老师推荐的书马尔可夫决策过程

在MBRL中，环境模型(或简称为模型)指的是学习代理与之交互的环境动态的抽象。

经验数据：智能体只能使用从与真实环境的交互中采样的数据

仿真数据：有了环境模型，智能体就有了想象的能力。它可以与模型进行交互，以便对交互数据进行采样

利用经验数据

1.MBRL方法使智能体能够充分利用学习模型中的经验数据

MBRL显式地学习一个模型。与off-policy算法相比，MBRL重构了状态转移的动态过程，而策略外RL只是简单地使用重放缓冲区来更稳健地估计值。虽然价值函数或批评的计算涉及到转移动力学的信息，但MBRL中的学习模型与策略解耦，因此可以用于评估其他策略，价值函数与抽样策略绑定。

2.off-policy算法：使用回放缓冲区来记录旧数据

3.actor-critic 算法：学习一个批评者来促进策略更新

不同类型的RL结构

on-policy：代理使用最新的数据来更新策略

off-policy：代理在重放缓冲区中收集历史数据，学习策略

actor-critic :代理人学习批评家，批评家是长期回报的价值函数，然后学习批评家辅助的政策(行动者)。

对于模型学习，我们从经典的表格表示模型开始，然后对近似模型如使用神经网络，我们回顾了理论和关键挑战时，面对复杂的环境，以及减少模型误差的进展。对于模型的使用，我们将文献分为两部分，即用于轨迹采样的黑箱模型rollout和用于梯度传播的白箱模型。将模型使用作为模型学习的后续任务，我们还讨论了在模型学习和模型使用之间建立桥梁的尝试，即价值意识模型学习和政策意识模型学习。此外，我们简要回顾了基于模型的方法在其他形式的强化学习中的组合，包括离线强化学习、目标条件强化学习、多智能体强化学习和元强化学习。我们还讨论了MBRL在现实任务中的适用性和优势。最后，我们对MBRL的研究前景和未来发展趋势进行了展望

2.模型学习

2.1表格设置中的模型学习

表格设置下的最大似然估计(maximum likelihood estimation, MLE)ˆM和ˆR分别是真实的转场∗和真实的奖励函数∗的无偏估计，因此当样本接近无穷大时，它们会收敛为M∗和R∗。

R-MAX 是联合模型学习和探索的代表性算法。在R-MAX中，状态转移到自身，即时奖励默认设置为最大值，但只有当一个状态-动作对被访问的次数足够多，即大于K时，将转移概率和奖励赋给它们的平均值。

2.2通过预测损失进行模型学习

虽然表格式MDPs设置下的计数方法和模型学习理论很清楚，但对于大规模MDPs以及具有连续状态空间和动作空间的MDPs，使用表格表示是不可行的。一般情况下都采用近似函数。近似函数可以由机器学习模型实现，如线性模型、神经网络、决策树模型等.重点研究了神经网络模型。

2.2.1预测模型的损失

metric by value 度量价值

2.2.2模型属性

定理1和定理2所采用的预测损失最小化了状态-动作数据每一点上的模型误差。虽然预测损失最小化可以通过监督学习直接解决，但过渡的长期影响很难捕捉，导致水平平方复合误差问题。

仿真引理simulation lemma

仿真引理表明，模型误差对应的值损失在有效视界1 1−γ上具有二次系数。这意味着，随着视界的增长，价值损失以二次曲线的速度增长。

仿真引理也表明，与模型误差相比，奖励误差并不严重。

simulation lemma II

省略了奖励函数错误，因为它不是必要的

不等式右边称为 compounding error，复合误差，随着 gamma 趋近于 1 而二次增大。所以 rollout 不能很长。

为了解决这个问题，又有很多变种方法，比如 multi-step prediction，backward prediction，但是不尽如人意。

2.2.3模型变量

(确定性)多步模型

2.3减少误差的模型学习

为了解决 compounding error 问题，文章又介绍了三种方法。

2.3.1具有Lipschitz连续性约束的模型学习

为了减少复合误差，一种方法是对模型进行约束，

Wasserstein距离：

Wasserstein距离可以适当地度量两个不相交支持分布之间的相似性

generalized transition model：

n-step error：

在概率跃迁模型中引入了Lipschitz连续性

2.3.2基于分布匹配的模型学习

为了学习过渡的长期影响，一个想法是匹配真实轨迹和学习模型中铺开的轨迹之间的分布

第二种思路是基于 distribution matching 的思想，不再用 prediction loss 了，而是匹配 real trajectories 和 trajectories rolled out in learned model。更出名的是 GAIL，利用对抗的思想取模仿专家策略，判别器试图分辨一个状态动作对是否来自专家演示，一个生成器通过最大化判别器分数来模仿专家策略。当判别器最优时，最终等价于最小化 JS 散度。

Duel MDP 将环境也视为一个 agent，将看成策略，这个策略以 state，action 为输入，next-state 为输出。这里判别器区分的就是state-action-next-state 三元组

根据 distribution Matching 的思想，同样可以推导出一个 error bound。

2.3.3鲁棒模型学习

第三种方法是为了在上述基础上解决 policy 项的二次 error bound，思路是在一个 policy distribution上训练。仿真引理III中，复合误差减小，但策略在π上的分歧项仍然很大。

2.4复杂环境动力学模型学习

部分可观测性。

表示学习。

POMDP belief estimation 和 representation learning，感觉二者某种意义上还挺像的，注明的比如 Dreamer，DreamerV2。

3.模型的使用和与模型学习的集成

3.1用模型仿真进行规划

当一个模型可用时，使用该模型的最直接的想法是在其中进行规划。规划指的是将模型作为输入，产生或改进与模型环境交互的策略的任何计算过程。我们将列出将规划集成到其方法或框架中的MBRL方法。我们将根据它们采用的规划方法对这些方法进行分类。

最直接的应用model的方法就是planning，有了模型之后，我们面临一个状态时，就可以利用这个环境模型做planning，比如说planning N 步，我们希望什么样的 N step actions 使这 N 步的 return 最大。这实际上就是 Model predictive control (MPC)

这里面如果求 optimization 就是最大的问题，直接 MC 可以，通过随机取 actions 找到最大的那一组，这样效率极低。将 MC 方法替换，就有了 CEM，PETS，PlaNet等方法。

另一种方法是蒙特卡洛树搜索( MCTS)，它的优化目标和 MPC 一样，但是用树搜索的方式来做优化，每一个结点都会被赋予一个评估值，可能是用近似的价值函数，也可能是用在model中rollout得到的return代表。AlphaGo，VPN，Muzero都应用了这种技术。Value prediction network (VPN)

VPN学习了一个抽象状态转移模型，以当前的抽象状态和动作为输入，推断下一个抽象状态，与典型MDP中的转移函数相同。但是，抽象状态没有对应状态的语义。抽象转换模型的目的是将抽象状态转换为可以用来做出更精确的价值和奖励预测的抽象状态。因此，给定一个动作序列，VPN可以将该动作序列传递给环境后，预测未来状态的奖励和状态值。VPN将MCTS应用到学习的模型中，以搜索具有最高引导环境返回值的操作序列。通过抽象的过渡模型，VPN可以应用于观察图像的任务，如atari游戏

MCTS 和 MPC 都是决策时间规划decision-time planning，即当面临一个新状态时开始并完成规划，然后选择动作。除此之外的方法称为 background planning，利用模型获得的模拟数据来改进政策或价值学习，例如动态规划，表格式Dyna，优先扫描。

VIN它实现了一种动态规划方法，值迭代(VI)和神经网络

3.2增强数据用模型模拟

Data Augmentation with Model Simulation

从模型中获得的模拟经验介绍价值学习和政策学习

Dyna-style model，通过学习到的 model 来生成 simulated data，然后用这些data 来做 value learning (MVE，STEVE) 和 policy learning（ME-TRPO-----SLBO（变体），MBPO）。

价值学习

近似状态值的方法：

1.蒙特卡洛(Monte Carlo, MC)值估计

2.时域差分(TD)预测：与MC方法相比，一步TD方法不需要环境模型，是许多无模型方法的首选方法

3.Model-based V value Expansion, MVE)，表明h阶TD值预测在一定条件下可以降低值估计误差

定理六：

STEVE扩展MVE：通过基于集合计算的不确定性在不同视界H之间插值，进一步改进了MVE。它根据不同深度的价值目标的不确定性对其重新加权

策略学习

1.模型集成信任区域策略优化(ME-TRPO)

该模型增强的数据也可用于无模型的RL方法，用于政策改进

2.随机下界优化(SLBO)

可以将其视为ME-TRPO的一种变体。作者抛弃了第一项w.r.t的梯度，对模型进行了近似

3. 基于模型的策略优化(MBPO)

采用了一种off-policy RL算法——Soft Actor-Critic，利用来自真实环境和学习模型的混合数据来更新策略, an off-policy RL algorithm

4.bidirectional model-based policy optimization(BMPO)

5. Masked Model-based Actor-Critic (M2AC)

通过丢弃不确定性高的样本，可以选择更长的推出长度来更好地利用模型

模型学习和无模型RL结合起来。这些方法有一个令人印象深刻的性能，以及一个理论范围。因此，动态式算法在MBRL领域引起了广泛的研究兴趣。这些方法的一个共同和重要的问题是如何处理或减轻复合误差。如何利用模型生成更可靠的数据，如何更好地利用想象数据，仍然是有待解决的问题。

3.3梯度生成与白盒模型仿真

之前的model都看成是black box了，但是很多 model 是可微分的（differentiable）的，因此我们可以利用模型的内部结构来帮助策略的学习。这里也分成两个类别，一是差别规划differential planning (LQR, iLQR, GPS, UPN)。另一类称为 value gradient (PILCO, SVG)。

差别规划

线性二次调节器(LQR)：研究了动态是线性的，奖励是二次的MDP

迭代LQR (iLQR)：非线性模型线性化

引导政策搜索(GPS)使用iLQR从白盒模型中抽取样本

通用规划网络(UPN)

CEN

价值梯度

政策梯度也可以通过白盒模型传递。学习控制的概率推理(PILCO)通过高斯过程建立动态模型

stochastic value gradient (SVG)随机策略梯度

每个状态st0都可以通过递归调用动态函数

MAAC模型增强的行动者-评论家(MAAC)

3.4价值—意识和政策—意识模型学习

价值感知模型学习(value-aware model learning, VAML)框架，通过将价值函数信息纳入模型学习来解决这一问题。VAML对模型进行了优化，使使用环境与模型的一步估值差异最小化:

改进

4.其它RL形式中的基于模型的方法

4.1 Offline RL

代理能够直接从离线经验数据集学习有效的策略，而无需与环境动态进行任何交互

上述 L 函数是 offline RL 设计的重点。offline RL 的一个最大挑战就是推断误差extrapolation error，学习到的策略和数据集中潜在的策略的不一致会导致遇到 out-of-distribution problem。model-free offline RL 会受限，使得学习到的策略过于保守。而model-based offline RL 就可以先建立一个环境模型然后在模型和数据上训练策略，以解决泛化和探索问题。问题是，往往数据集是很有限的，导致学习出的模型往往不可信。于是就产一个思路是利用学到的模型来避免 OOD 情况。（MORel, MOPO,. COMBD）。MAPLE 则是不着重于避免进入 OOD region，而是尝试 generalize。

4.2目标条件强化学习(GCRL)

处理的是agent在环境中期望实现不同目标的任务[，或通过实现一系列目标来完成复杂任务。

GCRL 重点在于 generated goal 的多样性，以及 goal-conditioned policy 训练的鲁棒与稳定。最经典的方法是 HER，这种方法生成 goal 也十分简单，后续有很多各种各样的生成方法，包括引入 model-based

4.3多智能体强化学习

Multi-agent reinforcement learning (MARL)

多智能体强化学习(MARL)研究一组智能体(i = 1,2，…)之间的顺序交互策略。在环境中，每个代理I都是自利的，其目标是最大化自己的收益，以期望收益为

在MARL中寻求解时的额外动态来自于多智能体博弈的非平稳性，

4.4元强化学习

使agent在目标任务中具有少量样本的不同任务之间进行泛化的方法

学习适应的基本思想已经被用来解决许多现实应用中训练和测试之间的动态差距，也被称为现实差距

Sim2Real：专注于如何将在模拟器中训练的策略转移到现实世界。在这种情况下，使用现成的模拟器可以更容易地进行模型学习。

SimGAN框架

分析模拟器和神经网络结合起来构建更真实的混合模型是很有诱惑力的，这可以无缝地利用这两个领域的创新

4.5模型学习和使用的自动化方法

自动超参数优化的MBRL方法

如何更好地将AutoML的先进技术[Hutter等人，2019]纳入MBRL是一个有前景的进一步研究方向。

5.基于模型的RL应用

MBRL能应用于现实世界，而现实世界的一个共同特点是不能容忍错误。这一特征与强化学习方法的基本机制，即试错机制相矛盾。因此，在实际应用和强化学习之间，必须有一个训练策略的运动场。操场必须具有与现实世界的高保真度和高容错能力，才能自由训练强化学习。

1.构建手工仿真器已被广泛采用

2.从数据中学习环境模型是一种更有效且更低成本的选择

优点

1.充分释放强化学习能力

2.部署前验证

最近的一项研究开始将政策外评估和基于模型的政策评估结合起来，但在模拟器/模型中运行政策可能是评估绩效的最直接方法。

3.解释决策过程

6.结论与未来发展方向

学习可泛化的model

抽象的model

利用状态和时间抽象，模型学习可以发生在低维空间中，因此成为一项容易的任务。

基于model的可泛化策略

元强化学习依赖于模型随机化，并产生一种可以推广到类似环境的元策略。元策略的泛化能力来源于模型的变化。然而，如何生成模型使训练好的元策略适应目标环境的问题在很大程度上被忽略了

基于model的多智能体RL

结合基于模型的方法来改善团队代理之间的协调和提高训练的样本效率是很有潜力的。

基础模型model

通过学习单一的政策模型，这种范式也在决策任务中发生转变

DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
小南每日 AI 资讯 |美国与日本企业联合投资“星际之门”项目| 罗永浩老师最新初创项目上线！ | 25/01/24 小南AI学院人工智能 microsoft
近期人工智能（AI）领域的重要动态随着人工智能技术的迅猛发展，多个领域涌现出令人瞩目的创新。以下是近期AI领域的几项重大进展，涵盖技术创新、行业合作以及AI在各个领域的应用：1.AI技术创新与产品发布DeepSeek发布开源模型R1，挑战传统开发模式中国初创公司深度求索（DeepSeek）于1月27日发布开源AI模型R1。该模型以低成本实现接近OpenAIGPT-3的性能，打破了“越大越好”的传统
AIGC的底层框架和技术模块五岔路口 AIGC
AIGC（ArtificialIntelligenceGeneratedContent，人工智能生成内容）的底层框架和技术模块是构建其强大自然语言处理能力的核心组成部分。以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer）等。这些模型
什么是MOE架构？哪些大模型使用了MOE？明哲AI AIGC 架构人工智能大模型 MOE
在人工智能快速发展的今天，大语言模型（LLM）的规模越来越大，参数量动辄上千亿甚至万亿。然而，更大的模型往往意味着更高的计算成本和更多的资源消耗。混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？想象一下，如果把一个大语言模型比作一所综合性大学，传统的模型就像是让所有教授（参数）都参与每一次教学活动。而M
某验第四代滑块逆向快速破解码王吴彦祖 JS逆向实战 js逆向 node.js 加密
本期地址如下，使用base64解码获得网址aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站破解某验，某盾已经是司空见惯的事情了，网上也有很多资料查阅，但是大多数都是繁琐、冗长，本文以最直接快速理解的方法讲解，稍微认真一点看完文章，你至少能在半个小时内完成破解本文大致步骤如下：找到加密位置
新春特辑：人工智能专题大复盘互联互通社区人工智能大数据区块链 python 编程语言
播洒一年的阳光，收获一路的辉煌;挥洒一年的汗水，绽放一路的明媚;付出一年的辛苦，装点一路的幸福;感谢一年的努力，创造一路的奇迹。新的一年，愿与你再扬帆济海，创造美好精彩!人工智能：人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟
【新春特辑】2025年1月科技浪潮中的AI最新时事与科技趋势我的青春不太冷科技最新时事 AI大爆炸学习
2025年1月科技浪潮中的AI最新时事与科技趋势一、AI科技时事人工智能代理（AIAgent）的发展最新进展：人工智能代理正逐步成为科技领域的新热点。这些代理能够自主执行特定任务，如管理日程、回复邮件等。然而，它们仍面临可靠性、可访问性和安全性等方面的挑战。随着技术的不断进步，这些挑战有望逐步得到解决。未来展望：未来，AI代理将更加智能化，能够更好地理解用户需求并提供个性化服务。同时，它们也将成为
计算机视觉：解锁智能时代的钥匙与实战案例我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁智能时代的钥匙与实战案例在人工智能的浩瀚星空中，计算机视觉无疑是最为璀璨的星辰之一。它不仅让机器拥有了“看”的能力，更是推动了自动驾驶、安防监控、医疗影像分析、智能制造等多个领域的革新。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实际项目中应用这些技术。一、计算机视觉概述计算机视觉，简而言之，是指让计算机系统从数字图像或视频中提取有用信息的过程
人工智能导论--第1章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
请根据教材内容，完成进行下面的作业任务。必须包含有教材的具体内容，不能是生成式AI系统的生成内容。参考教材1.1节的内容介绍，谈谈你对“智能”的认识。思维能力是智能的重要特征之一，结合教材1.1.2节内容，从思维的定义、分类及其特点等角度，阐述思维的含义。参考教材1.1.3节的内容介绍，名词解析“人工智能”。参考教材1.2节的内容介绍，介绍人工智能的发展简史。参考教材1.3节的内容介绍，人工智能作
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
老玩童：互联网智慧助老平台——科技赋能银发族，开启智慧养老新生活 IT源码大师科技生活
详细描述：1.引言随着全球老龄化社会的加速到来，老年人的生活质量和社会参与度成为社会关注的焦点。传统的养老服务模式往往存在资源不足、服务单一、效率低下等问题，难以满足老年人日益增长的多样化需求。基于互联网技术的智慧助老平台“老玩童”，通过整合物联网、大数据、人工智能等先进技术，构建了一个全方位、智能化、个性化的助老服务体系，为老年人及其家庭提供了全新的解决方案。本文将深入探讨这一平台的核心理念、技
什么是ROS2 听风胖耗子机器人
ROS是机器人操作系统的简称，它本身并不是一个操作系统，而是可以安装在现在已有的操作系统（Linux、Windows、Mac）上的一组用于构建机器人应用程序的软件库和工具集。ROS包括两个版本ROS1和ROS2，ROS1是在2007年由斯坦福大学人工智能实验室与机器人技术公司WillowGarage为了个人机器人项目的合作而开发的，2008年后由WillowGarage来进行推动，目前由开源机器人
从零开始大模型开发与微调：汉字拼音数据集处理 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：汉字拼音数据集处理1.背景介绍1.1问题的由来在人工智能领域，自然语言处理（NLP）是一项基础且重要的研究方向。随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModel，LLM）在NLP领域取得了显著的成果。然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构
本地部署LLM工具大比拼：谁才是你的智能之选？ Python_金钱豹 microsoft ocr 人工智能 cnn transformer 分类
在人工智能的浪潮中，本地部署LLM工具为我们开启了个性化智能交互的新大门。今天，就带大家深入对比几款热门的本地部署LLM工具：ollama、Llamafile、jan、LLaMa.cpp、GPT4All、LMStudio，从多个关键角度剖析它们的特点与优势，助你挑选出最契合自身需求的智能伙伴。一、安装使用便捷性大排名1.ollama：轻松上手的智能先锋ollama的安装便捷性堪称一流。只需一条简单
一张图看懂AI技术架构！开发、训练、部署全链路深度解析！和老莫一起学AI 人工智能数据挖掘学习 llama ai 大模型程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
Forbes：2025年人工智能发展前瞻人工智能学家人工智能百度
来源：科技世代千高原克雷格·S·史密斯CraigS.Smith2025年1月7日技术发展速度飞快，转眼间，星辰延伸成星线，我们今天所处的位置与几天前相去甚远。越来越难以预测明天我们会身在何处。有一点是明确的：我们正在进入通用人工智能(AGI)领域，超级人工智能(ASI)现在似乎触手可及。无论如何定义，AGI不会突然出现；它会不断发展，我们已经看到了它逐渐展开的迹象。AGI的曙光AGI一直以来都是我
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑银行数字化转型导师坚鹏人工智能重构 DEEPSEEK AI
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑在人工智能领域迅猛发展的浪潮中，每一次重大技术突破都犹如一颗投入平静湖面的巨石，激起千层浪。DEEPSEEK的发布，无疑是近期人工智能领域最受瞩目的事件之一。凭借其独特的技术优势和创新理念，DEEPSEEK迅速在全球人工智能舞台上崭露头角，对现有的人工智能格局产生了多维度、深层次的影响。一、技术突破：从"追赶者"到"规则制定者"
AI在虚拟试衣中的应用：革新在线购物体验 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI在虚拟试衣中的应用：革新在线购物体验关键词：虚拟试衣,增强现实,在线购物,深度学习,图像识别,人工智能,用户交互1.背景介绍1.1问题由来随着电子商务的迅猛发展，在线购物已经成为人们日常生活的一部分。然而，由于无法亲身试穿，在线购物体验在满足用户个性化需求方面仍存在诸多不足。传统的网页图片展示和文字描述难以真实传达衣物的质地、颜色和尺寸。因此，虚拟试衣技术应运而生，成为电商平台上提升用户体验的
柳暗花明又一村：Seq2Seq编码器解码器架构 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
Seq2Seq,编码器-解码器,自然语言处理,机器翻译,文本生成,循环神经网络,长短期记忆网络1.背景介绍在人工智能领域，自然语言处理(NLP)始终是研究的热点之一。从机器翻译到文本摘要，从对话系统到问答机器人，Seq2Seq编码器-解码器架构在众多NLP任务中展现出强大的能力。传统的机器翻译方法通常依赖于统计模型和规则引擎，难以捕捉语言的复杂性和语义关系。随着深度学习的兴起，Seq2Seq架构为
《C++ 赋能 K-Means 聚类算法：开启智能数据分类之旅》 c++c#
在当今数字化浪潮汹涌澎湃的时代，人工智能无疑是引领科技变革的核心驱动力之一。而在人工智能的广袤天地中，数据分类与聚类作为挖掘数据内在价值、揭示数据潜在规律的关键技术手段，正发挥着前所未有的重要作用。K-Means聚类算法，作为数据聚类领域的经典之作，以其简洁高效的特性而备受瞩目。当我们将目光聚焦于C++这一强大而高效的编程语言时，会发现它与K-Means聚类算法的结合犹如天作之合，能够为数据处理与
《解锁AI黑科技：数据分类聚类与可视化》程序猿阿伟人工智能科技分类
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
AI大模型基于LLM的Agent架构图解 AI产品经理人工智能深度学习语言模型学习
Agent定义Agent是什么？Agent是一种能够自主决策、采取行动以达到某种目标的实体。AIAgent的确定义：基于人工智能（尤其是大模型）技术，能够感知和理解环境，并采取行动以完成目标的智能实体。Agent能干什么？AIAgent主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标，智能化程度和行业贴合度会更明显。典型案例有什么？智能核保应用，如果解决方案搭载AIAgent能力，
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
DeepSeek Janus-Pro：多模态AI模型的突破与创新大模型之路大模型（LLM）Deepseek deepseekr1 deepseek LLM 强化学习
近年来，人工智能领域取得了显著的进展，尤其是在多模态模型（MultimodalModels）方面。多模态模型能够同时处理和理解文本、图像等多种类型的数据，极大地扩展了AI的应用场景。DeepSeek(DeepSeek-V3深度剖析：下一代AI模型的全面解读)公司最新发布的Janus-Pro模型，正是在这一领域的一次重大突破。本文将深入探讨Janus-Pro的技术特点、创新之处以及其在多模态任务中的
2025年编程AI工具概览 hawkol 人工智能
随着人工智能技术的飞速发展，编程AI工具在2025年已成为程序员和开发者的得力助手。这些工具不仅提高了编程效率，还在代码质量、自动化和创新性方面表现出显著优势。以下是一些在2025年备受推崇的编程AI工具:1.GitHubCopilotGitHubCopilot是由GitHub、OpenAl和Microsoft联合打造的一款高级代码生成和辅助工具。它基于OpenAl的Codex模型，能够理解自然语
简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
.NET/C#大型项目研发必备(5)--Web服务/WebApi的负载均衡 DeveloperSharp 负载均衡负载均衡器 web api 微服务
前言：本系列文章适合有初/中级.NET知识的同学阅读。（1）本系列文章，旨在讲述研发一个中大型项目所需要了解的一系列“基本构件”，并提供这些“基本构件”的【最简单】、【最快速】使用方法！！（并不深究技术原理）（2）通过阅读本系列文章，能让你在正规“项目研发”方面快速入门+进阶，并能达成“小团队构建大网站”的目的。（3）本系列文章采用的技术，已成功应用到人工智能、产业互联网、社区电商、游戏、金融风控
人工智能在药物研发中的应用 - 从靶点发现和化合物筛选：利用AI深度学习技术加速药物研发流程 AI_DL_CODE 人工智能深度学习药物研发 deep learning
摘要：本文探讨了人工智能（AI）在药物研发中的应用，强调了AI在加速药物发现、降低成本和提高成功率方面的重要性。文章概述了AI在药物靶点识别、化合物筛选、药物设计优化等方面的应用，并详细介绍了机器学习和深度学习的基本原理。通过一个实操案例，展示了如何利用AI技术对化合物数据进行分析，预测潜在的药物候选物。案例包括数据预处理、模型训练、评估和优化等步骤，证明了AI在提高药物研发效率和准确性方面的潜力
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p