渣渣zheng

强化学习、深度强化学习和基于内在动机的深度强化学习

一、前言

强化学习(reinforcement learning, RL)是监督学习、无监督学习之外的另一机器学习范式, 通过设置反映目标任务的奖励函数, 驱动智能体在与环境的交互与试错中学习能使累计收益最大化的策略.强化学习一般采用马尔科夫决策过程(Markov decision process, MDP)进行问题形式化描述.强化学习智能体的目标是学习一个策略（policy） : 表示从状态到动作概率的映射.

深度强化学习(deep reinforcement learning, DRL) 是在强化学习提供的最优决策能力的基础上, 结合深度学习(deep learning, DL)强大的高维数据表征能力来拟合价值函数或策略, 进而基于交互样本训练得到最优价值函数或最优策略, 被认为是结合感知智能和认知智能的有效方法. 深度强化学习在游戏人工智能、机器人、自然语言处理、金融等诸多领域取得了超越人类的性能表现 , 但在具备稀疏奖励、随机噪声等特性的环境中, 难以通过随机探索方法获得包含有效奖励信息的状态动作样本, 导致训练过程效率低下甚至无法学习到有效策略. 具体来说, 一方面现实应用中往往存在大量奖励信号十分稀疏甚至没有奖励的场景. 智能体在这类场景探索时需要执行一系列特定的动作, 以到达少数特定的状态来获得奖励信号, 这使得在初始时缺乏所处环境知识的智能体很难收集到有意义的奖励信号来进行学习. 例如, 多自由度机械臂在执行移动物体任务中, 需要通过系列复杂的位姿控制将物体抓取并放置到指定位置, 才能获得奖励. 另一方面, 现实环境往往具有高度随机性, 存在意料之外的无关环境要素(如白噪声等), 大大降低了智能体的探索效率, 使其难以构建准确的环境模型来学习有效策略. 例如, 部署应用在商场的服务机器人在执行视觉导航任务时, 既要受到商场中大量的动态广告图片或视频的传感干扰, 还可能面临动作执行器与环境交互时的结果不确定性, 同时长距离的导航任务也使其难以获得有效正奖励信号. 因此深度强化学习领域亟需解决探索困难问题, 这对提高 DRL 的策略性能和训练效率都十分重要.

针对奖励稀疏、随机噪声等引起的探索困难问题, 研究者们提出了基于目标、不确定性度量、模仿学习等探索方法, 但对任务指标的提升效果有限, 并增加了额外的数据获取的代价. 近年来, 源自心理学的内在动机(intrinsic motivation)概念因对人类发育过程的合理解释, 逐渐被广泛应用在 DRL 的奖励设计中以解决探索问题.

二、DRL经典探索方法

2.1 随机扰动方法

随机扰动方法可按照加入噪声的位置差异分为 2 类: 一是在动作选择的过程中增加随机性或噪声，如在-贪婪算法中.二是在拟合策略的网络参数上加入噪声, 比如参数空间噪声模型和 NoisyNet 模型等.

2.2 频率派方法

频率派基于实际数据样本的估计来衡量状态的不确定性, 在数据量有限的情况下一般采用带有置信水平的区间估计方法 .

2.3 贝叶斯派方法

贝叶斯学派观点认为, 面对未知环境人们维护着对于所有可能模型的概率分布以表达其不确定性, 随着观测证据的增多, 后验分布一般比先验分布更能反映不同备选模型与真实模型的接近程度. 由于在选择动作时不仅依据观测状态, 也必须考虑对信念状态的更新, 贝叶斯强化学习方法被认为有助于提高探索效率, 防止陷入局部最优, 且同时考虑利用现有策略最大化累积收益.

缺点：

随机扰动方法缺少对具体状态和动作探索作用的评估, 难以依据对状态的某种度量引导探索过程, 因此无法形成有启发性的探索过程, 也被称为无指导探索 .

频率派或贝叶斯派的方法, 大多仅是在小规模场景中推导出了样本复杂度或期望后悔值的上界, 具有一定理论保证, 但很难直接应用到更加复杂的环境如具有动态性和不确定性的实际场景. 例如 MEIB-EBB(model-based interval estimation-exploration bonus)和 BEB(Bayesian exploration bonus)算法都需对状态动作对有准确的计数, 在小规模的状态和动作空间条件下是可行的, 但无法应用于动态、高维或连续场景中, 亟需启发性更强、计算效率更高的探索方法.

三、基于内在动机的深度强化学习探索方法

3.1 内在动机的背景

为解决大规模状态动作空间中由稀疏奖励、随机噪声干扰等产生的探索困难问题, 研究者们提出了基于目标、不确定性度量和内在动机等深度强化学习探索方法 .

基于目标探索的方法通过对兴趣状态进行分析来生成探索性子目标, 同时对如何到达子目标的过程进行控制, 以提高智能体在复杂环境中的探索效率. 这类方法偏规划, 重点在于存储状态和轨迹信息, 并根据存储的信息规划生成子目标点, 然后学习如何到达子目标点.

基于不确定性度量的方法通常采用价值函数的贝叶斯后验来显示建模认知不确定性, 或者采用分布式价值函数来额外评估环境内在不确定性, 以鼓励智能体探索具有高度认知不确定性的状态动作对, 并尽量避免访问具有高度内在不确定性的区域. 该方法更多偏向于挖掘价值函数中的不确定性, 体现的是计算思维.

基于内在动机的方法从行为学和心理学中内在动机驱动高等生物自主探索未知环境的机理出发, 将“新颖性”等多种源自内在动机的启发式概念形式化为内在奖励信号, 以驱动智能体自主高效探索环境, 体现的是一种更抽象和拟人的思维. 具体来说, 内在动机源于高等生物在追求提高自主性和能力或掌控力的过程中获得的愉悦感, 是驱动无外界刺激条件下探索未知环境的动力. 内在动机在 DRL 中, 可以被映射为内在奖励信号, 与基于值函数或策略梯度的深度强化学习方法相结合, 形成具备强启发性的探索策略, 以提高智能体探索复杂未知环境的效率.总而言之,内在动机的本质可以理解为大脑对实现自主性和提高能力或掌控力的追求.

总体上说, 内在动机来自人们对各类能够提供新颖性、惊奇、好奇心或挑战的活动的最自然兴趣.根据内在动机与 DRL 结合的不同形式. 主要包括:

1) 受新颖性动机驱动的基于计数的内在奖励形式化;

2) 受好奇心驱动的预测误差的奖励设计;

3) 受学习提升期望驱动的精度提升和信息增益近似方法;

4) 以状态多样性为启发式的最大熵方法;

5) 追求自主性和控制力的互信息量化方法.

内在动机与外在动机的区别：

内在动机有别于以外在奖励的形式为人们所熟知的外在动机(extrinsic motivation). 从进化意义上来说, 2 种动机驱动的行为都能够提高生物体对环境的适应能力、增加存活和繁殖的概率, 但却具有各自不同的实现途径.

外在动机以身体恢复内稳态为目标, 通过生物体与外部环境的交互, 来学习特定的策略, 以增强个体对外界动态环境的适应力. 因此外在动机产生的学习信号强弱与内稳态需求紧密相关. 内在动机产生的信号则来源于大脑神经信号, 通常不与身体的内稳态、特定任务目标直接相关, 会促使生物体在探索环境的过程中获取更丰富的知识, 提升自身技能水平, 以产生和掌握有助于完成外界任务的复杂长序列行为. 因此内在动机信号的强弱与获得知识或提升技能的过程密切相关.

3.2 常用测试环境

1)Atari街机游戏集.该游戏集中共57个游戏, 其中有 7 个奖励非常稀疏、探索难度较高的游戏.

GitHub - mgbellemare/Arcade-Learning-Environment: The Arcade Learning Environment (ALE) -- a platform for AI research.

2)多自由度的连续控制任务环境 rllab.GitHub - rll/rllab: rllab is a framework for developing and evaluating reinforcement learning algorithms, fully compatible with OpenAI Gym.

3)游戏 Doom 的 3 维仿真环境 VizDoom.GitHub - mwydmuch/ViZDoom: Doom-based AI Research Platform for Reinforcement Learning from Raw Visual Information.

4) OpenAI Gym.Gym Documentation

3.3 基于计数的方法

基于计数的方法一方面借鉴了 UCB（上置信界(upper confidence bound, UCB)）算法的思路, 继承了“面对不确定性的乐观”思想, 即向访问次数较少的状态或状态动作对赋予更高的奖励, 以鼓励智能体尽快探索状态空间的未知部分, 另一方面采用基于相似性的状态泛化的解决思路.该类方法的实现途径包括伪计数方法和状态抽象方法, 其中伪计数方法可细分为基于密度模型的伪计数和间接伪计数方法.

缺陷：尽管基于计数的方法不仅有较强的理论保证,并且能有效扩展到高维环境中, 但其对探索效率的作用依赖于 1 个基本假设, 即状态访问次数的增加必然能提升模型估计的确定性. 这一假设在静态环境中能够一定程度满足, 但在动态变化的场景或状态/动作空间层次性较强的场景中, 访问次数与模型估计精度之间很难具有明确关系.因此难以有效应对动态性较强和随机噪声干扰较多的环境.

3.4 基于知识的方法

第 2 大类方法认为人们自主探索的一大动力来自于降低外部环境的不确定性.照此不断修正自我认知的 DRL 探索方法, 称为基于知识的方法, 大致可以分为基于预测模型和基于信息论的方法.在高维的连续空间等条件下, 此类方法的难点在于计算复杂度和相关信息量估值精度间的平衡.

预测误差是指预测模型的输出与预测对象的真实取值之间的差别, 用来形式化“惊奇”和“好奇心”等概念, 也被称为对抗式好奇心.

信息论中以熵(entropy)为基础的一系列概念, 天然地为衡量现实世界中的不确定性而生, 因此信息度量也成为形式化启发式概念, 生成内在奖励的重要工具.用于促进智能体高效探索未知区域.在上述互信息、相对熵等度量基础上, 受“学习提升”“多样性”“控制力”等启发式概念的影响, 研究者们从不同视角提出了多种内在奖励量化方法, 可大致分为基于信息增益, 基于最大熵和基于互信息的探索方法.

基于信息增益的方法与基于预测模型精度提升的方法有较强关联, 是用 KL 散度等指标对学习提升概念更理论化的描述, 可以看作预测模型方法的延展. 基于最大熵的方法通过最大化原始/抽象状态分布的熵来提高探索效率, 可有效结合其他状态表示方法来进一步提高算法性能. 基于互信息度量的方法通过量化 empowerment, 以多样性启发的方式来鼓励探索, 成为解决自动技能发现问题的重要工具.

3.5 基于能力的方法

基于能力的方法重点在于衡量达到目标的挑战性和能否达成的能力, 与其直接相关的心理学理论还包括效能、自我决定和心流等学说.该类方法研究重点包括如何恰当表达智能体动作或 option 与环境状态之间的影响, 以及互信息的高效且无偏的估计算法.

四、关键问题与发展方向

虽然基于内在动机的 DRL 探索方法在机器人运动等诸多应用中取得了较好效果, 但将其应用于贴近真实世界的复杂动态场景时, 仍面临难以构建有效的状态表示、环境认知效率低、复杂任务空间探索效果差等关键问题. 未来基于内在动机的方法可结合表示学习、知识积累、奖励设计、目标空间探索、课程学习、多智能体强化学习等领域方向来开展研究.

4.1 关键问题

4.1.1 有效的状态表示

如何构建有效的状态表示一直是将基于内在动机的 DRL 探索方法应用于高维连续状态动作空间所面临的基础且重要的问题. 特别是随着场景不断向现实应用逼近, 环境中要素的种类和数量越来越多, 要素间的关联越来越复杂, 往往包含层次性、级联性等关系, 并且动态性也越来越显著. 在这些情况下, 现有方法难以提取与智能体决策直接或间接相关的状态特征, 因此很难单纯依靠内在奖励的驱动, 对上述类型的状态空间进行探索.

4.1.2 环境认知效率

对于外部环境形成较为充分的认知是基于知识的方法促使智能体探索的关键所在, 但是随着外部环境进一步复杂化, 如存在随机噪声干扰、不可控的动态环境要素等, 面临环境动力学模型学习效率低等问题.

4.1.3复杂任务空间

复杂任务空间往往存在多个可控要素或干扰要素, 且其内部呈现结构化特征, 宛如“迷宫”, 仅依靠内在动机提供的探索方面的引导信息, 难以实现对该类任务空间的有效探索.

基于内在动机的 DRL 探索方法在解决复杂现实应用问题时, 所面临的难以构建有效的状态表示等关键问题, 不是单纯依靠内在动机可以解决的, 往往需要与其他领域方向有机结合, 充分发挥基于内在动机的启发式探索策略的潜力, 以应对复杂动态场景中的探索困难挑战.

4.2 发展方向

4.2.1 表示学习

1)状态表示. 本文简述的方法所采用的状态表示方法大多以自动特征提取为主, 各个特征无明确语义, 不能显式描述环境中要素及其关系, 因此难以针对性提取与智能体决策直接或间接的环境要素来构建有效的状态表示.

2)动作表示. 动作表示是通过对原子动作的合理抽象, 帮助智能体更好地利用探索方法解决复杂问题的方法, 典型方法包括分层强化学习 (hierarchical reinforcement learning, HRL).

4.2.2 知识积累

尽管内在动机为提高 DRL 的采样效率提供了有力工具, 但由于内在奖励仅能为智能体提供探索方面的指导性信息, 难以根据问题性质对智能体行为施加约束和引导, 可能使得部分探索动作并不诱导知识的增加. 因此, 本文认为利用探索过程中的累积知识可以有效辅助智能体以简洁的行为模式进行探索.

4.2.3 奖励设计

1)任务相关的内在奖励设计. 从内在动机的角度出发, 源于不同启发思想设计的各种通用的内在奖励函数, 在各类公共测试任务中验证了各自效果. 在它们的基础上, 研究者在实际应用中可以根据任务特点, 设计更能直接反映目前需求的内在动机.

2)内在奖励的自动化获取. 除人工设计奖励外, 部分研究者考虑将基于内在动机的内在奖励函数看做函数空间的抽象特征向量, 可采用搜索或学习的方法自动获取与任务匹配的内在奖励函数.

4.2.4 目标空间探索

为提高智能体在高维、连续和高度非平稳的目标 /任务空间中的探索效率, 近年来有大量研究者将内在动机应用于目标空间探索领域.

4.2.5 课程学习

研究者们认为自然智能显著超过目前的机器学习系统的一大能力, 是通过观察外部环境、自我设定目标而持续不断学习并获得技能和知识的渐进提升. 这种复杂程度和难度递增的学习过程在机器学习领域被称为课程学习 (curriculum learning, CL).为降低课程学习对于领域知识的需求, 研究者们提出了内在动机与课程学习结合的各种形式.

4.2.6 多智能体强化学习

多智能体深度强化学习将 DRL 的思想和算法用于多智能体系统的学习和控制中, 以开发具有群体智能的多智能体系统来高效优化地完成任务. 在研究者们重点关注的协同与通信问题中, 可结合内在动机的探索方法产生多样化的协同行为, 或增加对于环境及其他智能体的认知, 来实现更有效的协同与通信.

参考：

[1]曾俊杰,秦龙,徐浩添,张琪,胡越,尹全军.基于内在动机的深度强化学习探索方法综述[J/OL].计算机研究与发展:1-24[2022-09-18].http://kns.cnki.net/kcms/detail/11.1777.TP.20220916.1221.002.html

AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
RoomGPT: 人工智能驱动的室内设计革命 m0_56734068 人工智能
RoomGPT:用AI重新定义室内设计在当今数字化时代,人工智能正在改变各个行业的面貌,室内设计领域也不例外。RoomGPT作为一款革命性的AI驱动室内设计工具,正在彻底改变人们对室内空间进行创意和改造的方式。本文将深入探讨RoomGPT的工作原理、使用方法以及它为室内设计行业带来的变革。RoomGPT简介RoomGPT是一个开源项目,由GitHub用户Nutlope开发。它允许用户上传任何房间的
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

强化学习、深度强化学习和基于内在动机的深度强化学习

你可能感兴趣的:(人工智能,人工智能,机器学习,深度学习)