满船清梦29

《Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics a Survey》阅读笔记

链接：https://arxiv.org/pdf/2009.13303.pdf

引用：Zhao W, Queralta J P, Westerlund T. Sim-to-real transfer in deep reinforcement learning for robotics: a survey[C]//2020 IEEE Symposium Series on Computational Intelligence (SSCI). IEEE, 2020: 737-744.

索引次数：25次

关键词：DRL; Robotics; sim2real; Transfer Learning; Meta Learning; Domain Random- ization; Knowledge Distillation; Imitation Learning;

1. 引言

目标：如何利用模拟环境中的训练在现实世界的环境中转移知识和相应的策略

**挑战1：**构建缩小现实差距的方法（域随机化、引入扰动等）

**挑战2：**现实世界中存在模拟环境中未出现的情况，需要调整其策略以涵盖更广泛任务的潜在需要（元学习、持续学习等）

本文不涉及具体的模拟器或在真实世界中直接学习的技术，而是重点描述将模拟器中学习到的知识在真实机器人平台中的部署的方法（sim2real）

2. 背景

这一节介绍了DRL、知识蒸馏、迁移学习、域自适应之间的联系。

A. 深度强化学习

强化学习的目标是通过选择最优的策略来最大化期望的回报。在现代计算能力的加速下，DRL已经在各种应用程序上取得了显著的成功，特别是在模拟环境上。因此，如何将这种成功从模拟转化到现实越来越受到人们的关注，这也是本文的研究动机

B. Sim2Real迁移

虽然大多数DRL算法提供端到端策略，即以原始传感器数据作为输入并产生直接驱动命令作为输出的控制机制，但机器人的这两个维度是可以分离的（即感知和控制分离）。为了在控制方面缩小仿真和现实之间的差距，需要模拟器更加精确，并考虑到智能体动力学中的可变性。然而，在感知部分，这个问题可以考虑得更广泛，因为它还涉及到更普遍的ML问题，即面对现实世界中没有出现在仿真中的情况。

本文，我们主要聚焦端到端模型，既有针对系统建模和动态随机化的研究，也有从感知角度引入随机化的研究。

C. 迁移学习和域自适应

域自适应是迁移学习的一个子集。它指定了当我们有足够的源域标记数据和与目标任务相同的单个任务，但没有目标域数据或目标域数据很少时的情况。

在sim2real技术中，研究人员倾向于使用模拟器来训练RL模型，然后将其部署到现实环境中，在现实环境中，我们应该利用域适应技术来很好地转换基于仿真的模型。

D.知识蒸馏

大型网络在DRL中具有高维输入数据(如复杂的视觉任务)。策略蒸馏是提取知识来训练一个新的网络，使其能够保持类似的专家水平，同时更轻量和更高效。在这些设置中，这两个网络通常被称为教师和学生。用教师网络生成的数据在监督下对学生进行训练。

E. 元强化学习

元学习旨在从多个训练任务中学习对潜在测试任务的适应能力。一个好的元学习模型应该在各种学习任务中进行训练，并在任务分布(包括测试时可能看不到的任务)中优化以获得最佳性能。MetaRL部署LSTM策略，从过去的训练中获取知识。

F.鲁棒RL和模仿学习

鲁棒RL作为一种新的RL范式很早就被提出了，它明确地考虑了输入干扰和建模错误。它考虑了一个坏的，甚至是敌对的模型，并试图将奖励最大化作为一个优化问题。

模仿学习提出采用专家演示代替人工构造固定的奖励函数来训练模型。模仿学习的方法大致可以分为两个关键领域:行为克隆，其中智能体学习从观察到动作的映射；逆强化学习，一个智能体试图估计一个给定演示的奖励函数。由于模仿学习的目的是给RL 智能体一个鲁棒的奖励，有时可以利用模仿学习来获得鲁棒的RL策略或模拟到真实的迁移。

3. Sim2Real迁移方法

在此部分，我们总结了最具代表性的模拟到真实转移的方法。最广泛使用的迁移方法是域随机化，其他相关的包括策略蒸馏、系统识别或元RL。

A. 零样本迁移

将知识从模拟转换到现实的最直接的方法是建立一个真实的模拟器，或者有足够的模拟经验，这样模型就可以直接应用到现实环境中。这种策略通常被称为零样本或直接转移。系统识别和域随机化是可以视为零样本迁移的技术。

B. 系统辨识

系统识别就是为物理系统建立一个精确的数学模型，使仿真器更加真实，需要仔细的标定。尽管如此，获得足够逼真的模拟器的挑战仍然存在。例如，很难构建高质量的渲染图像来模拟真实的视觉。此外，同一机器人的许多物理参数可能会因温度、湿度、位置或其磨损而发生较大的变化，这给系统识别带来了更大的困难。

C. 域随机化方法

域随机化并不建模真实世界的精确参数，我们可以高度随机化模拟，以覆盖真实世界数据的真实分布，尽管模型和真实世界之间存在偏差。根据模拟器随机化的组成部分，我们将领域随机化方法分为视觉随机化和动力学随机化两种。

视觉随机化：在机器人视觉任务中，包括目标定位[53]、目标检测[54]、姿态估计[55]和语义分割[56]，来自模拟器的训练数据总是具有与现实环境不同的纹理、光照和摄像机位置。因此，视觉域随机化的目的是为训练时的视觉参数提供足够的模拟变异性，以便在测试时模型能够推广到真实世界的数据。
动力学随机化：动力学随机化可以帮助获得鲁棒策略，特别是在需要控制策略的情况下。为了学习灵巧的机械手操作策略，[57]在模拟器中随机化各种物理参数，如物体尺寸、物体和机器人连杆质量、表面摩擦系数、机器人关节阻尼系数和执行器力增益。他们成功的模拟到真实的迁移实验显示了域随机化的强大效果。

D.域自适应方法

域自适应方法使用来自源域的数据来提高学习模型在不同目标域中的性能，而目标域中的数据总是不可用的。由于通常源域和目标域之间存在不同的特征空间，为了更好地从源数据转移知识，我们应该尝试将这两个特征空间统一起来。

近年来，领域自适应的研究在图像分类和语义分割等基于视觉的任务中得到了广泛的应用。然而，在本文中，我们主要关注与强化学习相关的任务和应用于机器人的任务。在这些场景中，使用域适应的纯视觉相关任务优先于后续的构建强化学习智能体或其他控制任务。也有一些使用域自适应的图像到策略的工作，以泛化由合成数据学习的策略或加快现实世界机器人的学习。有些还使用域自适应来直接在智能体之间传递策略。

从文献中，我们总结了三种常见的域适应方法：

discrepancy-based：基于差异的方法通过计算预定义的统计量来测量源和目标域之间的特征距离，以对齐它们的特征空间
adversarial-based：基于对抗性的方法建立一个域分类器来区分特征是来自源域还是目标域。经过训练，该提取器可以同时在源域和目标域产生不变特征
reconstruction- based：基于重构的方法旨在找到域之间的不变特征或共享特征。他们通过构建一个辅助重构任务并利用共享特征恢复原始输入来实现这一目标。这样，共享特性应该是不变的，并且独立于域

这三种方法提供了不同的角度来统一来自不同领域的特征，可以用于视觉任务和基于强化学习的控制任务。

E.加入扰动的学习

领域随机化和动态随机化方法的重点是在模拟环境中引入扰动，以降低模拟与现实不匹配的影响。

同样的概念思想在其他工作中得到了扩展，其中引入了扰动以获得更健壮的智能体。例如，在[72]中，作者考虑了噪声奖励。虽然与模拟到真实的转换没有直接关系，但噪声奖励可以更好地模拟真实世界中的训练。此外，在我们最近的一些研究[8]，[73]中，我们考虑了环境干扰对并行学习的不同智能体的影响。在使用公共策略部署或培训多个实际智能体时，这是需要考虑的一个方面。

F.仿真环境

模拟到真实传输的一个关键方面是模拟的选择。模拟越真实，实际预期的结果就越好。文献中使用最广泛的模拟器是Gazebo、Unity3D和PyBullet或MuJoCo。Gazebo具有与机器人操作系统(ROS)中间件广泛集成的优势，因此可以与存在于真实机器人中的部分机器人堆栈一起使用。另一方面，PyBullet和MuJoCo提供了与DL和RL库和gym环境的更广泛的集成。总的来说，Gazebo适合更复杂的场景，而PyBullet和MuJoCo提供更快的训练。

4. 应用场景

DRL在机器人技术中最常见的应用是导航和灵巧操作。由于大多数机械臂操作空间有限，相对于复杂的机器人系统，灵活操作的仿真环境相对容易生成。例如，Open AI Gym是最广泛使用的强化学习框架之一，它为灵巧操作提供了多种环境。

A.灵巧的机器人操作

主要是机械臂、机械手操作。

B. 机器人导航

在过去的几年里，通过强化学习来学习导航一直是一个越来越引起研究兴趣的话题，但是对sim2real的方法研究很少。在导航任务方面缺乏标准的模拟环境。由于不同的导航任务需要不同的环境和传感器套件，需要自定义模拟器环境。

为了实现对现实世界的成功转移，文献中采用了不同的方法，特别值得关注的是以下方法:课程学习[37]，增量环境复杂性[39]，以及针对多任务的持续学习和策略提炼[12]。

C.其他应用

触觉感知、多智能体操作等

5.主要挑战和未来方向

尽管在我们回顾的论文中提出了进展，基于现有方法的模拟现实仍然具有挑战性。

对于域随机化，研究人员倾向于实证研究，手动检查添加哪一种随机化，但很难正式解释它如何和为什么工作，从而为设计和有效模拟随机化分布带来了困难。
对于域自适应，现有的算法大多是基于同质深度域自适应，即假设源域和目标域之间的特征空间相同。然而，这种假设在许多应用中可能并不正确

未来方向：

整合现有的不同方法，以实现更有效的迁移(如域随机化和域自适应);
渐进式复杂性学习，持续学习，以及对复杂或多步骤任务的奖励塑造

6.结论

强化学习算法通常依靠模拟数据来满足对大量标记经验的需求。然而，模拟环境和真实场景之间的不匹配，需要进一步关注模拟到真实的方法，以转移在模拟中获得的知识。据我们所知，这是第一个关注机器人领域的DRL模拟到真实环境的不同方法的综述。

域随机化被认为是最广泛采用的方法，以增加模拟的真实感和更好地准备现实世界。然而，我们已经讨论了替代的研究方向，显示出可喜的结果。例如，策略精馏使多任务学习和更高效和更轻量的网络成为可能，而元学习方法允许任务的更大的可变性。

多智能体相关文献参考：

【1】Wenshuai Zhao, Jorge Pe˜na Queralta, Li Qingqing, and Tomi Wester- lund. Towards closing the sim-to-real gap in collaborative multi-robot deep reinforcement learning. In 5th ICRAE, 2020.

【2】Cassandra McCord, Jorge Pe˜na Queralta, Tuan Nguyen Gia, and Tomi Westerlund. Distributed progressive formation control for multi-agent systems: 2d and 3d deployment of uavs in ros/gazebo with rotors. In ECMR, 2019.

【3】Jorge Pe˜na Queralta, Jussi Taipalmaa, Bilge Can Pullinen, Victor Kathan Sarker, Tuan Nguyen Gia, Hannu Tenhunen, Moncef Gabbouj, Jenni Raitoharju, and Tomi Westerlund. Collaborative multi-robot systems for search and rescue: Coordination and perception. arXiv preprint arXiv:2008.12610, 2020.

【4】Ofir Nachum, Michael Ahn, Hugo Ponte, Shixiang Gu, and Vikash Kumar. Multi-agent manipulation via locomotion using hierarchical sim2real. arXiv:1908.05224, 2019.

你可能感兴趣的:(强化学习,迁移学习,仿真器)

【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
ARM DStream仿真器脚本常用命令
以下是ARMDStream仿真器脚本中常用的命令及其功能分类，结合调试流程和典型应用场景整理：⚙️一、连接与初始化命令connect建立与目标设备的连接，需指定接口类型（如JTAG/SWD）和处理器核心。示例：connect-pjtag-ccortex-a5reset复位目标设备，支持软复位（内核）或硬复位（全芯片）。target选择多核系统中的特定处理器核心，例如targetcortex-a50
瑞萨E1仿真器(R0E000010KCE00)支持的MCU系列---M16C Family (R32C/M32C/M16C)
M16C系列MCU简介：M16C系列提供了一个强大的32/16位CISC微型计算机平台，具有高ROM代码效率、广泛的EMI/EMS抗噪性、超低功耗、实际应用中的高速处理以及多种多样的集成外围设备。广泛的设备可扩展性，从低端到高端，具有单一的体系结构以及兼容的引脚分配和外围功能，为广泛的应用领域提供支持。此外，我们的低成本开发环境和程序修正功能帮助您缩短产品开发时间，同时大大降低系统总成本。emai
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
强化学习贝尔曼方程推导愤怒的可乐强化学习人工智能概率论机器学习算法
引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。回报折扣回报GtG_tGt的定义为：Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1(1)G_t=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag1Gt=Rt+1+γR
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
半监督学习+迁移学习：低成本构建高精度AI模型 AI智能探索者 AI Agent 智能体开发实战人工智能学习迁移学习 ai
半监督学习+迁移学习：低成本构建高精度AI模型关键词：半监督学习、迁移学习、低成本、高精度AI模型、数据利用摘要：本文主要探讨了如何通过半监督学习和迁移学习相结合的方式来低成本构建高精度的AI模型。首先介绍了半监督学习和迁移学习的背景知识，然后详细解释了这两个核心概念及其相互关系，接着阐述了相关算法原理、数学模型，还给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探讨了未来发展趋
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
《三生原理》如何改进阴阳参数冷启动？葫三生三生学派人工智能平面线性代数概率论算法
AI辅助创作：《三生原理》通过‌动态参数耦合‌与‌跨域迁移学习‌优化阴阳参数冷启动问题，显著降低15%的初始化成本并提升收敛效率，具体技术路径如下：一、动态参数化生成引擎‌‌阴阳本体的递归约束‌基于素数基底（阴元=2，阳元=3）构建参数化公式：p=3(2n+1)+2(2n+m+1)(m∈{0,1,2,3,4})通过约束参数mm的取值空间（对应五行属性），压缩冷启动搜索范围在华为高斯实验室的量子加密
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他