强化学习论文笔记第9页

【论文笔记】AFGRL:Augmentation-Free Self-Supervised Learning on Graphs(简要笔记供复习使用)

AFGRL:Augmentation-FreeSelf-SupervisedLearningonGraphs文献地址：Augmentation-FreeSelf-SupervisedLearningonGraphsMotivation图对比的正例对构造对增强方法敏感，由于图包含了语义信息和结构信息，因此在对边进行不同增强方法时，可能会影响其语义对不同数据分布的数据集，模型增强的参数需要分别进行调整

好想变有钱535·2024-01-18 07:59

【论文笔记】Do Transformers Really Perform Bad for Graph Representation（简要笔记供复习使用）

DoTransformersReallyPerformBadforGraphRepresentation论文地址：DoTransformersReallyPerformBadforGraphRepresentation一句话paper：利用度，最短路径增强的GraphTransformerMotivation原有将transformer应用于图的效果并不好节点重要性，图结构性信息往往在目前的工作中

好想变有钱535·2024-01-18 07:28

【论文笔记】BGRL：Large-Scale Representation Learning on Graphs via Bootstrapping（简要笔记供复习使用）

BGRL:Large-ScaleRepresentationLearningonGraphsviaBootstrapping文章地址：Large-ScaleRepresentationLearningonGraphsviaBootstrappingMotivation现有自监督学习的方法大多需要大量的负样本和大规模的数据增强，而选择负样本的原则的缺失导致负样本不一定会增加模型精度，尤其是在大模型中

好想变有钱535·2024-01-18 07:28

【论文笔记】ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification（简要笔记供复习使用）

ImGCL：RevisitingGraphContrastiveLearningonImbalancedNodeClassification论文地址：RevisitingGraphContrastiveLearningonImbalancedNodeClassification.pdfContribution利用一个自适应采样策略的对比学习框架解决了数据集不平衡（长尾数据集）的性能受限问题，具体来

好想变有钱535·2024-01-18 07:51

深度强化学习Task1：马尔可夫过程、DQN算法回顾

本篇博客是本人参加Datawhale组队学习第一次任务的笔记【教程地址】https://github.com/datawhalechina/joyrl-book【强化学习库JoyRL】https://github.com

卡拉比丘流形·2024-01-18 05:14

AI 反馈强化学习的工作原理

一、说明AI反馈强化学习（RLAIF）是一种监督技术，它使用“宪法”来使像ChatGPT这样的AI助手更安全。在本指南中了解您需要了解的有关RLAIF的所有信息。

无水先生·2024-01-18 03:29

深度强化学习车辆重定向HMDRL: Hierarchical Mixed Deep Reinforcement Learning to Balance Vehicle Supply andDemand

HMDRL:HierarchicalMixedDeepReinforcementLearningtoBalanceVehicleSupplyandDemand摘要三层混合深度强化学习方法，对闲置的车辆进行重新定位管理者在顶层

发呆哥o_o ....·2024-01-17 22:01

深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning

偏理论，假设情况不易发生摘要多智能体强化学习的换道策略，不同的智能体在每一轮学习后交换策略，达到零和博弈。

发呆哥o_o ....·2024-01-17 22:59

基于霍克斯过程的限价订单簿模型下的深度强化学习做市策略

数量技术宅团队在CSDN学院推出了量化投资系列课程欢迎有兴趣系统学习量化投资的同学，点击下方链接报名：量化投资速成营（入门课程）Python股票量化投资Python期货量化投资Python数字货币量化投资C++语言CTP期货交易系统开发数字货币JavaScript语言量化交易系统开发相关研究总述最优做市(MM)是在限价订单簿(LOB)的两侧同时下达买订单和卖订单的问题，目的是最大化交易者的最终收益

数量技术宅·2024-01-17 22:47

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--大模型，扩散模型...

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓丽紫]每日论文分享

晓理紫·2024-01-17 20:28

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关

专属领域论文订阅VX关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓丽紫]

晓理紫·2024-01-17 20:27

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航

VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==LLM==标题:ACloserLookatAUROCandAUPRCunderClassImbalance

晓理紫·2024-01-17 20:27

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关

专属领域论文订阅VX关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-17 20:57

中科院自动化所：基于关系图深度强化学习的机器人多目标包围问题新算法

摘要：中科院自动化所蒲志强教授团队，提出一种基于关系图的深度强化学习方法，应用于多目标避碰包围(MECA)问题，使用NOKOV度量动作捕捉系统获取多机器人位置信息，验证了方法的有效性和适应性。

MocapLeader·2024-01-17 20:31

【论文笔记】Summarizing source code through heterogeneous feature fusion and extraction

SummarizingsourcecodethroughheterogeneousfeaturefusionandextractionAbstract1.Introduction2.HCGconstruction2.1SourcecodetoAST2.2ASTpruning2.3Featurefusionwithheterogeneousedges3.HetCoSmodel3.1.Overview

落啦啦·2024-01-17 14:14

强化学习（一）简介

强化学习这一概念在历史上来源于行为心理学，来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错，比如婴儿学习走路。

EasonZzzzzzz·2024-01-17 10:12

强化学习（二）多臂老虎机 “Multi-armed Bandits”——2

1、增量算法估计动作价值由之前的内容可知，某一个动作被选择n−1n-1n−1次后，该动作的价值估计值为Qn≐R1+R2+⋯+Rn−1n−1Q_n\doteq\dfrac{R_1+R_2+\cdots+R_{n-1}}{n-1}Qn≐n−1R1+R2+⋯+Rn−1很明显，随着时间的推移，内存和计算的需求逐渐增长，为此设计增量算法，已知QnQ_nQn和第nnn次的奖励RnR_nRn，则这nnn次奖励的

EasonZzzzzzz·2024-01-17 10:12

2024年1月16日Arxiv热门深度强化学习论文：IDENTIFYING POLICY GRADIENT SUBSPACES

揭秘强化学习之谜，图宾根大学和马普所发现策略梯度的低维奥秘，开启高效AI训练新纪元！

夕小瑶·2024-01-17 10:16

机器学习：李航统计学习方法笔记

詹令[email protected]待整理统计学习方法监督学习非监督学习半监督学习强化学习监督学习方法生成方法GenerativeApproach：P(Y∣X)=P(X,Y)P(X)

lealzhan·2024-01-17 08:54

论文笔记（三十八）HandyPriors: Physically Consistent Perception of Hand-Object ... Differentiable Priors

HandyPriors:PhysicallyConsistentPerceptionofHand-ObjectInteractionswithDifferentiablePriors文章概括摘要1.介绍2.相关工作3.方法：HANDYPRIORSA.问题设置B.可变渲染先验C.可微物理先验D.基于优化的改进E.基于过滤的跟踪4.实验A.真实世界中的机器人手和物体迭代B.姿势估计C.基于过滤的跟踪D

墨绿色的摆渡人·2024-01-17 07:10

论文笔记（三十九）Learning Human-to-Robot Handovers from Point Clouds

LearningHuman-to-RobotHandoversfromPointClouds文章概括摘要1.介绍2.相关工作3.背景3.1.强化学习3.2.移交模拟基准4.方法4.1.HandoverEnvironment4.2

墨绿色的摆渡人·2024-01-17 07:10

论文笔记（三十七）Visually Guided Model Predictive Robot Control via 6D Object Pose Localization and Tracking

VisuallyGuidedModelPredictiveRobotControlvia6DObjectPoseLocalizationandTracking文章概括摘要1.介绍2.相关工作3.物体姿态引导模型预测控制A.时间一致的6D物体姿态跟踪器B.使用MPC进行基于姿势的6D视觉伺服C.跟踪目标4.实验A.感知模块的定量评估B.视觉引导反馈控制5.结论文章概括作者：MedericFourmy

墨绿色的摆渡人·2024-01-17 07:10

论文笔记（二十）VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

VisuoTactile6DPoseEstimationofanIn-HandObjectusingVisionandTactileSensorData文章概括摘要1.介绍2.背景3.网络结构A.视觉触觉传感器融合B.姿势估计器C.损失函数4.数据集的生成A.触觉传感器不变的姿态估计B.数据收集设置C.数据集特征5.实验A.网络训练设置B.硬件部署6.结果A.量化评估B.定性评价C.消融研究D.与

墨绿色的摆渡人·2024-01-17 07:40

论文笔记（三十六）：6-DoF Pose Estimation of Household Objects for Robotic Manipulation: ... and Benchmark

6-DoFPoseEstimationofHouseholdObjectsforRoboticManipulation:AnAccessibleDatasetandBenchmark文章概括摘要1.介绍2.方法A.一组对象B.3D纹理物体模型C.捕捉真实图像D.用地面实况标注图像E.深度校准F.对称意识度量3.实验A.注释验证实验B.姿势预测基线C.BOP挑战赛D.详细实验4.与以前工作的关系5.

墨绿色的摆渡人·2024-01-17 07:40

论文笔记（十九）RGB-D Object Tracking: A Particle Filter Approach on GPU

RGB-DObjectTracking:AParticleFilterApproachonGPU文章概括摘要1.介绍2.贡献3.粒子滤波器4.可能性评估5.实施细节6.实验A.物体模型B.合成序列C.真实序列7.结论8.鸣谢文章概括作者：ChanghyunChoiandHenrikI.Christensen来源：CenterforRobotics&IntelligentMachines，Colle

墨绿色的摆渡人·2024-01-17 07:39

论文笔记（十四）：PoseRBPF: A Rao–Blackwellized Particle Filter for 6-D Object Pose Tracking

PoseRBPF:ARao–BlackwellizedParticleFilterfor6-DObjectPoseTracking文章概括摘要1.介绍2.相关工作3.用PoseRBPF进行六维物体姿势跟踪A.问题定式化B.PoseRBPF概述C.Rao–Blackwellized粒子滤波器的公式D.观察似然E.运动先验F.6维对象姿态跟踪框架G.PoseRBPF的RGB-D扩展H.快速PoseRB

墨绿色的摆渡人·2024-01-17 07:09

论文笔记（十八）：Object Detection and Spatial Location Method for ... Based on 3D Virtual Geographical Scen

ObjectDetectionandSpatialLocationMethodforMonocularCameraBasedon3DVirtualGeographicalScene文章概括摘要1介绍2方法框架3三维虚拟地理场景的融合构建算法A.三维地理场景的构建B.初始化虚拟摄像机C.生成三维虚拟地理场景4基于三维虚拟地理场景的坐标计算算法5使用Brax：解决运动和操作问题5.1与Brax捆绑的学

墨绿色的摆渡人·2024-01-17 07:09

论文笔记（四）：6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

6-PACK:Category-level6DPoseTrackerwithAnchor-BasedKeypoints文章概括1.摘要2.介绍3.相关工作4.问题定义5.模型5.1基于锚的注意机制5.2无监督的3D关键点生成6.结论文章概括作者：ChenWang，RobertoMart´ın-Mart´ın，DanfeiXu，JunLv，CewuLu，LiFei-Fei，SilvioSavares

墨绿色的摆渡人·2024-01-17 07:08

论文笔记（七）：ROS Reality: A Virtual Reality Framework Using Consumer-Grade Hardware for ROS-Enabled Robot

ROSReality:AVirtualRealityFrameworkUsingConsumer-GradeHardwareforROS-EnabledRobots文章概括摘要1.介绍2.相关工作3.ROSRealityA.作为远程操作界面的VRB.系统概述C.ROSD.HTCViveE.UnityF.ROSReality1）WebSocket客户端2）URDF解析器3）TransformList

墨绿色的摆渡人·2024-01-17 07:08

论文笔记（一）：se(3)-TrackNet: Data-driven 6D Pose Tracking by ...... in Synthetic Domains

se（3）-TrackNet：Data-driven6DPoseTrackingbyCalibratingImageResidualsinSyntheticDomains文章概括1.摘要2.介绍3.相关工作3.1数据驱动的6D姿势估计：3.26D姿势跟踪：3.2.1概率跟踪：3.2.2基于优化的跟踪：3.3模拟到现实：4.方法4.1具有残差的SE（3）流形上的跟踪4.2神经网络的设计4.3通过PP

墨绿色的摆渡人·2024-01-17 07:38

论文笔记（二）：DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

DenseFusion:6DObjectPoseEstimationbyIterativeDenseFusion文章概括1.摘要2.介绍3.相关工作3.1来自RGB图像的姿势：3.2来自深度/点云的姿势：3.3来自RGB-D数据的姿势：4.模型4.1结构概括4.2语义分割4.3Dense特征提取4.3.1密集的3D点云特征嵌入4.3.2密集的彩色图象特征嵌入4.4Pixel-wise密集融合4.4

墨绿色的摆渡人·2024-01-17 07:38

机器学习：简要介绍及应用案例

这种学习的方式通常分为监督学习、无监督学习和强化学习。监督学习（SupervisedLearning）：在监督学习中，算法从带有标签的训练

rubyw·2024-01-17 07:06

【机器学习】强化学习（二）基于动态规划的算法

值函数可以分为状态价值函数和动作价值函数，分别适用于哪些强化学习问题二、基于动态规划的算法2.1策略迭代算法示例：(改进的)策略迭代代码首先定义了一些参数，如奖励、折扣因子、最大误差等，然后初始化了一个网格世界的环境

十年一梦实验室·2024-01-17 07:02

论文笔记（四十）Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds

Goal-AuxiliaryActor-Criticfor6DRoboticGraspingwithPointClouds文章概括摘要1.介绍2.相关工作3.学习6D抓握政策3.1背景3.2从点云抓取6D策略3.3联合运动和抓握规划器的演示3.4行为克隆和DAGGER3.5目标--辅助DDPG3.6对未知物体进行微调的后视目标4.实验4.1模拟消融研究（AblationStudiesinSimul

墨绿色的摆渡人·2024-01-17 07:00

【机器学习】强化学习（一）强化学习简介

一、强化学习简介1.1问题定义1.2马尔可夫决策过程举例说明马尔可夫决策过程例1：例2：执行动作的策略强化学习的目标是让智能体通过不断尝试，找到最优的策略（policy），即在每个状态下选择什么动作，以最大化累积的奖励

十年一梦实验室·2024-01-17 07:59

机器学习框架Ray -- 3.1 RayRLlib训练Pendulum-v1

分别使用SAC/DDPG/Apex-DDPG训练强化学习环境Pendulum-v1。1.Pendulum-v1环境在Pendulum-v1环境中，智能体的目标是平衡一个倒置的摆。

Augenstern-YaoYao·2024-01-17 06:28

深度强化学习算法PPO训练CartPole

PPO代码部分，训练离散动作1.导入必须要的包importtorchimporttorch.nnasnnimporttorch.nn.functionalasfimporttorch.optimasoptimfromtorch.distributionsimportCategoricalfromcollectionsimportdequeimportrandomimportmatplotlib.p

槑槑紫·2024-01-17 06:27

一个可转移的连续强化学习的中心框架

TRANSFERVALUEORPOLICY?AAVALUE-CENTRICFRAMEWORKTOWARDSTRANSFERRABLECONTINUOUSREINFORCEMENTLEARNINGABSTRACTTransferringlearnedknowledgefromoneenvironmenttoanotherisanimportantsteptowardspracticalreinfor

Adam坤·2024-01-17 06:26

ImageNet Classification with Deep Convolutional 论文笔记

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录标题和作者摘要创新点ReLU多GPUDropout其他网络结构输入层（Inputlayer）卷积层（C1）卷积层（C2）卷积层（C3）卷积层（C4）卷积层（C5）全连接层（FC6）全连接层（FC7）输

小嗷犬·2024-01-17 06:25

强化学习_PPO算法实现Pendulum-v1

目录PPO算法AC输出连续动作On-policy->Off-policyImportantsamplingIssueofImportanceSamplingAddConstraintPPO代码实现PPO算法PPO(ProximalPolicyOptimization）PPO是基于AC架构的，也就是说，PPO也有两个网络，分别是Actor和Critic，解决了连续动作空间的问题。AC输出连续动作我离

¥骁勇善战¥·2024-01-17 06:54

[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练

通义千问开源模型在PAI灵骏的最佳实践-知乎https://github.com/alibaba/Pai-Megatron-Patch/blob/main/examples/megatron.md背景：目标：使用qwen基座来做CT。数据情况：预训练数据已经用qwen-tokenizer分过词。所以不需要准备数据。如果需没有数据，也可以从Pai-Megatron上拉数据。Megatron训练流程：

心心喵·2024-01-17 06:54

论文笔记：信息融合的门控多模态单元（GMU）

整理了GMU（ICLR2017GATEDMULTIMODALUNITSFORINFORMATIONFUSION）论文的阅读笔记背景模型实验论文地址：GMU背景多模态指的是同一个现实世界的概念可以用不同的视图或数据类型来描述。比如维基百科有时会用音频的混合来描述一个名人；来自社交网络的用户用文本和多媒体附件(图像/视频/音频)评论音乐会或体育比赛等事件。医疗记录由图像、声音、文本和信号等的集合表

图学习的小张·2024-01-17 06:23

PPO 跑CartPole-v1

gym-0.26.2cartPole-v1参考动手学强化学习书中的代码,并做了一些修改代码importgymimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmclassPolicyNet

NoahBBQ·2024-01-17 06:52

什么是ChatGPT，什么是大模型prompt

什么是ChatGptChatGPT是一个由美国的OpenAI公司开发的聊天机器人，它使用了大型语言模型，现在有GPT-3、GPT-3.5、GPT-4.0多个版本，目前还在快速发展，通过监督学习和强化学习进行了微调

张飞的猪大数据·2024-01-17 05:15

超火的chartGPT到底是什么？没有账号我能使用吗

OpenAl的研究领域包括机器学习、自然语言处理和强化学习等。其中,GPT-3是OpenAl开发的一种大型语言模型,可以进行自然语言生成、翻译和问答等任务。什么是ChartGPT？

你别管我了·2024-01-17 00:16

深度学习机器臂控制_基于深度强化学习的机器人手臂控制

基于深度强化学习的机器人手臂控制杨淑珍;韩建宇;梁盼;古彭;杨发展;吕萍丽【期刊名称】《福建电脑》【年(卷),期】2019(035)001【摘要】基于深度强化学习策略,研究了机器人手臂控制问题.以两节机器人手臂为对象

觉主小VV·2024-01-16 22:54

【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障

基于深度强化学习的机械臂避障1.引言2.论文解读2.1背景2.2将NAF算法用在机器人避障中3.总结1.引言本文介绍一篇2018年发表在EuropeanControlConference的文章，虽然不是顶会

ReEchooo·2024-01-16 22:24

【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

文章目录摘要关键词0引言1空间连续型机器人动力学模型1.1场景假设(1)环境假设(2)模型假设1.2公式分析2空间连续型机器人滑模控制器3基于强化学习的滑模控制器4仿真校验5结论摘要【针对问题】空间主动碎片清除操作中连续型三臂节机器人系统跟踪

Ctrl+Alt+L·2024-01-16 22:23

机器人强化学习——Comparing Task Simplifications to Learn Closed-Loop Object Picking Using DRL（2019 RAL）

1简介任务是reach、grasp、lift，比较了rewardshaping、curriculumlearning、迁移学习，并迁移到了真实机器人场景中。本文抓取的方法框架是QT-Opt。2方法相机位置：机械臂腕部，眼在手上。state：深度图像、机械手张开宽度action：xyz平移、z轴旋转（想对于当前末端位姿）、机械手动作（开/闭）。每步平移最大1cm，初始state：随机选择n个物体放置

千羽QY·2024-01-16 22:53

基于强化学习的机器人路径寻优

二、使用差分进化算法辨识逆运动学的解三、基于强化学习的机械臂末端运动四、代码五、总结前言提示：这里可以添加本文要记录的大概内容：记录以前上课时学习的一些知识本文需要掌握的一些前置知识：1.机器人的D-H

kk的blog;·2024-01-16 22:53

推荐频道

强化学习论文笔记

【论文笔记】AFGRL:Augmentation-Free Self-Supervised Learning on Graphs(简要笔记供复习使用)

【论文笔记】Do Transformers Really Perform Bad for Graph Representation（简要笔记供复习使用）

【论文笔记】BGRL：Large-Scale Representation Learning on Graphs via Bootstrapping（简要笔记供复习使用）

【论文笔记】ImGCL：Revisiting Graph Contrastive Learning on Imbalanced Node Classification（简要笔记供复习使用）

深度强化学习Task1：马尔可夫过程、DQN算法回顾

AI 反馈强化学习的工作原理

深度强化学习车辆重定向HMDRL: Hierarchical Mixed Deep Reinforcement Learning to Balance Vehicle Supply andDemand

深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning

基于霍克斯过程的限价订单簿模型下的深度强化学习做市策略

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--大模型，扩散模型...

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关

中科院自动化所：基于关系图深度强化学习的机器人多目标包围问题新算法

【论文笔记】Summarizing source code through heterogeneous feature fusion and extraction

强化学习（一）简介

强化学习（二）多臂老虎机 “Multi-armed Bandits”——2

2024年1月16日Arxiv热门深度强化学习论文：IDENTIFYING POLICY GRADIENT SUBSPACES

机器学习：李航 统计学习方法 笔记

论文笔记（三十八）HandyPriors: Physically Consistent Perception of Hand-Object ... Differentiable Priors

论文笔记（三十九）Learning Human-to-Robot Handovers from Point Clouds

论文笔记（三十七）Visually Guided Model Predictive Robot Control via 6D Object Pose Localization and Tracking

论文笔记（二十）VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

论文笔记（三十六）：6-DoF Pose Estimation of Household Objects for Robotic Manipulation: ... and Benchmark

论文笔记（十九）RGB-D Object Tracking: A Particle Filter Approach on GPU

论文笔记（十四）：PoseRBPF: A Rao–Blackwellized Particle Filter for 6-D Object Pose Tracking

论文笔记（十八）：Object Detection and Spatial Location Method for ... Based on 3D Virtual Geographical Scen

论文笔记（四）：6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

论文笔记（七）：ROS Reality: A Virtual Reality Framework Using Consumer-Grade Hardware for ROS-Enabled Robot

论文笔记（一）：se(3)-TrackNet: Data-driven 6D Pose Tracking by ...... in Synthetic Domains

论文笔记（二）：DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

机器学习：简要介绍及应用案例

【机器学习】强化学习（二）基于动态规划的算法

论文笔记（四十）Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds

【机器学习】强化学习 （一）强化学习简介

机器学习框架Ray -- 3.1 RayRLlib训练Pendulum-v1

深度强化学习算法PPO训练CartPole

一个可转移的连续强化学习的中心框架

ImageNet Classification with Deep Convolutional 论文笔记

强化学习_PPO算法实现Pendulum-v1

[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练

论文笔记：信息融合的门控多模态单元（GMU）

PPO 跑CartPole-v1

什么是ChatGPT，什么是大模型prompt

超火的chartGPT到底是什么？没有账号我能使用吗

深度学习机器臂控制_基于深度强化学习的机器人手臂控制

【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障

【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

机器人强化学习——Comparing Task Simplifications to Learn Closed-Loop Object Picking Using DRL（2019 RAL）

基于强化学习的机器人路径寻优

机器学习：李航统计学习方法笔记

【机器学习】强化学习（一）强化学习简介