强化学习论文笔记第18页

【论文解读】：大模型免微调的上下文对齐方法

本文通过对alignmenttuning的深入研究揭示了其“表面性质”，即通过监督微调和强化学习调整LLMs的方式可能仅仅影响模型的语言风格，而对模型解码性能的影响相对较小。

深度人工智能·2023-12-23 14:52

强化学习--免模型预测与控制

免模型预测与控制强化学习免模型预测与控制免模型预测蒙特卡洛估计时序差分估计时序产分与蒙特卡洛的比较免模型控制Q-learning免模型预测蒙特卡洛估计蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一

无盐薯片·2023-12-23 13:33

强化学习--DQN

DQN强化学习DQN深度网络经验回放目标网络深度网络一个神经网络能够将输入向量映射到输出向量，这个映射过程可以用下式表示。

无盐薯片·2023-12-23 13:33

强化学习--DDPG

DDPG强化学习DDPGDPGDDPGDPGDQN算法的一个主要缺点就是不能用于连续动作空间，这是因为在DQN算法中动作是通过贪心策略或者说argmax的方式来从Q函数间接得到，这里Q函数就相当于DDPG

无盐薯片·2023-12-23 13:01

大数据、知识图谱和强化学习的综合应用

大数据、知识图谱和强化学习各自在不同的方面都发挥了重要作用，它们分别涉及了大规模数据的处理和挖掘、基于图的数据结构和信息提取，以及基于奖励反馈的决策制定。

道亦无名·2023-12-23 13:36

【大模型实践】基于文心一言的对话模型设计

文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

justld·2023-12-23 12:09

hjxu2016·2023-12-23 11:52

乌梅丸证及乌梅的药性–90天强化学习–周丹

乌梅丸证伤寒，脉微而厥，至七八日，肤冷，其人躁、无暂安时者，此为脏厥，非蚘厥也。蚘厥者，其人当吐蚘。今病者静，而复时烦，此为脏寒，蚘上入其膈，故烦。须臾复止，得食而呕又烦者，蚘闻食臭出，其人当自吐蚘。蚘厥者，乌梅丸主之。又主久利。乌梅丸方乌梅三百枚细辛六两干姜十两黄连十六两当归四两附子六两（炮去皮）蜀椒四两（出汗）桂枝六两（去皮）人参六两黄柏六两右十味，异捣筛，合治之，以苦酒渍乌梅一宿，去核，蒸之

经方临证经验录·2023-12-23 09:57

人工智能，什么是强化学习？

强化学习已成为机器学习中一个很有前途的领域，可以解决通常处于不确定性状态的顺序决策问题。

人工智能MOS·2023-12-23 08:44

ACL2021论文笔记——Semantic Representation for Dialogue Modeling

论文链接：SemanticRepresentationforDialogueModeling(aclanthology.org)https://aclanthology.org/2021.acl-long.342.pdfattention:本文的"我"、"我们"都指作者概述：题目为《对话建模的语义表示》仍需解决的问题：1.AMR2.featurefusion(Mangaietal.,2010)3.

Mike峰·2023-12-23 08:28

【论文笔记】Unsupervised Person Re-identification by Soft Multilabel Learning

笔记目录（部分笔者省略）摘要1.简介2.相关工作无监督RE_ID无监督域自适应多标签分类零镜头学习3.深度软件多标签参考学习3.1问题表述和概述3.2软多标签引导的硬否定挖掘3.3跨视野一致性软多标签学习3.4参考代理学习4.实验4.1数据集基准测试评估辅助数据集4.2实验实施细节4.3与最新方法的比较与基于手工特征表示模型的比较与基于伪标签学习模型的比较与基于无监督域自适应模型的比较4.4消融研

Yo3ngLau·2023-12-23 02:21

image caption 必看论文，模型整理

基础模型transformers-attentionisallyouneed细节笔记论文笔记几个重点1.架构图2.attention原理attention机制中的query,key,value的概念解释

MIngo的成长·2023-12-23 01:16

智能游戏设计：发展历程、问题与解决、未来展望

1.2强化学习

鳗小鱼·2023-12-22 22:34

第一章：马尔科夫决策过程（不可能看不懂）

目录一、预备知识二、马尔可夫决策过程三、马尔可夫性质四、回报五、状态转移矩阵六、小结一、预备知识本节主要介绍强化学习最基本的问题模型，马尔科夫决策过程（Markovdecisionprocess，MDP

代码kobe·2023-12-22 19:28

ChatGPT一周年：开源语言大模型的冲击

通过有监督微调和人类反馈的强化学习，模型可以回答人类问题，并在广泛的任务范围内遵循指令。

OneFlow深度学习框架·2023-12-22 13:46

行为心理学的认识-操作性条件作用

这就是操作条件作用的正强化学习，当然有正的就有反的。基本的意思是，有一个事物可以刺激到你，是你感兴趣或者使你厌恶，但是你要想得到或者远离这个刺激

两点半的早晨·2023-12-22 03:37

RLHF介绍及实践测试

介绍RLHF（ReinforcementLearningHyperparameterOptimizationFramework）是一种用于强化学习模型的超参数优化框架。

Charles_yy·2023-12-21 21:32

[论文笔记] GNNAdvisor: An Adaptive and Efficient Runtime System for GNN Acceleration on GPUs

GNNAdvisor:AnAdaptiveandEfficientRuntimeSystemforGNNAccelerationonGPUsGNNAdvisor:GPU上GNN加速的自适应高效运行时系统[Paper][Slides][Code]OSDI’21摘要提出了GNNAdvisor,一个用于加速GPU平台上各种GNN工作负载的自适应高效运行时系统.从GNN模型和输入图中探索并识别了几个与性能

PeakCrosser·2023-12-21 17:05

马尔可夫链蒙特卡罗方法，变分贝叶斯推断和巴纳赫不动点在强化学习中的应用

1.马尔可夫链蒙特卡罗（MCMC）方法和变分贝叶斯推断方法马尔可夫链蒙特卡罗（MCMC）方法和变分贝叶斯推断方法在强化学习中的应用具有重要意义。

笑傲江湖2023·2023-12-21 16:54

全新「机械手」算法：辅助花式抓杯子，GTX 1650实现150fps推断

新方法结合扩散模型和强化学习，将抓取问题分解为「如何抓」以及「何时抓」，平价显卡即可实现实时交互。手是人类与世界交互的重要部分，手的缺失（如上肢残障）会大大影响人类的正常生活。

xwz小王子·2023-12-21 14:17

腾讯多任务强化学习算法登上顶刊TPAMI

一、概要编辑切换为居中添加图片注释，不超过140字（可选）论文标题：Curriculum-basedAsymmetricMulti-taskReinforcementLearning论文链接：https://arxiv.org/pdf/2211.03352.pdf代码链接：https://github.com/huanghanchi/CAMRL这是一篇2022年被IEEETransactionso

一阙词·2023-12-21 13:43

TPAMI: 基于强化学习的灵巧双手操作技能学习

最近，强化学习（RL）算法在许多需要决策领域的表现都优于人类专家。

xwz小王子·2023-12-21 13:10

AI百模大战：引领行业变革与开启人才黄金时代

个人博客：个人主页个人专栏：Linux学习⛳️功不唐捐，玉汝于成目录前言技术进步：AI的飞速发展1.深度学习的多领域应用2.自然语言处理的语境理解提升3.计算机视觉的实时处理能力提高4.强化学习在决策制定中的广泛应用

还在路上的秃头·2023-12-21 12:37

论文笔记 | Nature 2023 FunSearch：利用大语言模型在数学科学领域探索新的发现

文章目录一、前言二、主要内容三、总结CSDN叶庭云：https://yetingyun.blog.csdn.net/一、前言科学中有许多难以解决的问题，这些问题难以获得确切解答，但却相对容易进行验证。在数学和计算机科学领域，这类问题被称为NP完全优化问题（NP-completeoptimizationproblems）。人们普遍认为不存在能够在“可接受时间”内（即多项式时间内）解决此类问题的算法，

叶庭云·2023-12-21 12:22

【论文笔记】Distilling the Knowledge in a Neural Network

Abstract几乎任何机器学习算法性能提升的一个非常简单的方法是在相同数据上训练多个不同的模型，然后对它们的预测结果进行平均。不幸的是，使用整个模型集合进行预测繁琐，可能会因为计算成本过高而难以部署给大量用户，尤其是如果各个模型是庞大的神经网络时。研究表明，可以将集合中的知识压缩成一个单一模型，这样更容易部署，而我们则进一步使用不同的压缩技术发展了这种方法。本文在MNIST数据集上取得了令人惊讶

xhyu61·2023-12-21 10:48

【论文笔记】MCANet: Medical Image Segmentation withMulti-Scale Cross-Axis Attention

医疗图像分割任务中，捕获多尺度信息、构建长期依赖对分割结果有非常大的影响。该论文提出了Multi-scaleCross-axisAttention（MCA）模块，融合了多尺度特征，并使用Attention提取全局上下文信息。论文地址：MCANet:MedicalImageSegmentationwithMulti-ScaleCross-AxisAttention代码地址：https://githu

justld·2023-12-21 10:47

[ToolsChains CPP] Osqp的使用之二：MPCdemo-自动驾驶纵向mpc控制

135070489本文将先解读官网mpc的例子，然后实现一个自己设计的mpc的控制器；不远的未来的目标是成为我闭环仿真器（轨迹处理、规划、控制接入基于学习的车辆模型）的一环（目前是pp控制），遥远的未来实现强化学习自动调整参数

HERR_QQ·2023-12-21 09:48

MATLAB - 最优控制（Optimal Control）

一些广泛使用的最优控制方法有：线性二次调节器(LQR)/线性二次高斯(LQG)控制模型预测控制强化学习极值搜索控制H无穷综合一、线性二次调节器(LQR)/线性二次高斯(LQG)控制线性二次调节器(LQR

kuan_li_lyg·2023-12-21 08:59

「65页PDF」让 PM 全面理解深度学习

访问「easyAI-产品经理的AI知识库」下载PDF下面是内容结构和长图：深度学习全景图深度学习概要卷积神经网络-CNN循环神经网络-RNN长短期记忆网络–LSTM生成对抗网络–GANs强化学习-Reinforcementlearning

easyAI人工智能知识库·2023-12-21 04:13

论文笔记 | ICLR 2023 WikiWhy：回答和解释因果问题

文章目录一、前言二、主要内容三、总结CSDN叶庭云：https://yetingyun.blog.csdn.net/一、前言ICLR2023|Accept:notable-top-5%：《WikiWhy:AnsweringandExplainingCause-and-EffectQuestions》一段话总结：WikiWhy是一个新的QA数据集，围绕一个新的任务建立：用自然语言解释为什么一个答案是

叶庭云·2023-12-21 04:18

【论文笔记】动态蛇卷积（Dynamic Snake Convolution）

精确分割拓扑管状结构例如血管和道路，对医疗各个领域至关重要，可确保下游任务的准确性和效率。然而许多因素使分割任务变得复杂，包括细小脆弱的局部结构和复杂多变的全局形态。针对这个问题，作者提出了动态蛇卷积，该结构在管状分割任务上获得了极好的性能。论文：DynamicSnakeConvolutionbasedonTopologicalGeometricConstraintsforTubularStruc

justld·2023-12-21 02:37

论文笔记：Accurate Localization using LTE Signaling Data

1intro论文提出LTELoc，仅使用信令数据实现精准定位信令数据已经包含在已在LTE系统中，因此这种方法几乎不需要数据获取成本仅使用TA（时序提前）和RSRP【这里单位是瓦】（参考信号接收功率）TA值对应于信号从手机到达基站所需的时间长度——>考虑到光速，它相当于用户设备与基站之间的距离在4GLTE网络中，TA值介于0到63之间，每个步骤代表一个比特周期（大约0.5208μs）的提前。以大约3

UQI-LIUWJ·2023-12-20 23:16

论文笔记 Origin-Destination Matrix Prediction via Graph Convolution: aNew Perspective of Passenger Dema

19KDD1intro研究内容：OD矩阵预测（ODMP）预测在给定时间段内从一个地理区域到另一个地理区域的叫车订单数量本文提出了一种基于网格嵌入的单馈多任务学习模型(GEML)，同时考虑出行信息和地理特征，基于图对出行模式进行建模如果直接将已有的GCNs应用到OD矩阵所生成的图上，会出现以下问题：由于数据稀疏，学习到的具有很少订单的网格嵌入往往是不可靠和无效的对于没有任何历史订单记录的孤立节点(例

UQI-LIUWJ·2023-12-20 23:46

Course3-Week3-强化学习

Course3-Week3-强化学习文章目录Course3-Week3-强化学习1.强化学习的问题引入1.1什么是强化学习1.2强化学习示例1.3数学符号2.离散状态空间的强化学习2.1回报2.2策略2.3

虎慕·2023-12-20 19:30

NLP论文阅读记录 - AAAI-23 | 01 Cogito Ergo Summ：通过语义解析图和一致性奖励对生物医学论文进行抽象总结

文章目录前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献二.相关工作2.1抽象概括2.2图增强摘要2.3抽象概括的强化学习三.本文方法COGITOERGOSUMM

yuyuyu_xxx·2023-12-20 18:41

论文笔记 | ICLR 2023 ReAct：通过整合推理和行动来增强语言模型

文章目录一、前言二、主要内容三、总结CSDN叶庭云：https://yetingyun.blog.csdn.net/一、前言ICLR2023|Accept:notable-top-5%：《ReAct:SynergizingReasoningandActinginLanguageModels》一句话总结：ReAct方法在问答任务中通过提示大语言模型生成与任务相关的推理文本，并根据需求生成搜索或调用工

叶庭云·2023-12-20 13:52

Pytorch深度强化学习案例：基于Q-Learning的机器人走迷宫

目录0专栏介绍1Q-Learning算法原理2强化学习基本框架3机器人走迷宫算法3.1迷宫环境3.2状态、动作和奖励3.3Q-Learning算法实现3.4完成训练4算法分析4.1Q-Table4.2奖励曲线

Mr.Winter`·2023-12-20 12:43

【工作】思“运算”

（论文笔记及思考）培养小学生数学运算能力主要体现在以下几个方面：1-培养学生对数学运算的兴趣；多种形式的训练（如：游戏、竞赛、算式卡片、黑板视算、听算、限时口算、自编计算题等）。

Telling谭·2023-12-20 11:28

【强化学习】Deep Q Learning

DeepQLearning在前两篇文章中，我们发现RL模型的目标是基于观察空间(observations)和最大化奖励和(maximumizesumrewards)的。如果我们能够拟合出一个函数(function)来解决上述问题，那就可以避免存储一个(在DoubleQ-Learning中甚至是两个)巨大的Q_table。Tabular->FunctionContinousObservation:函

Hellespontus·2023-12-20 06:12

如何在短期内高效备考税务师

公共号聚鑫财会资料首先今年新增、改动的章节需要重点学习；其次，掌握每个章节的高频考点；最后熟悉考试特点、考试题型及分值占比等，通过做大量的习题来巩固知识点，强化学习效果。

6ca5b1771246·2023-12-19 15:50

用Q-learning算法实现自动走迷宫机器人

2019独角兽企业重金招聘Python工程师标准>>>【技术沙龙002期】数据中台：宜信敏捷数据中台建设实践|宜信技术沙龙将于5月23日晚8点线上直播，点击报名项目描述：在该项目中，你将使用强化学习算法

weixin_33901641·2023-12-19 15:59

python实现 Qlearning算法完整的输入输出测试数据

Q-learning是一种强化学习算法，用于解决基于动作-奖励机制的问题。以下是一个简单的Python实现Q-learning算法的示例，以解决一个简单的迷宫问题。

甜辣uu·2023-12-19 15:28

【Hung-Yi Lee】强化学习笔记

文章目录WhatisRLPolicyGradientPolicyGradient实际是怎么做的On-policyv.s.Off-policyExploration配音大师Actor-Critic训练valuefunction的方式网络设计DQNRewardShapingNoReward：LearningfromDemonstrationWhatisRL定义一个策略网络，来接受输入，并决定什么输出不

丸丸丸子w·2023-12-19 14:47

【百度PARL】强化学习笔记

文章目录强化学习基本知识一些框架Value-based的方法Q表格举个例子强化的概念TD更新Sarsa算法SampleSarsaAgent类On_policyvsoff_policy函数逼近与神经网络DQN

丸丸丸子w·2023-12-19 14:44

机器学习之神经结构搜索（Neural Architecture Search，NAS）

通常，这个搜索过程可以通过强化学习、进化算法、遗传算法或其他优化方法来完成。神经结构搜索的目标是提高神经网络的性能，减少人工设计网络结构的工作量，并提高模型的泛化能力。

贾斯汀玛尔斯·2023-12-19 08:14

python Markov马尔科夫网络节点状态预测并筛选小样本

之前写的基于马尔科夫的小样本节点检测文章里的内容~~马尔科夫决策过程是在随机过程的基础上提出来的，是对强化学习(RL)问题的数学描述。

JerryLoveCoding·2023-12-19 05:02

论文笔记：Bilinear Attention Networks

更精简的论文学习笔记1、摘要多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而，学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。为了解决这个问题，共同注意力为每个模态建立了两个独立的注意分布，忽略了多模态输入之间的相互作用。在本文中，我们提出了双线性注意力网络（BAN），它可以找到双线性注意力分布来无缝地利用给定地视觉语言信息。BAN考虑两组输入通道之间的双线性

hongyuyahei·2023-12-18 17:30

深度强化学习之：PPO训练红白机1942

本篇是深度强化学习动手系列文章，自MyEncyclopedia公众号文章深度强化学习之：DQN训练超级玛丽闯关发布后收到不少关注和反馈，这一期，让我们实现目前主流深度强化学习算法PPO来打另一个红白机经典游戏

人工智能与算法学习·2023-12-18 12:19

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

赶时间请直接看加粗的四种算法，它们占据不同的生态位，请根据实际任务需要去选择他们，在强化学习的子领域（多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法）：离散动作空间推荐：DuelingDoubleDQN

汀、人工智能·2023-12-18 12:18

【李宏毅深度强化学习笔记】2、Proximal Policy Optimization算法(PPO)

【李宏毅深度强化学习笔记】1、策略梯度方法（PolicyGradient）【李宏毅深度强化学习笔记】2、ProximalPolicyOptimization(PPO)算法（本文）【李宏毅深度强化学习笔记

qqqeeevvv·2023-12-18 12:15

推荐频道

强化学习论文笔记