强化学习论文笔记第28页

RLHF系统设计关键问答及案例

算法有哪些类别，各有什么优缺点RLHF采用人类反馈会带来哪些局限如何降低人类反馈带来的负面影响案例RLHF介绍RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习

北岛末巷·2023-10-27 15:47

Point Density-Aware Voxels for LiDAR 3D Object Detection 论文笔记

原文链接：https://arxiv.org/abs/2203.056621引言激光雷达的一个问题是产生的点云随距离变远而变得稀疏。基于体素的方法忽略了点的密度，使用体素中心特征（左图）；但对于大范围的输入，内存限制了体素的分辨率，点与体素的不对齐问题导致丢失物体细节，从而导致性能下降。基于点的方法使用最远点采样（中图），但计算复杂度随采样点的数量增大而增大，限制了细化阶段采样点的数量。此外由于行

byzy·2023-10-27 07:11

论文摘要_论文摘要：发现强化学习代理

论文摘要介绍(Introduction)Althoughthefieldofdeeplearningisevolvingextremelyfast,uniqueresearchwiththepotentialtogetusclosertoArtificialGeneralIntelligence(AGI)israreandhardtofind.Oneexceptiontothisrulecanbe

weixin_26726011·2023-10-27 07:37

[PyTorch][chapter 58][强化学习-1]

前言：RL(ReinfocementLearning)强化学习是机器学习，深度学习一个重点。后面20章将重点结合一些例子回顾一下经典的强化学习算法。

明朝百晓生·2023-10-27 04:29

[论文笔记]NEZHA

引言今天带来华为诺亚方舟实验室提出的论文NEZHA，题目是针对中文中文语言理解神经网络上下文表示(NEuralcontextualiZedrepresentationforCHineselAnguageunderstanding)，为了拼出哪吒。预训练语言模型由于具有通过对大型语料库进行预训练来捕获文本中深层上下文信息的人能力，因此在各种自然语言理解任务中均取得了巨大成功。然而，对中文预训练模型B

愤怒的可乐·2023-10-27 01:01

马尔可夫决策过程

马尔可夫决策过程（MarkovDecisionProgress，MDP）可以用来描述绝大部分的机器强化学习，其过程为：机器处于一个环境中，有不同的动作可以执行，每执行一个动作都会以一定概率将当前环境的状态转移到另一个状态

小傻黑·2023-10-27 01:01

ChatGLM系列一：ChatGLM的介绍及代码实践

经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿参数的ChatGLM-6B虽然规模不及千亿模型，但大大降低了用户部署的门槛，并且已经能生成相当符合人类偏好的回答

永胜永胜·2023-10-26 21:57

OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGE MODELS WITH MIXED-QUALITY DATA

最近的发展结合了监督微调（SFT）和强化学习微调（RLFT

UnknownBody·2023-10-26 18:07

【伤寒强化学习训练】打卡第十五天一期90天

11.6.2条文11.73至11.76讲解及天门冬的药性*当归四逆汤的主证抓法*1）血虚：嘴唇惨白，脸色不红润2）体质：血虚而冷，处在大发炎的状态，因此脉不一定是冷的3）痛：少阴病的桂林本说身体会掣痛（血分寒的人，有的变成掣痛，也有的是抽筋）《黄帝内经》里面有一个条文，“病腰痛不可以俛仰”：感冒传过厥阴，得过当归四逆汤证的，腹部侧面发痛，痛勾到肾脏、腰眼，肝经出了问题，腰椎就会不舒服，坐骨神经痛，

A卐炏澬焚·2023-10-26 12:52

论文笔记：5-2022-Ruoli Yang-Hindawi-Fruit Target Detection Based on BCo-YOLOv5 Model

摘要：深度学习诞生后，人工智能进入了蓬勃发展的蓬勃时期。在这个上升和成长的过程中，我们取得了一项又一项的成就。将深度学习应用于水果目标检测时，由于识别背景复杂、模型间相似度大、纹理干扰严重、水果部分遮挡等问题，基于传统方法的水果目标检测率较低。为了解决这些问题，提出了一种BCo-YOLOv5网络模型来识别和检测果园中的水果目标。我们使用YOLOv5s作为特征图像提取和目标检测的基本模型。本文将BC

qq_35821503·2023-10-26 12:47

【《伤寒论》强化学习训练】打卡第11天，一期目标90天

【3.17】尺寸俱弦微者，厥阴受病也，当六七日发，以其脉循阴器络于肝，故烦满而囊缩。此三经受病，已入于腑者，皆可下而已。厥阴病跟少阳病的脉都是偏弦的，少阳病的脉像一条绳索一样绷起来的；厥阴病的脉像那条绳索被剪断了，垮下去了；同样是弦脉，少阳病是绷上来有力的厥阴病是垮下去比较沉的。得厥阴病：高烧、燥热，高烧五天后手脚冰冷，拉肚子五六天，忽冷忽热。【3.23】传厥阴，脉沉弦而急，发热时悚，心烦呕逆，宜

最闪亮的那颗星_b02d·2023-10-26 11:00

Python-股票市场用于算法交易的人类反馈强化学习 (RLHF)

ChatGPT的成功使人类反馈强化学习(RLHF)技术成为人们关注的焦点。RLHF是一种机器学习方法，它结合了强化学习(RL)和人类反馈(HF)来改进学习过程。

Omer_·2023-10-26 11:22

论文笔记：CNN经典结构2（WideResNet，FractalNet，DenseNet，ResNeXt，DPN，SENet）

前言在论文笔记：CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构。本文主要讲解2016-2017年的一些经典CNN结构。

weixin_30607659·2023-10-26 08:13

论文笔记Densely Connected Convolutional Networks

论文笔记DenselyConnectedConvolutionalNetworks1.标题及来源2.阅读目的3.领域4.拟解决的问题5.提出的方法5.1整体网络结构5.2DenseBlock5.3版本对比

YSQ是我的·2023-10-26 08:12

《How Does Batch Normalization Help Optimization》论文笔记

《HowDoesBatchNormalizationHelpOptimization》论文初略论文地址：https://arxiv.org/...该论文推翻了BN原论文认为BN是因为减少了InternalCovariateShift(ICS)的推论，给出了一个新的解释，而是因为每层的标准化使得最后的loss函数变成了一个光滑的曲面而造成的最后性能提优。ICS即由于之前网络层参数的更新，当前从的输入

CapsulE_07·2023-10-26 07:55

【强化学习】08——规划与学习（采样方法|决策时规划）

文章目录优先级采样Example1PrioritizedSweepingonMazes局限性及改进期望更新和采样更新不同分支因子下的表现轨迹采样总结实时动态规划Example2racetrack决策时规划启发式搜索Rollout算法蒙特卡洛树搜索参考先做个简单的笔记整理，以后有时间再补上细节优先级采样均匀随机采样（uniformlysampling）会使得部分采样的结果对实际的更新毫无作用。如下图

yuan〇·2023-10-26 07:21

AI 编程与研发效能论坛笔记摘录

LLM涉及到的领域NLP/ML提示工程知识工程多任务调度算法优化LLM涉及到的技术算法:深度学习、强化学习、迁移学习大语言模型预训练技术,包括构建预训练系统参数高效微调技术数

恭仔さん·2023-10-26 01:26

强化学习代码实战(3) --- 寻找真我

前言本文内容来自于南京大学郭宪老师在博文视点学院录制的视频，课程仅9元地址，配套书籍为深入浅出强化学习编程实战郭宪地址。

笑傲江湖2023·2023-10-25 22:03

【论文笔记】Social Role-Aware Emotion Contagion in Image Social Networks

SocialRole-AwareEmotionContagioninImageSocialNetworks社会角色意识情绪在形象社交网络中的传染1、摘要：心理学理论认为，情绪代表了一个人的认知系统(1927年)的精神状态和本能反应。情绪是一种复杂的情绪状态，它会导致影响我们行为的生理和心理变化。本文研究了社交网络中情绪感染的一个有趣问题。特别地，通过使用图像社交网络(Flickr)作为我们研究的基

weixin_33932129·2023-10-25 19:54

【AI隐私保护.论文笔记】CrypTFlow2: Practical 2-Party Secure Inference，CrypTFlow2：实用的安全两方推理

这篇文章提出了实用的安全两方推理，能够实现安全神经网络的推理，发表在2020年安全类顶会CSS，由微软研究院的印度研究组完成。他们基于以前的密码学工作，衡量了安全和效率等多方面的问题，提出了一个叫做CrypTFlow2安全两方计算的机器学习框架。以前的激活层，Relu，Sigmoid函数大部分是采用GC，或者近似函数的方式。GC的开销比较大，而近似函数都有精度损失。比如CryptoNets中使用的

火锅配咖啡·2023-10-25 19:16

【论文笔记】Anchor-free目标检测论文推荐

前言Anchor-free目标检测是目标检测近几年的主流趋势之一，本文分享一个汇总了最近几年Anchor-free论文的github项目。Anchor-free目标检测项目作者：XinZhang,XuesongWang,nuoxu地址：https://github.com/XinZhangNLPR/awesome-anchor-free-object-detection本项目共计涵盖24篇anch

m0_61899108·2023-10-25 19:46

【PointNet—论文笔记分享】

第一个直接基于原始点云数据进行分割、分类的模型，之前都是基于多视图或者体素的方式。论文:PointNet:DeepLearningonPointSetsfor3DClassificationandSegmentation代码:TensorFlow版Pytorch版基本模型架构：分别对每个点进行特征提取(卷积或者全连接)，再MAX得到全局特征进行输出基于以下PropertiesofPointSets

~海棠树下~·2023-10-25 19:11

探索随机森林: 机器学习中的集成学习神器

机器学习第七课随机森林概述机器学习机器学习的主要分类监督学习无监督学习强化学习集成学习提高准确性增强稳定性提升泛化能力集成学习的主要方法BaggingBoostingStacking随机森林的理论基础决策树的基本原理随机森林的生成过程随机森林的优势与局限性随机森林的实际应用通过

我是小白呀·2023-10-25 14:41

AI_Papers周刊：第五期

CV-计算机视觉|ML-机器学习|RL-强化学习|NLP自然语言处理2023.03.06—2023.03.12TopPapersSubjects:cs.CL1.Largerlanguagemodelsdoin-contextlearningdifferently

AiCharm·2023-10-25 06:02

从零开始的强化学习笔记1（结合书本与网上的多篇资料总结）

当我打开一个机械臂的强化学习教程：让我们从零开始做一个机械手臂(强化学习)-知乎(zhihu.com)发现其中使用了DDPG算法。

CGEFAstro·2023-10-25 04:01

在Win10上安装Pytorch0.4.0及其他相关安装包（基于《深度强化学习入门与实践指南》）

最近在学习《深度强化学习入门与实践指南》，书中给出了其所有代码所用的安装包及版本如下图：但是这些版本代码比较老了，特别是Pytorch的0.4.0版本在官网上一直没找到，折腾了好一段时间。

CGEFAstro·2023-10-25 04:31

中国大学出品的人工智能精品之作视频课程

01-复杂系统02-大数据与机器学习03-人工智能的三个阶段04-高等数学—元素和极限05-复杂网络经济学应用06-机器学习与监督算法07-阿尔法狗与强化学习算法08-高等数学—两个重要的极限定理09-

陈南云·2023-10-24 23:01

Q-Learning 、Sarsa与 DQN算法

Q-Learning、Sarsa与DQN算法Q-Learning算法Sarsa算法DQN算法Q-Learning算法一、算法思想：QLearning是强化学习算法中value-based的算法，Q即为Q

何处微尘·2023-10-24 20:35

强化学习基础

强化学习基础强化学习的几个基本要素贝尔曼方程序列决策问题①动态规划法（DP）：②蒙特卡罗法（MC）：③时间差分法（TD）强化学习的几个基本要素1）sts_tst：ttt时刻环境的状态2）ata_tat：

何处微尘·2023-10-24 20:34

如何让孩子爱上学习~2

用适合孩子自己的学习方法，可以进入较好的学习状态，得到成功的学习经验，进而强化学习信心，形成一个正循环，让孩子的学习收获事半功倍的效果。

沈颖ying·2023-10-24 19:03

强化学习代码实战（1）

强化学习：智能决策，解决智能体对这个世界做什么的问题。

笑傲江湖2023·2023-10-24 13:18

强化学习代码实战---多臂赌博机---AttributeError: ‘EntryPoints‘ object has no attribute ‘get‘

1.问题配置window10，python3.7，tensorflow1.14.0，运行第一节多臂赌博机代码时遇到AttributeError:‘EntryPoints‘objecthasnoattribute‘get‘。2.解决执行以下代码：pipinstallfrozenlist==1.3.1geopy==2.2.0humanize==4.3.0idna==3.3importlib-metad

笑傲江湖2023·2023-10-24 13:18

强化学习代码实战(2) --- 多臂赌博机

目录前言1.Python基础2.Numpy基础3.多臂赌博机参考文献前言本文内容来自于南京大学郭宪老师在博文视点学院录制的视频，课程仅9元地址，配套书籍为深入浅出强化学习编程实战郭宪地址。

笑傲江湖2023·2023-10-24 13:41

文献阅读（168）强化学习 & Routerless NoC

文章目录蒙特卡洛树搜索MCTSlayeredprogressiveapproach实现细节InjectionEjection活锁死锁饥饿题目：ADeepReinforcementLearningFrameworkforArchitecturalExploration:ARouterlessNoCCaseStudy时间：2020会议：HPCA研究机构：南加大/俄勒冈州立大学本篇论文的主要贡献：Rou

tiaozhanzhe1900·2023-10-24 11:37

Imitation Learning（模仿学习）

模仿学习常应用于强化学习领域，以加速模型的学习过程。模仿学习的原理可以分为以下几个步骤：1.收集数据：首先，需要收集专家在执行任务时的行为数据，例如轨迹、动作等。这些数据可以来自于实

ninetyfour·2023-10-24 07:18

强化学习 | Python强化学习

强化学习在近年来取得了巨大的突破，使机器能够在不断的试错中自动学习并做出决策。本文将介绍强化学习的基本概念、原理和应用，同时提供详细的公式解释和Python代码示例。强化学习是什么？

算法如诗·2023-10-24 06:56

R-C3D论文笔记

R-C3D:RegionConvolutional3DNetworkforTemporalActivityDetection论文地址:https://arxiv.org/pdf/1703.07814.pdf刚看完论文，先总结一下论文的创新点:1.推广faster-RCNN的RegionProposalNetwork到时域2.推广faster-RCNN的ROIPooling算法到时域3.端到端的训练

義傑·2023-10-23 23:18

[论文笔记]MobileBERT

引言今天带来一篇关于量化的论文MobileBERT，题目翻译过来是：一种适用于资源有限设备的紧凑型任务无关BERT模型。模型的简称是MobileBERT，意思是作者的这个BERT模型可以部署到手机端。本篇工作，作者提出了MobileBERT用于压缩和加速BERT模型。与原始BERT一样，MobileBERT也是任务无关的，即它仅需简单的微调就能广泛地应用于不同的下游任务。本质上，MobileBER

愤怒的可乐·2023-10-23 20:25

1024程序员狂欢节有好礼 | 前沿技术、人工智能、集成电路科学与芯片技术、新一代信息与通信技术、网络空间安全技术

程序员狂欢节有好礼点击直达福利前言一、IT技术ITTechnology《速学Linux：系统应用从入门到精通》《Python网络爬虫入门到实战》二、人工智能ArtificialIntelligence《强化学习

程序员一修·2023-10-23 17:44

深度增强学习：走向通用人工智能之路

深度增强学习：走向通用人工智能之路本文是系列文章中的第一篇，是对深度增强学习/深度强化学习的基本介绍以及对实现通用人工智能的探讨。现在但凡写人工智能的文章，必提AlphaGo。

isuccess88·2023-10-23 15:37

人工智能（Machine Learning）—— 机器学习

blog.csdn.net/qq_27297393/article/details/82284384机器学习一、人工智能、机器学习与深度学习人工智能机器学习经典机器学习基于神经网络的机器学习浅层学习深层学习(深度学习)强化学习迁移学习二

lghgqsy·2023-10-23 10:29

GLIP & DetCLIP

1GLIP:十分钟解读GLIP：GroundedLanguage-ImagePre-training-知乎GroundedLanguage-ImagePre-training（GLIP）论文笔记-知乎GLIP

qq_478377515·2023-10-23 07:37

论文笔记：Multi-Concept Customization of Text-to-Image Diffusion

0概述论文：Multi-ConceptCustomizationofText-to-ImageDiffusion源代码和数据：https://www.cs.cmu.edu/~custom-diffusion/当生成模型生成从大规模数据库中学习的概念的高质量图像时，用户通常希望合成他们自己的概念的实例(例如，他们的家庭，宠物或物品)。我们能教一个模型快速掌握一个新概念吗，给出几个例子?此外，我们能否

HenrySmale·2023-10-23 00:58

细思极恐！AlphaGo又进化了：这两项棋类也被拿下

此前，《自然》杂志报道称，MeepMind为AlphaGo引入了“强化学习”（reinforcementlearning）的AI技术，让AlphaGo具备了超强的自我学习的能力。

d383a9b4083b·2023-10-23 00:49

强化学习问题（六）--- 无法安装gym 0.21.0

1.问题新版gym0.26.2，无法执行以下代码fromgym.envs.toy_textimportdiscrete故将gym0.26.2改成gym0.21.0，但遇到以下错误Preparingmetadata(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pyegg_infodidnotrunsuccessful

笑傲江湖2023·2023-10-22 23:51

强化学习问题（env_tracker）(2) ---FutureWarning: Passing (type, 1) or ‘1type‘ as a synonym of type is deprec

1.问题运行基于tensorflow1版本写的基于强化学习的纸牌游戏，遇到以下错误2.解决在电脑里找到位于“\anaconda\lib\site-packages\tensorflow\python\framework