强化学习阅读笔记第30页

了解大脑系统，弄清压力产生的原因

多莉阅读笔记第246/365天今日阅读《自驱性成长》作者：【美】威廉·斯蒂克斯鲁德奈得·约翰逊著叶壮译第一章：天底下最让人紧张的事四、在压力下我们的大脑是如何运作的？

蓝色多莉·2023-12-06 04:45

状态空间的定义

在系统理论、控制论、计算机科学、强化学习等领域，状态空间是一种常见的概念。状态空间框架是一种用于描述和分析系统的方法，它包括系统的状态、状态之间的转移关系以及与状态相关的行为。

summer_west_fish·2023-12-06 02:56

2019-5-26晨间日记

今天是什么日子起床：9：40就寝：3：00天气：晴心情：一般纪念日：无任务清单昨日完成的任务，最重要的三件事：1.get新的知识点可转债2.完成阅读笔记和保险课程思维导图3.完成打卡改进：需要对拖延症有个了解了习惯养成

TOMORROW_cf35·2023-12-05 22:46

《比昂全集》阅读笔记：漫长的周末 - 战争 5 上

【战争】第5节。【老兵和新兵】这是一个阳光明媚的早晨。从又硬又冷的水泥地上醒来，新兵的不适感超过了老兵。老兵表现的泰然自若。后来，一种味道飘来，像是一种酒的味道，老兵抿嘴吸了一口然后吐出来，说那可能是一具尸体的味道。新兵们找了两天，没有找到源头。【军列】火车载着人和马匹。除了留给军官的位置，三等舱和头等舱都被拆了。似乎被拆除的还有人们心中的那些阶层。依据文中的信息，Bion在舒适的位置，头等舱？B

若宁Rena·2023-12-05 18:31

RLHF：强化学习结合大预言模型的训练方式

RLHF(ReinforcementLearningfromHumanFeedback)以强化学习方式依据人类反馈优化语言模型。

_刘文凯_·2023-12-05 17:08

《我就想做班主任》阅读笔记

第8天温故：坚持、坚忍、学习身边人、阅读、记录、定力、信心、不羡慕、不敏感、热爱、虚虚实实、软情感、硬知识、相信、发现、放大点滴、研究问题等。知新：1植荒十年，换得一时春生启发：值得？可能是虚虚实实，尽信书不如无书。“教师改造家长的意识过于强烈。......，这些低情商的行为，是由他们自身的素养决定的，不一定是他们有意为之。”给我的启发，我们看待问题的方向往往指向别人，其实凡是出现在我们身上的问题

浪漫的巴布亚企鹅·2023-12-05 13:00

自我状态反思

最近不满足于目前的状态，尤其是我的早起状态，主要原因就是效率不高，记得之前最高效的时候，我可以完成当日计划，日更文章，还有阅读30分钟，并且写出阅读笔记。

边蓉Carol·2023-12-05 12:27

一文搞懂 chatGPT 原理

pretrain)GPT-3概述GPT3模型的理念GPT-3如何学习数据集指令微调(InstructionFine-Tuning，IFT)有监督微调(SupervisedFine-tuning,SFT)人类反馈强化学习

Python算法实战·2023-12-05 11:34

《比昂全集》阅读笔记：漫长的周末 - 英国 05 - 中

【英国】第5小节。面对别人看向自己的眼神，里面似乎有一个疑问：“你是一个好男孩吗？”是不是干了什么坏事？是不是偷了什么东西？是不是抽烟？……愤怒，且恐惧。好像是经历道德的拷问。最严格的是自我审判。在本节中，Bion的一段话中有“consciencedoesmakecowardsofusall”，出自莎士比亚《哈姆雷特》第三幕第一场那段注明的独白“tobeornottobe（生存还是毁灭）”。生存还

若宁Rena·2023-12-05 10:20

IRS辅助的隐蔽通信（IRS aided covert communication）

DetectionErrorProbability(DEP)本文是论文CovertCommunicationinIntelligentReflectingSurfaceAssistedNetworksWithaFriendlyJammer的阅读笔记

快把我骂醒·2023-12-05 09:14

《啊哈，算法》阅读笔记

第一章：排序13第1节最快最简单的排序——桶排序简化版的桶排序代码如下：int[]book=newint[1001];inti,j,t;for(i=0;i=0;i--)//依次判断编号1000~0的桶{if(book[i]==1){Console.WriteLine("{0}",i);}}我要说原理：有一千个桶，你输入1，就给序号1的标记，你输入10就给输入10的标记；输出的时候，只对标记的输出；

百锦再·2023-12-05 08:51

阅读笔记－2

昨天发布了第一篇读书笔记，感觉也不是那么难（刚开始本想找配图，最后想想为什么一定要配图呢），也没想象中的那么复杂，只需要将自己心中所想的，或者自己深有感悟的东西记下来，分享给大家，让看到文章的你也可以找到一盏明灯。阅读的书籍名称：《从极简到极致：在擅长的领域做一个厉害的人》（赵晓璃）。今天要整理的问题主要有三个：1）为什么你总是难以做出选择？2）你真的到了选择/决策的关口吗？3）对于选择/决策，有

潇逸辰·2023-12-05 07:00

人工智能算法

人工智能算法包括以下几类：机器学习算法：这些算法利用数据和统计技术让计算机学习并改善其性能，包括监督学习、无监督学习和强化学习。

不爱吃香菇的干饭少年·2023-12-05 06:16

阅读笔记：《改变、成长》……某老师结缘《心理营养》的分享

敬爱的林老师晚上好！各位老师、同修晚上好！我知道在我们这个群里高手很多，我作为心理学的初学者仍然迫切地想把我一年来的改变，一年来的成长分享给大家，敬请林老师和各位老师多多指导！1．结缘《心理营养》我是如何与“心理营养”结缘的呢？2018年年底女儿还未谈到对象，26周岁了，好男孩都被人家挑走了，我很着急很焦虑，于是请教张敏老师(她是我们当地的心理咨询师，是林老师铁杆粉丝），本想请张老师告诉我如何改变

让爱在每一天·2023-12-05 05:30

吃掉那只青蛙，-阅读笔记第三篇

本次阅读章节11-13章，复习第10章。如果要实现经济自由，那么就要坚持每个月增加一部分储蓄，然后年复一年地坚持攒钱。如果你想拥有健美的曲线，那么就要日复一日、年复一年地坚持少吃、多锻炼。任意选择一个曾经被你拖延的目标、任务或项目，从现在就开始迈出第一步。有时候，要开始一件事情并不难，你只需坐下来，把所有必要的步骤都列出来就足够了。开游乐场，空有目标，并没有分解，原因是不懂也没问，也没去学。在任何

津津有好味·2023-12-05 04:33

强化学习算法TRPO的理解

角度一：off-policy通常在强化学习策略梯度训练中，智能体每跟环境做一次完整的交互得到一条蒙特卡洛采样轨迹，策略网络的

北山杉林·2023-12-05 03:15

强化学习Markov重要公式推导过程

Markov决策过程（MarkovDecisionProcess，MDP）Markov过程是一种用于描述决策问题的数学框架，是强化学习的基础。

幻影123！·2023-12-05 00:02

深入理解强化学习——马尔可夫决策过程：蒙特卡洛方法-[基础知识]

分类目录：《深入理解强化学习》总目录蒙特卡洛方法（Monte-CarloMethods）也被称为统计模拟方法，是一种基于概率统计的数值计算方法。

von Neumann·2023-12-04 22:25

阅读笔记之《优势教养：发现、培养孩子优势的实用教养方法》

书名：优势教养：发现、培养孩子优势的实用教养方法作者：[澳]莉·沃特斯阅读进度：第三章金句分享：*当我们把孩子的优势当作理所当然，或仅仅是看到了某些类型的优势时，我们也就错失了帮助孩子利用自己的优势走向乐观、坚韧的良机。＊优势可以是技能、能力、兴趣、特点或天赋＊如果孩子长时间专注于某事，沉浸其中以至于忘了时间的流逝，这通常都是优势的表现。这种状态被称为“心流”。＊优势源于内在，而习得行为则需要我们

爆米花的阅读分享·2023-12-04 19:42

ORB-SLAM2代码阅读笔记：PnPSolver

PnPsolver::PnPsolver(constFrame&F,constvector&vpMapPointMatches):pws(0),us(0),alphas(0),pcs(0),//这里的四个变量都是指针啊,直接这样子写的原因可以参考函数set_maximum_number_of_correspondences()maximum_number_of_correspondences(0)

liampayne_66d0·2023-12-04 17:46

Pytorch深度强化学习1-5：详解蒙特卡洛强化学习原理

目录0专栏介绍1蒙特卡洛强化学习2策略评估原理3策略改进原理3.1同轨蒙特卡洛强化学习3.2离轨蒙特卡洛强化学习0专栏介绍本专栏重点介绍强化学习技术的数学原理，并且采用Pytorch框架对常见的强化学习算法

Mr.Winter`·2023-12-04 15:54

阅读笔记《善用时间》第九章：行动三角之检视

思维导图01教练对话1何为检视？检视就是花时间回过头去看做过的内容及更新系统内清单和档案的工作，并完成工作记录。很多人以为看过就算检视，其实那不算，写下来才是。2检视分类？检视可分为每天检视、每周检视、半年检视、一年检视等。换言之，检视必须重复使用。3检视内容？检视内容可以是清单，也可以是自己的内心、状态、收获等。可以把检视理解为总结和回顾，定期回顾自己做过的事能帮助我们不断调整工作、生活的重点。

小芒果妈咪·2023-12-04 15:45

强化学习------贝尔曼方程

回报(Return)折扣回报(DiscountedReturn)StateValue（状态价值函数）贝尔曼方程的推导贝尔曼方程的矩阵形式ActionValue（动作价值函数）贝尔曼最优公式前言最近在学习强化学习的内容

韭菜盖饭·2023-12-04 15:42

强化学习------时序差分（Temporal-Difference Learning）

简介时序差分方法（Temporal-DifferenceLearning）简称TD算法是强化学习中非常经典的一种方法，Sarsa算法和Q-learning算法都是基于时序差分这种方法的。

韭菜盖饭·2023-12-04 15:38

全球大模型发展整体态势，暗流涌动下的机遇

在技术层面上，大模型的实现采用“预训练+指令微调+人类反馈的强化学习”的训练范式。

BFT白芙堂·2023-12-04 12:36

2019-12-17

《靠谱》阅读笔记之四——顶尖咨询师的商务精神只有对他人有贡献，让对方感觉有价值。工作本身才具有价值。而判断工作是否有价值不是咨询师自己而是别人。23、创造价值。

云领老猫·2023-12-04 10:29

上游任务和下游任务

起源多任务学习中的定义理解结合定义分析例子示例1：计算机视觉示例2：自然语言处理示例3：语音处理示例4：强化学习总结起源"上游任务"和"下游任务"这两个术语在深度学习领域中通常用来描述一种多任务学习的框架

一杯水果茶！·2023-12-04 08:36

阅读笔记（一）

我害怕黑夜，害怕夜影中不请自来的形影，它们在帏幔的褶皱里、在卧室的壁纸上舞动，再随时间消散。但只要我一回忆童年，它们便会再度现身，可怕又充满威胁性。———《偷影子的人》

星文点书·2023-12-04 07:32

ChatGPT的总体技术路线

采用自然语言处理+搜索引擎集成的架构，构建GPT3.5+大型语言模型（LLM）+强化学习微调训练模型（RLHF），通过连接大量的语料库，在效果强大、基于自注意力机制的GPT3.5架构的大型语言模型（LLM

AIGC方案·2023-12-04 07:55

【论文阅读笔记】Large language models are reasoners with self-verification

Abs在LLM上提出了一个基于CoT的自我验证的方法来模仿人类的验算，并证明了它有用。原文：当一个大型语言模型(LLM)通过思维链(CoT)执行复杂推理时，它可能对个别错误高度敏感。为了解决这个问题，我们不得不培训验证人员(verifiers)。我们都知道，人类在推断出一个结论后，通常会通过重新验证来检查它，这可以避免一些错误。我们提出了一种称为自我验证的新方法，使用CoT的结论作为条件来构建一个

泪痣仓鼠厨·2023-12-04 07:51

【 ChatGPT作者LilianWeng博客总结】智能体=LLM(大语言模型)+记忆+规划技巧+工具使用...

来源：深度强化学习实验室 Lii’Log的博客https://lilianweng.github.io/posts/2023-06-23-agent/本文约7500字，建议阅读15分钟LLM的潜力不仅仅限于生成写得好的副本

数据派THU·2023-12-04 07:21

Spatial Group-wise Enhance

之前的论文阅读笔记都是记在one-note里，按老师的要求以后要写博客，先体验一下。

鸽鸽七号·2023-12-04 07:40

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection o

AdaptiveSparseConvolutionalNetworkswithGlobalContextEnhancementforFasterObjectDetectiononDroneImages阅读笔记文章地址

Mrwei_418·2023-12-04 04:19

RTDETR阅读笔记

RTDETR阅读笔记摘要DETR的高计算成本限制了它们的实际应用，并阻碍了它们充分利用无需后处理（例如非最大抑制NMS）的优势。文中首先分析了NMS对实施目标检测的精度和速度的负面影响。

Mrwei_418·2023-12-04 04:19

为这人间操碎了心-阅读笔记-04

今天阅读了第二辑的最后一篇文章：《影响我的几本书》梁实秋先生在本散文中提到了8本对他影响很大的书，分别是：《水浒传》《胡适文存》《卢梭与浪漫主义》《隽语与箴言》《对文明的反叛》《六祖坛经》《英雄与英雄的崇拜》《沉思录》本散文最后，梁实秋先生记录到：读书乃是以别人脑精制造出的东西以自娱。我以为有风度有身份的人可以凭自己头脑流露出来的东西而自得其乐。书是精神食粮。食粮不一定要自己生产，自己生产的不一定

Tracy的小书斋·2023-12-04 04:06

【文献阅读笔记】基于自监督的异常检测和定位：SSM

2022IEEETRANSACTIONSONMULTIMEDIA领域：异常检测目标：图像输入数据文章目录1、模型2、方法2.1、randommasking2.2、restorationnetwork2.3、损失函数2.4、推理时的渐进细化3、实验4、引用5、想法1、模型训练：每个图像实时生成随机的掩码，然后将掩码输入到具有两个预测头的条件自动编码器，一个用于重建图像，一个用于重建掩码。通过随机掩码

迎着黎明那道光·2023-12-04 02:47

《今日简史》阅读笔记-16

第19章各位同学，大家好，看了我这么多天的问题，你有没有什么启发？我昨天看到评论说，很多人因为我的题目，而重新看待和阅读了这本书的不同章节。今天我们做一个尝试，用第19章做一个实验。假如今天由你来值班，负责整个任务题目的设置，请你模仿我的视角，以19章的内容为例，提出3-4个问题。请你做两件事情：1、把问题写在今天的打卡内容当中。2、如果你看到其他人的问题写的好，就在问题评论里回答这个问题。要求：

清玉的平行世界·2023-12-04 01:58

Re56：读论文 A Brief History of the Changing Roles of Case Prediction in AI and Law

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：ABriefHistoryoftheChangingRolesofCasePredictioninAIandLaw论文下载地址

诸神缄默不语·2023-12-03 23:09

【个人笔记】-python-强化学习-类-在内存中的值

{int}数值{int}200{float}数值{float}0.9{narray:维度}数值{narray:(1,)}[2.]{bool}True{bool}False{类名}对象1{类名}对象2

资源存储库·2023-12-03 23:08

强化学习中的 AC（Actor-Critic）、A2C（Advantage Actor-Critic）和A3C（Asynchronous Advantage Actor-Critic）算法

文章目录AC算法A2C算法A3C算法AC算法AC（Actor-Critic）算法是强化学习中的一种基本方法，它结合了策略梯度方法和价值函数方法的优点。

智能建造小硕·2023-12-03 22:54

【《伤寒论》强化学习训练】打卡第3天，一期目标90天

2021年1月3日学习《少阴不可汗》学习总结：1.少阴病的人，手脚冰冷，且没有汗，硬要发汗的话，血会很被动，四肢冰凉的人血到不了末梢，再用汗法，人的血都会受伤，就像牙龈出血就要用附子剂才能够收拾，但不是发汗，出血了就用止血凉血。而且要看这个人是什么体质，要用阳药为主，就像经方就用桂枝救逆汤。2.一个人忽然之间狂咳嗽、拉肚子，谵语，寒热满分，这是一个标准的真武汤证，用真武汤就是治疗心衰竭和肾衰竭造成

最闪亮的那颗星_b02d·2023-12-03 20:21

Linguistic Steganalysis in Few-Shot Scenario论文阅读笔记

TIFS期刊A类期刊新知识点IntroductionLinguisticSteganalysisinFew-ShotScenario模型是个预训练方法。评估了四种文本加密分析方法，TS-CSW、TS-RNN、Zou、SeSy，用于分析和训练的样本都由VAE-Stego生产(编码方式使用AC编码)。实验是对比在少样本的情况下，各个模型的效果，当训练样本少于10的时候(few-shot)，上面提到的T

菜菜小堡·2023-12-03 15:17

《光环效应》听后感

＃樊登读书·听书打卡第4＃阅读时间：2021.07.05阅读书目：《光环效应》本书作者：[美]罗森维阅读笔记：早上起来先做：必须要做的而且是非常重要的事情，那就是先把樊登读书会的新书这件事情先做了。

简_学·2023-12-03 12:34

《卡片笔记写作法》阅读笔记—关于写作，你需要知道的

是什么样的工具曾让一个酿酒师的儿子成了20世纪最有创造力、备受尊敬的社会科学家之一？让他因此说出“我从不强迫自己做任何我不喜欢的事情。每当我思路卡顿时，我就会转头去做别的事情。”人们常常更倾向于写作的技巧而并非总体流程，而《卡片笔记写作法》正是要改变这种状况。在这样的写作状态下，我们可能需要克服拖延和动力不足，需要用意志力逼迫自己按照制定的计划来完成写作任务。这样一个较大弊端出现了，那就是我们有时

羊果妈妈·2023-12-03 12:41

阅读笔记 | Edge-Cloud Polarization and Collaboration: A Comprehensive Survey for AI

内容概要这篇是一篇综述性文章，主要关于云计算、边缘计算以及边云协同计算在人工智能方面的进展。论文的主要内容如下：云计算AI：讨论了用于云计算的CPU、GPU、TPU和DPU等硬件。介绍了计算机视觉、自然语言处理和网络服务等领域基于云计算的AI模型。边缘计算AI：概述了用于边缘计算的VPU、边缘TPU、移动GPU和神经处理单元等硬件。探讨了轻量级网络架构设计、模型压缩等技术来满足边缘计算的限制。边缘

一条独龙·2023-12-03 10:02

阅读笔记 | Mistify: Automating DNN Model Porting for On-Device Inference at the Edge

SummaryDeepneuralnetworks(DNNs)areincreasinglyusedinedgecomputingapplications,whererunninginferenceontheedgeprovidesbenefitslikelowerlatency,betterprivacy,andreliabilitycomparedtothecloud.However,this