强化学习论文笔记第21页

论文笔记：ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks

ReNet:ARecurrentNeuralNetworkBasedAlternativetoConvolutionalNetworks2018-03-0511:13:051.引言：本文尝试用基于四个方向的RNN来替换掉CNN中的convolutionallayer（即：卷积+Pooling的组合）。通过在前一层的feature上进行四个方向的扫描，完成特征学习的过程。Therecurrentla

weixin_34185364·2023-11-21 18:58

【论文笔记】Recurrent Feature Reasoning for Image Inpainting

最近在看一些关于图像修复的文献，针对最近看的文献分享一些自己的认识，不足之处还请在评论区指出。《RecurrentFeatureReasoningforImageInpainting》这是一篇2020年CVPR上的文献。原文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_Recurrent_Feature_Reasoning

woxinfeiyang6032·2023-11-21 18:58

论文笔记： BRITS: Bidirectional Recurrent Imputation for Time Series

2018NIPS0摘要时间序列在许多分类/回归应用程序中无处不在。但是，实际应用中的时间序列数据可能包含很多缺失值。因此，给定多个（可能相关的）时间序列数据，填充缺失值并同时预测它们的类标签很重要。现有的插补方法通常对基础数据生成过程进行强假设，例如状态空间中的线性动态。在本文中，我们提出了一种名为BRITS的新方法，该方法基于递归神经网络，用于时间序列数据中的缺失值插补。我们提出的方法直接学习双

UQI-LIUWJ·2023-11-21 17:48

论文笔记：DCRNN （Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting）

ICLR20180abstract交通预测是一项具有挑战的任务对道路网络的复杂空间依赖性随道路条件变化的非线性时间动态长期预测的固有困难——>将交通流建模为有向图上的扩散过程——>引入扩散卷积递归神经网络(DCRNN)使用图上的双向随机游走来捕获空间依赖性使用具有计划采样（scheduledsampling）的编码器-解码器架构来捕获时间依赖性1introduction1.1交通预测的挑战性复杂的

UQI-LIUWJ·2023-11-21 17:48

论文笔记1：SummaRuNNer: A RNN based Sequence Model for Extractive Summarization of Documents

引言自动文摘(autotextsummarization)在信息检索(IR)和自然语言处理(NLP)领域有很多应用，自动文摘主要分成extractive，抽取式，从原文中找到一些关键的句子，另一种是abstractive，摘要式，这需要计算机读懂原文内容，并用自己的意思将其表达出来。现在大多数的研究是基于抽取式的自动文摘，传统的抽取式自动文摘可分为三类：基于贪心算法的(greedyapproach

Jayson365·2023-11-21 17:46

学习神经网络模型，用不用学习原理？还是只会用就行了

先来系统概述机器学习，如下述思维导图机器学习下分几种学习方法：如，监督学习、无监督学习、强化学习、深度学习，其中深度学习通过神经网络模型实现，常用的有CNN、RNN、LSTM回到问题，学习神经网络模型，

Nubia00·2023-11-21 14:12

基于MINST数据集做分类的机器学习项目

TensorFlow自定义模型和训练使用TensorFlow加载和预处理数据使用卷积神经网络的深度计算机视觉使用RNN和CNN处理序列使用RNN和注意力机制进行自然语言处理使用自动编码器和GAN的表征学习和生成学习强化学习大规模训练和部署

问题很多de流星·2023-11-21 12:51

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。

hj_caas·2023-11-21 12:53

亲子时间管理打卡1

打卡日期：2019年/3月/4日30天打卡累计天数：1/30今日音频要点：曹微做个自律健康有序的人，与孩子建立亲子时间管理的生活方式，每天学一点点亲子时间管理，学以致用，强化学习，生命才得已重塑，颠覆性的成长

艺沫格兰尚美·2023-11-21 08:04

zhurui_xiaozhuzaizai·2023-11-21 03:40

基于PPO自定义highway-env场景的车辆换道决策

1.场景描述如下图所示，自车（蓝车）与前车（白车）在同一车道行驶，自车初速度为27m/s，前车以22m/s的速度匀速行驶，两车相距80m：目标：自车通过换道，超越前车2.代码实现这里的强化学习采用的是基于

Colin_Fang·2023-11-21 01:40

从性到商业社会，你的愉悦真的来自快感吗？

多巴胺有三个认知功能，运动控制、行为选择和强化学习，目的是为了得到奖励。奖励就是多巴胺的主要作用，呈现方式是愉悦感，而人们为了获得愉悦感，会采取行动。但这种愉悦感会随着

摄影树洞萌萌·2023-11-21 01:53

【强化学习】决策优化问题与Gymnasium环境

强化学习-1老虎机与优化策略老虎机大家应该都玩过看到连成一条线的时候再摁下去，它其实是连不上的，要赢得游戏需要一些策略。

Hellespontus·2023-11-21 00:44

Python实现游戏人工智能与机器学习

本文将介绍Python在游戏人工智能与机器学习方面的应用，主要涉及以下几个方面：游戏AI基础知识游戏AI示例：独立行动游戏（IndependentActionGame，IAG）监督学习与无监督学习遗传算法强化学习深度学习二

心梓知识·2023-11-21 00:50

【Python百宝箱】探索数据科学的瑞士军刀：Python机器学习库大揭秘

文章目录数据魔法：用强化学习和模型解释揭示隐藏的信息1.机器学习基础库1.1**`scik

friklogff·2023-11-20 19:16

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

这个标题涉及到基于深度强化学习的园区综合能源系统低碳经济调度。让我们逐步解读一下：1.园区综合能源系统：指的是一个区域内综合利用多种能源的系统，可能包括电力、热能、风能、太阳能等。

电网论文源程序·2023-11-20 18:04

跨界黑科技：HuggingGPT如何颠覆AI领域？

通过基于人类反馈的强化学习（RLHF）和大规模预训练文本库，LLM可以提供更强大的语言理解、生成、交互和推理能力。

THU智能魔术师·2023-11-20 12:10

GCN论文笔记

1.SEMI-SUPERVISEDCLASSIFICATIONWITHGRAPHCONVOLUTIONALNETWORKS(GCN)解决的是图结构上的半监督分类问题，只有一部分结点有标签归一化后的拉普拉斯矩阵,下式中L表示拉普拉斯矩阵，D为度矩阵，A是领接矩阵：元素级别定义正则化的拉普拉斯矩阵，Λ是特征值对角矩阵，U为拉普拉斯矩阵L的特征值矩阵。L=D−AL=D−1/2LD−1/2=D−1/2(D

Bruce-XIAO·2023-11-20 11:23

强化学习输入数据归一化（标准化）

对于强化学习，其输入数据一般是指状态以及动作。

Coder_Jh·2023-11-20 11:05

生成式大模型的RLHF技术（一）：基础

因此，将LLMs与人类价值观（如helpful,honest,和harmless,即3H）对齐是非常重要的，目前采用的主流的技术即是基于人类反馈的强化学习技术（RLHF）。通常来说，RLHF包

酷酷的群·2023-11-20 09:15

【论文笔记】SimplE Embedding for Link Prediction in Knowledge Graphs

摘要张量因子分解方法已被证明对此类链路预测问题很有前途。1927年提出的正则多元分解（CP）是最早的张量分解方法之一。CP通常在链路预测方面表现不佳，因为它为每个实体学习两个独立的嵌入向量，而它们实际上是并列的。我们提出了一个简单的CP增强（我们称之为SimplE），允许独立地学习每个实体的两个嵌入。背景一种张量因子分解方法是正则多变量（CP）分解。该方法为每个关系学习一个嵌入向量，为每个实体学习

CodingJazz·2023-11-20 08:16

【论文笔记】Holographic embeddings of knowledge graphs

github代码摘要提出全息嵌入（HOLE）来学习整个知识图的组合向量空间表示。背景现有的能够捕获关系数据中丰富交互的嵌入模型通常在可伸缩性方面受到限制。反之亦然，可以有效计算的模型通常表达能力要低得多。1.本文引入全息嵌入（HOLE），它使用实体嵌入（向量表示）的循环关联来创建二进制关系数据的组合表示。通过使用相关性作为组合运算符，HOLE可以捕获丰富的交互，但同时保持计算效率高、易于训练、可扩

CodingJazz·2023-11-20 08:15

【论文笔记】Relation Embedding with Dihedral Group in Knowledge Graph

摘要提出了一个新的模型称为二面体，以二面体对称群命名。这种新模型学习知识图嵌入，可以自然地捕获关系组合。此外，我们的方法对离散值参数化的关系嵌入进行建模，从而大大减少了解空间。背景关系组合的一个关键特性是，在许多情况下，它可以是非交换的。例如，在的父母和配偶之间交换顺序将导致完全不同的关系（父母与法律中的父母）。我们认为，为了在链接预测任务中学习关系组合，这种非交换属性应该被显式地建模。在本文中，

CodingJazz·2023-11-20 08:15

【论文笔记】EMBEDDING ENTITIES AND RELATIONS FOR LEARN-ING AND INFERENCE IN KNOWLEDGE BASES

摘要提出了一个准确率更高的双线性公式，一个利用学习到的关系嵌入来挖掘逻辑规则的方法。背景在可扩展到大型知识库的关系学习方法上有张量因子分解和基于神经嵌入的模型两种流行的方法。它们学习使用实体与关系的低维来表示编码关系。本文重点研究了基于能量目标的神经嵌入模型。最近的嵌入模型TransE比RESCAL等张量因子分解方法预测性能更好。本文贡献：(1)提出了一个通用的多关系学习框架，该框架统一了过去开发

CodingJazz·2023-11-20 08:45

Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review（自动驾驶图像点云融合深度学习综述）论文笔记

原文链接：https://arxiv.org/pdf/2004.05224.pdfII.深度学习的简要回顾B.点云深度学习本文将点云深度学习方法分为5类，即基于体素、基于2D视图、基于点、基于图以及基于索引/树的方法。（2）基于索引/树的方法引入树状数据结构（如kd树、八叉树），自适应地划分分辨率，减小计算量。通过建立不平衡的树，可以根据点云密度划分区域。这样，点密度低的区域可以有低分辨率。根据树

byzy·2023-11-20 07:35

MVSNet论文笔记

知识推荐号·2023-11-20 03:40

强化学习和生成对抗网络

1.强化学习的定义强化学习（reinforcementlearning）是机器学习的一个重要分支，是一门多领域交叉学科，它的本质是自行解决决策问题，并且能进行连续决策。

鹿衔草啊·2023-11-20 01:26

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。

hj_caas·2023-11-20 01:22

网络空间安全论文笔记3——缺陷

Asystematicliteraturereviewonsoftwaredetectpredictionusingartificialintelligence:Datasets,DataValidationMethods,Approaches,andTools软件缺陷预测的系统文献综述：从数据集、数据验证方法、缺陷检测和预测方法、工具以及对未来研究人员的建议几个角度展开缺陷预测方法框架发现缺陷的

TARO_ZERO·2023-11-19 21:53

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

©作者|WenzheLi等来源|机器之心强化学习（RL）为顺序决策提供了一种数学形式，深度强化学习（DRL）近年来也取得巨大进展。然而，样本效率问题阻碍了在现实世界中广泛应用深度强化学习方法。

PaperWeekly·2023-11-19 19:05

【强化学习】DQN及其变体网络的原理讲解和代码实现

DQN网络及其变体的实现一、DQN网络原理回顾DQN采用经验回放和固定的Q-targets根据**ϵ−greedy\epsilon-greedyϵ−greedy**执行行为ata_tat将经验以(st,at,rt+1,st+1)(s_t,a_t,r_{t+1},s_{t+1})(st,at,rt+1,st+1)的形式存储到replaymemoryD将D中随机抽样一个mini-batch的经验(s,

Henry_Zhao10·2023-11-19 19:03

【时间序列综述】Transformer in Time Series：A Survey 论文笔记

文章全名：TransformersinTimeSeries:ASurvey文章链接：[论文地址]([2202.07125v2]TransformersinTimeSeries:ASurvey(arxiv.org))来源：IJCAI2023完成单位：阿里巴巴达摩院、上海交通大学摘要Transformer在自然语言处理和计算机视觉领域都取得了诸多成果，Transformer的捕获长距离依赖和交互的能力

Henry_Zhao10·2023-11-19 19:03

【强化学习】一、强化学习介绍

一、强化学习介绍1.关于强化学习强化学习的多面强化学习在各个领域均有应用，在计算机科学领域有机器学习，在工程领域有最优控制（一种在给定约束条件下使某一性能指标达到最优的控制方法），在数学领域有运筹学，经济领域有有限理性

Henry_Zhao10·2023-11-19 19:32

【强化学习】二、马尔可夫决策过程

二、马尔可夫决策过程1.绪言马尔可夫决策过程（Markovdecisionprocess，MDP）是强化学习问题在数学上的理想化形式MDP中的环境是完全可观测的几乎所有的强化学习问题都可以在数学上表示为马尔可夫决策过程

Henry_Zhao10·2023-11-19 19:32

【RL+Transformer综述】A Survey on Transformers in Reinforcement Learning论文笔记

完成单位：清华大学、北京大学、BAAI、腾讯IntroductionTransformer结构能够建模长期的依赖关系，并且具有良好的伸缩性（可处理不同长度的序列数据）最初将Transformer运用到强化学习

Henry_Zhao10·2023-11-19 19:56

RAG检索增强生成只是起步，真正的智能问答=强化学习+大模型（各类型），实现智能调度，SELF-RAG（自反思）。

RAG检索增强生成是近期几个大模型应用方向上最难下笔的一个：一方面是因为技术方案仍在快速迭代；另一方面是市场对它的认知还存在一定偏差。目前市场认为：chatBI（让大模型做数据查询和分析）很有用但是有难度；Agent（让大模型自助规划任务实现用户复杂的需求）虽然很酷炫，但是落地的应用少，不够成熟。而对于RAG，企业都很明确它的价值，并且技术实现上，一顿组合拳疯狂输出（文本切割+向量数据库+大模型）

汀、人工智能·2023-11-19 19:01

小白也想写综述（一）

前言在选择科研方向时，考虑自己的兴趣和职业目标是非常重要的：综述论文的价值：撰写综述论文，尤其是在深度强化学习和区块链这样的前沿技术领域，能够帮助建立扎实的理论基础，并且对整个领域有一个全面的认识。

Joy T·2023-11-19 10:38

小白也想搞科研（一）之DRL优化数据库查询执行计划

我知道深度强化学习在许多领域都取得了显著的成果，你觉得我们可以如何将DRL应用到数据库优化中？研究员B:一个有趣的应用可能是使用DRL来优化查询执行计划。

Joy T·2023-11-19 10:38

【论文笔记】OCR

github.com/murtazahassan/Learn-OpenCV-in-3-hourshttps://www.cnblogs.com/skyfsm/p/8029668.html《转载OCR技术系列》https://www.cnblogs.com/wujianming-110117/p/12600905.html《字符识别OCR原理及应用实现》01基于传统算法的OCR技术传统的OCR技术通

zoroooooo·2023-11-19 08:43

论文笔记之DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

DeepFM:AFactorization-MachinebasedNeuralNetworkforCTRPrediction目标：CTR预估文中指出以前的CTR预估模型仅考虑low-order的特征交互或者仅考虑high-order的特征交互，或者需要手工设计特征。文中提出了DeepFM来同时学习low-order和high-order的特征交互，并且不需要手工设计特征。DeepFMDeepFM

小弦弦喵喵喵·2023-11-19 07:13

SENET论文笔记注意力机制

SENet论文笔记注意力机制Squeeze-and-ExcitationNetworks2019Abstract传统卷积都是在特征层级上通过提高空间编码质量提高表示能力SENet注重通道关系，自适应地调整通道方向特征图权重

B1CK·2023-11-19 06:10

基于深度强化学习的智能汽车决策模型

1.基于深度强化学习的智能汽车决策模型以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力，通过数据驱动智能体可以应对各种未经历过的复杂环境。

闲看庭前梦落花·2023-11-19 01:34

【mujoco】Ubuntu20.04配置mujoco210

Ubuntu20.04配置mujoco2101.安装mujoco2102.安装mujoco-py3.使用render时报错Reference本文简要介绍一下如何在ubuntu20.04系统中配置mujoco210，用于强化学习

木心·2023-11-19 01:00

【机器学习11】强化学习

1基本概念一个机器人在环境中会做各种动作，环境会接收动作，并引起自身状态的变迁，同时给机器人以奖励。机器人的目标就是使用一些策略，做合适的动作，最大化自身的收益。整个场景一般可以描述为一个马尔可夫决策过程：动作：所有可能做出的动作的集合，记作A（可能是无限的）。状态：所有状态的集合，记作S。奖励：机器人可能收到的奖励，一般是一个实数，记作r。时间（t=1,2,3…）：在每个时间点t，机器人会发出一

懒羊羊-申博版·2023-11-19 00:26

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

因为想申请CSDN博客认证需要一定的粉丝量，而我写了五年博客才700多粉丝，本文开启关注才可阅读全文，很抱歉影响您的阅读体验本文讨论两个主要内容表格型policyevaluation方法中，使用Bellman算子/Bellman最优算子进行迭代的收敛性使用函数近似方法进行policyevaluation时的收敛性问题首先补充一点测度论中的定义，然后介绍压缩映射原理和不动点，最后证明收敛性。文章目录

云端FFF·2023-11-18 23:30

表格型方法

表格型方法概念强化学习是一个与时间相关的序列决策的问题。概率函数与奖励函数概率函数定量地表达状态转移的概率，其可以表现环境的随机性。

数分虐我千百遍·2023-11-18 23:16

Cascade-MVSNet论文笔记

Cascade-MVSNet论文笔记摘要1立体匹配（StereoMatching）2多视图立体视觉（Multi-ViewStereo）3立体视觉和立体视觉的高分辨率输出4代价体表达方式（CostvolumeFormulation

知识推荐号·2023-11-18 22:34

机器学习第1天：概念与体系漫游

文章目录机器学习的概念机器学习的应用场景（1）垃圾邮件处理（2）多指标预测房价（3）其他任务机器学习的分类按是否在监督下训练为分类指标（1）监督学习（2）无监督学习（3）半监督学习（4）强化学习按是否可以动态学习为分类指标

Nowl·2023-11-18 21:36

英伟达用AI设计GPU：最新H100已经用上，比传统EDA减少25%芯片面积

QbitAl·2023-11-18 20:52

【强化学习】时间循环最优决策：原理与Python实战

时间旅行和平行宇宙时间旅行引发的悖论强化学习策略梯度算法代码案例代码推荐阅读理论完备：实战性强：配套丰富：如何在时间循环里最优决策？

洁洁！·2023-11-17 16:47

推荐频道

强化学习论文笔记

论文笔记：ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks

【论文笔记】Recurrent Feature Reasoning for Image Inpainting

论文笔记： BRITS: Bidirectional Recurrent Imputation for Time Series

论文笔记：DCRNN （Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting）

论文笔记1：SummaRuNNer: A RNN based Sequence Model for Extractive Summarization of Documents

学习神经网络模型，用不用学习原理？还是只会用就行了

基于MINST数据集做分类的机器学习项目

大语言模型的三阶段训练

亲子时间管理打卡1

大模型LLM相关面试题整理

基于PPO自定义highway-env场景的车辆换道决策

从性到商业社会，你的愉悦真的来自快感吗？

【强化学习】决策优化问题与Gymnasium环境

Python实现游戏人工智能与机器学习

【Python百宝箱】探索数据科学的瑞士军刀：Python机器学习库大揭秘

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

跨界黑科技：HuggingGPT如何颠覆AI领域？

GCN论文笔记

强化学习输入数据归一化（标准化）

生成式大模型的RLHF技术（一）：基础

【论文笔记】SimplE Embedding for Link Prediction in Knowledge Graphs

【论文笔记】Holographic embeddings of knowledge graphs

【论文笔记】Relation Embedding with Dihedral Group in Knowledge Graph

【论文笔记】EMBEDDING ENTITIES AND RELATIONS FOR LEARN-ING AND INFERENCE IN KNOWLEDGE BASES

Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review（自动驾驶图像点云融合深度学习综述）论文笔记

MVSNet论文笔记

强化学习和生成对抗网络

大语言模型的三阶段训练

网络空间安全论文笔记3——缺陷

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

【强化学习】DQN及其变体网络的原理讲解和代码实现

【时间序列综述】Transformer in Time Series：A Survey 论文笔记

【强化学习】一、强化学习介绍

【强化学习】二、马尔可夫决策过程

【RL+Transformer综述】A Survey on Transformers in Reinforcement Learning论文笔记

RAG检索增强生成只是起步，真正的智能问答=强化学习+大模型（各类型）， 实现智能调度，SELF-RAG（自反思）。

小白也想写综述（一）

小白也想搞科研（一）之DRL优化数据库查询执行计划

【论文笔记】OCR

论文笔记之DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

SENET论文笔记注意力机制

基于深度强化学习的智能汽车决策模型

【mujoco】Ubuntu20.04配置mujoco210

【机器学习11】强化学习

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

表格型方法

Cascade-MVSNet论文笔记

机器学习第1天：概念与体系漫游

英伟达用AI设计GPU：最新H100已经用上，比传统EDA减少25%芯片面积

【强化学习】时间循环最优决策：原理与Python实战

RAG检索增强生成只是起步，真正的智能问答=强化学习+大模型（各类型），实现智能调度，SELF-RAG（自反思）。