E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习论文笔记
论文笔记
《NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models》
paper:https://arxiv.org/abs/2304.09787code:问就是没有code!主旨:用两个autoencoder
浅度断墨
·
2023-12-18 01:53
论文阅读
【《伤寒论》
强化学习
训练】打卡第17天,一期目标90天
《伤寒杂病论》中“下利”的归类1.太阳篇的下利方子:①比较典型的就是葛根芩连汤证,葛根芩连汤证可以算到泄泻,也可以算到痢疾,虚冷一点的叫泄泻,比较热一点的叫痢疾。②比较偏到痢疾一点的是太阳篇的黄芩汤证,或者是少阳篇的大柴胡汤证。③四逆、白通、理中的下利都比较偏到泄泻。④厥阴篇的厥阴下利最代表性的是白头翁汤证。它的确是痢疾,不是泄泻,是肠子在发炎。⑤少阴病框架的下利——调畅少阳的气机,让肠胃功能恢复
最闪亮的那颗星_b02d
·
2023-12-18 00:13
基于人工智能 RL 算法的边缘服务器智能选择 模式研究
提出了一种基于人工智能深度
强化学习
算法的扩展性及智能性较高的智能选择模式。
Mindtechnist
·
2023-12-17 23:32
人工智能
算法
服务器
王树森深度
强化学习
笔记
本笔记基于王树森的深度
强化学习
课程文章目录王树森深度
强化学习
笔记一、基础1.概率论2.名词3.ReturnUtU_tUt4.Action-ValueFunctionQπ(s,a)Q_\pi(s,a)Qπ
开longlong了吗?
·
2023-12-17 21:30
笔记
深度学习
pytorch
强化学习
(1)——DQN&SARSA
实验环境python=3.10torch=2.1.1gym=0.26.2gym[classic_control]matplotlib=3.8.0numpy=1.26.2DQN代码首先是module.py代码,在这里定义了网络模型和DQN模型importtorchimporttorch.nnasnnimportnumpyasnpclassNet(nn.Module):#构造只有一个隐含层的网络def
开longlong了吗?
·
2023-12-17 21:57
pytorch
python
人工智能
policy-gradient
p/217254982.https://zhuanlan.zhihu.com/p/75174892(尤其是这个,包括引入baseline,对应的正好是reward的normalization)基于值的
强化学习
算法的基本思想是根据当前的状态
Iverson_henry
·
2023-12-17 20:24
【伤寒
强化学习
训练】打卡第三十四天 一期90天
桂枝加附子汤‘太阳病,发汗,遂漏不止,其人恶风,小便难,四肢微急,难以屈伸者,桂枝加附子汤主之。阳气虚的人,发汗就会产生一种脱阳的状态,桂枝加附子汤:表阳虚的脱阳真武汤:真正到里阳虚生气伤肝,脸会发绿;肾虚的人,脸会发黑;吃了桂枝汤狂汗不止,冒冷汗,真的阳虚到底的人,桂枝汤就可以让他脱阳心阳不足的人,如果吃了很多生菜水果,可以用一点补心阳的药,再吃麻黄汤,不然胸口开始心悸汗的阳气是从血液来的,再分
A卐炏澬焚
·
2023-12-17 16:51
论文笔记
:CQR-SQL: Conversational Question Reformulation Enhanced Context-Dependent Text-to-SQL Parsers
论文笔记
:CQR-SQL:ConversationalQuestionReformulationEnhancedContext-DependentText-to-SQLParsers目录
论文笔记
:CQR-SQL
Q同学的nlp笔记
·
2023-12-17 14:29
Text-to-SQL
自然语言处理
NLP
sql
论文阅读
数据库
MAAC算法总结
:MAAC注意力的演员评论家:Multi-Agent
强化学习
-知乎(zhihu.com)首先MAAC这个名字指代的是Multi-Actor-Attention-Critic,有一个Attention在里面
神奇的托尔巴拉德
·
2023-12-17 10:53
【深度
强化学习
】DQN, Double DQN, Dueling DQN
DQN更新方程Qθ(st,at)←Qθ(st,at)+α(rt+γmaxa′Qθ(st+1,a′)−Qθ(st,at))Q_\theta(s_t,a_t)\leftarrowQ_\theta(s_t,a_t)+\alpha\left(r_t+\gamma\red{\max_{a'}Q_\theta(s_{t+1},a')}-Q_{\theta}(s_t,a_t)\right)Qθ(st,at)←
x66ccff
·
2023-12-17 09:36
强化学习
机器学习
人工智能
强化学习
(三)-策略梯度优化policy Gradient
直接优化策略梯度而不是优化Q函数来指导agent做决策1基本概率策略policy:π(a∣s)\pi(a|s)π(a∣s)状态价值函数Vπ(st)=EA[Qπ(st,A)]V_\pi(s_t)=E_A[Q_\pi(s_t,A)]Vπ(st)=EA[Qπ(st,A)]Vπ(st)=∑aπ(a∣s)∗Qπ(st,A)V_\pi(s_t)=\sum_a\pi(a|s)*Q_\pi(s_t,A)Vπ(st
晚点吧
·
2023-12-17 08:36
强化学习
算法
强化学习
RL
policy
gradient
强化学习
(四)- Advantage Actor-Critic 及贝尔曼方程推导(A2C)
0概览AdvantageActor-Critic主要在于Q函数的计算,其中baselineb选择为状态价值函数,使用神经网络代替Vπ(s,w)V_\pi(s,w)Vπ(s,w)Q函数使用贝尔曼方程来近似Qπ(s,A)=rt+γVπ(st+1)Q_\pi(s,A)=r_t+\gammaV_\pi(s_{t+1})Qπ(s,A)=rt+γVπ(st+1)其中Advantage体现在Qπ(s,A)−Vπ
晚点吧
·
2023-12-17 08:32
强化学习
强化学习
A2C
actor
critic
[
论文笔记
] GAMMA: A Graph Pattern Mining Framework for Large Graphs on GPU
GAMMA:AGraphPatternMiningFrameworkforLargeGraphsonGPUGAMMA:基于GPU的针对大型图的图模式挖掘框架[Paper][Code]ICDE’23摘要提出了一个基于GPU的核外(out-of-core)图模式挖掘框架(GraphPatternMining,GPM)GAMMA,充分利用主机内存来处理大型图.GAMMA采用对用户透明的自适应隐式主机内存
PeakCrosser
·
2023-12-17 06:17
Graph
Mining
论文阅读
强化学习
douzero模型伪代码
文章目录伪代码中文逻辑算法1Douzero的Actor过程算法2Douzero的Learner过程伪代码中文逻辑算法1Douzero的Actor过程Input:对于每一次entry,共享bufferBL,BU,BDB_L,B_U,B_DBL,BU,BD有B个entries,size为SSS,探索超参数为ϵ\epsilonϵ,折扣为γ\gammaγ初始化本地Q-networksQL,QU,QDQ_L
Mystery_zero
·
2023-12-17 03:35
强化学习
人工智能
RLlib七:github上的代码示例
如果没有注意力,
强化学习
代理只能“看到”最后一个观察结果,而不是
星行夜空
·
2023-12-17 02:01
github
【深度学习】
强化学习
(三)
强化学习
的目标函数
文章目录一、
强化学习
问题1、交互的对象2、
强化学习
的基本要素3、策略(Policy)4、马尔可夫决策过程5、
强化学习
的目标函数1.总回报(Return)2.折扣回报(DiscountedReturn)a
QomolangmaH
·
2023-12-17 01:35
深度学习
深度学习
人工智能
强化学习
机器学习
目标函数
[
论文笔记
] 大模型gpu机器推理测速踩坑 (llama/gpt类)
cpu没报错,换gpu就报错。以下是一些踩坑:坑1:要指定gpu,可以在importtorch之前指定gpu。model=LlamaForCausalLM.from_pretrained(model_path,trust_remote_code=True).to(device)报错:RuntimeError('Expectedalltensorstobeonthesamedevice,butfou
心心喵
·
2023-12-17 00:02
nlp
论文笔记
自然语言处理
llama
gpt
[
论文笔记
] chatgpt系列 SparseMOE—GPT4的MOE结构
SparseMOE:稀疏激活的MOESwtichMOE,所有token要在K个专家网络中,选择一个专家网络。显存增加。ExpertsChoice:路由MOE:由专家选择token。这样不同的专家都选择到某个token,也可以不选择该token。由于FFN层的时间复杂度和attention层不同,FFN层的时间复杂度在O(N*d),N是输入长度,d是隐层纬度。attention层的时间复杂度在O(N
心心喵
·
2023-12-17 00:59
论文笔记
论文阅读
最强开源大模型?Llama 2论文解读
标题简介模型预训练预训练设置硬件资源与碳排放模型评估模型微调有监督微调基于人工反馈的
强化学习
(RLHF)人类偏好数据的收集奖励模型迭代微调过程多轮对话控制RLHF结果模型回答的安全性 一直以来,Llama
长白山下大绵羊
·
2023-12-16 13:52
人工智障
llama
深度学习
语言模型
算法
文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于乐观行动-评判深度
强化学习
的含氢综合能源系统低碳经济调度》
这个标题涉及到基于乐观行动的深度
强化学习
在含氢综合能源系统低碳经济调度方面的评判。
电网论文源程序
·
2023-12-16 12:56
文章解读
能源
综合能源系统
低碳经济调度
深度强化学习
clean-label backdoor attacks
论文笔记
#
论文笔记
#1.论文信息论文名称Clean-LabelBackdoorAttacks作者AlexanderTurner(MIT)会议/出版社ICLR2019pdf本地pdf在线pdf代码trojanzoo-clean-label
wwweiyx
·
2023-12-16 06:10
AI安全
论文阅读
强化学习
笔记12/12
学习工具:python+chatGPT
强化学习
的一些关键概念:智能体(Agent):智能体是与环境交互的实体。它可以是一个虚拟的角色,例如视频游戏中的玩家,或者是一个物理机器人。
sinat_36651044
·
2023-12-16 01:54
笔记
AlphaGo Zero学习一
1)算法上是自对弈
强化学习
,完全从随机落子开始,不用人类棋谱,之前使用了大量棋谱学习人类的下棋风格作为开局的起始。2)数据结构上,只有黑子白子两种状态,之前包含这个点的
ericblue
·
2023-12-16 00:26
学习深度
强化学习
---第1部分----RL介绍、基本模型、Gym介绍
文章目录1.1节
强化学习
简介1.2节
强化学习
的模型1.3节Gym介绍视频所在地址:深度
强化学习
的理论与实践经典的
强化学习
有三种:1、基于动态规划的
强化学习
、2、基于蒙特卡洛算法的
强化学习
、3、基于时序差分的
强化学习
饿了就干饭
·
2023-12-16 00:41
强化学习
强化学习
学习深度
强化学习
---第3部分----RL蒙特卡罗相关算法
文章目录3.1节蒙特卡罗法简介3.2节蒙特卡罗策略评估3.3节蒙特卡罗
强化学习
3.4节异策略蒙特卡罗法本部分视频所在地址:深度
强化学习
的理论与实践3.1节蒙特卡罗法简介在其他学科中的蒙特卡罗法是一种抽样的方法
饿了就干饭
·
2023-12-16 00:11
强化学习
强化学习
学习深度
强化学习
---第2部分----RL动态规划相关算法
文章目录2.1节动态规划简介2.2节值函数与贝尔曼方程2.3节策略评估2.4节策略改进2.5节最优值函数与最优策略2.6节值迭代与策略迭代2.7节动态规划求解最优策略本部分视频所在地址:深度
强化学习
的理论与实践
饿了就干饭
·
2023-12-16 00:06
强化学习
算法
动态规划
《墨菲定律》读书笔记
海量阅读,去伪存真,找到适合自己的点,并以
强化学习
,终究会变成自己的知识,找到努力的方向。这本书相对来说,内容比较多,也比较杂,有讲成功学、职场行为学、生存竞争法则、人际关系学、经济学、决策学
Yukigogo
·
2023-12-15 23:37
神秘的【Q*项目】
强化学习
算法: Q学习:用于学习最佳行动策略。 深度Q网络(DQN):结合深度学习和
强化学习
。
强化学习
概述
强化学习
是一种机器学习方法,它使得智能体(agent)能够在环境中通过试错来学习如何达成目标。在
强化学习
中,智能体根据其观察到的环境状态,选择行动,然后接收环境给出的奖励或惩罚。
小黄人软件
·
2023-12-15 22:35
chatGPT
算法
学习
深度学习
人工智能
RL_第二章学习笔记
Part-one:TabularSolutionMethodsSecondchapter:多臂老虎机(Multi-armedBandits)
强化学习
与其他学习方式区分的最重要特
Mr Humor
·
2023-12-15 21:53
强化学习
sutton笔记
多臂赌博机
Tabulor
了解第二部分多武装匪徒的
强化学习
手
系列的链接:(Series’Links:)Introduction介绍Multi-ArmedBandits|Notebook多臂土匪|笔记本ThisisthesecondentryofaseriesonReinforcementLearning,whereweexploreanddeveloptheideasbehindlearningonaninteractivescenario.Onthepr
weixin_26738395
·
2023-12-15 21:51
python
java
人工智能
强化学习
AI学习笔记之——多臂老虎机(Multi-armed bandit)问题
上一篇文章简要介绍了一下
强化学习
,
强化学习
是一个非常庞大的体系,与监督学习和非监督学习相比,其广度和深度都大的多,涉及到很多经典的决策算法,对统计学知识有很高的依赖。
weixin_33962923
·
2023-12-15 21:21
人工智能
java
强化学习
笔记------第一章----
强化学习
概述(超详细)
强化学习
讨论的问题是一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面去极大化他能获得的奖励。首先,我们可以把
强化学习
和监督学习做一个对比。
深度睡眠小能手
·
2023-12-15 21:49
强化学习
神经网络
人工智能
强化学习
笔记5:learning&planning, exploration&exploitation
在
强化学习
中,环境初始时是未知的,agent不知道环境如何工作,agent通过不断地与环境交互,逐渐改进策略。
UQI-LIUWJ
·
2023-12-15 21:48
强化学习
强化学习
强化学习
RL学习笔记2-概述(2)
强化学习
笔记专栏传送上一篇:
强化学习
RL学习笔记1-概述(1)下一篇:
强化学习
RL学习笔记3-gym了解与coding实践目录
强化学习
笔记专栏传送前言MajorComponentsofanRLAgent
liaojq2020
·
2023-12-15 21:48
强化学习笔记
机器学习
深度学习
人工智能
强化学习
神经网络
强化学习
读书笔记
目录Chapter1Introduction
强化学习
定义监督/非监督/
强化学习
挑战关键特征组成Chapter2Multi-armedBandits评价型反馈和指导型反馈Ak-armedBanditProblemIncrementalImplementationChapter3FiniteMarkovDecisionProcessesAgent-EnvironmentReturnsandEpisod
一口大怪兽
·
2023-12-15 21:43
强化学习
强化学习
【
强化学习
-读书笔记】多臂赌博机 Multi-armed bandit
参考ReinforcementLearning,SecondEditionAnIntroductionByRichardS.SuttonandAndrewG.Barto
强化学习
与监督学习
强化学习
与其他机器学习方法最大的不同
x66ccff
·
2023-12-15 20:38
强化学习
人工智能
CMBAC算法总结
Sample-EfficientReinforcementLearningviaConservativeModel-BasedActor-Critic参考文章:【AAAI2022】一种样本高效的基于模型的保守actor-critic算法-知乎(zhihu.com)论文作者:MIRALab,王杰教授组基于模型的
强化学习
算法旨在学习环境模型
神奇的托尔巴拉德
·
2023-12-15 17:41
【深度学习】
强化学习
(四)
强化学习
的值函数
文章目录一、
强化学习
问题1、交互的对象2、
强化学习
的基本要素3、策略(Policy)4、马尔可夫决策过程5、
强化学习
的目标函数6、值函数1.状态值函数(StateValueFunction)a.状态值函数的定义
QomolangmaH
·
2023-12-15 16:42
深度学习
深度学习
人工智能
强化学习
值函数
机器学习
[
论文笔记
] 大模型主流Benchmark测试集介绍
自然语言处理(NLP)的进步往往通过在各种benchmark测试集上的表现来衡量。随着多语言和跨语言NLP研究的兴起,越来越多的多语言测试集被提出以评估模型在不同语言和文化背景下的泛化能力。在这篇文章中,我们将介绍几个主流的多语言NLPbenchmark测试集,包括ARCChallenge、HellaSWAG、MMLU、Multi-taskingTestGeneration(MTG)、PAWS-X
心心喵
·
2023-12-15 12:43
论文笔记
论文阅读
自然语言处理
人工智能
geolife笔记:比较不同轨迹相似度方法
这里采用
论文笔记
:DeepRepresentationLearningforTrajectorySimilarityComputation-CSDN博客中的方法:2收集每一个id对应的轨迹2.1经纬度转
UQI-LIUWJ
·
2023-12-15 12:59
python库整理
笔记
论文笔记
:Dual Dynamic Spatial-Temporal Graph ConvolutionNetwork for Traffic Prediction
IEEETRANSACTIONSONINTELLIGENTTRANSPORTATIONSYSTEMS20221intro1.1背景GCN和TCN被引入到交通预测中GCN能够保留交通网络的图结构信息TCN能够捕获交通流的时间特征基于GCN的交通预测方法依赖于如何构建图或邻接矩阵将道路段的交通测量作为节点通过不同道路段的直接连接来构建图道路段上的交通流量测量及其相关性在空间和时间上会动态变化(eg交通
UQI-LIUWJ
·
2023-12-15 12:59
论文笔记
论文阅读
强化学习
基础篇(十五)蒙特卡洛预测
强化学习
基础篇(十五)蒙特卡洛预测1、Model-free方法通过贝尔曼方程求解最优策略有3种基本方法:动态规划法、蒙特卡洛法和时间差分法。
Jabes
·
2023-12-15 08:50
论文笔记
:使用多角度高光谱数据估算冬小麦垂直方向叶片叶绿素浓度
本文简单介绍使用多角度高光谱数据估算冬小麦垂直方向叶片叶绿素浓度的方法和实践,论文基本信息:Wu,Bin;Huang,Wenjiang;Ye,Huichun;Luo,Peilei;Ren,Yu;Kong,Weiping.2021."UsingMulti-AngularHyperspectralDatatoEstimatetheVerticalDistributionofLeafChlorophyl
HenryYanWhu
·
2023-12-15 07:27
【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法
BeautifulPrompt通过对低质量和高质量的提示进行微调,并进一步提出了一种基于
强化学习
和视觉信号反馈的技术,以最大化生成提示的奖励值。论文:Tingfen
阿里云大数据AI技术
·
2023-12-15 06:40
stable
diffusion
prompt
算法
【
论文笔记
】HetGNN
HeterogeneousGraphNeuralNetwork2019KDD论文链接:https://dl.acm.org/doi/pdf/10.1145/3292500.3330961官方代码:https://github.com/chuxuzhang/KDD2019_HetGNN个人实现:https://github.com/ZZy979/pytorch-tutorial/tree/maste
zzy979
·
2023-12-15 05:33
论文笔记
图神经网络
图神经网络
论文笔记
:详解GraphSAGE
论文的阅读笔记背景相关工作模型推导前向传播扩展GraphSAGE算法框架到minibatch模型训练聚合器的设置实验对GraphSAGE表达能力的理论分析(讨论其如何学习图结构)参考论文对节点嵌入不明白的可以先看这篇:
论文笔记
图学习的小张
·
2023-12-15 05:32
图数据挖掘学习路线
论文笔记
论文阅读
python
机器学习
论文笔记
:www2019 层次图视角的半监督图分类
Semi-SupervisedGraphClassification:AHierarchicalGraphPerspective(层次图视角的半监督图分类)是层次图提出的第一篇文章,也是我组会讲的第一篇文章,整理了我的笔记,对论文中的SAGE模块做了比较详细的介绍模型概述损失函数SAGE模块(SelfAttentionGraphEmbedding)算法描述与解释实验参考文献模型概述 所谓层次图指
图学习的小张
·
2023-12-15 05:32
论文笔记
图数据挖掘学习路线
论文阅读
分类
数据挖掘
论文笔记
:详解DeepWalk与Node2vec
最近读了DeepWalk和Node2vec这两篇图学习的经典文章,对自己的笔记进行了整理。DeepWalk算法笔记应用背景功能描述基本概念随机游走(RandomWalks)幂律分布(Connection:Powerlaws)词嵌入学习的经典方法(Word2vec)DeepWalk模型与损失函数推导算法描述与解释(伪代码)时间复杂度分析DeepWalk的改进算法(Node2vec)算法描述与解释(伪
图学习的小张
·
2023-12-15 05:02
论文笔记
图数据挖掘学习路线
论文阅读
LLM之Prompt(三)| XoT:使用
强化学习
和蒙特卡罗树搜索将外部知识注入Prompt中,性能超过CoT,ToT和GoT
论文地址:https://arxiv.org/pdf/2311.04254.pdf一、当前Prompt技术的局限性LLM使用自然语言Prompt可以将复杂的问题分解为更易于管理的“thought”可以回复用户的问题。然而,大多数现有的Prompt技术都有局限性:输入输出(IO)Prompt:仅适用于具有单步解决方案的简单问题,它缺乏灵活性;思维链(CoT):能够解决多步问题,但仅限于线性思维结构,
wshzd
·
2023-12-15 05:16
ChatGPT
笔记
prompt
论文笔记
:详解图注意力网络(GAT)
整理了GAT(ICLR2018GraphAttentionNetwork)论文的阅读笔记背景图注意力网络的构建模块与其他模型对比实验背景 图神经网络的任务可以分为直推式(Transductive)学习与归纳(Inductive)学习:Inductivelearning,翻译成中文可以叫做“归纳式学习”,就是从已有数据中归纳出模式来,应用于新的数据和任务。在图学习的训练过程中,看不到没有标注的节点
图学习的小张
·
2023-12-15 05:16
图数据挖掘学习路线
论文笔记
论文阅读
python
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他