强化学习量化第28页

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关

专属领域论文订阅VX关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-17 20:57

中科院自动化所：基于关系图深度强化学习的机器人多目标包围问题新算法

摘要：中科院自动化所蒲志强教授团队，提出一种基于关系图的深度强化学习方法，应用于多目标避碰包围(MECA)问题，使用NOKOV度量动作捕捉系统获取多机器人位置信息，验证了方法的有效性和适应性。

MocapLeader·2024-01-17 20:31

量化交易回测框架Backtrader使用optstrategy优化

简介给策略增加指标后，需要给你指标设置参数，比如SMA设置几天合适呢，每个股票的周期又都不一样。总不能一个一个的自己尝试。Backtrader提供了一个参数优化的方法，可以按照给出的范围来运行，大家可以根据结果寻找最优的均线天数。具体可以参看Backtrader官方文档quickstart目标：通过给策略一个范围值，根据运行结果，找出某适合一只股票的盘整周期。原理通过optstrategy方法，给

一块自由的砖·2024-01-17 19:50

量的差距带来质的距差和巨差2022-11-06

人和人的差距在于量的差距，在于具体量化的遍数精准训练的差距。微小的距差带来巨差，真正的高人、真正的牛的都在做最笨的基本功，每天多做1个，多做2个，多做3个……从不

狠角色·2024-01-17 19:28

线性回归理论+实战

损失函数（lossfunction）能够量化目标的实际值与预测值之间的差距。通常我们会选择非负数作为损失，且数值越小表示损失越小，完美预测时的损失为0。回归问题中最常用的损失函数是平方误差函数。

良子c·2024-01-17 18:13

智慧公厕：打造智慧城市公共厕所信息化管理的新升级

本文以智慧公厕源头厂家广州中期科技有限公司大量精品案例，包括机场、高铁、地铁、甲级写字楼、城市批量化实施的智慧公厕标杆项

中期科技ZONTREE·2024-01-17 18:10

手把手教你搭建3D元宇宙场景！

“这是以我理想中的元宇宙进行搭建的3D场景，也是我第一次使用轻量化图形引擎工具完成的完整场景，资源丰富，操作

老子云平台·2024-01-17 17:19

Python文本向量化入门（五）：自定义中文词袋

在文本向量化中，使用预训练的词向量，例如Word2Vec、GloVe或FastText等，是常见的做法。这些词向量已经在大量文本数据上进行了训练，为我们提供了现成的词嵌入表示。

Dxy1239310216·2024-01-17 17:05

Python文本向量化入门（三）：查看默认词袋

在文本分析和自然语言处理中，将文本数据转换为数值型格式是至关重要的第一步。这有助于我们利用机器学习算法进行更高效的数据分析。Scikit-learn库中的CountVectorizer类是一个非常有用的工具，它可以将文本数据转换为词频矩阵。首先，我们需要导入所需的库和模块：fromsklearn.feature_extraction.textimportCountVectorizer接下来，我们定

Dxy1239310216·2024-01-17 17:04

Python文本向量化入门（四）：中文词袋问题

在文本分析和自然语言处理中，将中文文本转换为数值型格式是一个重要的步骤。这有助于我们利用机器学习算法进行高效的数据分析。因为之前的学习中发现Scikit-learn的CountVectorizer不支持中文分词，所以在本篇文章中，我们将介绍如何使用jieba分词和Scikit-learn的CountVectorizer进行中文文本的特征提取。首先，我们需要导入所需的库和模块：importjieba

Dxy1239310216·2024-01-17 17:04

3、Numpy中的通用函数

这些函数是高度优化的、快速的向量化包装器，提供了简单的方法对数组中的所有元素执行相同的操作，而不需要编写循环语句。以下是一些常见的NumPy通用函数：数学运算np.add：元素级的数组加法。

O_meGa·2024-01-17 15:31

关于自然科学研究与量化投资研究的关系

这是非常重要的，因为科学的方法使得整个量化交易过程中重要的判断更严谨与更有纪律性。如果不严谨，宽客很容易因为痴心妄想和情绪化误入歧途而丧失逻辑一致性，而逻辑一致性在许多科学领域都有助于科学研究。

IFT星星之火·2024-01-17 15:36

即刻预约 | Get 你的 DolphinDB 官方证书！

赶紧将#参加DolphinDB的首场考试#列进你的计划清单，获取2024年的第一份证书吧~DolphinDB技能认证已登陆官网，点击“开发者中心”→“技能认证”进入现在，DolphinDB正逐渐成为国内量化金融领域的通用基础软件

DolphinDB智臾科技·2024-01-17 15:19

用时序数据库 DolphinDB 搭建一套轻量化工业试验平台解决方案

本文将提供一个轻量化的工业试验平台数据处理解决方案，快速简单地实现海量数据采集、存储、处理和分析，帮助企业提高产品的质量和竞争力。

DolphinDB智臾科技·2024-01-17 15:46

紫青牛营销随笔：2020-11-21

我的目标很简单，就是能量化标准的在网上做事情。否则，一天一晃就过，光阴似箭，一寸光阴一寸金。量上去了，营

紫青牛笔记·2024-01-17 13:18

长投学堂：理财，是一种生活态度

将理财作为一种生活态度，你会将量化思维应用的出神入化；你会将沉没成本放在脑后，一切向前看；你会更清晰的俯瞰自己的生活和消费质量，对自己的日常有更好的把控，控制了消费，也就控制了时间，而把握好时间，就能赚取更多的

盏霁·2024-01-17 12:38

GPT实战系列-实战Qwen在Cuda 12+24G部署方案

目前Qwen的口碑貌似还不错，测试显卡内存24G，毕竟有限，排除了Qwen14非量化方案Qwen-14B-Chat，只有Qwen-7B-Chat，Qwen-7B-Chat-Int4，Qwen-14B-Chat-Int4

Alex_StarSky·2024-01-17 12:43

聚甲基丙烯酸甲酯PMMA的特性有哪些？UV胶水能够粘接聚甲基丙烯酸甲酯PMMA吗？又有哪些优势呢？

2.轻质：PMMA是一种轻质塑料，比玻璃轻，因此在需要轻量化的应用中被广泛使用。3.良好的机械性能：PMMA具有良好的机械强度和

TDK15622868324·2024-01-17 12:40

强化学习（一）简介

强化学习这一概念在历史上来源于行为心理学，来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错，比如婴儿学习走路。

EasonZzzzzzz·2024-01-17 10:12

强化学习（二）多臂老虎机 “Multi-armed Bandits”——2

1、增量算法估计动作价值由之前的内容可知，某一个动作被选择n−1n-1n−1次后，该动作的价值估计值为Qn≐R1+R2+⋯+Rn−1n−1Q_n\doteq\dfrac{R_1+R_2+\cdots+R_{n-1}}{n-1}Qn≐n−1R1+R2+⋯+Rn−1很明显，随着时间的推移，内存和计算的需求逐渐增长，为此设计增量算法，已知QnQ_nQn和第nnn次的奖励RnR_nRn，则这nnn次奖励的

EasonZzzzzzz·2024-01-17 10:12

2024年1月16日Arxiv热门深度强化学习论文：IDENTIFYING POLICY GRADIENT SUBSPACES

揭秘强化学习之谜，图宾根大学和马普所发现策略梯度的低维奥秘，开启高效AI训练新纪元！

夕小瑶·2024-01-17 10:16

Linux系统资源分析手段：CPU，内存，磁盘与网络IO的瓶颈定位

用于测试：在开启某个服务时，我们需要拥有对于该服务运行时资源占用的量化手段。在这些场景下，我我们需要一些调试手段帮我们量化进程对于系统资源的占用情况。

linux大本营·2024-01-17 09:30

机器学习：李航统计学习方法笔记

詹令[email protected]待整理统计学习方法监督学习非监督学习半监督学习强化学习监督学习方法生成方法GenerativeApproach：P(Y∣X)=P(X,Y)P(X)

lealzhan·2024-01-17 08:54

【软件测试】前端性能测试工具原理

WebPagetest功能简介WebPagetest，是前端性能测试的利器：可以为我们提供全方位的量化指标，包括页面的加载时间、首字节时间、渲染开始时间、最早页面可交互时间、页面中各种资源的字节数、后端请求数量等一系

码农丁丁·2024-01-17 07:23

论文笔记（三十九）Learning Human-to-Robot Handovers from Point Clouds

LearningHuman-to-RobotHandoversfromPointClouds文章概括摘要1.介绍2.相关工作3.背景3.1.强化学习3.2.移交模拟基准4.方法4.1.HandoverEnvironment4.2

墨绿色的摆渡人·2024-01-17 07:10

论文笔记（二十）VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

文章概括摘要1.介绍2.背景3.网络结构A.视觉触觉传感器融合B.姿势估计器C.损失函数4.数据集的生成A.触觉传感器不变的姿态估计B.数据收集设置C.数据集特征5.实验A.网络训练设置B.硬件部署6.结果A.量化评估

墨绿色的摆渡人·2024-01-17 07:40

机器学习：简要介绍及应用案例

这种学习的方式通常分为监督学习、无监督学习和强化学习。监督学习（SupervisedLearning）：在监督学习中，算法从带有标签的训练

rubyw·2024-01-17 07:06

【机器学习】强化学习（二）基于动态规划的算法

值函数可以分为状态价值函数和动作价值函数，分别适用于哪些强化学习问题二、基于动态规划的算法2.1策略迭代算法示例：(改进的)策略迭代代码首先定义了一些参数，如奖励、折扣因子、最大误差等，然后初始化了一个网格世界的环境

十年一梦实验室·2024-01-17 07:02

【机器学习】强化学习（一）强化学习简介

一、强化学习简介1.1问题定义1.2马尔可夫决策过程举例说明马尔可夫决策过程例1：例2：执行动作的策略强化学习的目标是让智能体通过不断尝试，找到最优的策略（policy），即在每个状态下选择什么动作，以最大化累积的奖励

十年一梦实验室·2024-01-17 07:59

VQGAN：从图像重建到图像生成

我已经开始讨论VQGAN的一部分——自编码器（VQVAE：矢量量化变分自动编码器）。VQVAE的概念是对编码器、解码器和码书的同时训练，该码书适用于所有可能的图像。码书是一组256个嵌入向量。

小北的北·2024-01-17 07:43

机器学习框架Ray -- 3.1 RayRLlib训练Pendulum-v1

分别使用SAC/DDPG/Apex-DDPG训练强化学习环境Pendulum-v1。1.Pendulum-v1环境在Pendulum-v1环境中，智能体的目标是平衡一个倒置的摆。

Augenstern-YaoYao·2024-01-17 06:28

深度强化学习算法PPO训练CartPole

PPO代码部分，训练离散动作1.导入必须要的包importtorchimporttorch.nnasnnimporttorch.nn.functionalasfimporttorch.optimasoptimfromtorch.distributionsimportCategoricalfromcollectionsimportdequeimportrandomimportmatplotlib.p

槑槑紫·2024-01-17 06:27

一个可转移的连续强化学习的中心框架

TRANSFERVALUEORPOLICY?AAVALUE-CENTRICFRAMEWORKTOWARDSTRANSFERRABLECONTINUOUSREINFORCEMENTLEARNINGABSTRACTTransferringlearnedknowledgefromoneenvironmenttoanotherisanimportantsteptowardspracticalreinfor

Adam坤·2024-01-17 06:26

强化学习_PPO算法实现Pendulum-v1

目录PPO算法AC输出连续动作On-policy->Off-policyImportantsamplingIssueofImportanceSamplingAddConstraintPPO代码实现PPO算法PPO(ProximalPolicyOptimization）PPO是基于AC架构的，也就是说，PPO也有两个网络，分别是Actor和Critic，解决了连续动作空间的问题。AC输出连续动作我离

¥骁勇善战¥·2024-01-17 06:54

PPO 跑CartPole-v1

gym-0.26.2cartPole-v1参考动手学强化学习书中的代码,并做了一些修改代码importgymimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmclassPolicyNet

NoahBBQ·2024-01-17 06:52

InternLM第5次课笔记

LMDeploy大模型量化部署实践1大模型部署背景2LMDeploy简介3动手实践环节https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md3

Jamiechoi·2024-01-17 06:45

大模型学习之书生·浦语大模型5——基于LMDeploy大模型量化部署实践

目录大模型部署背景LMDeploy部署量化TurboMindAPIserver动手实践环节

uncle_ll·2024-01-17 05:00

现金流游戏复盘20200712

量化量化量化角色：医生总收入：13200元总支出：9650元月现金流：3550元财务自由度：1.83%――――――――――――――――――本周风险：漏领月现金流一次（可控）、失业一次（不可控）本周机会：

sunflower_fce2·2024-01-17 05:33

什么是ChatGPT，什么是大模型prompt

什么是ChatGptChatGPT是一个由美国的OpenAI公司开发的聊天机器人，它使用了大型语言模型，现在有GPT-3、GPT-3.5、GPT-4.0多个版本，目前还在快速发展，通过监督学习和强化学习进行了微调

张飞的猪大数据·2024-01-17 05:15

为什么大厂暴力裁员确很少有技术人敢举报？

大厂会包装，将暴力裁员包装为KPI优化KPI这个玩意，其实是蛮扯淡的，也不知道是谁发明的，反正在企业里面执行之后，老板就开心了，员工就叫苦了，毕竟要用KPI来量化员工的工作内容，且员工之间都是透明的，谁也别想偷懒

架构随笔录·2024-01-17 05:02

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战

LMDeploy简介推理性能核心功能-量化量化可以大大降低显存，同时提升推理速度。LLM是典型的访存密集型任务WeightOnly量化：核心功能——推理引擎TurboMind主要包

不想动脑筋的亮亮·2024-01-17 04:16

H264/AVC的句法和语义

概述码流的基本单位：在编码器输出的码流中，数据的基本单位是句法元素，每个句法元素由若干比特组成，它表示某个特定的物理意义，比如宏块类型、量化参数等。句法：句法表征句法元素的组织结构。

DogDaoDao·2024-01-17 03:53

超火的chartGPT到底是什么？没有账号我能使用吗

OpenAl的研究领域包括机器学习、自然语言处理和强化学习等。其中,GPT-3是OpenAl开发的一种大型语言模型,可以进行自然语言生成、翻译和问答等任务。什么是ChartGPT？

你别管我了·2024-01-17 00:16

Smart原则订立跑步目标

S：Specific目标要具体明确（跑步）M:Measurable订立目标需要是可量化的。1.5公里起步，每周增加0.5公司，最终目标5公里+A：Achieva

咖啡微苦·2024-01-16 23:08

深度学习机器臂控制_基于深度强化学习的机器人手臂控制

基于深度强化学习的机器人手臂控制杨淑珍;韩建宇;梁盼;古彭;杨发展;吕萍丽【期刊名称】《福建电脑》【年(卷),期】2019(035)001【摘要】基于深度强化学习策略,研究了机器人手臂控制问题.以两节机器人手臂为对象

觉主小VV·2024-01-16 22:54

【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障

基于深度强化学习的机械臂避障1.引言2.论文解读2.1背景2.2将NAF算法用在机器人避障中3.总结1.引言本文介绍一篇2018年发表在EuropeanControlConference的文章，虽然不是顶会

ReEchooo·2024-01-16 22:24

【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

文章目录摘要关键词0引言1空间连续型机器人动力学模型1.1场景假设(1)环境假设(2)模型假设1.2公式分析2空间连续型机器人滑模控制器3基于强化学习的滑模控制器4仿真校验5结论摘要【针对问题】空间主动碎片清除操作中连续型三臂节机器人系统跟踪

Ctrl+Alt+L·2024-01-16 22:23

机器人强化学习——Comparing Task Simplifications to Learn Closed-Loop Object Picking Using DRL（2019 RAL）

1简介任务是reach、grasp、lift，比较了rewardshaping、curriculumlearning、迁移学习，并迁移到了真实机器人场景中。本文抓取的方法框架是QT-Opt。2方法相机位置：机械臂腕部，眼在手上。state：深度图像、机械手张开宽度action：xyz平移、z轴旋转（想对于当前末端位姿）、机械手动作（开/闭）。每步平移最大1cm，初始state：随机选择n个物体放置

千羽QY·2024-01-16 22:53

基于强化学习的机器人路径寻优

二、使用差分进化算法辨识逆运动学的解三、基于强化学习的机械臂末端运动四、代码五、总结前言提示：这里可以添加本文要记录的大概内容：记录以前上课时学习的一些知识本文需要掌握的一些前置知识：1.机器人的D-H

kk的blog;·2024-01-16 22:53

基于强化学习的机器人抓取之 stochastic search

前言最近看google的机器人抓取算法QT-Opt，该方法通过stochasticsearch为每一个state选择action。沿着参考文献一路找到google的Learninghand-eyecoordinationforroboticgraspingwithdeeplearningandlarge-scaledatacollection，以及DeepReinforcementLearning