_Lilly

《论文阅读笔记》——Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey

来源：arXiv:2005.00935v1 [cs.LG] 2 May 2020
作者：Ammar Haydari, Student Member, IEEE, Yasin Yilmaz, Member, IEEE
单位：the University of South Florida
年份：2020
链接：论文下载链接

关键词

deep reinforcement learning (RL)
traffic signal control (TSC)
intelligent transportation systems（ITS）
RL + 深度学习 = （deep RL）
Markov Decision Process（MDP）

摘要

本文详细讨论了基于深度强化学习（RL）的交通控制的最新应用，本文讨论了交通信号控制系统（TSC）的不同问题公式、RL参数和仿真环境，在文献中，也讨论了几个基于深度强化模型的自动驾驶汽车的研究案例。本文将现有的工作按照应用类型、控制模型和学习算法进行分类。最后，我们讨论了基于深度RL的交通应用所面临的挑战和有待解决的问题。

Index Terms—Deep reinforcement learning, Intelligent transportation systems, Traffic signal control, Autonomous driving,Multi-agent systems.

介绍

智能交通系统（ITS)的主要目标是提供安全、有效、可靠的运输系统。为此，交通信号优化控制(TSC)、自动车辆控制、交通流控制是研究的重点。

采用自适应模块控制交通灯是近年来ITS领域的一个研究热点。通过交通信号设计自适应交通管理系统是缓解交通拥堵的有效方法。对于研究人员来说，优化交通灯的最佳方法仍是一个悬而未决的问题，但优化TSC的一个有希望的方法是使用基于学习的人工智能技术。

有三种主要的机器学习方法。监督学习根据训练中提供的输出标签进行决策。无监督学习是基于模式发现而进行的，不需要预先知道输出标签。第三种机器学习方法是强化学习(RL)，它采用基于Markov Decision Process(MDP)的顺序行为，并带有奖励或惩罚标准。RL与深度学习(deep RL)相结合，被称为deep RL，是目前控制系统中最先进的学习框架。RL可以解决复杂的控制问题，而深度学习有助于从复杂的数据集得到高度逼近的非线性函数。

在这篇文章中，我们回顾了针对TSC问题提出的deep RL应用。该文献讨论了不同的RL方法。由于交叉口模型主要是连通的、分布式的，因此本研究涉及的multi-agent dynamic control techniques在基于RL的ITS应用中发挥着关键作用。

贡献

第一次全面地调查了RL和基于deep RL的ITS应用。
从广义的概念出发，阐述了RL和deep RL模型的理论背景，特别是在ITS文献中使用的模型。
对TSC中使用RL和deep RL的现有工作进行了讨论，并在表中进行了明确的总结，以便进行适当的比较。
同样，deep RL在其他ITS领域(如自动驾驶)的不同应用也被总结为表格以供比较。

论文结构

深度 RL

Deep RL是最成功的人工智能模型之一，也是最接近人类学习的机器学习。它结合了深度神经网络和RL，用于更有效和稳定的函数逼近，特别是高维和无限状态问题。本节介绍了传统RL的理论背景和主要的深度RL算法在其应用中的实现。

Reinforcement Learning

RL常用于agent与环境相互作用时，agent在没有任何先验知识的情况下学习如何在环境中做出行动。在采取行动后，RL agent根据其行为得到一个反馈，通过这种反馈机制，agent不断更新自己的行动策略，直到得到最优控制策略。RL从环境中学习经验，呈现了一种尝试与试错式的学习，类似于人类。

RL过程原理图如下所示

在大多数的RL模型中，agent由算法控制，当agent在状态 $s_t$ 采取行动 $a_t$ 后，从环境中获得奖励 $r_t$ ，在基于当前的策略 $\pi$ 采取行动后，系统的状态转移到 $s_{t+1}$ 。每次交互之后，RL代理都会更新环境知识。

马可夫决策过程（Markov Decision Process，MDP）

强化学习的任务通常用MDP来描述。MDP对应了五元组：

状态空间 $\mathcal{S}$
动作空间 $\mathcal{A}$
转移函数 $\mathcal{T}(s_{t+1}|s_t，a_t)$
奖励函数 $\mathcal{R}(s_t,a_t,s_{t+1})$
折扣因子 $\gamma$ ，值在0到1之间

MDP的目标是找到最好的策略 $\pi^*$ ，使得在每个状态 $s$ 的预期累计奖赏和 $\gamma$ 折扣累积奖赏最大。

预期累积奖赏
$\mathbb{E}[\mathcal{R}_t|s,\pi]$
$\gamma$ 折扣累积奖赏
$\mathcal{R}_t=\sum^{T-1}_{i=0}\gamma^ir_{t+1}$

折扣参数 $\gamma$ 反映了未来奖励重要性。在0和1之间选择较大的值，表示agent的行为对未来奖赏的依赖程度较高。然而，取较小的值表示更多的关注即时奖赏。

RL agent可以按照两种方式采取行动（i）model-based RL (ii)model-free L.model-free RL 又可以被分为value-based和policy-based两种。

有模型学习（Value-based RL）

$E=<\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{R}>$ 均为已知，即机器已经对环境进行了建模，能在机器内部模拟出与环境相似或相同的状况。在已知环境的模型中学习叫“有模型学习”(model-based learning).

函数 $V^{\pi}(s)$ 表示从状态 $s$ 出发，使用策略 $\pi$ 所带来的累积奖赏。
函数 $Q^{\pi}(s,a)$ 表示从状态 $s$ 出发，执行动作 $a$ 后再使用策略 $\pi$ 所带来的累积奖赏。
$V(\cdot)$ 称为“状态值函数”（state value function）， $Q(\cdot)$ 称为“状态-动作值函数”（state value function）,分别表示指定“状态”上以及指定“状态-动作”上的累积奖励。
$^{\pi}(s) = \mathbb{E}[R_t|s,\pi ]$
$Q^{\pi}(s,a) = \mathbb{E}[R_t|s,a,\pi ]$
最优价值函数最优状态值函数
$^*(s) = \max_{\pi}V ^{\pi}(s),\forall s \in \mathcal{S}$
看不动了，这部分内容再更

基于以上，主要有两种有模型学习：

Q-learning
SARSA

Policy-based RL

Multi-Agent RL

在两种算法中，将状态-动作对保存在 $Q$ -table

Deep Reinforcement Learning

在高维和复杂系统中，标准的RL方法无法学习环境的信息特征，以实现有效的函数逼近。然而，这个问题基于深度学习可以处理这个问题，其中的深度神经网络被训练学习最优策略或值函数。,深度学习在很多领域都有应用，包括计算机视觉、语音识别、自然语言处理和深度RL应用.

在本节中，我们讨论了深度RL的背景，包括基于策略和基于价值的RL模型。在讨论ITS中deep RL应用的细节之前，值得一提的是，根据应用领域的规范，在不同的应用中，某些deep RL算法是首选的。开发新的深度RL技术是一个活跃的研究领域，基于Q-learning的DQN和基于actor-批评家的DDPG算法继续主导基于RL的控制器。对于高维状态空间，deep RL方法优于标准RL方法。在动作空间方面，基于策略的deep RL方法比基于价值的deep RL方法更适合连续动作空间。对于离散的动作空间，它的控制器通常使用DQN及其变体，因为它们的结构比基于策略的方法更简单。一般来说，我们可以说基于Q-learning的DQN模型通常用于具有有限状态和动作空间的不太复杂的系统，而基于策略或行为评论家算法主要用于大型复杂系统，包括多智能体控制系统。在这里我们还应该注意到，在许多情况下，设计师在设置问题时可以在离散和连续状态和动作空间之间进行选择。例如，在下一节中讨论的TSC中，一些作者将连续动作定义为绿灯延长的时间，而另一些作者将离散动作空间定义为选择绿灯方向。

TSC问题中的deep RL配置

Deep DL 在智能交通系统中的一个主要应用领域之一为交叉口信号控制。首先，控制单元收集状态信息，可以是不同格式的状态信息，如队列长度、车辆位置、车辆速度等，然后控制单元根据所提出的deep RL策略采取行动。最后，agent(控制单元)根据所采取的行动获得奖励。通过遵循这些步骤，agent试图找到一个最优策略，以使交叉路口的拥塞最小化。

使用RL算法处理模拟器上的TSC问题，需要在状态、动作、奖励定义和神经网络结构等几个方面有良好的问题规划。在本节中，我们将讨论这些主要的deep RL配置以及文献中使用的交通模拟器。

$S t a t e$

学习表现高度依赖于状态定义的精准度,因此有许多不同的状态表示用于交通信号灯的RL应用.可分为以下几类:

类图像表示格式,称为离散交通状态编码(discrete traffic state encoding,DTSE),是目前最流行的状态定义方法.车辆的速度、位置、信号相位和加速度在 DTSE 中以单独的阵列显示。
另一个常用的方法是构建基于特征的值向量(feature-based value vector),在值向量状态表示与基于车的状态表示不同的是，每个车道特定信息的平均值和总和表示在一个向量中。队列长度、相位周期中的累积等待时间、车道上的平均速度、相位持续时间（绿色、红色、黄色）和每条车道上的车辆数是用于状态表示的一些常见特征。

如图所示,两种主要的状态表示：DTSE 矩阵（中）和基于特征的向量（右）。左图显示的用对应的基于汽车的状态数组的交通模型。每一个格子表示一辆车。中图中的矩阵显示的是一个交叉口的完整矩阵，每条路用不同颜色表示。右图表示基于特征的状态向量，每一个格子表示一个车道。
对于多交叉口的TSC模型,状态定义也应该包含相邻交通灯的信息,比如信号相位,交通车数量和平均速度.

$A c t i o n$

RL 算法在接收到状态后从一组可能的行动中采取某个行动对学习有着至关重要的影响。在单个四路交叉口，每一个方向都由红灯、绿灯和黄灯控制。有很多单交叉口的行动选择，最常用的选择其中一个可能的绿灯相位。另一个二元行动可以设置为保持当前相位还是改变其方向。第三个不太常用的行动模型是根据预先定义的长度来更新相位时长。

对于单交叉口，主要有四种可能的绿灯相位：North-South Green (NSG)，East-West Green (EWG)，North-South Advance Left Green (NSLG) 和 East-West Advance Left Green (EWLG)。在某个相位的绿灯相位期间，汽车向交叉口允许的方向前进。如果行动设置为选择其中一个可能会的绿灯相位， deep RL 智能体在每个时间 t 选择四个绿灯相位中的一个。在黄灯和红灯转移后，选择的行动在交通灯上执行。

早期的应用将相位定义简化为 NSG 和 EWG 两种，而不考虑左转[32,40]。在另一种二元行动模型中，绿灯相位时长是预先定义的，例如NSG→EWG→NSLG→EWLG，智能体决定是保持在当前相位还是转移到下一相位。如果智能体决定改变相位，则黄灯和红灯转换需要先执行完，以确保交通流的安全[33,37,38,42,47]。

大部分应用考虑的是离散的行动，即从一组行动集合中选择某个行动。当然，也有少量工作考虑连续的输出，仅仅控制下一个相位的时长[20]。这种类型的行动定义适合多交叉口的情形。基于预先定义的最小和最大相位时长，算法为当前的相位预测一个合适的时间长度[41,48]。
原创地址

$R e w a r d$

在强化学习中，状态可以是一个特征向量或高维矩阵，行动可以是连续值或者离散选择的向量。然而，奖励总是标量值，且为交通数据的函数。在强化学习中奖励的作用是分析某个状态下采取某个行动的质量，也即对智能体采取特定行动的惩罚或奖赏。

等待时间、累积延迟和队列长度是 TSC 中最常见的奖励定义。等待时间可以所有汽车停留时间的总和来表示。延迟是指连续绿灯相位中等待时间的差。队列长度针对交叉口中每个车道进行计算。

美国公共道路局（BPR）在交通规划中定义的一个特殊拥堵函数也被一些工作用来作为奖励的定义[34,47]。在另一些工作中，交通数据的绝对值被用来定义奖励，其他工作也使用交通数据的负值和平均值来定义奖励。
原创地址

$N e u r a l N e t w o r k S t r u c t u r e$

在 deep RL 中，深层神经网络的结构也对学习有着重要的影响。在 TSC 领域，研究者提出了很多不同的网络结构。多层感知机（MDP），即标准的全连接前馈神经网络模型，在传统数据分类中是一个有用的工具。卷积神经网络（CNN）是 MDP 使用核滤波器的一个扩展，在将图像映射为输出方面取得了很好的效果。

标准的 DQN 使用 CNN 网络结构，将连续的原始像素帧作为状态定义。有很多 TSC 领域的论文在 DTSE 状态定义下使用 CNN 作为网络结构（见图3，[31,33,49]）。

残差网络（ResNet）通常用来解决基于 CNN 的深层网络结构的过度拟合问题[34]。另外一种在图中进行操作的基于卷积的网络结构是图卷积网络（GCN）。

循环神经网络（RNN），例如长短期记忆（LSTM）常常用户时间序列数据。由于 TSC 控制通常是时序进行，RNN 也被用于深度强化学习场景中[35,37]。另外一种神经网络模型是自编码器，可以为高维数据数据学习低维子空间表示，通常被用于清洗输入数据中的噪音[40]。
原创地址

模拟环境

早期:Green Light District (GLD) 模拟器,基于Java
最流行:SUMO,支持python
最成熟:VISSIM,与AIMSUN 类似，与 MATLAB 的交互更好

Deep RL在交通信号灯控制中的应用

根据agent的数量，我们可以将基于学习的模型分为两类:single agent RL和multi-agent RL，前者使用一个agent获得整个TSC网络的最优策略，后者使用网络中的多个agent获取最优策略。

标准RL应用

Single agent RL

Multi-agent RL

Deep RL应用

Single agent deep RL

三种不同的状态定义:

每条车道的占用率和平均速度
每条车道的排队长度和车辆密度
第三种状态形式是具有布尔位置信息的类像表示，DTSE，其中车辆的存在以1表示。

Multi-agent deep RL

参考文献

[1] A. L. Bazzan, “Opportunities for multiagent systems and multiagent reinforcement learning in traffic control,” Autonomous Agents and Multi-Agent Systems, vol. 18, no. 3, p. 342, 2009.
[2] P. Mannion, J. Duggan, and E. Howley, “An experimental review of reinforcement learning algorithms for adaptive traffic signal control,” in Autonomic Road Transport Support Systems. Springer, 2016, pp. 47–66.
[3] K.-L. A. Yau, J. Qadir, H. L. Khoo, M. H. Ling, and P. Komisarczuk, “A survey on reinforcement learning models and algorithms for traffic signal control,” ACM Computing Surveys (CSUR), vol. 50, no. 3, p. 34, 2017.
[4] W. Tong, A. Hussain, W. X. Bo, and S. Maharjan, “Artificial intelligence for vehicle-to-everything: A survey,” IEEE Access, vol. 7, pp. 10 823–10 843, 2019.
[5] R. Abduljabbar, H. Dia, S. Liyanage, and S. Bagloee, “Applications of artificial intelligence in transport: An overview,” Sustainability, vol. 11, no. 1, p. 189, 2019.
[6] H. Wei, G. Zheng, V. Gayah, and Z. Li, “A survey on traffic signal control methods,” arXiv preprint arXiv:1904.08117, 2019.
[7] M. Veres and M. Moussa, “Deep learning for intelligent transportation systems: A survey of emerging trends,” IEEE Transactions on Intelligent Transportation Systems, 2019.
[8] B. R. Kiran, I. Sobh, V. Talpaert, P. Mannion, A. A. A. Sallab, S. Yogamani, and P. P´erez, “Deep reinforcement learning for autonomous driving: A survey,” arXiv preprint arXiv:2002.00444, 2020.

法律行业——合同审查与AI律师 zhouyaowei1983 人工智能人工智能
一、引言：AI技术重构法律行业新格局‌随着AI技术从实验室走向规模化应用，法律行业正经历从“经验驱动”向“数据驱动”的范式转变。这一变革的核心驱动力源于法律服务的两大根本矛盾：‌传统人工服务效率瓶颈‌与‌市场对高精度、低成本法律产品的迫切需求‌‌。‌1.法律行业数字化转型的底层逻辑‌‌技术革命推手‌：以DeepSeekR1大模型为代表的开源AI技术，让法律文本解析、案例推理等复杂任务实现平民化应用
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
Android 和 Linux 之间关联和区别测试也是会开发的 android linux 运维
1.核心：基于Linux内核底层依赖：Android的核心系统服务（如进程管理、内存管理、硬件驱动等）依赖于Linux内核。Android使用Linux内核的修改版本（如AndroidCommonKernel），并针对移动设备的特性（电源管理、低内存优化等）进行了定制。开源协议：Linux内核采用GPL协议，因此Android对内核的修改必须开源（厂商发布的Android设备内核代码需公开）。2.
RabbitMQ-死信交换机和死信队列 ui99tew1 rabbitmq 分布式
在RabbitMQ的使用过程中，死信交换机（DeadLetterExchange，简称DLX）和死信队列（DeadLetterQueue，简称DLQ）是解决消息处理失败的一种高效机制。这套机制不仅能帮助系统保证消息的可靠性，还能在消息处理出现问题时提供有效的错误处理和消息追踪方式。接下来，我将详细解释什么是死信队列和死信交换机，以及它们是如何工作的。死信队列和死信交换机的定义死信交换机是一种特殊的
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Python实战：开发经典猜拳游戏（石头剪刀布）藍海琴泉游戏
目录引言：为什么选择猜拳游戏作为入门项目？第一部分：基础知识点与代码实现1.游戏逻辑与流程2.代码分步实现2.1导入必要模块2.2定义游戏规则函数2.3生成计算机选择2.4判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群：编
Python函数完全解读：从零基础到高阶实战藍海琴泉 python 开发语言
目标读者：编程新手|转行者|需系统掌握函数用法的开发者目录一、函数是什么？为什么需要函数？二、函数基础语法详解1.定义与调用2.返回值：函数的输出结果3.参数传递机制4.案例：计算BMI指数三、变量作用域：理解局部与全局1.局部变量2.全局变量四、函数进阶：lambda与高阶函数1.lambda匿名函数2.高阶函数五、函数高级特性1.装饰器：增强函数功能2.递归函数六、实战案例：文件处理工具一、函
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
使用Wolfram Alpha API在LangChain中的应用 shuoac langchain python
在AI技术应用中，WolframAlpha以其强大的计算能力和信息检索功能，被广泛应用于各类智能系统中。本文将为您介绍如何结合LangChain使用WolframAlphaAPI，以实现功能强大的计算和信息查询服务。技术背景介绍WolframAlpha是由WolframResearch开发的问答引擎，它通过计算从外部数据源中获取答案，实现对事实性问题的解答。在开发智能应用时，我们可以利用Wolfr
QT-LINUX-Bluetooth蓝牙开发大象荒野嵌入式QT开发笔记 qt
BlueToothAPIQT-BlueToothApiQtBluetooth6.8.2官方提供的蓝牙API不支持linux。D-Bus的API实现蓝牙确保系统中安装了BlueZ（版本需≥5.56），并且Qt已正确安装并配置了D-Bus支持。默默看了下自己的版本.....D-BUS的API也不支持。在D-Bus中，org目录是D-Bus对象路径（ObjectPath）的一部分，用于唯一标识系统中的对
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
免费GIS工具箱：支持多种格式的模型预览及编辑，还能进行协同编辑 GISBox GISBox GIS 切片分发倾斜摄影 OBJ FBX OSGB
市面上不少GIS软件价格高昂，功能却不尽人意。但GISBox却不太一样，它的切片、分发功能完全免费，能预览、编辑多种格式模型，还支持协同编辑，性价比远超同类软件，如果你想进一步了解它，不妨看看这篇文章。01打破价格与功能的双重困境在地理信息系统（GIS）领域，大多数软件的高价一直是小型企业、科研团队以及个人开发者的一大阻碍。这些软件不仅采购成本高，后续的维护和升级费用也不低。与此同时，很多软件功能
【Q&A】QT事件处理流程是怎么样的？浅慕Antonio Q&A qt 数据库开发语言
Qt事件流程详解1.事件流程概述在Qt中，事件处理是实现用户交互和系统响应的核心机制。整个事件流程从事件产生开始，经过事件队列的管理、事件分发，最终到达目标对象进行处理，若未处理还会进行事件传播。2.详细流程步骤及代码示例2.1事件产生事件可以由多种方式产生，包括用户输入、系统消息和程序主动发送自定义事件。用户输入事件示例：#include#include#includeintmain(intar
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
hdc工具安装、常用命令及使用技巧 MardaWang HarmonyOS NEXT harmonyos 华为
介绍：hdc（OpenHarmonyDeviceConnector）是为开发人员提供的用于设备连接调试的命令行工具，该工具需支持部署在Windows/Linux/Mac等系统上与OpenHarmony设备（或模拟器）进行连接调试通信。简单来讲，hdc是OpenHarmony提供的用于开发人员调试硬件、应用的命令行工具，用在电脑与开发板之间的交互。hdc适用于OpenHarmony应用、硬件开发及测
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案快撑死的鱼算法工程师宝典（面试学习最新技术必备）语言模型系统架构面试
1.什么是向量检索？它与传统基于关键字的检索相比有什么不同？答案要点：向量检索是将文本、图像、音频等数据映射为向量，在高维向量空间中基于相似度或距离进行搜索。与传统基于关键字的检索（如倒排索引）相比，向量检索更关注“语义”或“特征”，能找出语义上相似但未必包含相同关键词的内容。向量检索非常适合多模态场景（例如“以图搜图”）或自然语言问答（同义词、上下文关联等）。2.什么是检索增强生成（RAG）？核
HarmonyOS Next 企业级分布式办公应用实战：构建高效协同的办公新生态 lyc233333 harmonyos 分布式华为
在数字化办公浪潮汹涌的当下，企业对于高效、便捷且协同性强的办公应用需求愈发迫切。华为鸿蒙HarmonyOSNext系统凭借其先进的分布式技术，为打造创新型企业级分布式办公应用提供了坚实的基础。本文将基于实际开发经验，深入剖析如何利用HarmonyOSNext构建企业级分布式办公应用，涵盖从需求分析到系统架构搭建，再到核心功能实现以及性能优化等关键环节。一、办公应用需求与系统架构搭建（一）企业级分布
如何评估一个RAG系统（RAGas评测框架）-下篇写程序的小火箭大语言模型人工智能语言模型 chatgpt langchain gpt
RAGas是一个用于评测RAG系统的评测框架，它支持与不同大语言模型的集成，并与langchain生态打通，能够很方便的构建评测系统。下面是RAGas的一些链接论文：https://arxiv.org/pdf/2309.15217官方文档：Ragashttps://github.com/explodinggradients/ragas官方文档及github对框架的使用介绍的比较详细，本文不会就该方
Java 环境配置与 JAR 文件问题解决全攻略不羁。。杂记丨每天亿点小知识 java jar 开发语言
目录一、Java环境配置指南1.Windows系统配置步骤1.1下载安装JDK1.2配置环境变量2.Linux/macOS系统配置2.1终端命令配置二、JAR文件问题诊断与修复1.检查JAR文件完整性1.1命令行验证1.2哈希值校验2.依赖库管理方案2.1Maven依赖配置示例2.2命令行指定依赖三、常见问题解决方案1.环境变量不生效处理1.1清除系统缓存1.2路径优先级调整2.旧版本残留处理2.
鸿蒙Next开发实战教程-使用WebSocket实现即时聊天幽蓝计划 harmonyos 鸿蒙
鸿蒙系统提供了WebSocket库，使用它可以很方面的实现即时聊天功能，今天就使用WebSocket来实现一个完整的聊天功能。首先创建一个WebSocket实例：letws=webSocket.createWebSocket()然后创建WebSocket连接，我找到一个简单的ws地址，它直接返回我们发送的消息：leturl='ws://124.222.224.186:8800'this.ws.co
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
MDC-Mapped Diagnostic Context（映射诊断上下文） NEUMaple 微服务 spring boot java MDC
MDC，全称为MappedDiagnosticContext（映射诊断上下文），是SLF4J（SimpleLoggingFacadeforJava）提供的一种机制，用于在多线程应用中存储和管理与特定线程相关的上下文信息。这种机制特别适用于需要跨多个方法调用或服务边界传递诊断信息的场景，例如跟踪分布式系统中的请求流。MDC的主要用途日志关联：在分布式系统或多线程应用中，MDC可以用来携带一些上下文信
DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析 Coderabo DeepSeek R1模型企业级应用架构 DeepSeek-R1
DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x
RPA（Robotic Process Automation）技术介绍及其应用乐Code Other rpa
一、RPA技术概述RPA，即机器人流程自动化，是一种利用软件机器人（或称为“机器人工作者”）来模拟和自动执行人类在计算机上执行的各种重复性、规则性业务流程的技术。RPA技术旨在通过自动化这些业务流程，提高工作效率、减少人为错误，并让员工能够专注于更高价值的工作。二、RPA技术的核心特点无侵入性：RPA软件能够在现有的IT架构上运行，无需对现有系统进行大幅修改或替换。易于实现和扩展：相对于传统的IT
对MCP工作流的一些个人认知持续学习的老赵人工智能
最近在学习MCP系统，虽尚未深入掌握，但已对其工作原理有了初步认识，在此分享下学习收获。MCP是一套能实现客户端、多种服务与大模型协同工作的系统，能处理任务请求并及时反馈。其工作流程如下：一、获取并更新服务使用方法（一）收集整理使用方法MCP正常运行依赖于对各类服务使用方法的了解，这要靠已在系统注册且可识别的功能模块。一旦有新模块注册或旧模块更新，系统会自动检测并获取其使用方法信息。MCP订阅服务
Web端驱动的综合打印方案与场景 #六脉神剑 Web打印 myBuilder 产品运营
随着Web技术的快速发展，基于Web端的打印方案逐渐成为主流，它能够满足多样化的打印需求，并提供更便捷、高效的打印体验。以下是一些常见的Web端驱动综合打印方案与应用场景：一、方案概述浏览器直接打印原理:利用浏览器自带的打印功能，调用操作系统打印接口，直接打印网页内容。优点:简单易用，无需额外开发。缺点:打印样式控制有限，兼容性差，无法满足复杂打印需求。适用场景:打印简单的网页内容，例如文章、表格
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

《论文阅读笔记》——Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey

关键词

摘要

介绍

贡献

论文结构

相关工作

深度 RL

Reinforcement Learning

马可夫决策过程（Markov Decision Process，MDP）

有模型学习（Value-based RL）

Policy-based RL

Multi-Agent RL

Deep Reinforcement Learning

TSC问题中的deep RL配置

$S t a t e$

$A c t i o n$

$R e w a r d$

$N e u r a l N e t w o r k S t r u c t u r e$

模拟环境

Deep RL在交通信号灯控制中的应用

标准RL应用

Single agent RL

Multi-agent RL

Deep RL应用

Single agent deep RL

Multi-agent deep RL

参考文献

你可能感兴趣的:(论文笔记,TSC,green-wave,RL,deep,RL,多端系统)

《论文阅读笔记》——Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey

关键词

摘要

介绍

贡献

论文结构

相关工作

深度 RL

Reinforcement Learning

马可夫决策过程（Markov Decision Process，MDP）

有模型学习（Value-based RL）

Policy-based RL

Multi-Agent RL

Deep Reinforcement Learning

TSC问题中的deep RL配置

S t a t e State State

A c t i o n Action Action

R e w a r d Reward Reward

N e u r a l N e t w o r k S t r u c t u r e Neural Network Structure NeuralNetworkStructure

模拟环境

Deep RL在交通信号灯控制中的应用

标准RL应用

Single agent RL

Multi-agent RL

Deep RL应用

Single agent deep RL

Multi-agent deep RL

参考文献

你可能感兴趣的:(论文笔记,TSC,green-wave,RL,deep,RL,多端系统)

$S t a t e$

$A c t i o n$

$R e w a r d$

$N e u r a l N e t w o r k S t r u c t u r e$