李泽滨_123

MultiNet: Real-time Joint Semantic Reasoning for AutonomousDriving

摘要

当大部分语义推理的方法聚焦在提升性能的时候，在这篇文章中我们认为在一些实时应用比如自动驾驶中计算时间非常重要。为了实现这个目标，我们提出了一种联合进行分类、检测和语义分割的方法，形成一个统一的架构，在这种架构中，三个任务的编码器阶段是共享的。我们的方法比较简单，在非常具有挑战性的KITTI数据集上性能也非常好，超过了很多路面分割任务中目前的最好性能。我们的方法非常有效，可以让我们以大于每秒23帧的速率来进行推理。

复现我们结构的训练脚本和训练权重可以在这里找到：https://github.com/MarvinTeichmann/MultiNet

1.介绍

计算机视觉的最新发展让我们越来越清楚了视觉感知在自动驾驶汽车中扮演了一个重要的角色。这最主要是从2012年AlexNet网络【29】引进到深度学习中.从那时起，新的方法的准确率就以一个令人惊讶的速度在增加。主要原因就是更多的数据，更强的计算能力，更好的算法产生了。现在的趋势是，尽可能地增加更多的网络层、创造更深的网络【22】。

尽管性能已经很好了，但是当处理实时应用时，运行时间就会变得很重要。新的硬件加速和（软件加速）压缩，降低准确率，蒸馏等方法都已经被用来加速现在的网络了。

在这篇论文中我们采用了一种非传统的方法，设计了一个能同时完成分类、检测、语义分割网络结构。这是将三个任务包含到一个统一的编码-解码结构中。我们将我们的方法命名为MultiNet。

编码器是一个深层的CNN，产生能够在所有任务中产生丰富的共享特征。这些特征再被以任务为导向的解码器使用，解码器实时产生结果。尤其检测编码器联合了Yolo【45】中快速的回归设计，Faster-RCNN【17】和Mask-RCNN【21】调整尺寸的ROI对齐，从而达到了一个更好的速度-精度。

我们在具有挑战性的KITTI【15】任务中验证了我们方法的有效性，在路面分割任务中展示我们的最新性能。更为重要的是，我们的ROI-align实施显著地提升了检测性能，它不需要一个明显的提议生成网络（RPN）。这就使得我们的解码器相对于Faster-RCNN【46】有一个很大的速度提升。我们的方法受益于共享计算，使得我们在45ms以内完成所有任务的推理。

2.相关工作

在这一部分，我们回顾了MultiNet所处理任务（检测、分类、语义分割）的当前方法。我们将我们的注意力集中在这些深度学习方法。

分类: 在AlexNet【29】提出之后，大部分现代的图像分类方法都是使用深度学习。残差网络【22】是这方面的最新成果，它允许我们训练深度网络，消除了梯度消失梯度爆炸的问题。在路面分类的场景中，深度神经网络已经被广泛地应用了【37】。传感器融合在这种场景中也被应用地很多【50】。在这篇文章中，我们使用分类来引导其他语义任务，比如分割和检测。

检测: 传统的完成物体检测的深度学习方法遵循两步：第一步生成区域提议【31, 25, 24】，第二步用卷积网络对这些区域进行评分挑选【18， 46】。使用卷积神经网络或者是3D推理【6, 5】来生成区域提议可以提升性能【10，46】。最近提出来一些使用单个端到端训练、直接检测的深度网络【51,33,53,33】.它们对于区域提议的方法的优势在于它们的训练和推理时间更快，因此对实时应用来说更合适。但是，到目前为止它们在性能方面还差的很远。在这篇文章中，我们提出一个端到端训练的检测器，显著减少了区域提议方法和单个深度网络方法之间性能差距。我们认为区域提议方法的主要优势在于它们有尺寸可调整的特征图。这启发了我们进行ROI 池化步骤。

分割: 受深度学习方法的成功所启发，基于CNN的分类器也被用到语义分割任务中去。早期的方法使用一个CNNs的天生的高效性（稀疏连接，参数共享，局部相关）来完成一个隐式的滑动窗口（逐块分类或逐像素分类）【19,32】。FCN被提出来后，使用一种深度学习的pipeline对语义分割进行建模，可以端到端地进行训练（？？？）。转置卷积【58,9,26】被用来对低分辨率的特征图进行上采样。多种多样的网络层次更深的FCN在【1， 40， 47, 42】中被提出来了。联合FCN和条件随机场（CRFs）可以达到一个很好的结果【60,3,4】。【60,49】显示CRF中的mean-field 推理可以实现一个端到端训练的循环网络。Dialted convolutions在【56】（？？？）中引入，可以增强感受野大小，却不丢失分辨率。前面所提及的这些技术和残差网络【22】结合在一起往往能达到目前的最好结果。

多任务学习:多任务学习技术目的是在多个任务中学到一个更好的representation。一些多任务场景中的CNNs被提出来了【36,34】。多任务学习的一个重要应用就是人脸识别【59,55,44】.
为了完成检测或者是实例分割，学习语义分割在【16,7,43】中已经被研究了。在这些系统中，主要的目标是实例级别的任务。语义标注只是被看做是中间结果。很多系统可以fine-tuned来完成分类、检测、语义分割【51,54】.在这些（51,54）方法中，对于每一个任务去学习一个不同的参数组。因此，在这些模型中共同推理就不可能。【20】中描述的系统最接近我们的模型【20】.但是【20】依赖现有的目标检测器，也没有全面利用在分割阶段学习到的丰富特征。我们觉的我们的系统是第一个能这样做到的系统。

3.共同完成语义推理的MultiNet

在这篇文章中我们提出了一个高效并且有效的前馈网络，我们称之为MultiNet，来完成与语义分割、图像分类和物体识别。我们的方法在三个任务上和三个分支上共享编码器，但是对每一个任务上有一个单独的解码器。Figure2展示了我们的网络结构。

MultiNet可以端到端地进行训练，在所有任务上进行一次推理时间是45ms以内。我们接下来讨论我们的共享编码器，之后是特定任务的解码器。

3.1 编码器

编码器的任务是去处理一张图片，提取丰富抽象的特征，这些特征包含所有完成精确的分割、检测和图像分类的信息。编码器包含分类网络的卷积和池化层。编码器的权重使用在ImageNet分类数据上预训练的权重来进行初始化【48】.在编码阶段，任何现代的分类网络都可以使用。

我们使用VGG16【57】和ResNet【22】网络来进行实验。VGG编码器使用了VGG16的所有卷积和池化层，没有用全连接层和softmax层。我们称这个为版本的网络为VGG-pool5，因为pool5是从VGG16中用到的最后一层。第二个版本值舍弃了最后一个全连接softmax层。我们称这个结构为VGG-fc7，因为fc7是从VGG16中用到的最后一层。VGG-fc7用了VGG16的两个全连接层fc6，fc7。我们用在【51,35】讨论的等价的11卷积来代替这两层。这个trick使得我们的编码器可以处理任意输入尺寸的图片。我们不再需要原始的=VGG网络的输入224224，这个输入对于街道场景预测来说太小。

对于ResNet，我们使用了这个网络的50层和101层的版本。作为编码器，我们使用除了全连接soft-max之外的所有层。

3.2分类解码器

我们实施了两个分类解码器。一个版本是一个vanilla型的带有softmax激活函数的全连接层（解码器），解码器的输入尺寸是224*224.因此，整体网络和原始的VGG或ResNet网络相同，当它们（的一部分）作为相应的编码器（一部分作为解码器）的时候。编码器的意图是作为一个high quality baseline来展示我们场景分类网络的有效性（？？？？）。第一个分类编码器（？？？？）不能用来和分割、检测来进行联合推理。两种任务（分割、检测）都要求一个更大的输入尺寸。但是对分类编码器来说增加输入尺寸会使得最后一层的参数数量得到一个不合理的增加。

第二个分类解码器是被设计来充分利用编码阶段生成的高分辨率特征。在典型的图像分类任务比如【48, 28】，输入的特点是只有一个物体，通常非常显著地（该物体）位于图像中央。对于这种任务来说，使用小尺寸的输入是合理的。街道场景就是另一方面了，包含大量的小尺寸的物体。我们认为为了利用那些物体提供的特征，使用高分辨率的输入很重要。通过将输入尺寸增加到1248348，我们可以有效地在图像的每一个空间位置上使用我们的特征生成器【51,35】.结果就是一个3912的特征网格，每一个网格与一个尺寸是3232像素的空间区域相关。为了利用这些特征，我们使用一个带有30个通道的11卷积。这个（卷积）层称为BottleNeck。主要的意图是进行降维。

3.3检测解码器

检测解码器是设计为一个类似于ReInspect【53】，Yolo【45】和Overfeat【51】一样的无区域（提议阶段）的方法。通过去除设计智能区域生成器，可以获得一个更快的推理时间。这对于我们构建一个实时检测系统来说很重要。

基于区域的检测系统相对于非区域的来说，有一个很大的优势。它们在内部放缩用来检测的特征（图）。这使得CNN在内部对放缩具有不变性。这是一个很重要的特征，因为CNN本质上对不同的尺寸来说是不能泛化地很好的。我们认为尺寸不变性是基于区域提议系统的主要优势。

我们的检测解码器尽力去结合基于区域提议的检测系统的优越检测性能和非区域提议系统的快速性。为了实现这个，我们在解码器内部使用了一个放缩层。放缩层包含一个ROI对齐【21】，提供了基于提议系统的主要优点。不像基于提议的系统，no non-differential operations are done and the rescaling can be computed very effciently(？？？？？)所有操作都是可微的，重新放缩也可以高效地进行计算.

解码器的第一步是产生一个大致边界框的估计。为了实现这个，我们首先将编码好的特征传递给一个有500个卷积核的11卷积层，产生一个尺寸为3912500的张量。这些特征被称为bottleneck块。这个张量再被一个11的卷积层处理，输出6通道分辨率为3912的特征图。我们称这个张量为prediction块，张量的各个值有不同的实际意义。张量的前两个通道值形成了对图像的粗糙的分割。它们的值代表了在3912网格上一个ROI是否出现。其余的四个通道代表在这个单元格（所代表）区域的坐标。Figure3展示了一个带有cells的图像。

这种预测再被用来引入尺度不变性。A Rescaling Approach，和基于区域提议的系统里的方法有点类似，被用在这比较粗糙的预测上。The rescaling layer用到了【21】中的ROI align方法。实际上它是使用每一个单元格的预测来产生一个RoI align.这使得这些操作都是可微的（？？？）。再之后进行CNN池化。最终的结果就是一个可训练的端到端快速系统。通过RoI align池化之后的特征与原来的预测串联在一起，用来产生一个更准确的预测。第二个预测用来对边界框的offset进行建模预测，它的输出被加到原来的预测上。

3.4分割解码器

分割解码器遵循FCN的主体结构【35】.在编码器产生的特征的基础上，我们再使用一个11卷积层已经得到了一个低分辨率尺寸为3912的分割。输出再使用三个转置卷积层进行上采样【9】. skip connections被用来从低层中提取高分辨率的特征。这些高分辨率的特征先用一个1*1卷积层进行处理，再加到the partially unsampled results.

4.训练

在这一部分我们描述我们用到的损失函数，训练过程中的细节，包括初始化。

MultiNet训练策略：MultiNet训练用的是一个fine-tunning的方法。首先编码网络在ILSVRC2012数据集【8】训练完成分类。实际当中，这一步被省略。我们直接使用原作者训练发布出来的权重数据就可以了。

在第二步中，去除最后的全连接层，取而代之的是我们的解码器。然后网络用KITTI数据进行端到端的训练。因此MultiNet的训练过程遵循一个经典的fine-tunning pipeline。

我们的联合训练用三个任务它们各自的样本计算前向传播。各自的梯度在反向传播过程中仅仅是加在一起。这样做的实际好处是我们可以给每一个解码器使用不同的训练参数。对于我们的联合训练来说这是一个重要的特点。相对于分割任务来说，分类任务要求一个比较大的batch size和更多的data-augmentation。

损失函数：分类和分割使用softmax交叉熵损失函数进行训练。
对于检测来说，最后一层的预测是一个12*39的网格预测。每一个网格有一个置信度和一个边界框预测。边界框预测包含边界框的4个坐标，与网格的相对位置有关。一个网格比如c会获得一个正的置信度，如果它当且仅当与至少一个真实边界框相交。如果多个边界框与一个网格相交，中心越靠近网格c的边界框会被选中。因此我们可以注意到一个单元格可以被多个网格进行预测。

如果一个边界框是由网格c来进行预测，下列值会保存在c这个单元格内：

其中x_b, y_b和x_c,y_c是边界框b，网格c的中心点坐标，w和h代表宽度和高度。注意到w_c和h_c都是32（这里32是怎么计算出来的，输入是384×1248时，划分为12×39的网格，每一个网格就刚好是32×32），我们模型中网格的长宽因此就是固定值。我们使用L1损失：

其中c^是预测网格，c是真实值网格，c_p代表这个预测网格是否有一个正的置信度预测。Sigma*c_p项可以确保当该网格内没有物体时，回归损失为零。我们使用交叉熵训练置信度预测。每个网格的损失是这个网格的置信度和回归损失的加权和。每幅图像的损失是所有网格损失和的均值。KITTI数据集包括"Don’t care areas".那些Don’t care areas通过将它们的损失乘以0（过滤）处理。我们注意到我们的最终预测的表达形式比Faster-RCNN 或ReInspect都简单。这是我们的检测系统的一个额外特点。MultiNet的损失就是分割、检测和分类的损失和。
联合训练的损失也是分割、检测和分类的损失和。

初始化：编码器的权重使用在ImageNet数据上【23】训练的权重。检测和分类的解码器权重使用【23】中的方法来初始化。分割解码器转置卷积层初始化成双线性插值的值。分割解码器的skip connections初始化成很小的权重。
所有的这些修改都极大地提升了分割性能。

优化和正则化：我们使用Adam优化方法【27】，学习率为10^-5. 所有层的权重衰减率是510^-4，dropout的概率是0.5，dropout只用到33的分类卷积和所有检测解码器中的所有1*1卷积。

标准的数据增广被用来增加有效可用训练数据的数量。我们通过使用随机亮度和随机对比度来增广数据的颜色特征。空间特征通过使用随机反转，随机resize和随机裁剪来进行扭曲增广。

5.实验结果

在这一部分，我们在具有挑战性的KITTI数据集上完成实验验证。

5.1数据集

我们在KITTI视觉基准数据集上【14】验证MultiNet。这个基准数据集包括在Karlsruhe城市里移动车辆采集的多样化场景数据集。原始的数据里，KITTI有自动驾驶相关任务的数据标注。我们使用路面标准数据【12】来评估我们语义分割解码器的性能，物体检测标准数据【15】来评估检测解码器。我们利用自动生成的标签【37】，它通过使用GPS信息和公开街道地图数据提供给我们路面标签。

检测性能通过average precision score【11】来进行评价。为了评估，物体被分成三类：容易，适中，困难。分割性能通过MaxF1 score【12】来衡量。另外，average precision score用来作参考。分类性能通过计算mean accuracy, precision和recall来评估。

5.2 实验验证

这一部分结构如下。我们首先单独评估三个解码器的性能。为了实现这个，我们通过使用三个损失分割、检测和分类中的一个fine-tune编码器，与很多基准指标比较来评价性能。第二部分，我们比较三个解码器联合训练（时间）和单独推理（时间），从中我们得出联合训练的性能赶上了单独推理的性能。总体上，我们的方法与单独推理相比也是很有竞争性的。This makes our approach very relevant. 联合训练在很多机器人应用中很有好处，比如快速的推理时间。

尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
【AI Agent教程】各种Agent开发框架都是如何实现ReAct思想的？深入源码学习一下同学小张大模型人工智能学习笔记经验分享 AIGC AI Agent ReAct
大家好，我是同学小张，持续学习C++进阶知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。驱动大模型有很多种方式，例如纯Prompt方式、思维链方式、ReAct方式等。ReAct方式是AIAgent最常用的实现思路之一，它强调在执行任务时结合推理（Reasoning）和行动（Acting）两个方面，使得Agent能够在复杂和动态的环境中更有效地工作。本文我们来看看常用的那
This robot has a joint named “gripper_finger_joint“ which is not in the gazebo model. 无码不欢的我 ROS
在B站上看古月居的课《ROS机械臂开发：从入门到实战》，在运行第9节的代码时，出现如下报错：Thisrobothasajointnamed"gripper_finger_joint"whichisnotinthegazebomodel.本人所运行环境为：ubuntu版本：20.04ROS版本：noetic错误分析：xacro的宏调用格式错误，正确格式为或者为：...修改方法：1.找到probot_
Elasticsearch：为推理端点配置分块设置 Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎人工智能全文检索数据库 ai
推理端点对一次可处理的文本量有限，具体取决于模型的输入容量。分块（Chunking）是指将输入文本拆分成符合这些限制的小块的过程，在将文档摄取到semantic_text字段时会进行分块。分块不仅有助于保持输入文本在可处理范围内，还能使内容更加易读。相比返回一整篇长文档，在搜索结果中提供最相关的文本片段更有价值。每个分块都会包含文本片段以及从中生成的对应嵌入。默认情况下，文档会被拆分为句子（sen
RISC-V指令集架构的形式语义——基于Haskell的实现富珂祯
RISC-V指令集架构的形式语义——基于Haskell的实现riscv-semanticsAformalsemanticsoftheRISC-VISAinHaskell项目地址:https://gitcode.com/gh_mirrors/ri/riscv-semantics项目介绍本项目RISC-VSemantics在GitHub上托管，提供了一个使用Haskell编写的RISC-V指令集架构（
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
deepseek在vue3的应用白马？定叫他有来无回！学习vue 前端 deepseek vue3
npminstallvue3-markdown-it注意是vue3-markdown-it不是markdown-it这个是对输出的文字做优化。asyncfunctionaiAPi(){dialog.value.visible=truedialog.value.reasoning_content=''dialog.value.content=''dialog.value.flag=falseletm
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
LangChain教程 - Agent -之 ZERO_SHOT_REACT_DESCRIPTION 花千树-010 LangChain langchain javascript prompt AIGC 自然语言处理人工智能 python
在构建智能AI助手时，我们希望模型能够智能地调用工具，以便提供准确的信息。LangChain提供了AgentType.ZERO_SHOT_REACT_DESCRIPTION，它结合了ReAct（Reasoning+Acting）策略，使得LLM可以基于工具的描述智能选择合适的工具进行推理和执行。本文将介绍该类型Agent的核心原理，并通过示例展示其应用。1.ZERO_SHOT_REACT_DESC
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention UnknownBody LLM Daily Multimodal 语言模型人工智能大数据
摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交
句子改写器在线转换的原创性提升策略 hjehheje 算法人工智能 python
在文本处理领域，"句子改写器在线转换"的原创性提升并非单纯依赖工具升级，而是需要融合算法优化、人工干预与策略设计的系统工程。以下从技术底层到应用层拆解核心方法，辅以实验数据验证其可行性：一、语义拓扑重构技术（SemanticTopologyReconstruction）原理突破传统同义词替换仅影响表层词汇（LexicalLevel），而STR技术通过依存句法分析，构建句子的语义网络拓扑图，对主谓宾
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
Vue 3 组件库版本管理与发布策略：语义化版本控制与自动化发布流程 - 打造稳定可信赖的组件库生态 Neo Evolution 前端学习 vue.js 自动化前端单元测试代码覆盖率
引言各位前端工程领域的探索者，欢迎再度莅临Vue3+现代前端工程化系列技术博客的进阶课堂！在昨天的第十二篇博客中，我们成功构建了全自动化的Storybook文档站点持续部署(CD)流程，将组件库的用户文档体验提升至新的高度。今天，我们将聚焦于组件库生命周期的关键环节——版本管理与发布，深入剖析语义化版本控制(SemanticVersioning)的精髓，并实践自动化发布流程，为Vue3BasicU
极市平台 | 从Deepseek R1和NSA算法谈谈个人的一些反思双木的木 Transformer专栏深度学习拓展阅读大模型专栏算法 deepseek 深度学习 chatgpt 人工智能 transformer llama
本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。原文链接：从DeepseekR1和NSA算法谈谈个人的一些反思先谈一个测验Reasoning模型的题目最近某个群里面有一道考验大模型能力数学题,感觉这个题比9.9和9.11谁大更考验Reasoning模型,似乎很多大模型的答案都做的不好.DeepSeek-R1能做对,但是整个思考过程非常长,大家可以自己试试.给如下等式添加括号，可以加多
Releases（发布）和版本管理是两个紧密相关的概念 WwwwwH_PLUS #Software Engineering 运维
在软件开发和维护中，Releases（发布）和版本管理是两个紧密相关的概念，特别是在开源项目或企业软件开发中。1.Releases（发布）Release是指软件的一个正式发布版本，通常经过开发、测试、修复Bug，并被认为是足够稳定和可用于生产环境的版本。主要特点里程碑：通常对应一个开发周期的完成（如Alpha、Beta、正式版）。版本号：通常遵循语义化版本（SemanticVersioning,S
C/C++基础知识复习（27） _lengjuan_ c语言 c++
1)移动语义和拷贝语义的区别拷贝语义和移动语义是C++中对象所有权管理的两种机制，主要在对象初始化、赋值或传参时体现。拷贝语义(CopySemantics)行为：通过深拷贝或浅拷贝，创建一个新对象，并将原对象的值或资源复制到新对象。应用场景：用于保证两个对象完全独立，尤其是在需要保留源对象时。特点：使用拷贝构造函数(T(constT&))或拷贝赋值运算符(T&operator=(constT&))
数据集/API 笔记：湿球黑球温度（WBGT）观测数据 UQI-LIUWJ 数据集笔记
data.gov.sgWBGT是一个综合指标，考虑了气温、湿度、风速和太阳辐射，与气温不同。报告的WBGT是过去15分钟内的平均值，每15分钟更新一次。API调用curl--requestGET\--urlhttps://api-open.data.gov.sg/v2/real-time/api/weather调用结果
【五.LangChain技术与应用】【31.LangChain ReAct Agent：反应式智能代理的实现】再见孙悟空_ AI 进阶之旅》langchain LangChain技术 LangChain输出解析器人工智能 langchain官方工具 Agent案例2
一、ReActAgent是啥？为什么说它比「普通AI」聪明？想象一下，你让ChatGPT查快递物流，它可能直接编个假单号糊弄你。但换成ReActAgent，它会先推理（Reasoning）需要调用哪个接口，再行动（Action）查询真实数据——这就是ReAct的核心：让AI学会「动脑子」再动手。举个真实案例（参考官方代码改的）：fromlangchain.agentsimportTool,init
【智能体Agent】ReAct智能体的实现思路和关键技术星星点点洲 LangChain开发过程 langchain
基于ReAct（Reasoning+Acting）框架的自主智能体importrefromtypingimportList,Tuplefromlangchain_community.chat_message_histories.in_memoryimportChatMessageHistoryfromlangchain_core.language_models.chat_modelsimportB
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
完整指南：从基础到高级使用 Semantic Kernel 江沉晚呤时 Net core AI c#.netcore
SemanticKernel是微软推出的一款强大的开发框架，旨在帮助开发者通过语义理解和自然语言处理（NLP）构建智能应用。它为开发者提供了与OpenAI、AzureCognitiveServices等人工智能服务集成的简便接口，使得构建自然语言处理（NLP）应用变得更加直观和高效。在本文中，我们将从基础到高级全面讲解如何使用SemanticKernel，并提供详细的代码示例，帮助你快速掌握这个框
使用Semantic Kernel：对DeepSeek添加自定义插件归-途机器学习 oneapi 机器学习
SemanticKernel介绍SemanticKernel是一个SDK，它将OpenAI、AzureOpenAI等大型语言模型与C#、Python和Java等传统编程语言集成在一起。SemanticKernel通过允许您定义插件来实现这一点。为什么需要添加插件？大语言模型虽然具有强大的自然语言理解和生成能力，但它们通常是基于预训练的模型，其功能受限于训练时所接触的数据和任务。为大语言模型添加插件
流媒体服务Nginx + RTMP 模块、Wowza Streaming Engine、Red5、SRS（Simple Real-time Server对比纠结哥_Shrek nginx 运维
Nginx+RTMP模块、WowzaStreamingEngine、Red5和SRS（SimpleReal-timeServer）都是流媒体服务器，能够提供视频推流、拉流和直播分发等功能。每种流媒体服务器在性能、功能、配置和使用场景上都有不同的特点。下面是它们的对比：1.Nginx+RTMP模块简介：Nginx是一款高性能的Web服务器，RTMP模块是Nginx的一个插件，专门用于处理实时流媒体传
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路步子哥人工智能
“逻辑是智慧的骨架，而语言是智慧的血肉。让大语言模型（LLMs）既能说会道，又能逻辑严谨，是AI发展的下一座高峰。”开篇：语言模型的“逻辑盲区”近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中取得了令人瞩目的成就。从生成流畅的文章到翻译复杂的句子，这些模型似乎无所不能。然而，当我们试图让它们回答逻辑推理问题时，却发现它们的表现常常令人失望。比如，某顶尖LLM在回答以下问题时出现了自相矛
文章精读篇——用于遥感小样本语义分割的可学习Prompt LiXiang like coding吗学习 prompt 人工智能
题目：LearnablePromptforFew-ShotSemanticSegmentationinRemoteSensingDomain会议：CVPR2024Workshop论文：10.48550/arXiv.2404.10307相关竞赛：https://codalab.lisn.upsaclay.fr/competitions/17568年份：2024任务背景小样本语义分割（Few-shot
【Reasoning】o1复现整合辰阳星宇科研论文自然语言处理语言模型深度学习人工智能
调研文章《Marco-o1:TowardsOpenReasoningModelsforOpen-EndedSolutions》arxiv:https://arxiv.org/abs/2411.14405github:https://github.com/AIDC-AI/Marco-o1Marco-o1:TowardsOpenReasoningModelsforOpen-EndedSolutions
【PyTorch项目实战】图像分割 —— U-Net：Semantic segmentation with PyTorch 胖墩会武术深度学习 PyTorch项目实战 python unet pytorch
文章目录一、项目介绍二、项目实战2.1、环境搭建2.1.1、下载源码2.1.2、下载预训练模型2.1.3、下载训练集2.2、环境配置2.3、代码优化+架构优化2.4、模型预测：predict.pyU-Net是一种用于生物医学图像分割的卷积神经网络架构，最初由OlafRonneberger等人于2015年提出。论文：U-Net:ConvolutionalNetworksforBiomedicalIm
Prompt Engineering的重要性 workflower UML建模设计方法 prompt 大数据人工智能 AI编程软件工程设计模式需求分析
从软件工程需求分析与大模型结合的实践角度来看，PromptEngineering的重要性及其风险主要体现在以下几个方面：一、PromptEngineering的核心价值需求语义桥接（Requirement-SemanticsBridging）软件需求具有模糊性、歧义性等自然语言特征。实验表明，经过优化的Prompt可使LLM的需求理解准确率提升28-35%（参照NSF2023需求工程基准测试），通
joint_info smpl AI算法网奇 python基础计算机视觉人工智能
生成代码：出处：https://github.com/DART-Lab-LLUI/Metrabs_PoseEstimationdefget_joint_info():joint_names_smpl=('pelv,lhip,rhip,bell,lkne,rkne,spin,lank,rank,thor,ltoe,rtoe,neck,lcla,rcla,head,lsho,''rsho,lelb,r
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要