abrams90

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Abstract

利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难，而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理，用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构，四个子任务分别是2D目标检测，实例深度估计（IDE），3D定位与本地角点回归。与需要进行像素级别标注的像素级深度估计方法不同，我们提出的先进的IDE算法直接利用稀疏监督预测目标3Dbbox中心的深度。通过估计水平和垂直方向的位置，进一步实现了3D定位。最后，MonoGRNet利用全局上下文联合优化定位与3DBbox。结果展示MonoGRNet在挑战数据集上达到了SOTA的表现。

1、Introduction

典型的目标定位或者检测是从RGB图像中估计2Dbbox，将图像平面上特定类型的可见部分用2Dbbox框住。然而，这类的结果在场景理解的时候不能提供真实3D世界的几何认知信息，这对例如机器人，混合现实与自动驾驶来说有着十分迫切的需求。

本文我们解决从单目RGB图片中定位目标完整的模态3Dbbox（ABBox-3D）。与图像平面的2D分析相比，扩展到不可视区域的3D定位（例如深度），不仅扩大了搜索空间而且引入了固有2D到3D映射过程的不确定性，严重增加了任务的难度。

最SOTA的单目方法（Xu and Chen 2018; Zhuo et al. 2018）估计像素级别的深度然后进行3Dbbox的回归。然而像素级的深度预测用设计来说不是用于目标定位的。他的目标是使得所有像素的平均误差最小，从而得到整个图像的平均最优估计，而覆盖面积小的目标往往被忽略掉（Fu et al. 2018），这样大幅度的降低了3D检测的准确率。

我们提出了MonoGRNet，一种从单目图片中进行模态3D目标定位的方法。这种方法的关键思想是将3D定位问题转换成数个先进的可以利用单目RGB数据解决的子任务。改网络从二维图片予以感知出发，实现3D空间的几何推理。

我们需要克服的一个很有挑战的问题是在不计算像素级深度的情况下，准确估计实例的三维中心深度。我们提出了一种全新的实例深度估计（IDE）模块，探索深度特征图的大感受野，将其与高分别率早期高分比率特征融合记性深度估计优化。

为了同时找到纵向与横向的位置，我们首先预测3D中心的2D投影。与IDE结合，我们将投影中心映射到3D空间，从而获得最终3D目标位置。所有组件都集成到一个端到端的网络MonoGRNet，它三个3D推理分支如图1所示，最终通过一个联合几何loss全局最小化3Dbbox的差值。

我们任务RGB信息足以用来进行精准的物体3D定位与姿态估计。在KITTI比赛数据集上的实验结果展示，我们的方法用了最少的推理时间超过了SOTA的3D单目方法的效果。总的来说，我们的贡献有三个方面：

提出一种先进的升读估计方法，无论遮挡与截断直接在缺少深度信息的前提下预测目标的ABBox-3D中心的深度。
提出一种先进的3D定位结构，二维图像的丰富特征表达与扩展到3D几何信息推理。
提出了一种在2D，2.5D，3D空间联合优化的目标左边定位的统一网络，具有高效推理性能（0.06s/张样本）。

2、Related Work

我们的工作与3D目标检测与单目深度估计相关。我们主要专注于3D检测与深度估计的研究，将2D检测作为连贯性基础。

2D目标检测。2D目标检测深度网络已经被广泛研究。基于RPN的方法（Girshick 2015; Ren et al. 2017）可以得到很好的效果，但是由于复杂的多步结构推理速度很慢。另外一类方法（Redmon et al. 2016;Redmon and Farhadi 2017; Liu et al. 2016; Fu et al. 2017）专注于快速使用一个一部检测结构进行快速训练与测试。Multi-net（Teichmann et al. 2016）引入了一种encoder-decoder结构进行实施语义推理。这个检测解码器结合了YOLO（Redmon et al. 2016）的快速回归器与Mask-RCNN（He et al. 2017）的size-adjusting RoiAlign，取得了不错的速度准确率比率均衡。所有这些方法预测目标的2Dbbox而不考虑任何3D几何特征。

3D目标检测。现有的方法包括单目RGB方法（Chen et al. 2016; Xu and Chen 2018; Chabot et al. 2017; Kehl et al. 2017），多视角RGB方法（Chen et al. 2017; Chen et al. 2015; Wang et al.），与基于RGB-D的方法（Qi et al. 2017; Song and Xiao 2016; Liu et al. 2015; Zhang et al. 2014）。如果提供了深度维度的几何信息，那么3D检测会变得简单的多。使用RGB-D数据，FPointNet（Qi et al. 2017）将2D中region proposal的方式扩展到截面的3D视角，在点云中分割出感兴趣的目标。MV3D（Chen et al. 2017）在LIDAR点云的鸟瞰图上进行3D目标的proposal，在RGB图片、LIDAR前向图、与鸟瞰图上复用这些特征进行3Dbbox的预测。3DOP（Chen et al. 2015）使用用于自动驾驶的立体信息与上下文模型。

与我们的方法最相关的是单目RGB图像的方法。深度维度中信息的丢失显著增加了任务的难度。这些方法的STOA与RGB-D或者多视角的方法相比任有很大的差距。Mono3D（Chen et al. 2016）使用语义分割与上下文先验知识来产生3D proposal。这种方法需要额外的网络进行语义与实力分割，这使得训练与推理的时间花费更多。Xu et al.（Xu and Chen 2018）利用预训练的视差估计模型（Mahjourian, Wicke,and Angelova 2018）引导几何信息推理。其他的方法（Chabot et al. 2017; Kehl et al. 2017）利用3DCAD模型产生训练的模拟数据，提供了用于监督的目标的3D模板，目标姿态与相应的2D投影。所有之前的方法利用额外数据与网络促进3D感知，而我们的方法仅需要3Dbbox标注，不需要任何其他网络。这使得我们的网络在训练与测试时更轻量级并且更高效。

单目深度估计。这些年来，尽管许多像素级的深度估计网络（Fu et al. 2018; Eigen and Fergus 2015）被提了出来，他们对于3D目标定位来说并不够。当进行像素级的深度回归时，loss函数将深度图的每个像素都进行权衡并且对他们进行无差别对待。通常情况下，每个像素的loss值最后被加起来一起进行优化。然而，有一种可能是，位于目标中的像素比位于背景中的像素要少得多。因此，较低的平均误差并不表示在目标中像素的深度值是准确的。此外，密集深度的估计往往来自视差图，这可能会在较远区域产生较大的误差，这会大大降低三维定位的性能。

与上述像素级深度估计方法不同，我们首先提出的一种基于稀疏监督的联合语义信息与几何特征的实例级深度估计方法。

3、Approach

我们提出了端到端的MonoGRNet，直接从单张RGB图片中预测ABBox-3D。MonoGRNet包括一个2D检测模块与三个用于几何信息推理模块，IDE，3D定位，与ABBox-3D回归。本节中，我们首先正式定义3D定位问题，然后详细介绍MonGRNet四个子网络。

问题定义

通过一张给定的单目RGB图像，目标是在3D空间定位指定类型目标的位置。目标物体有一个类标签与ABBox3D组成，无论是截断还是遮挡情况都包围住整个目标。一个ABBox-3D是由全局3D中心点与8个局部角点相关顶点定义的。三维位置C在摄像机坐标系中标定，局部角点O在局部坐标系中标定，分别如图2(b)与(c)所示。

我们提出将3D定位任务分解称为四个可以只用一张单目图片解决的任务。首先，检测ABBox-3D投影的2Dbbox ，中心点为b，大小为（w,h）。之后，通过预测3Dbbox中心点C的深度与2D投影c实现C的定位。符号在图2中展示。最后，基于局部特征根据3D中心回归出本地角点O。总的来说，我们通过估计每个感兴趣目标下列参数来表达ABBox-3d定位：

Monocular Geometric Reasoning Network

MonoGRNet设计用来估计是个组建，四个子网络分别对应，。在同一个CNN骨架结构下，他们合并到一个统一框架下，见图1。

2D Detection。2D检测模块是稳定特征学习的基本模块，同事也是回叙几何推理模块的感兴趣区域。

我们使用（Teichmann et al. 2016）中的检测组建设计，将快速回归（Redmon et al. 2016）与尺度自适应RoiAlign（He et al. 2017）相结合，达到速度与准确率合理的均衡。一个大小为W×H的输入样本I分解成个方格，这里一个各自表示为g。与图像网格单元对应的特征图中每个像素产生一个预测。每个单元格g的2D预测包括感兴趣区域是否存在目标的置信度与该目标的2Dbbox，也就是说，，表示为上标g。2Dbbox 通过中心b到g偏置与2D框的大小（w,h）。

预测的2Dbbox利用RoiAlign（He et al. 2017）层提取高分辨率的早期特征作为输入，来优化预测结果，优化快速检测器与基于proposal检测器效果间的差异。

Instance-Level Depth Estimation。IDE子网络预测ABBox-3D中心点的深度。从骨干网络的特征图中得到分好的网格，每个网格g预测以阈值预测最近实例的3D中心的深度，考虑到深度信息，例如为更近的实例分配了网格，如图3（a）所示。一个单元格预测深度的示例如图3（c）所示。

IDE模块由一个不考虑尺度与特定目标2D位置的区域深度的粗回归与一个细化的阶段依靠2Dbbox在目标覆盖的区域提取编码的深度特征，如图4所示。

与浅层网络相比，CNN骨干网络得到的深度特征图中的网格有更大的感受野与更低的分辨率。因为他们对目标物体确切位置不那么敏感，可以从深度层回归大致深度偏置。给定检测到的2Dbbox，我们可以对早期特征图中包含实例的区域用更高的分辨率与更小的感受野进行RoiAlign。校准特征通过全连接网络回归从而优化实例级深度值。最终的预测值是。

Loss Funtions

这里我们正式以公式的形式表述上述子网络四个任务的loss，并形成一个统一的联合loss。所有预测呗修改的都有一个上标g对应网格g。真实值的结果通过标致修改。

2D Detection Loss。目标的置信度使用softmax交叉熵loss进行训练，2Dbbox 通过带掩模的L1距离loss回归得到。注意w与h通过W与H进行正则化。那么2D检测loss定义如下：

这里分别表示预测的与真实的置信度，表示L1距离屏蔽未包含任何物体的网络。每个网格g的掩模函数如果g b小于则设置为1，否则设置为0.这两个部分通过做均衡。

Instance Depth Loss。这是一个用于实例深度的L1 Loss：

这里α＞1,使得网络受限学习大致深度然后再学习精确的。

3D定位Loss。这个loss将2D投影与3D定位的L1loss相加：

这里β＞1，使得首先学习投影中心，然后细化最终的3D预测。

Local Corner Loss。这个loss是所有角点L1 loss之和：

Joint 3D Loss。注意以上所有的损失函数，我们将单目3D检测任务分解成数个子任务，分别回归出3Dbbox的不同组件。然而，预测需要是一个整体，需要在不同部分构建一定的联系。我们将联合3Dloss作为摄像机坐标系中角点坐标距离之和：

Implementation Details

Network Setup。MonoGRNet网络结构如图1所示。我们选择VGG-16（Matthew and Rob 2014）作为骨干网络，去除其中的FC层。我们将KittiBox（Teichmann et al. 2016）用于快速2D检测，插入缓冲区将3D推理分支2D检测器分离。在IDE模块中，为了同时获取局部与全局特征，集成了一个类似DORN（Fu et al. 2018）的深度编码结构。详细的每一层设置在补充材料中描述。总共有46个权重层，最深的路径只有20个权重层（例如从输入到IDE输出），由于平行的3D推理分支。在我们的设计中，所有的3D与2D模块有770万参数，是包含全连接层原始VGG-16的6.2%。

Training。VGG-16主干网络是在ImageNet上进行权重预训练的。在损失函数中，我们设置。模型参数引用L2正则化，学习率为。我们收下利用骨干网络独立训练2D检测器，使用Adam optimizer（Kingma and Ba 2015）迭代120K次。之后是3D推理模块，IDE，3D定位与局部角点定位，利用Adam optimizer训练80K次迭代。最后，我们使用SGD利用端到端方式进行40K次迭代优化整个网络。Batchsize设置成5，训练期间学习率始终设置为。模型利用单GPU NVIDIA P40训练。

4、Experiment

我们在KITTI挑战集上（Geiger, Lenz, and Urtasun 2012）评估我们提出的网络，数据集包含7481张训练样本与7518张测试数据，包含相机的标定参数。检测以三个维度进行评估：easy，moderate与hard，根据遮挡与截断的程度。我们将我们的算法与SOTA的3D单目检测方对比，包括MF3D （Xu and Chen 2018）与Mono3D（Chen et al. 2016）。我们还将基于立体视觉的3DOP（Chen et al. 2015）作为对比。为了进行公平的对比，我们依据（Chen et al. 2016;Chen et al. 2017）中训练集与验证集的分割方式，每个子集包含半数的图片。

Metrics。为了评估三维定位的性能，我们使用预测的预测3Dbbox与GTbbox中心位置之间的平均误差作为度量指标。对于3D检测表现，我们依据不用IOU阈值KITTIbenchmark的官方设定来评估3D平准准确率（）。

3D Localization Estimation。我们根据目标物体与相机中心之间的距离来评估三维定位误差（水平、垂直与深度）。距离分成10米间隔。误差计算为预测的三维位置与其最近的GT之间的米级平均误差。结果在图5中展示。误差，特别是深度维度的误差，随着距离增加而增加，因为代表小尺度的较远目标更难学习。

结果证明，我们的方法（红色曲线）比Mono3D表现好得多，比需要立体图像输入的3DOP方法也要好。另外一个发现是，整体来说，我们的模型对具体更不敏感。当目标距离相机源于30米或者更远，我们的表现最稳定，这就说明我们方法对远目标处理更好（包括小图像区域）。

有趣的是，水平与垂直误差由于数量级的原因比深度的更小，例如深度误差主导了整体的定位误差。这是合理的，因为深度维度没有直接观察到二维图像而是从几何特征进行推理。本文提出的IDE模块性能在easy与moderate数据集表现更好，在hard集合上与立体视觉上效果类似。

3D目标检测。3D目标检测通过在车辆类别上应用0.3，0.4，0.5的3DIoU阈值的进行评估。我们将表现与两种单目方法Mono3D与MF3D进行对比。结果在表1中展示。由于MF3D的作者并没有公布他们的评估结果，我们仅报告了他们论文里在0.5与0.7时的结果。结果显示我们的方法在所有SOTA单目检测器中表现更好，可以与基于立体视觉的方法效果相当。

我们的网络设计用来高效应用，使用了一个不带有rpn的2D目标检测器。在Geforce GTX TitanX上每张图片前向时间为约0.06ms，比其它三种方法要快得多。换句话说，这样的设计某种程度上牺牲了2D目标检测器的速度。我们2D检测器在moderate集上的在0.7Iou阈值上的准确率是78.14%，比基于提出大量候选区域尽量覆盖GT的RPN方法低了近10%。比起使用相对较弱的2D检测器，我们3D检测器取得了SOTA的表现，依靠我们的IDE与3D定位模块。注意到2d目标检测器在我们的框架中是可以替换的子模块，并不是我们的主要贡献点。

Local 3D Bounding Box Regression。我们从本地3Dbbox大小（高，宽，长）与朝向层面评估回归算法。3Dbbox的长宽高可以很容易的根据8个角点计算出来。朝向是通过相机坐标系中的偏角度量实现的。我们的均值展示如表2。我们提出的网络在仅用光学特征定位3Dbbox上展示出了更好的能力。值得注意的是，在RoiAlign层后的角点回归模块中，所有感兴趣目标被resize成一样的大小，然而网络任然学习他们实际的3D大小。这是因为我们的网络提取包含目标真实类型（SUV通常比其它车辆大）投影几何与语义分割信息来获得大小与朝向的估计。

Qualitative Result。定性可视化分析在三种典型场景下提供，如图6。在通常的街景场景下，我们的预测通常可以成功召回目标。可以观察到，尽管车辆被图像的边界严重的截断，我们的网络依然可以精准的预测3Dbbox。在自动驾驶场景下，鲁棒性对于避免与横向物体碰撞非常重要。对于车辆被其它车辆严重遮挡的情景，例如（g）（h）（i），我们的3D检测器可以处理可见的车辆，对于不可见的车辆检测失败。事实上，这是从单目RGB图像中进行感知的常见问题，可以通过配合3D数据或者多视角数据获得更多提供有效信息的3D几何细节。

Ablation Study

定位3D中心C的重要步骤是定位2D投影c，由于c与C在分析上是相关的。尽管2Dbbox中心b可能与c相近，如图2（a）中所示，但它并没有3D的意义。当我们在3D推理时，用b替代c，水平定位误差从0.27m上升到0.35m，垂直误差从0.09m上升到0.69m。此外，当目标被图像的边界截断的时候，它的投影c可能在图像的边界外面，而b总是在内部。因此，使用b进行3D定位可能导致严重的偏差。因此，我们用于定位投影3D中心的子网络是不可或缺的。

为了检验局部角点回归前坐标变换的影响，我们直接在不旋转坐标轴的前提下回归角点的offset。结果显示平均弧度误差从0.251上升到0.442，而3Dbbox高度、宽度与长度的误差基本保持不变。这一现象与我们的分析一致，转换到物体坐标可以减少投影引起的旋转不确定性，因此可以进行更精确的3Dbbox估计。

5、Conclusion

本文我们提出了用于单目图片3D目标定位的MonoGRNet，在3D检测，定位与姿态估计方面得到了比SOTA更好的结果。提出了先进的IDE模块进行实例级深度预测，避免了花费额外计算在像素级深度预测上，无论目标与相机之间的距离是多少。与此同时，我们为3D定位中的更好几何信息推理，区分了2Dbbox与3Dbbox的中心。目标姿态估计是通过在局部坐标系上角点坐标的回归实现的，这样减少了透视变换中三维旋转的不确定性。最后用一个统一的网络集成了各个组件，进行高效的前向运算。

PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。