喜欢打酱油的老鸟

传统计算机视觉技术落伍了吗？不，它们是深度学习的「新动能」

2019-12-24 11:40:47

选自arXiv

作者：Niall O’ Mahony等机器之心编译
参与：魔王、张倩

深度学习崛起后，传统计算机视觉方法被淘汰了吗？

论文链接：https://arxiv.org/ftp/arxiv/papers/1910/1910.13796.pdf

深度学习扩展了数字图像处理的边界。然而，这并不代表在深度学习崛起之前不断发展进步的传统计算机视觉技术被淘汰。近期，来自爱尔兰垂利理工学院的研究者发表论文，分析了这两种方法的优缺点。

该论文旨在促进人们对是否保留经典计算机视觉技术知识进行讨论。此外，这篇论文还探讨了如何结合传统计算机视觉与深度学习。文中提及了多个近期混合方法，这些方法既提升了计算机视觉性能，又解决了不适合深度学习的问题。例如，将传统计算机视觉技术与深度学习结合已经在很多新兴领域流行起来，如深度学习模型尚未得到充分优化的全视野、3D 视觉领域。

深度学习 VS 传统计算机视觉

深度学习的优势

深度学习的快速发展和设备能力的改善（如算力、内存容量、能耗、图像传感器分辨率和光学器件）提升了视觉应用的性能和成本效益，并进一步加快了此类应用的扩展。与传统 CV 技术相比，深度学习可以帮助 CV 工程师在图像分类、语义分割、目标检测和同步定位与地图构建（SLAM）等任务上获得更高的准确率。由于深度学习所用的神经网络是训练得到而非编程得到，因此使用该方法的应用所需的专家分析和微调较少，且能够处理目前系统中的海量可用视频数据。深度学习还具备绝佳的灵活性，因为对于任意用例，CNN 模型和框架均可使用自定义数据集重新训练，这与 CV 算法不同，后者具备更强的领域特定性。

以移动机器人的目标检测问题为例，对比这两类计算机视觉算法：

传统计算机视觉方法使用成熟的 CV 技术处理目标检测问题，如特征描述子（SIFT、SUR、BRIEF 等）。在深度学习兴起前，图像分类等任务需要用到特征提取步骤，特征即图像中「有趣」、描述性或信息性的小图像块。这一步可能涉及多种 CV 算法，如边缘检测、角点检测或阈值分割算法。从图像中提取出足够多的特征后，这些特征可形成每个目标类别的定义（即「词袋」）。部署阶段中，在其他图像中搜索这些定义。如果在一张图像中找到了另一张图像词袋中的绝大多数特征，则该图像也包含同样的目标（如椅子、马等）。

传统 CV 方法的缺陷是：从每张图像中选择重要特征是必要步骤。而随着类别数量的增加，特征提取变得越来越麻烦。要确定哪些特征最能描述不同的目标类别，取决于 CV 工程师的判断和长期试错。此外，每个特征定义还需要处理大量参数，所有参数必须由 CV 工程师进行调整。

深度学习引入了端到端学习的概念，即向机器提供的图像数据集中的每张图像均已标注目标类别。因而深度学习模型基于给定数据「训练」得到，其中神经网络发现图像类别中的底层模式，并自动提取出对于目标类别最具描述性和最显著的特征。人们普遍认为 DNN 的性能大大超过传统算法，虽然前者在计算要求和训练时间方面有所取舍。随着 CV 领域中最优秀的方法纷纷使用深度学习，CV 工程师的工作流程出现巨大改变，手动提取特征所需的知识和专业技能被使用深度学习架构进行迭代所需的知识和专业技能取代（见图 1）。

图 1：a）传统计算机视觉工作流 vs b）深度学习工作流。（图源：[8]）

近年来，CNN 的发展对 CV 领域产生了巨大影响，也使得目标识别能力出现大幅提升。这种爆发与算力的提升、训练数据量的增加密不可分。近期 CV 领域中深度神经网络架构出现井喷并得到广泛应用，这从论文《ImageNet Classification with Deep Convolutional Neural Networks》引用量超 3000 次中可见一斑。

CNN 利用卷积核（又称滤波器）来检测图像中的特征（如边）。卷积核是权重矩阵，这些权重被训练用于检测特定特征。如名字所示，CNN 的主要思想是在给定输入图像上空间性地卷积内核，检查是否出现检测所需特征。为了用数值表示出现某个特征的置信度，神经网络执行卷积操作，即计算卷积核与它和输入图像重叠区域的点积（卷积核正在查看的原始图像区域叫做感受野）。

为了促进卷积核权重的学习，研究人员向卷积层的输出添加偏置项，并馈入非线性激活函数中。激活函数通常是非线性函数，如 Sigmoid、TanH 和 ReLU。激活函数的选择取决于数据和分类任务的性质。例如，ReLU 具备更多生物表征（大脑中的神经元是否处于激活状态）。因此，在图像识别任务中，ReLU 会得到更好的结果，因为它对梯度消失问题具备更强的抵抗力，而且它能够输出更稀疏、高效的表征。

为了加速训练过程，减少网络消耗的内存量，卷积层后通常跟着一个池化层，用于移除输入特征中的冗余部分。例如，最大池化在输入上移动窗口，仅输出窗口中的最大值，从而高效减少图像中的冗余部分，留下重要像素。如图 2 所示，深度 CNN 可能具备多对卷积和池化层。最后，全连接层将上一层压缩为特征向量，然后输出层利用密集网络计算输出类别/特征的分数（置信度或概率）。将该输出输入到回归函数中，如 Softmax 函数，它将所有事物映射为向量且其中所有元素的总和为 1。

图 2：CNN 构造块。（图源：[13]）

但是深度学习仍然只是 CV 领域的工具。例如，CV 领域中最常用的神经网络是 CNN。那么什么是卷积呢？卷积广泛应用于图像处理技术。（深度学习的优点很明确，本文暂不讨论当前最优算法。）但深度学习并非解决所有问题的万灵药，下文将介绍传统 CV 算法更适合的问题及应用。

传统 CV 技术的优势

这部分将详细介绍基于特征的传统方法在 CV 任务中能够有效提升性能的原因。这些传统方法包括：

尺度不变特征变换（Scale Invariant Feature Transform，SIFT）[14]
加速稳健特征（Speeded Up Robust Feature，SURF）[15]
基于加速分割测试的特征（Features from Accelerated Segment Test，FAST）[16]
霍夫变换（Hough transform）[17]
几何哈希（Geometric hashing）[18]

特征描述子（如 SIFT 和 SURF）通常与传统机器学习分类算法（如支持向量机和 K 最近邻算法）结合使用，来解决 CV 问题。

深度学习有时会「过犹不及」，传统 CV 技术通常能够更高效地解决问题，所用的代码行数也比深度学习少。SIFT，甚至简单的色彩阈值和像素计数等算法，都不是特定于某个类别的，它们是通用算法，可对任意图像执行同样的操作。与之相反，深度神经网络学得的特征是特定于训练数据的。也就是说，如果训练数据集的构建出现问题，则网络对训练数据集以外的图像处理效果不好。
因此，SIFT 等算法通常用于图像拼接/3D 网格重建等应用，这些应用不需要特定类别知识。这些任务也可以通过训练大型数据集来实现，但是这需要巨大的研究努力，为一个封闭应用费这么大劲并不实际。在面对一个 CV 应用时，工程师需要培养选择哪种解决方案的常识。例如，对流水线传送带上的两类产品进行分类，一类是红色一类是蓝色。深度神经网络需要首先收集充足的训练数据。然而，使用简单的色彩阈值方法也能达到同样的效果。一些问题可以使用更简单、快速的技术来解决。

如果 DNN 对训练数据以外的数据效果不好，怎么办？在训练数据集有限的情况下，神经网络可能出现过拟合，无法进行有效泛化。手动调参是非常困难的事情，因为 DNN 拥有数百万参数，且它们之间的关系错综复杂。也因此，深度学习模型被批评为黑箱。传统的 CV 技术具备充分的透明性，人们可以判断解决方案能否在训练环境外有效运转。CV 工程师了解其算法可以迁移至的问题，这样一旦什么地方出错，他们可以执行调参，使算法能够有效处理大量图像.

现在，传统 CV 技术常用于解决简单问题，这样它们可在低成本微处理器上部署，或者通过突出数据中的特定特征、增强数据或者辅助数据集标注，来限定深度学习技术能解决的问题。本文稍后将讨论，在神经网络训练中可使用多少种图像变换技术。最后，CV 领域存在很多更具挑战性的难题，比如机器人学、增强现实、自动全景拼接、虚拟现实、3D 建模、运动估计、视频稳定、运动捕捉、视频处理和场景理解，这些问题无法通过深度学习轻松实现，但它可以从传统 CV 技术中受益。

传统 CV 技术与深度学习的融合

传统 CV+深度学习=更好的性能

传统 CV 技术和深度学习方法之间存在明确的权衡。经典 CV 算法成熟、透明，且为性能和能效进行过优化；深度学习提供更好的准确率和通用性，但消耗的计算资源也更大。

混合方法结合传统 CV 技术和深度学习，兼具这两种方法的优点。它们尤其适用于需要快速实现的高性能系统。

机器学习度量和深度网络的混合已经非常流行，因为这可以生成更好的模型。混合视觉处理实现能够带来性能优势，且将乘积累加运算减少到深度学习方法的 130-1000 分之一，帧率相比深度学习方法有 10 倍提升。此外，混合方法使用的内存带宽仅为深度学习方法的一半，消耗的 CPU 资源也少得多。

充分利用边缘计算

当算法和神经网络推断要在边缘设备上运行时，其延迟、成本、云存储和处理要求比基于云的实现低。边缘计算可以避免网络传输敏感或可确认数据，因此具备更强的隐私性和安全性。

结合了传统 CV 和深度学习的混合方法充分利用边缘设备上可获取的异质计算能力。异质计算架构包含 CPU、微控制器协同处理器、数字信号处理器（DSP）、现场可编程逻辑门阵列（FPGA）和 AI 加速设备，通过将不同工作负载分配给最高效的计算引擎来降低能耗。测试实现证明，在 DSP 和 CPU 上分别执行深度学习推断时，前者的目标检测延迟是后者的十分之一。

多种混合方法证明了其在边缘应用上的优势。使用混合方法能够高效地整合来自边缘节点传感器的数据。

不适合深度学习的问题

CV 领域中存在一些难题，如机器人学、增强现实、自动全景拼接、虚拟现实、3D 建模、运动估计、视频稳定、运动捕捉、视频处理和场景理解，它们很难通过深度学习以可微方式轻松实现，而是需要使用其他「传统」技术。

下文介绍了 CV 领域中的一些新兴问题，在这些问题中深度学习面临新挑战，而经典 CV 技术能够发挥更大作用。

3D 视觉

3D 输入的内存大小比传统的 RGB 图像大得多，卷积核必须在三维输入空间中执行卷积（见图 3）。

图 3：2D CNN vs. 3D CNN [47]

因此，3D CNN 的计算复杂度随着分辨率呈现三次方增长。相比于 2D 图像处理，3D CV 更难，因为增加的维度使得不确定性也随之增加，如遮挡和不同的摄像头角度（见图 4）。

下一节将涉及处理多种 3D 数据表征的解决方案，这些方法具备新架构和预处理步骤，专用于解决上述挑战。

几何深度学习（GDL）将深度学习技术扩展到 3D 数据。3D 数据的表征方式多种多样，总体上可分为欧几里得和非欧几里得。3D 欧几里得结构化数据具备底层网格结构，允许全局参数化，此外，它还具备和 2D 图像相同的坐标系统。这使得现有的 2D 深度学习范式和 2D CNN 可应用于 3D 数据。3D 欧几里得数据更适合通过基于体素的方法分析简单的刚性物体，如椅子、飞机等。另一方面，3D 非欧几里得数据不具备网格数组结构，即不允许全局参数化。因此，将经典深度学习技术扩展到此类表征是非常难的任务，近期 [52] 提出的 Pointnet 解决了这个难题。

对目标识别有用的连续形状信息常常在转换为体素表征的过程中丢失。使用传统 CV 算法，[53] 提出可应用于体素 CNN（voxel CNN）的一维特征。这种基于平均曲率的新型旋转不变特征提升了体素 CNN 的形状识别性能。该方法应用到当前最优的体素 CNN Octnet 架构时取得了极大成功，它在 ModelNet10 数据集上取得了 1% 的整体准确率提升。

SLAM

视觉 SLAM 是 SLAM 的子集，它使用视觉系统（而非激光雷达）登记场景中的路标。视觉 SLAM 具备摄影测量的优势（丰富的视觉数据、低成本、轻量级和低能耗），且没有后处理通常需要的繁重计算工作负载。视觉 SLAM 包含环境感知、数据匹配、运动估计、位置更新和新路标登记等步骤。

对在不同条件（如 3D 旋转、缩放、光照）中出现的视觉对象建模，以及使用强大的迁移学习技术扩展表征以实现 zero/one shot learning，是一道难题。特征提取和数据表征方法可以有效地减少机器学习模型所需的训练样本数量。

图像定位中常使用一种两步方法：位置识别+姿势估计。前者使用词袋方法，通过累积局部图像描述子（如 SIFT）来计算每个图像的全局描述子。每个全局描述子均被存储在数据库中，一同存储的还有生成 3D 点云基准图的摄像头姿势。从 query 图像中提取出类似的全局描述子，数据库中最接近的全局描述子可以通过高效搜索检索出来。最接近全局描述子的摄像头姿势可以帮助我们对 query 图像进行粗略定位。在姿势估计中，使用 Perspective-n-Point (PnP) [13] 和几何验证等算法更准确地计算 query 图像的确切姿势。

基于图像的位置识别的成功很大程度上归功于提取图像特征描述子的能力。不幸的是，在对激光雷达扫描图像执行局部特征提取时，没有性能堪比 SIFT 的算法。3D 场景由 3D 点和数据库图像构成。一种方法是将每个 3D 点与一组 SIFT 描述子结合起来，描述子对应该点被三角化的图像特征。然后将这些描述子平均为一个 SIFT 描述子，来描述该点的外观。

另一种方法基于 RGB-D 数据构建多模态特征，而不是深度处理。至于深度处理部分，研究者采用基于表面法线的着色方法，因为它对多种任务有效且具备稳健性。另一种使用传统 CV 技术的替代方法提出基于图的层级描述子 Force Histogram Decomposition (FHD)，它可以定义对象的成对结构化子部分之间的空间关系和形状信息。该学习步骤的优势是与传统词袋框架兼容，从而出现结合了结构特征和局部特征的混合表征。

360 度摄像头

由于球面摄像头的成像特点，每张图像都能够捕捉到 360 度全景场景，消除了对转向选择的限制。球面图像面临的一个主要挑战是超广角鱼眼镜头导致的严重桶形畸变，这增加了受传统人类视觉启发的车道检测和轨迹追踪等方法的实现复杂度。这通常需要额外的预处理步骤，如先验校准（prior calibration）和 deworming。[60] 提出的一种替代方法将导航看作分类问题，从而绕过了预处理步骤，该方法基于原始未校准球面图像找出最优潜在路径方向。

全景拼接是该领域的另一个开放性问题。实时拼接方法 [61] 使用一组可变形网格和最终图像，并结合利用稳健像素着色器的输入。另一种方法 [62] 将几何推理（线和消失点）提供的准确率和深度学习技术（边和法线图）实现的更高级数据提取和模式识别结合起来，为室内场景提取结构化数据，并生成布局假设。在稀疏结构化场景中，由于缺乏明显的图像特征，基于特征的图像配准方法通常会失败。这时可使用直接的图像配准方法，如基于相位相关的图像配准算法。[23] 研究了基于判别相关滤波器（DCF）的图像配准技术，证明基于 DCF 的方法优于基于相位相关的方法。

数据集标注和增强

对于 CV 和深度学习的结合存在一些反驳意见，总结为一句话就是：我们需要重新评估方法，不管是基于规则的方法还是数据驱动方法。从信号处理的传统角度来看，我们了解传统 CV 算法（如 SIFT 和 SURF）的运算内涵，而深度学习无法展示这些意义，你所需要的只是更多数据。这可以被视为巨大的前进，但也有可能是后退。本论文提到了该争论的正反方观点，但是如果未来的方法仅基于数据驱动，那么研究重点应该放在更智能的数据集创建方法上。

当前研究的基础问题是：对于特殊应用的高级算法或模型，没有足够的数据。未来，结合自定义数据集和深度学习模型将成为很多研究论文的主题。因此研究者的输出不仅涉及算法或架构，还包括数据集或数据收集方法。数据集标注是深度学习工作流中的主要瓶颈，需要大量的手动标注工作。这在语义分割中尤为明显，因为该领域需要准确标注每一个像素。[20] 讨论了很多有用的半自动流程工具，其中一些利用了 ORB 特征、多边形变形（polygon morphing）、半自动感兴趣区域拟合等算法方法。

克服数据缺乏、减少图像分类深度学习模型过拟合现象最容易也最常见的方法是，利用标签不变的图像变换（label-preserving transformation）人为地扩大数据集。该过程叫做数据集增强，指基于已有数据通过剪裁、缩放或旋转等方式生成额外的训练数据。人们希望数据增强步骤需要极少的计算，且可在深度学习训练流程中实现，这样变换后的图像就不必存储在磁盘中了。数据增强使用的传统算法方法包括主成分分析（PCA）、噪声添加、在特征空间的样本之间进行内插或外推，以及基于分割标注建模视觉语境周边物体。

【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
【杂谈】-人工智能：从无序部署到可问责治理的转型之路
人工智能：从无序部署到可问责治理的转型之路文章目录人工智能：从无序部署到可问责治理的转型之路1、失控的人工智能与“漂移”现象的潜在危机2、穿透迷雾：探寻人工智能治理的真谛3、民主化进程中的治理觉醒4、迈向未来：构建可问责的人工智能生态体系5、抉择时刻：关乎人工智能发展走向的关键权衡人工智能已然步入一个关键的转折阶段。当下，众多企业竞相投身于各类人工智能系统的部署浪潮之中，从功能多样的生成式人工智能
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

传统计算机视觉技术落伍了吗？不，它们是深度学习的「新动能」

你可能感兴趣的:(人工智能)