qq_39502316

Bridge to the digital world —— AR算法技术分享

什么是AR? 为什么AR?

Augmented reality译作增强现实。顾名思义，现实就是我们所在的物理世界，而增强则指由计算机所编辑进而与真实世界相融合重新呈现给我们的增强世界。

图1：AR即将改变我们的生活模式，如：出行、阅读、生活、工作、购物和娱乐

AR可以发挥计算机的优势进而强化人自身传感处理能力的不足，可以通过增强世界提供进入虚拟世界的入口，也可以产生人与人、人与世界的全新连通与互动方式。就像图1所示的那样，它即将深刻改变我们的出行、阅读、生活、工作、购物和娱乐等模式。

从集团角度讲，AR可能成为一种为新零售新生活打造的高效连接线上线下的纽带，也可通过其对物理世界与虚拟世界的双重连接更好地形成社区，亦可通过其提供的虚拟世界编辑能力更有效地“生产快乐”以打造生活化平台而不仅仅是电商平台。更重要的是，谁抢占了未来AR的app入口，谁就更有能力获得更多真实物理世界的数字化信息，而这些数据本身将带来更大价值。

AR的核心问题有哪些？

既然AR如此有潜力，那么AR所面对的核心问题都有哪些呢？

AR的核心要素：

AR系统有相互联系、密不可分的三个核心要素：

对世界的感知：逆向工程物理世界，将其数字化；
对世界的编辑：正向创造一个虚拟世界，并与真实世界融合为增强世界；
互动：用户与世界、用户与用户的互动。

AR的核心需求：

在上述核心要素的基础上，AR的核心需求是实时性，因此需要足够高效的算法以及充足的硬件计算处理能力。

AR的研究边际：

真实物理世界的信息维度过高，因此AR只关注那些能被人体传感器系统所截获并呈现在人脑中的方式，例如：可见光（390-700nm）视觉，（20Hz-20KHz）听觉等，因为如果创造的增强世界不能被人所接收和呈现也是意义有限的。

AR核心问题描述：

1. 流程概述：

图2：AR流程图与核心问题描述

首先，我们先跟大家解释下这几个名词的含义以便后续理解：物理世界是真实世界，虚拟世界是在电脑中产生的世界（比如：游戏魔兽世界），增强世界是真实和虚拟融合在一起并呈现给用户的世界。

现在，我们将用图2来阐述对AR的理解并描述其核心问题。

AR设备用起来很简单，但这个“黑盒子”里究竟发生了什么呢？下面是AR的大致工作流程：①利用AR设备中的传感器系统，去完成对物理世界的感知并将其数字化；②这些数字化信息进入“世界编辑”流程，用以创造一个和物理世界相关的虚拟世界；③最后，物理世界和虚拟世界相融合，形成增强世界。

用户可以通过与增强世界的在线互动，进而改变虚拟世界，如：在虚拟世界中给家里的沙发换色以搭配家装。用户也可通过与增强世界的交互改变物理世界，如：利用AR设备的无线通信功能打开电器。用户又可通过世界编辑提供的虚拟世界创造功能离线添加虚拟世界的内容。当然也可正常与物理世界进行交互。

通过世界感知这个桥梁，AR连通了物理世界和虚拟世界。通过这两个世界，继而可以跨时空建立起更多用户与用户的联系。世界编辑则提供了建立虚拟世界的基础能力，决定了日后AR社区能否更容易让用户创造内容。用户和世界、用户和用户的可交互维度和便利性，将决定AR最终的成败。

下面，我们将就图2中的世界感知和世界编辑问题进行展开。由于不同的感官呈现方式对世界感知的需求存在很强的共性，下面我们将仅仅以视觉为例。

2. 世界感知：

世界感知，按所感知类别可分为对人、物、场的感知。按照问题描述，又可分为重建、定位、识别和分割问题。其中，重建和定位问题绝大部分属于基于物理模型的传统计算机视觉范畴，而识别和分割问题则随着AI大潮一起被更多地采用数据驱动的方式去解决。下面针对图2中所列的问题，从视觉的角度，简要说明其含义：

2.1 对场景的感知

1）场景能量源重建：主要指用图像去推断光源的信息。例如：光源的方向，位置，强度以及颜色等。这些信息可帮助还原场景中光度不变性信息（photometric invariant）以获得场景本体反射图（intrinsic image），继而在编辑世界（渲染）的过程中辅助数字化重打光（digital relighting）以达到更加真实的渲染效果。

图3：技术实例：场景本体反射图分解。左：原图；中：分解的本体反射图（若已知场景法向量场，可数字化重打光）；右：分解的影调图（若已知场景法向量场，可推断光源）

2）场景几何形态重建：主要指构建三维世界的空间几何形态，解决空间中有没有物体的问题。构建起的几何形态，可被用来当作空间地图使用以完成精确定位，可渲染生成可视化三维模型进行展示，也可利用几何形态信息完成对三维场景的空间分割。

图4：技术实例：左：空间定位；中：可视化三维模型；右：三维场景分割

3）场景物理特性重建：主要用来还原场景中区域的反射性质（如BRDF）。可利用材质库反射信息推断物体材质，渲染替换真实物体中特定材质的区域。对物体材质的推测，也可帮助更好地完成物体识别等视觉任务。

图5：技术实例：对材质信息进行感知，根据材质的不同对场景区域进行分割，并将真实物体中的特定材质渲染成为新材质并呈现

4）场景识别：主要可用在分辨当前场景最有可能出现的地点，筛选后可完成基于视觉的粗定位。
2.2 对人的感知

1）观察者几何定位：主要感知人与场景的相对位置关系，通常和场景几何形态重建共同完成（如SLAM，VO）。

2）观察者识别：包括人脸识别相关的应用场景，主要解决人是谁的问题，也可识别人的心情等。同时，也包括手势、动作识别等以更有效地进行人机交互。
2.3 对目标物的感知

1）目标物识别：主要识别图像中的目标物体并定位其在二维图像中的位置。如果有场景额外三维信息，可推测目标物在三维空间中的位置。目标物的位置又可辅助完成基于high-level语义信息的定位。

图6：技术实例：左：2D目标物识别和定位；右：3D目标物识别和定位

2）目标物提取：主要识别并提取图像中的目标物，可将目标物传送到任意其他场景，或将其他物体渲染到目标物位置。这个提取过程可能在二维图像中完成，若有三维几何信息，也可在三维世界中完成。

图7：技术实例：上：2D目标物提取；右：3D目标物提取

3）目标物跟踪：通常识别到目标物后，需要跟踪目标在图像中的位置。跟踪的意义主要在于其快速性和稳定性。

4）目标物重建：与场景几何形态和物理特性重建类似，但目标物重建额外需要目标物从场景中的分割提取。重建目标物，可生成三维渲染模型，将其以最简化的表达任意传送至其他渲染目的地。建立起的三维模型库也将对三维物体识别等问题产生深远影响。

3. 世界编辑：

在世界感知过程中，我们得到了场景、目标物和人的数字化信息。在世界编辑过程中，我们可以利用这些信息，按照真实世界的物理规则和人眼作为受众去创造（渲染）虚拟世界并呈现给人们。我们也可以改变观察者特性，呈现给人一个完全不同的对真实世界的感知体验，例如提供小动物眼睛的模拟器去看世界。

更有意思的是，这个计算机所生成世界的运行法则可以由我们来制定，我们就是这个世界的上帝。就像黑客帝国中所描绘的那样，可以扭曲虚拟世界中的物理定律。随着AR技术的进步，我们将来很可能傻傻分不清什么才是真实，要不要从违反物理定律角度开个后门呢？~

对于世界编辑来说，上帝级开发者编辑虚拟世界中事物的运行法则，而开放给普通用户一些基础世界编辑能力也很必要，靠大众去创造更多的内容。小编想起了很早以前流行的一款叫《孢子》的游戏，其中所有事物都可以由玩家所创造，玩家间也可以共享创造，这样就形成了社区。据游戏发行公司EA统计，创造器发布18天，玩家群体一共上传了1,589,000种生物。设计师莱特曾幽默地说，玩家已经高效地完成了上帝38%的工作。可见用户参与编辑设计的力量。若加之一些合理的主干引导和支线剧情，游戏本身可以说就有千变万化的玩法。回想Pokemon go，是不是离成功就差了更多用户参与的内容迭代机制呢？我们可不可以借鉴类似的思路用在我们AR内容的创造上呢？

图8：《孢子》生物创造器

AR已有哪些技术落地？业务场景有哪些？

前面讲了这么多对AR的理解，想必大家要问：AR目前真正落地的技术有哪些，业务场景又有哪些呢？由于小编来自算法团队，主要做利用视觉进行世界感知部分，因此只适合从这方面介绍。虽然技术是为业务需求服务的，但是如果按照业务线梳理过于庞杂，很难有系统性，因此我们按照技术线去梳理，从视觉AR基础技术的角度出发，进而讲述哪些业务应用到了这些技术。由于篇幅有限，主要介绍两类关键技术：1）自然特征检测和跟踪；2）SLAM。其他技术，比如LBS AR，三维物体识别与跟踪等技术均已落地一些业务场景（如：双十一寻找狂欢猫），但在此不做展开。

自然特征检测和跟踪

自然特征（nature feature）通常是指一个平面图案（marker），比如是公司的logo等。借助这个marker，可以帮助我们建立起相机和三维世界的（6自由度）相对姿态关系，如图9所示。

图9：通过Marker建立相机与世界相对姿态原理图

要将自然特征有效运用，就需要完成两项基本任务：检测和跟踪。检测解决的是判断目标marker是否出现在画面中并且初始化世界坐标系（marker坐标系）的问题。而跟踪则解决在初始化完成后，如何稳定跟踪marker的位置并实时算出相机相对世界坐标系的姿态（camera pose）。

Marker的检测主要通过存储的marker特征点描述和场景中的特征点描述进行匹配来完成。若匹配成功，则代表已检测到marker。随即，通过在二维图像中特征点的对应关系，在已知相机内参（camera intrinsics）的情况下，可以利用解决perspective-n-point (PnP) 问题的各种算法解算camera pose以完成初始化。

关于marker检测环节，还有一些额外的技术考量。首先，marker检测可能要求同时检测多种不同的marker，如果对于每一种marker都进行一次匹配显然是不可行的，因为这种方式不scalable。这就要求我们建立起marker的索引树，例如应用Bag-of-Words（BoW）方法。这样可以让我们像查字典一样快速检索，让同时在线检测多个marker成为可能。其次，之所以选用特征匹配方式（feature-based matching）而不是图像块匹配（patch-based matching，又通常叫direct method），因为相比patch而言，feature拥有更好的尺度不变性和方向不变性，而且对光照变化更加不敏感，因此可以提供更加鲁棒的特征点。然而feature相比patch的缺点也十分明显，即其计算代价相对较高。对于实时性要求很高的AR应用来说，有些特征描述的计算代价甚至是不可接受的（如SIFT）。平衡计算代价和准确程度，我们最终倾向采用Freak或ORB。在实际操作中，我们采用了Freak特征。

第二个基本任务是marker的跟踪。有人可能要问，为什么不对每一帧marker都做检测，那样不就不用跟踪了吗？之所以用跟踪，主要有三点考虑：其一，跟踪较之识别，计算代价更小；其二，应用跟踪可以防止相机姿态的跳变；其三，利用跟踪，可以建立起相机的运动模型，若突然哪一帧图像质量不好，还可以通过相机运动模型进行预测（prediction），例如应用卡尔曼或粒子滤波等，以减少跟丢概率。

在marker跟踪过程中，由于特征提取很耗费计算资源，因此对于当前帧，只提取上一帧Freak位置一个特定大小neighborhood内的特征点并进行特征匹配以找到两个相邻帧Freak特征的对应点关系。在前一帧图像中，每一个Freak特征都对应了一个世界坐标系下的三维点坐标，这些点映射回当前帧画面的点的坐标是我们之前找到的对应点，我们的优化目标是计算当前帧相机相对世界坐标系的姿态。我们可以利用reprojection error最小作为目标建立起最优化目标函数，初始化前一帧相机姿态作为当前相机姿态，利用梯度下降等数值方法求解最优解。这个求解过程转化为了求解典型的bundle adjustment问题。这样做的优点相较于已知二维特征对应点关系直接应用PnP来讲，可以减少相机姿态跳变的概率，这也是很多主流Visual Odometry (VO) 算法所采取的方式。

Marker的检测和跟踪作为AR的一种基础能力，对手淘的多种业务产生了影响，例如：AR互动营销，双十一跨屏抢星衣和AR Shoes等。手淘的AR MagicEye互动平台就是以此技术为原点建立起来的。

AR互动营销落地的业务有中秋抢月饼。扫一下一个淘公仔的形象，一个动态的淘公仔就展现在你手机里。上传一张照片，它就可以拿着这照片到处抖起来了~

类似的业务还有扫五环，哈根达斯logo等出各种AR效果并和用户产生互动。

图10：AR互动营销案例

双十一抢星衣活动也是主要依赖marker快速检测技术完成的。如图11所示，在林志玲准备抛衣服前一刻，电视屏幕上会显示出marker，当然这个marker只占电视屏幕的一小部分。这就要求当marker在手机屏幕占比足够小时，算法仍需要快速准确检测出来。用户打开手机瞄准电视，检测到了这个marker也就完成了抢星衣过程。

图11：双十一跨屏抢星衣

AR Shoes主要目的是提供一种视觉测量手段使用户能够方便测量自己脚的尺寸以买合适大小的鞋。如图12所示，用户将身份证作为Marker去定基准面。身份证大小已知，假设脚在基准面上，这样就有了绝对尺寸信息。用户在图像中框出自己的脚，已知相机内参，也就可以计算出在基准面上所框区域的长宽，而这就是脚的尺寸。这里之所以选择身份证，是因为人人都有，能让更多人用起这个功能。

图12：AR Shoes 视觉测量

Simultaneous Localization and Mapping (SLAM)

SLAM（同时定位并建图）技术是除marker外另一项AR的基础能力。顾名思义，它的目的是同时计算相机姿态和环境三维几何信息。

我们关注的是基于视觉的SLAM（VSLAM），因此不关注利用其它传感器（如激光雷达）的SLAM问题。在VSLAM中，我们只关注基于单目摄像头的SLAM，因为我们的传感器主要依赖用户手机的摄像头。对于手机AR应用来说，SLAM的侧重点在其定位而不是建图功能，因此我们暂时不关注那些semi-dense或者dense的SLAM算法，只用稀疏点云（sparse point cloud）来描述三维地图。

VSLAM（又作structure from motion）的原理类似于双目视觉，采用的是三角定位（triangulation）原理。VSLAM需要两张有足够视差的图像帧去还原图像中对应特征点在三维空间中的坐标，同时算出这两帧图像所对应的相对相机姿态。严格上说，VSLAM只能还原3个转动自由度和2个平移自由度信息（一个normalized的3维平移向量），无法获得绝对距离信息，因此需要额外融合手机IMU提供的信息，以获得真正的三维空间。对类似双目视觉基础原理感兴趣的同学可以参考这个领域的经典书籍《Multiple View Geometry in Computer Vision》。随着相机的移动，SLAM观测到了更多环境中的特征点并加入三维地图，同时可以计算出此时相对前一帧的相机姿态。此外，VSLAM还涉及关键帧筛选（key-frame selection），闭环检测（loop-detection），光束优化（bundle-adjustment）等技术点。

结合已有的大量VSLAM领域文献和我们的工程实践，针对移动端AR的具体需求，我们总结了一套针对移动端AR的VSLAM算法流程（AliSLAM），如图13所示。由于各中细节考量众多，篇幅有限，在此就不一一赘述。

图13：AliSLAM算法流程图

AliSLAM针对移动端AR需求已完成的优化，包括但不限于：缩小BoW词库大小以降低分发成本，并行框架加速和GPU加速，IMU传感器融合以防抖防丢，基于patch取代基于feature的跟踪以提速等。优化后性能参数如下表所示。与PC端SLAM的优化目标不同，AliSLAM的主要优化目标是在精度可接受范围内尽可能提高其快速性以提升用户流畅性体验和降低用户应用门槛。
AliSLAM已集成到手淘并应用在多个业务场景，如极有家AR Detail，AR电器说明书。

极有家AR Detail是利用用户操作，通过SLAM在三维世界中的定位功能，放置一个虚拟物体在实际三维世界的某个位置。当放置成功后，用户可从各个角度观察这个虚拟物体的细节，并仿佛它就摆在你面前一样。这个功能将为以后的各种虚拟或增强购物打底。想象一下，以SLAM技术为基础，我们可以提供操纵图14中这台虚拟手机的能力，是不是很有意思~

图14：AR Detail案例展示

AR说明书是利用AR的方式展示实际生活、生产环节中一些器械的使用方式或是工作原理。比如家电（洗衣机、电饭煲等）的3D形式说明书（如图15），工厂内一些机器的虚拟操作指南等。这项业务主要依托于三维物体跟踪和SLAM技术。

图15：AR说明书示例图

其他技术

AR已落地的其他技术还有很多，如：三维物体识别和跟踪，LBS AR。双十一寻找狂欢猫作为不得不提的典型案例成为了应用LBS AR技术的经典。作为2016双十一最火爆的线上线下造势和预热活动，总PV为16亿，日均PV 3亿多，UV 3100万，同时支持星巴克、KFC等60多款品牌猫。

Bridge to the digital world —— AR算法技术分享_第17张图片

如果您已经耐心看到这里，说明您是我们的知音。无论您对AR有哪些思考，想到了哪些新玩法，或是想和我们讨论一些技术层面的问题，非常欢迎您致信[email protected]。发挥您的想象力，一不小心，未来生活的方式将因您这封邮件而改变，why not?

本文主要由阿里AI LAB源方执笔。文中涉及的技术是全组人共同的结晶@方如@烁凡@水源@紫炎@煦深，我们是阿里AI LAB AR算法团队。

lanqiaoOJ 2145：求阶乘 ← 二分法 hnjzsyjyj 信息学竞赛 #分治算法与双指针算法二分法
【题目来源】https://www.lanqiao.cn/problems/2145/learning/【题目描述】满足N！的末尾恰好有K个0的最小的N是多少？如果这样的N不存在输出-1。【输入格式】一个整数K。【输出格式】一个整数代表答案。【输入样例】2【输出样例】10【评测用例规模与约定】对于30%的数据，1≤K≤10^6.对于100%的数据，1≤K≤10^18.【算法分析】●二分法的应用条件
0315_算法22级1班实验2（递归分治策略）
目录ProblemA众数问题题目描述输入输出样例输入样例输出思路分析代码实现思路优化ProblemB半数集问题题目描述输入输出样例输入样例输出思路分析代码实现ProblemC查找数组拐点题目描述输入输出样例输入样例输出思路分析代码实现思路优化ProblemA众数问题题目描述所谓众数，就是对于给定的含有N个元素的多重集合，每个元素在S中出现次数最多的成为该元素的重数，多重集合S重的重数最大的元素成为
0301_算法22级1班实验1
目录ProblemA统计数字问题1.题目描述2.思路分析3.代码实现ProblemB字典序问题1.题目描述2.思路分析3.代码实现ProblemC最多约数问题1.题目描述2.思路分析3.代码实现ProblemA统计数字问题1.题目描述题目描述问题描述：一本书的页码从自然数1开始顺序编码直到自然数n。书的页码按照通常的习惯编排，每个页码都不含多余的前导数字0。例如，第6页用数字6表示，而不是06或0
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
微算法科技技术创新，将量子图像LSQb算法与量子加密技术相结合，构建更加安全的量子信息隐藏和传输系统
随着信息技术的发展，数据的安全性变得尤为重要。在传统计算模式下，即便采用复杂的加密算法，也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而，量子图像处理领域仍面临复杂度高、效率低的问题。微算法科技通过将量子图像LSQb算法与量子加密技术相结合，提出了一种全新的信息隐藏和传输方案，旨在构建更加安全高效的数据保护机制。LSQb算法，即量子图像的最小有效量子比特算
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
【算法题解】部分洛谷题解(下) 日月星辰cmc 算法分析与设计算法
前言本篇为我做过的洛谷题的部分题解，大多是我认为比较具有代表性的或者比较有意思的题目，包含我自己的思考过程和想法。[NOIP2001提高组]一元三次方程求解题目描述有形如：ax3+bx2+cx+d=0ax^3+bx^2+cx+d=0ax3+bx2+cx+d=0这样的一个一元三次方程。给出该方程中各项的系数（a,b,c,da,b,c,da,b,c,d均为实数），并约定该方程存在三个不同实根（根的范围
LeetCode - 3274. Check if Two Chessboard Squares Have the Same Color 阿蒙Armon LeetCode leetcode 算法职场和发展
LeetCode-3274.CheckifTwoChessboardSquaresHavetheSameColor在LeetCode的算法题库中，有许多有趣的题目将实际场景与编程逻辑相结合，LeetCode3274题CheckifTwoChessboardSquaresHavetheSameColor便是其中之一。这道题以国际象棋棋盘为背景，要求我们判断给定的两个方格颜色是否相同。通过解决这道题，
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
JAVA刷题记录: 专题十五 BFS解决FloodFill算法用屁屁笑宽度优先算法
733.图像渲染-力扣（LeetCode）classSolution{int[]dx={0,0,-1,1};int[]dy={1,-1,0,0};publicint[][]floodFill(int[][]image,intsr,intsc,intcolor){intprev=image[sr][sc];if(color==prev)returnimage;Queueq=newLinkedList
14.优化算法之BFS解决FloodFill算法1 muyierfly 算法题算法宽度优先深度优先
0.FloodFill简介dfs：深度优先遍历（红色）bfs：宽度优先遍历1.图像渲染算法原理classSolution{int[]dx={0,0,1,-1};int[]dy={1,-1,0,0};publicint[][]floodFill(int[][]image,intsr,intsc,intcolor){intprev=image[sr][sc];//统计刚开始的颜⾊if(prev==co
BFS 解决 FloodFill 算法(C++) lim 鹏哥刷题算法宽度优先 c++
文章目录前言一、概念二、岛屿数量1.题目链接2.算法原理3.代码编写三、被围绕的区域1.题目链接2.算法原理3.代码编写总结前言一、概念BFS就是广度优先遍历，也就是层序遍历。FloodFill是指在数组中找出性质相同的连通块，并根据题目进行操作。二、岛屿数量1.题目链接200.岛屿数量2.算法原理遍历整个矩阵，每找到一块陆地，记录一次。我们怎末知道我们是否已经遍历过这个地方了呢？？方法1：如果遍
BFS-FloodFill 算法解决最短路问题多源解决拓扑排序 penguin_bark #BFS 算法宽度优先 leetcode
文章目录一、FloodFill算法[733.图像渲染](https://leetcode.cn/problems/flood-fill/description/)2.思路3.代码[200.岛屿数量](https://leetcode.cn/problems/number-of-islands/description/)2.思路3.代码[LCR105.岛屿的最大面积](https://leetcod
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
「感恩日语」2021-303篇，吸渣体质能学多少学多少
学习感悟，避免成为“吸渣”体质很重要，“环境”能改变人，学会甄别那些“书籍”、那些“文章”（论文）对自己成长有利，而非“奶头乐”系统算法之类推送的让自己无法自拔的内容，个人每天、每周、每月、每年、一生总时间是有限的，缩小到每天，计算一下每天浪费有多少，真正发挥价值时间效力有多少，简单做个记录，会发现很可怕。同时找到了为什么每天进步一点点的重要性，只跟昨天的自己，前天的自己比较一下，很重要，多做对自
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
智慧城管新突破：陌讯动态量化技术实现端侧模型压缩20倍 2501_92487735 目标跟踪人工智能计算机视觉算法目标检测视觉检测边缘计算
开篇痛点深夜暴雨中的违规占道经营检测误报率超60%，光照反射干扰导致传统YOLOv5召回率暴跌——这是某省会城市智慧城管项目的真实困境。当算法工程师面对复杂城市场景时，环境干扰、小目标密集、实时性要求构成三重技术难关。技术解析：陌讯自适应多模态架构传统单阶段检测器在雨天场景失效的核心原因，在于固定感受野难以适应尺度突变目标。陌讯算法引入动态梯度调制机制，通过特征金字塔的跨层权重自适应调整，显著提升
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

Bridge to the digital world —— AR算法技术分享

你可能感兴趣的:(算法,算法)