Wanderer001

计算机视觉最新进展概览(2021年4月18日到2021年4月24日)

1、VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous Driving

运动目标检测(MOD)是自动驾驶中的一项关键任务，需要准确检测出自我车辆周围的运动主体，以进行安全的轨迹规划。它还能基于运动线索对物体进行外观无关性检测。还有一些几何上的挑战，比如运动视差模糊，这让它成为一个难题。在本研究中，我们的目标是利用车辆运动信息，并将其输入模型，以获得一个基于自我运动的自适应机制。其动机是使模型能够隐式地进行自我运动补偿以提高性能。我们将六自由度的车辆运动转换为一个像素级张量，可以作为CNN模型的输入。采用车辆运动张量(Vehicle Motion Tensor, VMT)方法建立的模型在mIoU中比基线体系结构提高了5.6%。我们还在公共KITTI_MoSeg_Extended数据集上取得了最先进的结果，甚至与利用LiDAR和额外输入帧的方法相比。我们的模型也是轻量级的，在TitanX GPU上以85帧每秒的速度运行。

2、FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

单目三维目标检测具有成本低的优点，是自动驾驶的一项重要任务。由于其固有的病态性，主要体现在深度信息的缺乏，使其比传统的二维情况更具挑战性。二维检测的最新进展为更好地解决这一问题提供了机会。然而，让一个通用的适应2D检测器在这个3D任务中工作是不平凡的。在本技术报告中，我们通过建立在全卷积单级检测器上的实践来研究这个问题，并提出了一个通用框架FCOS3D。具体而言，首先将一般定义的7自由度三维目标变换到图像域，将其解耦为二维和三维属性。然后根据目标的二维尺度将其分布到不同的特征层次，仅根据投影的三维中心进行训练。此外，中心性被重新定义为一个二维高斯分布的基础上的3D中心，以适应3D目标的公式。所有这些都使这个框架既简单又有效，消除了任何2D检测或2D- 3d对应的先验。在NeurIPS 2020的nuScenes 3D检测挑战中，我们的解决方案在所有纯视觉方法中获得了第一名。

3、Exploring 2D Data Augmentation for 3D Monocular Object Detection

数据增强是基于CNN的图像识别任务的关键组成部分，如目标检测。然而，在三维物体检测方面的探索相对较少。许多标准的二维目标检测数据增强技术不能扩展到三维盒。将这些数据扩展到3D目标检测需要对输入场景的3D几何形状进行适应，并合成新的视点。这需要准确的场景深度信息，而这些信息可能并不总是可用的。在这篇论文中，我们评估了现有的2D数据增强，并提出了两种新的用于单目3D检测的增强，不需要新的视图合成。我们首先评估了RTM3D检测模型上的这些增强效果，因为其训练时间较短。我们获得了汽车的3D AP (@IoU=0.7)的持续改善4%，行人和骑自行车的3D AP (@IoU=0.25)的分数~1.8%，超过了KITTI汽车检测数据集的基线。我们还将考虑到KITTI验证数据集中的类不平衡，通过重新加权mAP分数来证明对mAP分数的严格评估。

4、BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object Detection for Autonomous Driving

基于激光雷达的三维目标检测是自动驾驶技术中的一个重要模块，特别是远程目标检测。大多数的研究集中在实现更高的精度，这些模型没有从延迟和功率效率的角度优化部署在嵌入式系统上。对于高速驾驶场景，延迟是一个关键参数，因为它提供了更多的时间来应对危险的情况。该模块通常采用基于体素或点云的三维卷积方法。首先，它们在嵌入式平台上是低效的，因为它们不适合高效的并行化。其次，由于场景的稀疏程度与安全系统所需的确定性相违背，它们具有可变的运行时间。在这项工作中，我们的目标是开发一个非常低的延迟算法与固定的运行时间。我们提出了一种新的语义分割体系结构，作为一个单一统一的模型，利用关键点检测目标中心，盒预测和方向预测使用装箱分类在一个更简单的鸟瞰图(BEV) 2D表示。提出的体系结构可以简单地扩展到包括语义分割类，如道路，而不需要任何额外的计算。该模型在Nvidia Xavier嵌入式平台上的延迟为4ms。该模型比其他顶级精度模型快5倍，在KITTI数据集上，IoU=0.5的平均精度最小退化2%。

5、A Fully Spiking Hybrid Neural Network for Energy-Efficient Object Detection

本文提出了一种全峰值混合神经网络(FSHNN)，用于资源受限平台下的高效鲁棒目标检测。该网络体系结构基于卷积SNN，使用泄漏集成火神经元模型。该模型结合了无监督Spike Time-Dependent可塑性(STDP)学习和反向传播(STBP)学习方法，并使用Monte Carlo Dropout对不确定性误差进行了估计。与基于DNN的目标探测器相比，FSHNN提供了更好的精度，同时具有150X的能效。它也优于这些目标检测器，当受到噪声输入数据和标记较少的训练数据与较低的不确定性误差。

6、Guided Table Structure Recognition through Anchor Optimization

本文提出了一种利用导向锚点识别表结构的新方法。这个概念不同于目前最先进的表结构识别方法，后者单纯地应用对象检测方法。与之前的技术相比，首先，我们估计了表结构识别的可行锚点。随后，利用这些锚来定位表格图像中的行和列。此外，本文还介绍了一种简单有效的方法，即在实际场景中使用表格布局来提高结果。在ICDAR-2013和TabStructDB这两个公开的表结构识别数据集上，对所提方法进行了详尽的评价。我们在icdar2013数据集上取得了最先进的结果，平均F-Measure为95.05%(行为94.6%，列为96.32%)，超过了TabStructDB数据集的基线结果，平均F-Measure为94.17%(行为94.08%，列为95.06%)。

7、Camouflaged Object Segmentation with Distraction Mining

伪装目标分割(COS)旨在识别与周围环境“完美”融合的目标，具有广泛的应用价值。COS的关键挑战在于候选目标与噪声背景之间存在较高的内在相似性。在本文中，我们努力迎接挑战，有效和高效的COS。为此，我们开发了一个仿生框架，称为定位和焦点网络(PFNet)，它模拟了自然界中的捕食过程。具体来说，我们的PFNet包含两个关键模块，即定位模块(PM)和聚焦模块(FM)。PM被设计用来模仿捕食中的检测过程，从全局角度定位潜在目标对象，然后FM被用来执行捕食中的识别过程，通过聚焦于模糊区域逐步细化粗预测。值得注意的是，在FM中，我们开发了一种新的分心挖掘策略来发现和消除分心，以提高估计的性能。大量的实验表明，我们的PFNet实时运行(72帧/秒)，并且在四个标准度量下，在三个具有挑战性的数据集上显著优于18个前沿模型。

8、Fourier Contour Embedding for Arbitrary-Shaped Text Detection

任意形状文本检测的主要挑战之一是设计一个好的文本实例表示，允许网络学习不同的文本几何变化。现有的方法大多采用直角坐标系或极坐标下的掩模或轮廓点序列对图像空间域的文本实例进行建模。然而，掩模表示可能导致昂贵的后处理，而点序列一个可能有有限的能力建模文本与高度弯曲的形状。为了解决这些问题，我们在傅里叶域对文本实例进行建模，并提出一种新的傅里叶轮廓嵌入(FCE)方法来表示任意形状的文本轮廓。我们进一步构造了一个骨干、特征金字塔网络(FPN)和一个简单的后处理与反傅立叶变换(IFT)和非最大抑制(NMS)。与以往的方法不同，FCENet首先预测文本实例的紧凑傅里叶签名，然后在测试过程中通过IFT和NMS重构文本轮廓。大量实验表明，FCENet能够准确和鲁棒地拟合高弯曲形状的场景文本轮廓，也验证了FCENet在任意形状文本检测中的有效性和良好的泛化效果。此外，实验结果表明，我们的FCENet优于先进的(SOTA) CTW1500和totaltext方法，特别是在具有挑战性的高弯曲文本子集。

9、Sparse-Shot Learning for Extremely Many Localisations

对象定位通常是在常规图像的背景下考虑的，例如描绘人像或汽车等对象。在这些图像中，每个类的每个图像的实例数量通常相对较少，通常可以进行注释。然而，在常规图像的领域之外，我们经常面临不同的情况。在计算病理学中，数字化的组织切片是非常大的图像，其尺寸很快就会超过25 '000x25 '000像素，相关的物体，如肿瘤细胞或淋巴细胞，可以迅速数到数百万。注释所有的内容实际上是不可能的，而在众多的内容中，只注释少量的内容是唯一的可能。不幸的是，从稀疏注释中学习，或稀疏镜头学习，与标准监督学习冲突，因为没有注释的东西被视为负面的。然而，给真正的积极的东西分配消极的标签会导致梯度的混乱和有偏见的学习。为此，我们提出了唯一的交叉熵，它通过检查二阶损失导数来减缓有偏学习，从而减少与可能有偏项相对应的损失项。对9个数据集和两种不同的定位任务(用YOLLO检测和用Unet分割)的实验表明，与交叉熵或焦损失相比，我们获得了相当大的改进，而通常只有10-40个注释的模型达到了最佳性能。

10、Boundary-Aware 3D Object Detection from Point Clouds

目前，现有的最先进的3D物体探测器处于两阶段模式。这些方法通常包括两个步骤:1)利用区域提议网络以自底向上的方式提出一小部分高质量的提议。2)调整大小和集合语义特征，从提出的区域总结roi的表示，以进一步细化。请注意，在第2步)中，这些roi表示在提供给以下检测报头时被单独视为一个不相关的条目。然而，我们观察到由步骤1)产生的这些建议以某种方式偏离了ground truth，以潜在的概率密集地出现在局部邻域中。在现有网络缺乏相应的信息补偿机制的情况下，一个方案由于坐标偏移而在很大程度上放弃了边界信息，这是一个挑战。本文提出了基于BANet的点云三维目标检测方法。具体来说，我们没有像以前的工作那样独立地细化每个提案，而是在给定的截止阈值内将每个提案表示为图构造的一个节点，以局部邻域图的形式将提案关联起来，并显式地利用对象的边界相关性。此外，我们设计了一个轻量级的区域特征聚合网络来充分利用体素级、像素级和点级特征，并扩展接受域以获得更多信息的roi级表示。截至2021年4月17日，我们的BANet在KITTI 3D检测排行榜上取得了相当的成绩，在KITTI BEV检测排行榜上中等难度的Car类别中排名第一。源代码将在论文被接受后发布。

11、Transformer Transforms Salient Object Detection and Camouflaged Object Detection

来自机器翻译的变压器网络特别擅长在长序列中建模长期依赖关系。目前，变压器网络在从高级分类任务到低级密集预测任务等各种视觉任务上都取得了革命性的进展。在本文中，我们对变压器网络应用于显著目标检测(SOD)进行了研究。具体来说，我们采用密集变压器主干网，用于全监督RGB图像的SOD，基于RGB- d图像对的SOD，以及弱监督的通过涂鸦监督的SOD。作为扩展，我们也将我们的完全监督模型应用于伪装目标检测(COD)任务的伪装目标分割。对于完全监督模型，我们将密集变压器主干定义为特征编码器，并设计了一个非常简单的解码器来产生一个单通道显著图(或COD任务的伪装图)。对于弱监督模型，由于在涂鸦标注中不存在结构信息，我们首先采用最近提出的gate - crf损失来有效地建模成对关系，以实现准确的模型预测。然后，我们引入了自监督学习策略来推动模型产生尺度不变的预测，这被证明对弱监督模型和在小训练数据集上训练的模型是有效的。在各种SOD和COD任务(完全监督RGB图像基于SOD，完全监督RGB- d图像对基于SOD，弱监督通过涂鸦监督SOD，以及完全监督RGB图像基于COD)上的大量实验结果表明，变压器网络可以转换显著目标检测和伪装目标检测，为每个相关的任务建立新的基准。

12、SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud

本文提出了一种基于自集成单级目标检测器(SE-SSD)的室外点云三维目标检测方法。我们的重点是利用我们的公式约束开发软目标和硬目标来联合优化模型，而不引入额外的计算在推理中。具体来说，SE-SSD包含一对教师和学生ssd，其中我们设计了一个有效的基于借据的匹配策略，从教师中过滤软目标，并制定一致性损失对齐学生的预测与他们。此外，为了最大限度地利用提炼出来的知识来集成教师，我们设计了一种新的增强方案来产生形状感知的增强样本来训练学生，目的是鼓励学生推断出完整的物体形状。最后，为了更好地利用硬目标，我们设计了一个ODIoU损失来监督学生与预测盒中心和方向的约束。我们的SE-SSD达到顶级性能相比之前所有出版的作品。此外，它还以超高的推理速度在KITTI基准测试中获得了最高的汽车检测精度(在BEV和3D排行榜上分别排名第一和第二)。

13、Few-Shot Model Adaptation for Customized Facial Landmark Detection, Segmentation, Stylization and Shadow Removal

尽管已经取得了很好的进展，但基于深度学习的算法的性能仍然严重依赖于特定的数据集，由于劳动密集型的标注，难以扩展。此外，由于新应用程序的发展，数据注释的初始定义可能并不总是满足新功能的需求。因此，对自定义数据注释的需求一直很大。为了解决上述问题，我们提出了少射模型适应(FSMA)框架，并展示了其在Faces上几个重要任务上的潜力。FSMA首先通过使用大规模的无标记数据训练对抗自动编码器来获得鲁棒的人脸图像嵌入。然后，该模型配备特征自适应和融合层，以最小数量的标注图像有效地适应目标任务。FSMA框架在广泛的面部图像应用中具有通用性。FSMA实现了最先进的少镜头地标检测性能，首次为少镜头人脸分割、风格化和去除面部阴影等任务提供了令人满意的解决方案。

14、A Competitive Method to VIPriors Object Detection Challenge

在这份报告中，我们介绍了我们提交的vi先验目标检测挑战的技术细节。我们的解决方案是基于mmdetection的一个强大的基线开源检测工具箱。首先，我们引入了一种有效的数据增强方法来解决缺少数据的问题，包括box-jitter、grid-mask和mixed。其次，我们提出了一种鲁棒感兴趣区域提取方法，通过嵌入全局上下文特征来学习更重要的感兴趣区域特征。第三，我们提出了一种多模型集成策略来细化预测盒，即加权盒融合(WBF)。实验结果表明，该方法能够显著提高COCO2017数据集子集的目标检测平均精度(AP)。

15、Lidar Point Cloud Guided Monocular 3D Object Detection

单目3D物体检测越来越受到社区的关注，因为它可以让汽车用一个单一的摄像头感知3D世界。然而，与基于激光雷达的方法相比，单眼三维检测的检测率极低，限制了其应用。由于单目图像的病态性质，缺乏准确的深度线索是导致精度不高的主要原因。激光雷达点云可以提供精确的深度测量，为单眼方法的训练提供有益的信息。以往的工作仅使用激光雷达点云训练深度估计器。这种隐式方法没有充分利用激光雷达点云，导致性能不佳。为了有效利用激光雷达点云，本文提出了一种通用的、简单而有效的单目方法框架。具体来说，我们利用LiDAR点云直接指导单目三维探测器的训练，使其在学习预期目标的同时，省去了额外的标注成本。由于设计的通用性，我们的方法可以插入到任何单目3D检测方法中，显著提高了性能。综上所述，我们在KITTI单眼3D检测基准上取得了第一名，并将BEV/3D AP从11.88/8.65增加到22.06/16.80。该代码将很快向公众公开。

16、Motion Vector Extrapolation for Video Object Detection

尽管计算效率高的深度神经网络体系结构不断成功地用于视频对象检测，但性能不断达到速度、准确性和计算资源的三难困境(选择2)。目前试图利用视频数据中的时间信息来克服这三难困境的尝试被最先进的目标检测模型所阻碍。我们提出了一种技术，通过使用现成的对象检测器和现有的基于光流的运动估计技术并行执行视频对象检测。通过对基准mott20数据集的一组实验，我们证明了我们的方法在不牺牲任何精度的情况下显著降低了任何给定目标检测器的基线延迟。进一步减少延迟，比原来的延迟降低25倍，可以以最小的精度损失实现。MOVEX在普通基于CPU的系统上支持低延迟的视频对象检测，从而允许超越GPU计算领域的高性能视频对象检测。

17、MonoGRNet: A General Framework for Monocular 3D Object Detection

在真实的三维空间中，目标的检测和定位在场景理解中起着至关重要的作用，但由于图像投影过程中几何信息的丢失，在单目图像中尤其具有挑战性。我们提出MonoGRNet，通过几何推理从观察到的二维投影和未观察到的深度维数从单目图像的模态三维目标检测。MonoGRNet将单目三维目标检测任务分解为4个子任务，包括二维目标检测、实例级深度估计、投影三维中心估计和局部角点回归。任务分解极大地促进了单目三维目标检测，允许在一次前向过程中有效地预测目标的三维包围盒，而不需要使用目标建议、后处理或以往方法所使用的昂贵的像素级深度估计。此外，MonoGRNet灵活地适应了完全监督学习和弱监督学习，提高了我们的框架在不同设置下的可行性。在KITTI、Cityscapes和MS COCO数据集上进行了实验。结果显示了我们的框架在各种场景下的良好性能。

18、OSKDet: Towards Orientation-sensitive Keypoint Localization for Rotated Object Detection

旋转目标检测是计算机视觉领域的一个具有挑战性的问题。空间信息的丢失和参数阶数的混乱一直是影响旋转检测精度的瓶颈。本文提出了一种基于方向敏感关键点的旋转检测器OSKDet。我们采用一组关键点来表征目标，并在ROI上预测关键点热图来形成旋转目标。OSKDet通过提出对方向敏感的热图，隐式学习旋转目标的形状和方向，对目标表示具有较强的建模能力，提高了定位精度，获得了高质量的检测结果。为了高效提取边界区域的特征，我们设计了一个旋转感知的变形卷积模块。进一步提出了一种新的关键点排序算法和基于角度分布的特征融合模块，消除了关键点排序的混乱。在几个公共基准测试上的实验结果显示了OSKDet最先进的性能。具体来说，我们在DOTA上实现了77.81%的AP，在HRSC2016上实现了89.91%的AP，在UCAS-AOD上实现了97.18%的AP。

19、Robust Object Detection via Instance-Level Temporal Cycle Confusion

构建可靠的、对领域变化(如上下文、视角和对象外观的各种变化)具有健壮性的对象检测器，对于现实世界的应用程序是至关重要的。在这项工作中，我们研究了辅助自我监督任务的有效性，以改善目标探测器的非分布泛化。在最大熵原理的启发下，我们引入了一种新的自监督任务，实例级时间周期混淆(CycConf)，该任务基于目标检测器的区域特征。对于每个对象，任务是在视频的相邻帧中找到最不同的对象提案，然后循环回到自身进行自我监督。CycConf鼓励对象检测器在不同的运动下探索实例之间的不变结构，这在测试时提高了不可见域的模型鲁棒性。我们观察到，在大规模视频数据集(BDD100K和Waymo开放数据)上，与自我监督任务一起训练目标检测器时，会有一致的域外性能改进。联合训练框架还在标准的无监督域自适应检测基准(Cityscapes、Foggy Cityscapes和Sim10K)上建立了一个新的最先进水平。项目页面可通过此https URL访问。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &