AI视觉网奇

点云分割笔记

实例分割（1）——SGPN

实例分割（2）——3D-BoNet

全景分割——Panoptic PolarNet

SemanticKITTI

机器学习基于RANSAC的激光点云分割

车载激光雷达分割

SemanticKITTI数据集

物体分割：

主要分为基于点全连接、点卷积、体素、投影、图卷积、k-d Tree等方法
与图像的CNN网络相比，明显花样更多，并且各有优势，还没有形成一个统一的范式。
除了投影方法之外，其他方法在GPU上的优化目前还不是很好，运行不够高效。

实例分割（1）——SGPN

使用PointNet或者PointNet++作为backbone提取特征
Semantic Prediction分支就是一个语义分割分支，与PointNet一致
Confidence Map分支预测这个点是前景还是背景
Similarity Matrix分支学习每一个点的embedding，相同类别之间互相靠近，不同类别之间互相远离，与图像实例分割中的“自底向上”的方法非常类似

实例分割（2）——3D-BoNet

二阶段网络，类似mask-rcnn的结构
第一个阶段预测bounding-box，并输出特征（包含全局特征和点特征）
第二个阶段在预测的bounding-box内，使用点特征和全局特征预测mask
Box的预测比较有特点，是参考的DETR直接输出若干个（24）box，并使用匈牙利匹配来与真值框进行配对，因此是一种稀疏的预测。

全景分割——Panoptic PolarNet

与图像的全景分割类似，同样采用语义分割+实例分割的方式实现
将点云投影至BEV视角，使用2D卷积的backbone
使用PolarNet的极坐标方式，并使用共享权重的全连接来编码特征（简化的pointnet）
经过环形CNN以及Unet的结构来得到最终特征，接上语义分割和实例分割两个head
其中实例分割预测实例中心以及每个点距离实例中心的offset

RangeNet++网络

GitHub - PRBonn/lidar-bonnetal: Semantic and Instance Segmentation of LiDAR point clouds for autonomous driving

看起来不错：

GitHub - VirtualRoyalty/PointCloudSegmentation: The research project based on Semantic KITTTI dataset, 3d Point Cloud Segmentation , Obstacle Detection

推理示例：

inference_example.ipynb

SemanticKITTI

squeezeseg
squeezeseg + crf
squeezesegV2
squeezesegV2 + crf
darknet21
darknet53
darknet53-1024
darknet53-512

可以参考：

大场景三维点云语义分割模型_一只不出息的程序员的博客-CSDN博客_大场景点云分割

机器学习基于RANSAC的激光点云分割

基于RANSAC的激光点云分割_庐陵小子的博客-CSDN博客_ransac点云分割

车载激光雷达分割

GitHub - PRBonn/lidar-bonnetal: Semantic and Instance Segmentation of LiDAR point clouds for autonomous driving

训练标签需要.label格式，测试需要npy格式。

报错代码：

self.saver.restore(self.sess, restore_snap)

解决方法：

  aaa = tf.train.latest_checkpoint(restore_snap)

  self.saver.restore(self.sess, aaa)
  print("Model restored from " + restore_snap)

OOM了，下次继续调试。

准备数据，是个项目：

https://github.com/PRBonn/semantic-kitti-api

代码：

https://github.com/PRBonn/semantic-kitti-api/blob/master/generate_sequential.py

处理完label还是.label格式
留个疑问：数据处理文件，中，标签处理后的扩展名是到底什么？

data_prepare_semantickitti.py

2RandLA-Net.

2.1

GitHub - HuangCongQing/RandLA-Net-Enhanced: RandLA-Net改进版

tensorflow1.11

SemanticKITTI数据集

2.2

GitHub - tsunghan-mama/RandLA-Net-pytorch: Pytorch Implementation of RandLA-Net (https://arxiv.org/abs/1911.11236)

有预训练，本地跑通了。

可以可视化，针对标注和预测结果都可以。

visualize_SemanticKITTI.py

但是结果不对，

报错代码：num_layer 为4

inputs['neigh_idx'] = []
for tmp in flat_inputs[num_layers: 2 * num_layers]:

flat_inputs[4:2*4]出来的值特别大，neigh_idx越界了。

2.3 torch版本：模型14m

GitHub - qiqihaer/RandLA-Net-pytorch: RandLA-Net's implementation with Pytorch

可以用QingyongHu/RandLA-Net的数据预处理，但是不保存结果。

2.4

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds
论文：https://arxiv.org/abs/1911.11236
代码：https://github.com/QingyongHu/RandLA-Net

开源了3种网络预训练

加载预训练报错：TENSORFLOW 导入失败：PROCESS FINISHED WITH EXIT CODE -1073741819 (0XC0000005)

解决方法：

TENSORFLOW PROCESS FINISHED WITH EXIT CODE -1073741819 (0XC0000005)_AI视觉网奇的博客-CSDN博客

1. 简介
提出了RandLA-Net，一个高效轻量的网络可以在大场景点云中直接得到逐点的语义信息。采用随机采样点云而不是复杂的采样策略，为了克服随机采样可能带来的关键特征丢失，一个新颖的局部特征聚合模块被提出。我们的方法可以一次推理（inference）处理一百万个点，并且比现有方法快200x倍。在Semantic3D和SemanticKITTI这两个大场景数据集上做了测试。

2. 主要贡献
1）我们分析并比较了现有的采样策略，发现随机采样（random sampling）是对于大场景点云学习最合适的策略。2）我们提出了高效的局部特征聚合模块可以通过不断提高每个点的感受野自动地保留复杂的局部结构特征。
3）我们证明了显著的内存和计算收益超过基线方法（baselines），并超过了最先进的语义分割方法在多个大场景点云数据集上。

3. 主要方法
1）首先说明了随机采样对于大场景点云的采样是很合适的，对比了几个采样策略，只有随机采样是满足实时性要求的。
2）Local Feature Aggregation：LFA模块
①Local Spatial Encoding：一般的操作，先用kNN找每个点的K个最近邻点，得到相对位置关系的表达，如公式1。在把相对位置的特征和点集本身的特征concatenate起来组成这个点的特征，如图3绿色区域所示。
②Attentive Pooling：大部分现有的方法都是用max/average pooling来做特征的降采样，作者认为基于attention的pooling更好，于是对每个点的特征施加了一个可学习的共享参数的W，得到权重分数（公式2）并与特征相乘。最后将这K（近邻）个特征加在一起（公式3），如图3橘色区域所示。
③Dilated Residual Block：类似ResNet，作者一共用了两层特征聚集模块并做了一个Skip Connection，如图3蓝色区域所示。

4. 实验
实验部分只看了在无人驾驶场景的SemanticKITTI数据集，效果有一定的提高但是有限，benchmark排行榜网（https://competitions.codalab.org/competitions/20331#results），目前最高的mIoU是60.0%。

4年前：

论文
Fast Segmentation of 3D Point Clouds: A Paradigm on LiDAR Data for Autonomous Vehicle Applications

github
https://github.com/VincentCheungM/Run_based_segmentation

不需要ROS的版本
https://github.com/suyunzzz/aiimooc_lesson/tree/c7b16e161af3d998f3ad0cbc3e3e3849f71319d6/week4homework

ros版本
https://blog.csdn.net/suyunzzz/article/details/106292024

物体分割：

1.PCT SPCT

来自清华计算机系的团队，开发出了一个全新的PCT网络，相比于目前主流的点云分割模型PointNet，不仅参数量减少，准确度还从89.2%提升到了93.2%。

GitHub - Strawberry-Eat-Mango/PCT_Pytorch: Pytorch implementation of PCT: Point Cloud Transformer

像是c++

GitHub - Riverside-Software/pct: Build automation for OpenEdge ABL

还没找到测试demo的方法。

PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud
论文：https://arxiv.org/abs/1909.01643

1. 简介
我们提出了一个两阶段的点云语义分割框架，首先对原始点云去除地面，快速聚类并优化候选点云簇，然后将点云簇进行坐标变化及数据增强，并训练一个点云分割网络得到每个点精确的语义标签。我们一阶段的方法可以在很短时间得到高质量的候选点云簇（proposals），大大降低后续的点云处理量，提高了整体速度。

2. 主要贡献
1）提出一个灵活的两阶段3D点云语义分割框架，结合了传统分割聚类算法和基于深度学习的优势，可以直接在3D空间获得特征。
2）我们的一阶段可以得到精炼的高召回率的候选点云簇，极大降低了后续点云处理的计算量及耗时。
3）我们的数据增广方法可以消除坐标偏差提高表现。
4）在KITTI上测试优于SOTA。

3. 主要方法流程
整体流程如图2所示。

1）Stage-1：Accelerated cluster proposal
①Ground plane fitting：基于两个假设，地面点的分布符合平面，地面点的位置较低。
②Ring-based clustering：激光雷达用ring的信息，根据这个可以设定阈值快速欧式聚类，得到每个点所属的点云簇。③Proposals refinement：对候选点云簇进行优化，如扩大bbox融入更多点，有些点由于距离地面较近被归入了地面，因此这里把它们找回来。最终的候选点云簇如图3所示，相同颜色代表统一簇，不同颜色代表不同簇。

2）Stage-2: Point-wise semantic segmentation
①Data preparation：转换坐标系如图4所示，网络更易收敛。数据增广如图5所示，由于数据的分布（如汽车的朝向等）会带来坐标偏差，因此对每个点云簇进行旋转和翻转变换操作，使得整体的分布是均匀的。
②Learning-based semantic segmentation：使用PointNet++作为backbone（有更强的可以直接替换），输入网络每个点的特征为（x,y,z,intensity,n），n是相对点数。

4. 实验
在KITTI上测试，优于SOTA。一阶段仅仅耗时5ms提出30个候选簇可以得到89.5%的逐点召回率，将原始点云近30k个点降低到5k个点，降低了后续的计算量。

Ground-Aware Point Cloud Semantic Segmentation for Autonomous Driving
论文：https://jianbojiao.com/pdfs/ACMMM.pdf
代码：https://github.com/Jaiy/Ground-aware-Seg

1. 简介
我们提出了意识到地面（ground-aware）的框架来缓解无人驾驶场景激光雷达点云所带来的稀疏性问题。首先分割地面，并使用弱监督隐式地建模地面信息，用新的ground-aware attention module来获取到地面的特征，这个模块可以捕获地面和物体的长期依赖，有助于只有少量点的小物体的语义分割表现。

2. 主要贡献
1）我们提出了一个ground-aware attention网络来对无人驾驶场景的稀疏激光点云做语义分割。
2）我们提出了一个ground-aware attention module来有效的建模地面和物体的长期依赖关系。
3）实验表明我们的方法优于SOTA。

3. 主要方法
1）地面粗分割：将地面分为若干段，每段用RANSAC方法拟合一个平面，最终组成地面。将整个场景分为地面点云和物体点云两部分。
2）Region Feature Extraction：受到图表达的启发，根据原始的几何关系将点云分成若干超点（superpoints）来减少整个点云的规模。在两个点云中都进行graph-based partition（具体算法那没有细讲）。之后对每个点簇（group of points）使用PointNet提取特征。每个点得到一个64维特征，每个group得到一个512维的superpoint特征，拼接在一起得到576维特征。如图2蓝色框所示。
3）Ground-Aware Attention Module：注意力机制可以建模远距离的区域相关关系，我们将其拓展到3D点云中，据我们所知，这是第一次使用交叉注意力方式（cross-attention manner）将注意力机制用在三维点云语义分割中。
①Hard Attention：如图4所示，分别对Nx3（x,y,z）和 Nx4（x,y,z,d_g）的特征输入做特征提取，d_g是点和地面的距离。用attention block来建模这两组特征。
② Soft Attention：点到地面的距离不足以捕捉地面和物体之间的关系，因此将地面点云和物体点云分别提取特征得到g和f。attention的具体操作如公式2-4所示。最终得到N_ox512的特征。
同2中的576维特征拼接在一起送入MLP最终得到K个类别的概率。

4）Ground-Aware Loss Function：样本分布不均衡是这个任务共同的问题（人，车的类别远远小于背景类别），因此提出类别平衡的交叉熵损失loss，如公式5所示。

4. 实验
用了阿里巴巴2018BDCI竞赛的数据集（80000帧）和一个没有开源的公司数据集（3000帧），没有用KITTI的数据集测试。其他方法在这些数据集上的表现应当是作者复现得到的。

SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A Learnable Scene Descriptor
本文提出了一个场景编码模块来实施场景感知指导，提取有意义的全局信息加以利用，以增强全局信息的效果。该模块预测场景描述符，场景描述符学习表示场景中存在的对象的类别，并通过过滤不属于该场景的类别直接指导点级语义分割。另外，为了减少局部区域的分割噪声，本文设计了一个区域相似性损失来将特征传播到具有相同标签的相邻点上，从而提高了点特征的识别能力。

论文还将方法集成到几种网络中，并在ScanNet和ShapeNet基准数据集上进行了广泛的实验。结果表明，该方法大大提高了在baseline上的表现，达到了SOTA。

实验结果

From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized 3D Point Clouds

该文提出了一种新的正交平面及其相交线、关系图和位于三个正交平面相交处的角点的无分割联合估计方法。这种在正交性下的统一场景探索允许许多应用，例如语义平面检测或局部和全局扫描对齐，这反过来可以帮助机器人定位或抓取任务。

本文的两阶段pipelines包括对正交平面进行粗略的联合估计，然后根据正交关系对平面参数进行联合求精。形成了这些图形，为进一步提取可靠的特征如线和角铺平了道路。本文的实验证明了提出的方法在从墙检测到6D跟踪的各种场景中的有效性，无论是在合成数据还是真实数据上。

步骤流程：

Learning and Memorizing Representative Prototypes for 3D Point Cloud Semantic and Instance Segmentation
三维点云语义和实例分割是三维场景理解的关键和基础。由于点集结构的复杂性，点集的分布呈现出非平衡性和多样性，表现为类别不平衡和模式不平衡。因此，深度网络在学习过程中很容易忘记非优势案例，导致学习效果不理想。虽然重新加权可以减少分类好的例子的影响，但在动态训练中不能处理非优势模式。本文提出了一种记忆增强网络来学习和记忆覆盖不同样本的典型原型。特别地，通过记录在小批量训练中看到的模式，引入了一个记忆模块来缓解遗忘问题。学习记忆项目一致地反映了显性和非显性类别和案例的可解释和有意义的信息。因此，可以通过检索存储的原型来增加扭曲的观察和罕见的情况，从而获得更好的性能和泛化。在S3DIS和ScanNetV2两个基准上进行了详尽的实验，证明了该方法在效率和有效性上的优越性。不仅总体精度有了很大提高，而且非优势类也有了很大提高。

JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds
为了同时解决三维点云的实例和语义分割问题，本文提出了一种新的联合实例和语义分割方法JSNet。首先，建立一个有效的backbone，从原始点云中提取鲁棒特征。其次，为了获得更具鉴别能力的特征，提出了一种点云特征融合模块，对backbone的不同层次特征进行融合。在此基础上，开发了一个联合实例语义分割模块，将语义特征转化为实例嵌入空间，并将转化后的特征与实例特征进一步融合，实现实例分割。同时，该模块还将实例特征聚合到语义特征空间中，促进语义分割。最后，通过对实例嵌入应用简单的mean-shift聚类来生成实例预测。

本文在large-scale 3D indoor point cloud dataset 、S3DIS 和ShapeNet数据集上评估提出的JSNET，并与现有的方法进行比较。实验结果表明，该方法达到了SOTA。JSNET在三维实例分割中，对三维语义预测有了显著的改进，也有利于零件分割。

FuseSeg: LiDAR Point Cloud Segmentation Fusing Multi-Modal Data
本文介绍了一种简单而有效的激光雷达与RGB数据融合方法，并对激光雷达点云进行分割。利用激光雷达传感器的稠密本征距离表示和标定信息，建立了两种输入模式之间的点对应关系。能够将一个域中的特征扭曲并融合到另外一个，因此可以在一个网络中联合利用来自两个数据源的信息。为了证明该方法的优点，本文扩展了点云分割网络squezeseg的RGB特征分支，并将其融合到原始结构中称之为FuseSeg，它使KITTI基准的IoU提高了18%。除了精度的提高，论文还实现了50 fps的实时性能，是KITTI激光雷达数据记录速度的五倍。

————————————————
版权声明：本文为CSDN博主「一只不出息的程序员」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_43232556/article/details/106739355

Windows11上的虚拟化软件推荐 kcarly 杂谈系统运维认识系列服务器运维虚拟化 Windows11
在Windows11上运行虚拟化软件时，有多种选择可供用户根据需求进行选择。以下是几款推荐的虚拟化软件及其特点：1.VMwareWorkstation优点：VMwareWorkstation是一款功能强大且广泛使用的虚拟化软件，支持多种操作系统（包括Windows、Linux、macOS等），并提供丰富的功能，如快照、克隆、虚拟网络和3D图形加速等。它适用于需要高性能虚拟机的用户，尤其适合开发者和
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
愿景：做机器视觉行业的颠覆者 gaoenyang760525 人工智能
一个愿景，两场战斗，专注制胜。一个愿景：做机器视觉行业的颠覆者。我给自己创业，立一个大的愿景：做机器视觉行业的颠覆者。两场战斗：无监督-大模型上半场，无监督。2025-2030，共五年。用无监督算法，颠覆现有缺陷检测方法，争取在2-3个场景落地。在以下几个场景中，选择最容易的场景落地，做细分场景的标准检测设备：1、视觉筛选机2、PCB相关3、半导体、芯片4、纺织服装5、包装印刷（激光打标、喷码、瓶
什么是MoE？ CM莫问深度学习人工智能算法常见概念人工智能算法 python 深度学习 MoE 混合专家模型机器学习
一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。MoE的核心思想是将复杂的任务分解为多个子任务，由不同的专家网络来处理，以此来提升整体模型的性能和效率。MOE通过集成多个专家来显著提高模型的容量和表达能力，每个专家可以专注于学习输入数据的不同方面或特征，使得整个模
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
2D游戏中的枪口火焰效果实现 t0_54coder 编程问题解决手册游戏 java 服务器个人开发
在2D游戏开发中，创建一个逼真的枪口火焰效果是提升游戏体验的关键部分之一。今天，我们将探讨如何使用Godot引擎来实现一个自然流畅的枪口火焰动画效果。问题描述当玩家按住鼠标左键射击时，枪口火焰的动画会播放。然而，一旦玩家松开鼠标按钮，动画会在播放过程中突然停止，导致视觉效果不连续，显得非常生硬。原始代码分析以下是原始的Godot脚本代码：extendsStaticBody2D@onreadyvar
『大模型笔记』视觉语言模型解释 AI大模型前沿研究大模型笔记 LLM VLM 视觉语言模型语言模型大模型人工智能
视觉语言模型解释文章目录一.视觉语言模型解析1.什么是视觉语言模型？2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(transformers)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习，以处理从视觉问题回答到图像描述等多种任务的模型。本文将深入探讨视觉语言模型的核
计算机视觉领域的轻量化模型——GhostNet 模型 DuHz 边缘计算轻量化模型计算机视觉人工智能算法深度学习神经网络边缘计算网络
GhostNet模型详解GhostNet是一个高效的轻量化卷积神经网络模型，专为资源受限的设备（如移动设备和嵌入式系统）设计。它的核心创新是Ghost模块，该模块通过生成更多的特征图来减少计算资源消耗。GhostNet适用于实时计算任务，如图像分类和物体检测，同时在保持较高准确率的基础上，优化了计算效率。目录GhostNet背景Ghost模块概述GhostNet网络架构Ghost模块的数学原理Gh
课程内容摘要生成：基于知识蒸馏与事实增强的深度学习模型实践二进制独立开发非纯粹GenAI GenAI与Python 深度学习人工智能自然语言处理 python 语言模型神经网络生成对抗网络
文章目录引言一、核心技术：知识蒸馏与事实三元组融合二、模型架构设计与优化三、Python实现与关键代码解析四、业务价值与效果分析五、挑战与优化方向引言在教育内容数字化进程中，课程内容摘要生成技术能够从海量教学资源中提炼核心知识点，解决人工编写效率低、知识更新滞后的问题。当前主流方法依赖于深度学习模型，但存在事实性偏差、可解释性不足等缺陷。本文提出一种融合知识蒸馏与事实三元组增强的摘要生成框架，结合
详解大模型微调数据集构建方法(持续更新) herosunly 大模型微调数据集构建方法
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文详细介绍了大模型微调数据集构建方法，希望能对学习大模型的同学们有所帮助。文章目录
基于深度学习的基于视觉的机器人导航 SEU-WYL 深度学习dnn 深度学习机器人人工智能
基于深度学习的视觉机器人导航是一种通过深度学习算法结合视觉感知系统（如摄像头、LiDAR等）实现机器人在复杂环境中的自主导航的技术。这种方法使机器人能够像人类一样使用视觉信息感知环境、规划路径，并避开障碍物。与传统的导航方法相比，深度学习模型能够在动态环境中表现出更强的适应能力和鲁棒性。1.视觉导航的基本概念视觉导航是指通过处理机器人的摄像头等视觉传感器采集到的图像数据，构建环境模型，进而进行路径
【深度学习】softmax回归的简洁实现熙曦Sakura 深度学习深度学习回归人工智能
softmax回归的简洁实现我们发现(通过深度学习框架的高级API能够使实现)(softmax)线性(回归变得更加容易)。同样，通过深度学习框架的高级API也能更方便地实现softmax回归模型。本节继续使用Fashion-MNIST数据集，并保持批量大小为256。importtorchfromtorchimportnnfromd2limporttorchasd2l初始化模型参数[softmax回
第二篇：多模态技术突破——DeepSeek如何重构AI的感知与认知边界 python算法(魔法师版) 动态规划
——从跨模态对齐到因果推理的工程化实践在AI技术从单一模态向多模态跃迁的关键阶段，DeepSeek通过自研的多模态融合框架，在视觉-语言-语音的联合理解与生成领域实现系统性突破。本文将从技术实现层面，解构其跨模态表征学习、动态融合机制与因果推理能力的内在创新。1.跨模态对齐革命：时空一致性建模传统多模态模型常面临模态割裂问题，DeepSeek提出「时空同步对比学习」（ST-CL）框架：视觉-语言对
深度学习查漏补缺：1.梯度消失、梯度爆炸和残差块 nnerddboy 白话机器学习深度学习人工智能
一、梯度消失梯度消失的根本原因在于激活函数的性质和链式法则的计算：激活函数的导数很小：常见的激活函数（例如Sigmoid和Tanh）在输入较大或较小时，输出趋于饱和（Sigmoid的输出趋于0或1），其导数接近于0。在反向传播中，每一层的梯度都会乘以激活函数的导数。如果导数很小，乘积就会导致梯度逐渐变小。链式法则的多次相乘：假设网络有nn层，梯度从输出层传到第ii层时，会经历多次链式相乘：如果每一
VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型蚝油菜花每日 AI 项目与应用实例人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读模型简介：VARGPT是北京大学推出的多模态大语言模型，专注于视觉理解和生成任务。主要功能：支持混合模态输入输出、高效视觉生成和广泛的多模态任务。技术原理：基于自回归框架，采用三阶段训练策略，
tensorflow编码错误：TypeError: unsupported operand type(s) for *: ‘float‘ and ‘NoneType‘ Ding_99 tensorflow python
tensorflow编码出现错误：TypeError:unsupportedoperandtype(s)for*:‘float’and‘NoneType’原码如下：importtensorflowastfw=tf.Variable(tf.constant(5,dtype=float))#给w赋随机值，初始值为float5lr=0.2#学习率设为0.2epoch=20#设置循环迭代次数foriinr
跨平台的客户端gui到底是选“原生”还是web 扎量丙不要犟前端 rust javascript tauri electron qt c++
我们讨论的是客户端的“前端”gui部分是选“原生”还是“web”，而不是讨论客户端用“js”还是“原生”。为什么这么说呢？我们应该把客户端也分为“前端”和“后端”，如果客户端没有“后端”，那么不在讨论范围。我们看一下“前端”的定义：（Front-End）通常指与用户直接交互的部分，即用户看到、操作并与之互动的界面。它涵盖了视觉设计、交互逻辑，主要关注用户体验（UserExperience,UX）和
从System Prompt来看Claude3、Kimi和ChatGLM4之间的差距 herosunly 大模型 system prompt gpt4 claude kimi ChatGLM4
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看Claude3、Kimi和ChatGLM
基于face_recognition的人脸识别 #北极星star 人脸识别人工智能 opencv 计算机视觉
目录一.简要介绍二.相关函数三.算法流程四.代码实现五.效果展示一.简要介绍face_recognition是一个基于Python的开源人脸识别库，它使用dlib库中的深度学习模型来实现人脸识别功能。这个库以其简洁的API和高效的性能而广受欢迎，成为许多开发者和研究者的首选工具。face_recognition库的主要功能包括：1.人脸检测：识别图像中所有的人脸并返回其位置信息。2.人脸编码：将检
计算机视觉：解锁智能时代的钥匙与实战案例我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁智能时代的钥匙与实战案例在人工智能的浩瀚星空中，计算机视觉无疑是最为璀璨的星辰之一。它不仅让机器拥有了“看”的能力，更是推动了自动驾驶、安防监控、医疗影像分析、智能制造等多个领域的革新。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实际项目中应用这些技术。一、计算机视觉概述计算机视觉，简而言之，是指让计算机系统从数字图像或视频中提取有用信息的过程
solr 的admin.html 详细使用讲解 qq_37300675 solr
爱雨轩真正的爱情，就像花朵，开放的地方越贫瘠，越是美丽动人！目录视图摘要视图订阅征文|从高考，到程序员深度学习与TensorFlow入门一课搞定！每周荐书|Web扫描、HTML5、Python（评论送书）solr管理界面详解标签：solrsolr管理界面solrqueryanalysis2016-08-0210:425117人阅读评论(0)收藏举报本文章已收录于：分类：Solr（8）作者同类文章X
构建基于 Pygame 的高级流体仿真系统机器懒得学习 pygame python
流体仿真在计算机图形学、游戏开发和科学计算中扮演着重要角色。通过模拟流体的运动、扩散和相互作用，我们可以创建逼真的视觉效果，甚至用于研究真实世界的物理现象。本文将深入探讨如何利用Python的Pygame和NumPy库，构建一个高效、交互性强的高级流体仿真系统。我们将从物理模型、算法实现到代码优化，逐步解析这一系统的技术细节。系统概述本流体仿真系统是一个基于Pygame的实时交互式仿真工具，支持多
平铺（tile）--tile，设计师必学！AI 绘图无缝拼接神技，甲方看了秒点头我:yueda 人工智能 midjourney AI作画
「今晚又要通宵了…」盯着电脑前第23版被驳回的壁纸设计，我狠狠咬了口冷掉的饭团。项目总监要求的花纹必须同时满足三个不可能：中国风但要赛博朋克、有规律又不能重复、放大看还得藏着公司LOGO——这需求简直比让AI画一只方形西瓜还离谱！「试试这个咒语？」隔壁工位的3D建模师林哥突然探过头，在我键盘上敲下一串神秘代码「–tile」。屏幕突然闪烁起来，刚刚还死气沉沉的牡丹花纹开始像细胞分裂般无限延伸，每一块
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习-笔记2 深度学习神经网络
paddlepaddle安装(使用cpu)：dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.2查看下paddlepaddle的镜像层次和安装目录结构(没有看到dockerbuild文件，先感受一下目录结构吧)：dockerinspectregistry.baidubce.com/paddlepaddle/paddle:2.6.2|gr
多模态大模型：技术原理与实战工具和算法框架介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1从单模态到多模态的必然趋势传统的深度学习模型大多是单模态的，例如只处理图像数据的卷积神经网络（CNN）或只处理文本数据的循环神经网络（RNN）。然而，现实世界的信息往往是多模态的，例如一张图片可以包含物体、场景、文字等多种信息，一段视频则包含图像、声音、字幕等多种模态的数据。为了更好地理解和处理现实世界的信息，多模态学习应运而生。近年来，随着深度学习技术的快速发展，多模态学习取得
从零开始大模型开发与微调：汉字拼音数据集处理 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：汉字拼音数据集处理1.背景介绍1.1问题的由来在人工智能领域，自然语言处理（NLP）是一项基础且重要的研究方向。随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModel，LLM）在NLP领域取得了显著的成果。然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构
2024年开源数据集地址汇总包含最新最全数据集在这你可以找到任何想要数据集萌萌哒240 深度学习目标跟踪人工智能计算机视觉
目标检测数据集和图像分类数据集是计算机视觉领域的两大重要资源，它们为训练和评估各种视觉模型提供了关键的数据支持。目标检测数据集主要用于训练模型以识别和定位图像中的特定物体。这类数据集通常包含大量的标注图像，每张图像中都标记了多个物体的位置和类别。例如，COCO（CommonObjectsinContext）数据集就是一个常用的目标检测数据集，它包含了80个类别的日常物体，如人、车、动物等，并提供了
深度学习专业毕业设计选题清单：算法与应用 HaiLang_IT 毕业设计选题毕业设计人工智能深度学习
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了计算机专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
Python-基于PyQt5,wordcloud,pillow,numpy,os,sys的智能词云生成器闪云-微星 WPS python pillow 开发语言 pycharm numpy 小程序 pyqt
前言：日常生活中，我们有时后就会遇见这样的情形：我们需要将给定的数据进行可视化处理，同时保证呈现比较良好的量化效果。这时候我们可能就会用到词云图。词云图（Wordcloud）又称文字云，是一种文本数据的图片视觉表达方式，一般是由词汇组成类似云的图形，用于展示大量文本数据。词云这个概念首先是由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登提出的，通常用于描述网站上的关键字元数据（标签），或可视化
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

点云分割笔记

实例分割（1）——SGPN

实例分割（2）——3D-BoNet

全景分割——Panoptic PolarNet

SemanticKITTI

机器学习基于RANSAC的激光点云分割

车载激光雷达分割

SemanticKITTI数据集

物体分割：

你可能感兴趣的:(3D视觉,pytorch,深度学习,tensorflow)