prinTao

【自动驾驶】【小障碍物感知】

目标检测论文

3D

lidar

精确的non-Texture

3d估计 + 检测

Pseudo-LiDAR_From_Visual_Depth_Estimation_Bridging_the_Gap_in_3D
- https://openaccess.thecvf.com/content_CVPR_2019/html/Wang_Pseudo-LiDAR_From_Visual_Depth_Estimation_Bridging_the_Gap_in_3D_CVPR_2019_paper.html
- 将基于图像的深度图转换为伪 LiDAR 表示——本质上是模仿 LiDAR 信号
- KITTI 3D 对象检测排行榜
Scene Target 3D Point Cloud Reconstruction Technology Combining Monocular Focus Stack and Deep Learning
- focus stack image and deep neural network
- light field imaging technology
- different focal lengths of the scene

自动驾驶的障碍物检测

Concealment and Obstacle Detection for Autonomous Driving 1999

自动驾驶的隐藏和障碍物检测

正面（例如岩石）和负面（例如沟渠）障碍物和隐藏区域
- 正面障碍物的例子有岩石、树木、栅栏等
- 面障碍物是指地面上的凹陷，即沟渠
- 悬垂障碍物是指直接位于地面上方的物体
  - 树枝是户外环境中的典型例子。
常见的方法是将平面拟合到局部网格表示中的点 [6,8,19] 的补丁
- 平面拟合到一块点的方法来检测障碍物。他们的算法计算量大，难以检测小障碍物[18]。
差分深度和斜率来改进、快速的障碍物检测
正面障碍物是表面坡度陡峭的障碍物。这个条件在数学上用以下方式表示
与正面障碍物不同，负面障碍物通常不会因为遮挡而具有陡峭的向下坡度
- 传感器安装得更高并增加倾斜角。这将允许斜率成为检测因素，但也会减少感应区域
为了减少误报的数量，直到沟渠位于 Ladar 图像的高分辨率部分内时才考虑沟渠
- 我们的传感器安装，该区域距离车辆 20 m 以内。该范围可能不足以在高速下行驶
沟渠的远处墙壁是积极的障碍物，可以在更远的地方检测到
有悬空的概念出现：比如树木等，凸出来的一块，但是如果很高就可以过
积极的障碍可能是无害的。例如，短草和鹅卵石由于尺寸小而应被忽略
障碍物检测系统的目标是检测前方足够远的障碍物，以便为制动或避让操作提供时间
车辆快速移动，扫描激光束可能会完全错过障碍物
目标障碍物隐藏在高草丛中时难以识别。
- 高草、灌木和背景树木标记为障碍物

自动驾驶障碍物检测进展报告

Obstacle Detection for Unmanned Ground Vehicles:
A Progress Report 1995

自然和人为障碍物
热图像上尝试立体视觉来解决夜间操作问题
可见光、近红外和偏振图像区分土壤、植被和水进行了初步调查

Learning to Detect Every Thing in an Open World

学习检测开放世界中的每一件事

略读
- 数据集
- 论文
  - 两种设置上评估 LDET：跨类别和跨数据集
    - 已知类上训练模型，并在未知类上评估检测/分割性能
- 代码
- 网络
- 特点
  - 为了避免抑制隐藏对象（可见但未标记的背景对象），我们将带注释的对象粘贴到从原始图像的小区域采样的背景图像上。
    - 由于仅在此类合成增强图像上进行训练会受到域转移的影响，因此我们将训练分为两部分：1）在增强图像上训练区域分类和回归头，2）在原始图像上训练掩模头。
      - 模型不会学习将隐藏对象分类为背景，同时很好地推广到真实图像
      - 在 COCO 的跨类别泛化以及 UVO 和 Cityscapes 的跨数据集评估方面优于基线
  - [ joseph2021towards ]提出了一种用于开放世界检测的半监督学习方法，该方法将远离ground truth box但具有高objectness score的区域视为隐藏的前景对象
- 创新点
  - 当前最先进模型的失败部分是由于训练，即将与带注释的前景对象几乎没有注释的所有区域作为背景，而其中可能有物体，这就导致学习效果不佳
    - 掩码注释复制前景对象并将它们粘贴到背景图像上
    - 使裁剪后的补丁保持较小，我们使生成的合成图像不太可能包含任何隐藏对象
  - 数据增强和解耦训练对于在开放世界实例分割中实现良好性能至关重要
    - 增强策略通过放大小区域以用作背景来创建没有隐藏对象的图像
      - 以创建一个不太可能有任何对象的背景。该管道旨在规避将隐藏对象抑制为背景
  - 避免模型通过频率信息的差异来学习分离背景和前景，前景对象被下采样并调整为原始大小
    - box head 和 proposal 网络仅使用没有背景对象的混合图像进行训练，因此它们擅长检测新对象
      - 虽然定位质量估计 [ kim2021learning ]需要在训练期间仔细选择阈值，但 LDET 不需要。
  - 合成图像和真实图像，通过计算真实图像上的实例掩码损失，同时使用合成图像仅计算提议分类损失和定位回归损失。掩模损失鼓励模型在给定边界框的情况下分离背景和前景像素，其中仅选择定位良好的边界框来计算损失。
总结
- 强大数据增强和训练方案
  - 称之为学习检测一切事物 (LDET)
- 跨域学习
  - 开放世界实例分割

小物体

Feature-fused SSD: fast detection for small objects

https://www.spiedigitallibrary.org/conference-proceedings-of-spie/10615/106151E/Feature-fused-SSD-fast-detection-for-small-objects/10.1117/12.2304811.short?SSO=1

DROAN - Disparity-space Representation for Obstacle A voidaNce:

障碍 A voidaNce 的视差空间表示
Enabling Wire Mapping & A voidance
电线建图和规避

略读
- 语义分割范式下使用卷积神经网络进行单目线检测，并获得线像素的置信度图
- 双目立体对来检测其他通用障碍物
- 视差空间表示来表示电线和通用障碍物
- 多个视差图像上维护一个位姿图来执行碰撞检查的占用推断
- 路径跟踪控制器遵循此轨迹
- 背景杂乱无章、看起来相似的边缘、对比度低或几乎看不到厚度的情况下，它们可能特别难以察觉。
- 平行于立体基线，那么使用水平双目立体对也无济于事
  - 最先进的无人机避障技术，可以说是 Skydio [1]，承认他们的技术无法检测电线和电源线
- 细障碍物，例如电线和电源线
  - thin obstacles such as wires and power lines
- 相关工作 A. 单目检测线检测最早的工作之一来自 Kasturi 等人 [11]，他们使用 Steger 算法 [12] 提取边缘图，然后进行阈值 Hough 变换。坎达莫等人[13]使用 Canny 检测器找到边缘，然后根据使用光流发现的估计运动按比例对它们进行加权，然后进行形态滤波和加窗霍夫变换。 Song 和 Li [14] 提出了一种顺序的局部到全局电力线检测算法，可以检测直线和曲线。全卷积网络[8]为语义分割任务提出了学习上采样和跳过层。
  - 然而，对于细线，FCN 和类似的方法（如 SegNet [15]）在直观上不是最理想的，因为关键信息在池化层中丢失，难以在上采样层中定位。 Dilated 或 atrous 内核提供了一个框架来捕获随着网络深度的增加而呈指数增长的视野，如 [9] 中所解释的那样，通过增加膨胀参数来增加网络深度。我们使用 [7] 的方法使用扩张的卷积网络，这些卷积网络在合成数据上进行了预训练，并在少量真实数据上进行了微调，以便在实践中在测试站点上获得不错的结果。
- 合成线的大型数据集不可用，我们使用光线追踪引擎 [21]、[22] 生成大量合成线，并将它们叠加在公开可用的视频帧上，以制作 ImageNet 模拟用于预训练网络
- 视差空间中使用高斯的原因是，视差误差主要是由于沿核线匹配像素时的对应误差引起的
- 虚拟限制表面来捕获障碍物占据的体积，通过我们在上一节中开发的传感器模型生成两个相应的视差图像
对细线进行检测
- 合成线的大型数据集不可用，我们使用光线追踪引擎 [21]、[22] 生成大量合成线，并将它们叠加在公开可用的视频帧上，以制作 ImageNet 模拟用于预训练网络
  - 没公开
利用视差2。5D，线会遮挡点云，
- 相比之下lidar做不到，太稀疏

目标检测&实例分割

RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation

略读
- 数据集
- 论文
  - https://www.leiphone.com/category/academic/TTcH12nhAzBWl8I5.html
- 代码
  - https://github.com/wangsr126/RDSNet
- 网络
- 特点
- 创新点

综述网址

https://www.zhihu.com/question/434960624#:~:text=%E5%9B%BE%E5%83%8F%E5%88%86%E5%89%B2%E5%92%8C%E6%A3%80%E6%B5%8B%E8%83%BD%E5%A4%9F%E7%BB%9F%E4%B8%80%E8%B5%B7%E6%9D%A5%E5%81%9A%E5%90%97%EF%BC%9F%20%E5%9B%BE%E5%83%8F%E5%88%86%E5%89%B2%E5%9F%BA%E6%9C%AC%E6%80%9D%E8%B7%AF%E6%98%AF%E7%BB%99%E6%AF%8F%E4%B8%80%E4%B8%AA%E5%83%8F%E7%B4%A0%E7%82%B9%E5%88%86%E9%85%8D%E7%B1%BB%E5%88%AB%E6%A0%87%E7%AD%BE%E3%80%82,%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E6%98%AF%E6%8A%8A%E7%9B%AE%E6%A0%87%E6%A1%86%E5%87%BA%E6%9D%A5%E5%B9%B6%E6%89%93%E4%B8%8A%E6%A0%87%E7%AD%BE%E3%80%82%20%E8%BF%99%E6%A0%B7%E7%9C%8B%E8%B5%B7%E6%9D%A5%EF%BC%8C%E5%88%86%E5%89%B2%E6%98%AF%E6%AF%94%E6%A3%80%E6%B5%8B%E6%9B%B4%E7%B2%BE%E7%BB%86%E7%9A%84%EF%BC%8C%E5%AE%8C%E6%88%90%E4%BA%86%E5%88%86%E5%89%B2%E8%87%AA%E7%84%B6%E5%B0%B1%E5%AE%8C%E6%88%90%E4%BA%86%E6%A3%80%E6%B5%8B%E3%80%82

多传感器融合目标检测

End-to-End Leanrnign of Multi-sensor 3D Tracking by Detection

跟踪和检测区别
略读
- 数据集
  - KITTI
- 论文
  - https://arxiv.org/abs/1806.11534v1
  - 通过检测实现多传感器 3D 跟踪的端到端学习
- 代码
- 综述
  - 基于过滤的方法
    - 马尔科夫假设来估计轨迹的后验分布
      - 贝叶斯或蒙特卡洛滤波方法，例如高斯过程[ 3 ]、粒子滤波器和卡尔曼滤波器[ 2 ]
    - 一组检测中决定哪些应该被链接以形成正确的轨迹
    - 马尔可夫链蒙特卡罗 (MCMC) [ 4 , 5 ]、线性规划[ 6 , 7 ]或流程图[ 8 ]来估计关联
- 网络
  - 通过孪生网络利用外观和运动
- 特点、难点
  - 挑战包括处理对象截断、高速目标、照明条件、传感器运动和目标之间的复杂交互，这会导致遮挡和路径交叉
- 创新点
  - 相机和激光雷达数据来生成非常准确的 3D 轨迹
  - 问题表述为一个可以精确解决的线性程序

完全契合的综述

Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review
- 精读
  - 数据集
  - 论文
    - https://blog.csdn.net/qq_15698613/article/details/119091679?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242.1&utm_relevant_index=3
  - Mono Camera and LiDAR fusion
    - 包含信号级、特征级、以及多层次融合
    - 信号级（前融合）
      - 点云深度图与图像结合，形成RGBD图像，然后将RGBD图像送入网络中
      - 例子
        
        如Sparse-to-dense（基于ResNet的自动编码网络，但是真值比较难获取）
        
        Self-supervised sparse-to-dense（Sparse-to-dense的改进，但只对静止物体有效，且输出的深度模糊）
        
        CSPN（卷积空间网络，可以直接提取与图像相关的affinity 矩阵）
        
        CSPN++（CSPN改进版，可以动态调整卷积核大小）
    - 特征级
      - 分别将稀疏深度图和点云送入网络中，完成特征的提取
      - eg
        
        《Depth completion and semantic segmentation》（就是将图像和稀疏深度图先由NASNet进行编码处理，然后融合到共享解码器中，获得良好的深度效果）
        
        Plug-and-Play（利用Pnp从稀疏深度图中计算梯度并更新现有深度图信息）
        
        《Confidence propagation through cnns for guided sparse depth regression》（并行处理图像与稀疏深度映射，并归一化卷积来处理高度稀疏的深度和置信度）
        
        《Self-supervised model adaptation for multimodal semantic segmentation》（将前面提到的单节段扩展到网络不同深度的多阶段）
        
        GuideNet（将图像特征与不同层次的稀疏深度特征在编码其中进行融合，缺乏有效的gt）
    - 多层次融合
      - 前两个做了一个融合
      - 《“Sparse and noisy lidar completion with rgb guidance and uncertainty》（对RGBD数据和深度数据同时进行处理，然后根据置信图进行融合
  - 双目相机与LiDAR融合
    - 就是利用stereo相机之间的视差获取图像的深度值，然后结合稀疏的点云深度信息产生更精确的密集深度
    - eg
      - 《“High-precision depth estimation using uncalibrated lidar and stereo fusion》（两阶段CNN，第一阶段采用激光雷达与Stereo的视差获取融合视差，第二阶段将融合视差与左RGB图像融合在特征空间中，以预测最终的高精度视差，然后再进行三维重建）
      - 《Noise-aware unsupervised deep lidar-stereo fusion》（不需要gt，直接适用图像、点云自身的损失进行端到端训练，好处就是不太关注于点云与图像之间的对齐信息）、类似的还有《Listereo: Generate dense depth maps from lidar and stereo imagery 》

资源

https://zhuanlan.zhihu.com/p/86543002
- 深度学习基于摄像头和激光雷达融合的3-D目标检测

道路故障检测（给出的方法）

【负障碍物方向】

We Learn Better Road Pothole Detection: from Attention Aggregation to Adversarial Domain Adaptation

略读
- 数据集
  - sites.google.com/view/pothole-600
  - 该数据集是使用ZED 立体相机收集的。使用PT-SRP [1]估计道路视差图像；视差变换算法首先在 [2] 中介绍，然后在 [3] 中介绍了高级版本。
  - 开发了一个新的对抗域自适应框架，用于训练集扩充
- 代码
  - https://sites.google.com/view/pothole-600/code
- 网络
  - U-Net
  - PSPNet
  - FuseNet [22] and depth-aware CNN [23]
  - AMs
    - attention module
    - 每个跳过连接中的串联之前为编码器特征映射添加AM
    - 最高级别添加一个AM
  - 对抗域自适应
  - pix2pix
  - 注意力聚合框架
    - Attention Aggregation Framework
  - Attention Aggregation Framework
- 特点
  - 双目摄像头
  - 成功地将其嵌入无人机中进行实时道路检查
  - 视差（或逆深度）变换DT旨在将视差或逆深度图像G变换为准鸟瞰视图
  - 为高级特征图增加一个调幅可以显著提高整体性能
- 创新点
  - 新的注意聚合（AA）框架，该框架充分利用了不同类型注意模块的优点
  - 开发了一种基于对抗域自适应的有效训练集扩充技术，其中生成合成道路RGB图像和变换道路视差（或反向深度）图像，以增强语义分割网络的训练
  - 曲面建模方法检测道路凹坑
  - 开发了一个新的对抗域自适应框架，用于训练集扩充

基于密集亚像素视差图估计的路面3D重建

略读
- 数据集
- 论文
  - https://ieeexplore.ieee.org/abstract/document/8300645
- 代码
- 网络
- 特点
- 创新点

A deep learning approach to automatic road surface monitoring and pothole detection

略读
- 数据集
- 论文
- 代码
- 网络
  - 多元时间序列
  - LSTM
- 特点
  - 用内置的智能手机加速度计来感知路面，从而采用众包感知视角
    - 减速带和其他会在车辆中产生振动但不能视为道路缺陷的结构
    - 有误报
    - 深度学习的方法解决
- 创新点
加速度计传感器

Crack-pot: Autonomous Road Crack and Pothole Detection

纹理和空间特征检测裂缝和坑洞
- 方法在大视点变化、背景噪声、阴影和遮挡方面表现良好
略读
- 数据集
  - standard road crack datasets
    - Kendall, Alex and Badrinarayanan, Vijay and and Cipolla, Roberto, Bayesian SegNet: Model Uncertainty in Deep Convolutional EncoderDecoder Architectures for Scene Understanding, arXiv preprint arXiv:1511.02680, 2015
    - Eisenbach, Markus and Stricker, Ronny and Seichter, Daniel and Amende, Karl and Debes, Klaus and Sesselmann, Maximilian and Ebersbach, Dirk and Stoeckert, Ulrike and Gross, Horst-Michael,”How to Get Pavement Distress Detection Ready for Deep Learning? A Systematic Approach,” 2017 International Joint Conference on Neural Networks (IJCNN) pp. 2039–2047.
  - Zhang dataset
  - GAPs dataset
- 论文
  - 关键词
    - potholes
  - 误报
    - 道路补丁
      - 缺乏关于深度的知识，即使使用人脑也很难确定
- 代码
- 网络
  - SqueezeNet
    - 我们删除了 SqueezeNet 的最后一个卷积层，并合并了一个编码层
  - 编码层的引入有助于学习纹理特征和空间特征。
  - 二元Cross Entropy
- 特点
  - 大视点变化、背景噪声、阴影和遮挡方面表现良好
  - 在编码层中学习到的基于纹理的特征与空间信息相结合，形成了分类的基础。
  - 即插即用模块，而无需改变其基本设计
- 创新点
  - 候选坑洞和裂缝，我们从图像中创建了两个掩码
    - 第二个掩码，对视频帧执行简单的基于微分的边缘检测算法（Canny 边缘检测）。
    - 第一个掩码是通过将视频帧通过修改后的 SegNet

三类传感器

激光雷达
IMU震动
纯视觉

Pothole detection using location‑aware convolutional neural networks

略读
- 数据集
  - 公共坑洞数据集
    - Machine Intelligence Institute of Africa (2017) MIIA deep learn-
      ing Hackathon. http://machi neint ellig encea frica .org/activ ities /
      hacka thon/. Accessed 7 Jan 2019
      - 4026 张训练图像和 1650 张测试图像组成，分为两类：正面（包含坑洞的图像）和负面（没有坑洞的图像）。
- 论文
- 代码
- 网络
  - 两个主要子网络
    - 定位子网络采用高召回率网络模型来找到尽可能多的候选区域
    - 第二个基于部分的子网络对网络预期关注的候选区域进行分类。
      - ResNet50
        
        最后一个全连接层被替换为全局最大池化层，以实现更快的收敛和更好的泛化
      - 提取以检测到的零件位置为中心的大小为 W × H 的局部相邻区域
  - 下采样会增加丢失对坑洞识别至关重要的判别特征的风险
  - 全卷积架构 (FCN) [32] 的位置敏感特性
  - ×3 的简单高斯平滑滤波器和阈值技术来降低噪声并避免弱检测
  - 二元交叉熵损失作为分类损失
- 特点
  - 数据探索
    - 坑洼是路面上的碗状孔洞，表现出强烈的纹理线索，是最普遍的道路损坏类型之一。
    - 形状、比例和阴影上表现出广泛的多样性，并具有各种照明效果，而这些照明效果通常伴随着高度复杂的背景
    - 实例往往更小，判别性细节和特征被模糊或隐藏
  - 路面坑洼的识别通常首先尝试找到更有可能包含坑洼的区域，然后将这些区域放大到更大的分辨率，并专注于可区分的部分
  - 阈值高于 ground-truth 最大值 10% 的区域进行分割
    - LCNN 的召回率很高，这可能会产生许多候选者，并且会导致下一个过程中时间消耗的线性增长
    - 排序前L个取出来
  - LCNN 中涉及的大量子采样，检测到的坑洞中心可能是未对齐的
- 创新点
  - 位置感知卷积神经网络的坑洞检测新方法
  - 侧重于道路中的判别区域，而不是全局上下文
  - 受到用于图像分类任务的细粒度工作成功的启发[
  - 低分辨率的下采样图像找到候选区域，这样可以减少计算量，然后网络将注意力集中在全尺寸图像的区域上
二维视觉中的坑洞检

fishyscapes？？

PotSpot: Participatory sensing based monitoring system for pothole detection using deep learning【2021】

略读
- 数据集
- 论文
  - 端到端系统，用于实时检测、监控和空间映射整个城市的坑洞
  - 为了通过该系统提供端到端服务，坑洞检测和坑洞映射都通过一个安卓应用程序集成
  - Google Maps API（应用程序编程接口）的帮助下生成实时坑洞标记地图
  - 10 折交叉验证。所提出的模型已达到 97.8% 的验证准确率
- 代码
- 网络
  - 避免过拟合，这个预训练模型的所有隐藏层都被冻结，只在平均池化层之上添加了一个密集层和 0.5 的 dropout，而不是加载 InceptionV3 模型的全连接层，以使其适合我们的模型
- 特点
- 创新点
  - 坑洞图像的实时分类
  - 以帮助人们定位坑洼的端到端系统
  - 不牺牲性能的情况下处理越来越多的数据。它可以通过将云服务整合到系统中来实现。云可扩展性还确保了成本效益
  - 智能手机应用程序提供坑洼的空间映射
  - android 应用程序来捕获坑洞图像并将其位置存储到 Firebase 数据库
主要贡献在应用层面和详细的文献综述，讨论了一种可行的部署方案
自己数据集

此领域传统算法仍然很多

Real-time machine learning-based approach for pothole detection 【2021】

略读
- 数据集
- 论文
  - 随机森林树模型
- 代码
- 网络
- 特点
- 创新点
  - 2 秒非重叠移动窗口进行预处理，以提取相关统计特征以训练二元分类器

Pothole Detection Based on Disparity Transformation and Road Surface Modeling

Rethinking Road Surface 3D econstruction and Pothole

detection: From Perspective Transformation to Disparity Map Segmentation 2020
重新思考路面 3D 重建和坑洞检测：从透视变换到视差图分割

视差图估计和分割的高效坑洞检测算法
立体钻机滚动角来概括透视变换
半全局匹配估计道路差异
执行视差图变换算法以更好地区分损坏的道路区域
线性迭代聚类将变换后的视差分组为一组超像素
查找超像素来检测坑洼，这些超像素的值低于自适应确定的阈值
3D geometry can be reconstructed in a Structure from Motion (SfM)
近年来，表面建模（SM）已成为一种流行且有效的坑洞检测技术[27]-[29
实际路面有时是不平坦的，这使得二次曲面建模有些问题
- 排水
we 3 generalize the perspective transformation (PT) proposed in [4], by incorporating the stereo rig roll angle into the PT process, which not only increases disparity estimation accuracy but also reduces its computational complexity
半全局匹配（SGM）[31]被用于密集亚像素视差图估计
PT-FBS，这是一种 GPU 友好的视差估计算法，已被证明是完全连接的 MRF 模型中能量最小化问题的一个很好的解决方案
布雷等人。 [21] 还训练了一个神经网络 (NN) 来检测和分类道路损坏。然而，监督分类器需要大量标记的训练数据。这种数据标记过程可能非常耗费人力[5]
用了kmeans，k=2
- 只能同时找出一个坑
道路坑洼检测数据集可在以下网址公开获得：sites.google.com/view/tcyb-rpd
- 404

分割任务

DLT-Net

WarpCut – 单目视频中的快速障碍物分割

WarpCut – Fast Obstacle Segmentation in Monocular Video 2007

单个摄像头记录的视频中快速分割静止障碍物
- 地平面、背景和障碍
- 单目视频中的运动中准确分割静止障碍物的方法
略读
- 数据集
- 论文
  - 移动物体可以很容易地通过基于光流的方法或 - 在车辆应用中 - 通过雷达来检测
  - 分割必须是通用的，因为它们不能依赖于关于障碍物颜色或形状的特定假设
  - 数学上，这种无约束的运动分割是一个高度不适定的问题
  - 必须估计区域中的运动场
- 代码
- 网络
- 特点
  - 估计在分割过程中被迭代地细化
  - 二元分割问题通过运动补偿差分图像上的图形切割来解决
  - 无需事先了解障碍物的大小、形状或基点
  - 相对像素运动非常小
    - 物体仍然远离驾驶车辆时，
- 创新点
  - 最后两帧和前一个分割将其分割为障碍物和非障碍物区域
  - 障碍物检测系统给出了近似的障碍物距离估计
  - 标签基于运动信息
障碍深度估计
- 当前图像相比更高的灰度值差异
- 除了遮挡伪影之外，分割结果非常精确

A Benchmark for Anomaly Segmentation

异常分割的基准

略读
- 数据集
  - 基准测试结合了两个新的异常分割数据集
- 论文
  - https://www.arxiv-vanity.com/papers/1911.11132/
- review
  - Krešo等人。[ 22 ]在多个语义分割域上进行训练，如果来自 WildDash 驱动数据集的图像区域被分割为来自不同域的区域，即室内类，则将它们视为分布外区域
  - 医学异常分割和产品故障检测
    - 基于重建的方法需要对干净数据进行良好建模才能工作
    - 来自街景的复杂图像。这些图像在场景布局和照明方面具有很高的可变性，因此不太适合基于重建的技术。
  - 模拟驾驶环境自然地插入异常3D 模型来克服这些问题到场景中，而不是通过叠加 2D 图像
  - 我们确保在测试时看到的所有异常都来自完全看不见的类别，并且没有以任何方式进行调整，因此我们不与诸如此类的技术进行比较[ 25 ]。
- 代码
- 网络
- 特点
  - 带有异常对象的真实图像的 BDD-Anomaly 数据集
    - 们将不常见的对象类保留为异常
    - 将此数据集与 StreetHazards 相结合，形成组合异常对象分割 (CAOS) 基准
  - 探索使用多标签分类器进行分布外检测，并在此设置中评估几种新的检测机制
  - 模拟驾驶环境自然地插入异常3D 模型来克服这些问题到场景中，而不是通过叠加 2D 图像
- 创新点
  - 此外，我们改进了大规模多类数据集的分布外检测器，并为以前未探索的多标签分布外检测设置引入了检测器
  - 使用真实图像和来自模拟驾驶环境的图像，我们确保背景上下文和各种异常对象自然地整合在一起
  - 数据集要怎么做
    - 简单地将异常对象剪切和粘贴到图像中会引入各种不自然的赠品线索，这些线索过度简化和轻视异常分割的任务，例如边缘效应、不匹配的
    - 模拟驾驶环境来创建异常分割数据集，我们称之为 StreetHazards
      - 虚幻引擎和开源 CARLA 模拟环境
  - BDD-Anomaly 数据集填补了 Lost and Found 中的几个空白
  - 训练期间，由于图像数量不足以进行正确的均值和方差估计，我们冻结了批归一化参数
总结
- 数据集要怎么做
  - 简单地将异常对象剪切和粘贴到图像中会引入各种不自然的赠品线索，这些线索过度简化和轻视异常分割的任务，例如边缘效应、不匹配的
  - 模拟驾驶环境来创建异常分割数据集，我们称之为 StreetHazards
    - 虚幻引擎和开源 CARLA 模拟环境
- CAOS 基准通过评估现实和多样化异常的检测器，改进了以前对驾驶场景中异常分割的评估
  - AUROC、AUPR 和 FPR 进行评估
- BDD-Anomaly 数据集填补了 Lost and Found 中的几个空白
- 训练期间，由于图像数量不足以进行正确的均值和方差估计，我们冻结了批归一化参数

Lost and Found 数据集

MergeNet

略读
- 双目深度方案
- 网络结构创新，融合深度信息
论文
- https://www.connectedpapers.com/main/c0731e3d9dc5450901ca2a0365f53350aedfef09/MergeNet:-A-Deep-Net-Architecture-for-Small-Obstacle-Discovery/graph
- https://arxiv.org/abs/1803.06508v1

A Novel Multi-layer Framework for Tiny Obstacle Discovery

略读
- 单目方案
  - 依赖于边缘框和边缘遮挡
- 关注远距离危险障碍物
- https://www.arxiv-vanity.com/papers/1904.10161/
精度
- related works
  - 视觉障碍发现主要分为三类：基于相关性的方法[ 1 ] [ 2 ]、基于分割的方法[ 3 ] [ 4 ]和基于提议的方法[ 5 ] [ 6 ]

Detecting Unexpected Obstacles for Self-Driving Cars:

Fusing Deep Learning and Geometric Modeling

数据集资源

https://knowyourdata-tfds.withgoogle.com/#dataset=lost_and_found&tab=STATS&relations=kyd%2Fcloud_vision%2Fface_probability,kyd%2Flost_and_found%2Fsplit&draw=kyd/lost_and_found/has_segmentation_label,img,segmentation_label&auto_draw=false
TensorFlow有数据集探索的代码

Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles

失物招领：检测自动驾驶车辆的小道路危险

数据集提出的论文
- FPHT
- PHT
  - 略读
    - 直接平面假设
    - lost and found 数据集提出
超过两千帧的障碍物和自由空间的像素注释
- 丢失货物图像序列数据集
在 20 m 距离以低误报率成功检测到 5 cm 高的小障碍物

Dense anomaly detection by robust learning on synthetic negative data

将人工底片粘贴到常规训练图像中获得的混合内容图像

复杂驾驶场景中的逐像素异常检测

Pixel-wise Anomaly Detection in Complex Driving Scenes

综合两种方法
- 利用分割不确定性来识别异常区域
- 从语义标签图中重新合成图像以发现与输入图像的不同之处
  - 益于不需要重新训练分割网络
成就
- 显着提高了所有数据集的 AP。将 FS L&F 和 FS Web 的 FPR95 降低了 50%
  - 保持私榜泛化性能
切入点
- 异常实例分析
  - 首先，异常实例被正确分割并分类为训练类之一（即鸟被混淆为人）（顶部）。其次，异常实例被多个类过度分割（即狗被检测为人、植被和地形类的组合）（中）。第三，异常实例与背景混合，未检测到（即框与街道分割混合）（底部）。
- 分割性能和异常检测之间存在权衡
结构
- 训练阶段在框架中分离，在测试阶段紧密集成
主要实验中没有使用道路异常数据集，因为它仅包含六十 (60) 张图像，这不足以确保在异常分割中具有适当的泛化能力。此外，异常对象的注释不一致。例如，路中间的一块岩石被标记为异常。然而，道路旁边的相同风格的岩石被归类为内陆。

LF

直接假设平面 pht
- 假设地平面
fpht
- 对于校准的立体相机，可以使用简化的参数化，减少自由参数的数量和优化问题的复杂性
数据集
- 概况
- 由总共 112 个视频立体序列组成，带有对自由空间区域的粗略注释和对道路障碍物的细粒度注释。每 10 帧提供一次注释，总共有 2104 个带注释的帧
后续被fishyscapes标准拿去做训练集

Dense anomaly detection by robust learning on synthetic negative data合成负数据的鲁棒学习进行密集异常检测

混合图像训练，合成的负补丁，训练和推理一致应用的原则性信息论标准来检测异常
合成的负补丁扩展了这种方法，同时实现了高内部似然和统一的判别预测
建议根据可以通过训练和推理一致应用的原则性信息论标准来检测异常
训练
- 最小化内点的交叉熵来训练判别模型
  - 最大化粘贴底片的预测不确定性
- 补丁粘贴在随机位置
  - 辅助负数据集不需要了
  - 就是粘贴策略换了一下
    - 随机位置粘贴异常（参见图4，左）。这通过适应阴影和照明
- 搜索 f-divergences 集以获得更稳健的损失函数
  - KL 散度的强烈惩罚。这种损失使判别模型降低了对内部内容的置信度，因此触发了异常检测器的频繁误报响应，也使得模型性能下降
  - JS散度好用

网络

  - 负补丁X-我们将其粘贴在原始内部图像上
  - 生成的混合内容图像

X’被馈送到经过训练以区分内部像素的密集分类器（Cls)并提高负像素的统一预测

成就

生成对抗Detecting the Unexpected via Image Resynthesi

intro
- 生成的语义图重新合成图像将产生相对于输入图像的显着外观差异
- 将检测未知类别的问题转化为识别重新合成不佳的图像区域的问题
方法
- 原始图像、重新合成的图像和预测的语义图作为输入，生成一个表示意外对象的二进制掩码
- 适用于在测试时检测从未见过的类
- 训练了第二个网络，我们称之为差异网络，以检测显着的图像差异
- 相关性来检测两个输入图像中同时出现的对象
  - 首先从输入中提取特征。我们对原始图像和重新合成的图像使用预训练的 VGG [39] 网络，并使用自定义 CNN 来处理预测的 one-hot 表示
  - 计算真实图像的特征和重新合成的特征之间的逐点相关性，并将其与减少的级联特征一起传递到返回最终差异分数的上卷积金字塔
问题
- 生成出来的图域泛化性能如何，比如路面、周边建筑
优势
- 解决数据集问题
- 可以使用其他领域pretrain
  - 只需要生成检测部分即可

SOD

贡献
- 新的雷达、视觉联合标定方法
- lidar+视觉小障碍物数据集和模型
深度信息
- 小型 1-D 卷积网络，以将路缘边界内的每个点分类为道路或障碍点。
- 设计规则套公式
  - 断点检测：我们在点云的每个环内识别几何断点
- 将道路上检测到的 LiDAR 不连续性与图像空间中附近的地面实况小障碍物分割标签对齐
标定
- 基于 Haussdorf 距离
- 小障碍物检测任务来说，微小的校准误差可能会带来极大的问题
方法
- pretrain是在 CityScapes 数据集上进行的。
- 骨干网DeepLab-V3

模板

略读

数据集
论文
代码
网络
特点
创新点

精读（有代码）

详细网络结构
trick
code
传感器类型
评价指标

RGB

LiDAR

障碍物检测模块

特征匹配得到视差图，估计深度信息

预处理（栅格化、体素化、稀疏化等）

决策模块

你可能感兴趣的:(自动驾驶,计算机视觉,深度学习)

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能自动驾驶 unix ai
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择关键词：AI伦理、自动驾驶、道德算法、电车难题、责任归属、技术监管、人机协作摘要：本文深入探讨自动驾驶技术发展过程中面临的伦理挑战，从经典的"电车难题"出发，分析AI决策系统在生死抉择中的道德困境。我们将剖析自动驾驶的伦理框架设计原则，探讨技术实现方案，并通过代码示例展示伦理算法如何嵌入自动驾驶系统。文章还将讨论法律责任划分、社会接受度等现实问题，最
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&