小北的北

深度估计之旅 — AICrowd单目深度感知

训练图像示例与真实标签

最近，我参加了AICrowd单目深度感知比赛，这是我机器学习之旅中的一个值得自豪的里程碑。我获得了第四名，并获得了“最创意解决方案奖”。在这篇文章中，我将详细介绍挑战、我的方法以及所学到的经验。我还开源了代码和模型权重，可以在这里访问 - SAUDD2023。

最终排行榜

挑战

比赛围绕两个关键任务展开 - 语义分割和单目深度感知。这两个任务在模型架构方面相似，但在足够不同的地方需要特别注意。由于时间限制和我对当前计算机视觉状态的陌生，我决定专注于深度估计。

简而言之，深度估计涉及测量相机与场景中物体之间的距离。对于无人机而言，这是一项关键的感知任务。使用两个立体相机可以通过立体视觉方法完成这项任务。然而，挑战在于开发一个能够利用单个相机和单个图像的信息来预测每个像素深度的模型。

数据集

数据集包括由我们无人机上的一个下视相机在特定时间戳捕获的一系列飞行帧。这些图像是在特殊的数据收集操作期间收集的，而不是在客户交付操作期间。

提供了图片文件夹的说明性截图，其中每个文件名分为两部分：飞行ID（彩色方块）和图片时间戳

数据集包括412个飞行，共计2056帧（每个飞行近似五帧，不同的地面以上高度），所有帧的完整语义分割注释以及深度估计。组织者将数据集分为训练、验证和测试（公共/私有）集。尽管没有明确说明这种划分背后的逻辑，但可能使用了飞行ID进行划分。

这些数据集包括鸟瞰图灰度图像，拍摄距离地面以上5米至25米之间（AGL）。用于语义分割任务的注释是在19个不同类别中全标记的图像。用于单目深度估计任务的注释是使用几何立体深度算法计算的。

深度注释包含相对深度图，这意味着单凭这些图就无法确定绝对深度值（即以米为单位）。它们被编码为uint16图像，但必须转换为表示深度的浮点值。无效值表示为零。

这是一个单个飞行的示例。顶行显示输入图像，底行呈现相应的目标

评估指标

比赛评价指标是论文“从单个图像中预测深度图的多尺度深度网络”（第3.2节）提出的标度不变错误。作者观察到仅仅识别场景的平均尺度就占总RMSE错误的相当大一部分。他们引入了SI错误，该错误考虑了场景的全局尺度。该指标对场景中点之间的关系非常敏感，而不考虑绝对全局尺度。

对于比赛，该指标对每张图片进行单独计算，然后使用均值进行聚合。

我在训练模型时实现了这个逻辑。

def si_log(prediction, target):
    bs = prediction.shape[0]


    prediction = torch.reshape(prediction, (bs, -1))
    target = torch.reshape(target, (bs, -1))


    mask = target > 0  # 0=missing target
    num_vals = mask.sum(dim=1)


    log_diff = torch.zeros_like(prediction)
    log_diff[mask] = torch.log(prediction[mask]) - torch.log(target[mask])


    si_log_unscaled = torch.sum(log_diff**2, dim=1) / num_vals - (torch.sum(log_diff, dim=1)**2) / (num_vals**2)
    si_log_score = torch.sqrt(si_log_unscaled) * 100


    si_log_score = torch.mean(si_log_score)
    return si_log_score

验证策略

在机器学习竞赛中，有效的验证对于可靠地估计模型性能而不进行正式提交是至关重要的。就像在现实世界的机器学习应用中一样，训练-验证拆分的设计理想情况下应该模仿训练-测试拆分（由竞赛组织者或在现实世界的情况下由进程的性质设置）。

在这个比赛中，每个飞行由五张不同时间戳的图像表示。我的初始策略是通过确保来自同一飞行的不同时间戳不同时出现在训练集和验证集中，防止任何泄漏。为此，我使用了基于飞行ID的KFold拆分，将所有飞行ID分为五个折叠。这确保了特定飞行ID的图像只出现在训练集或验证集中，而不会同时出现在两者中。

然而，这种方法并没有产生令人满意的结果，导致评分被高估。这种差异背后的确切原因并不是完全清楚的，这促使我重新评估我的验证策略。

我决定采用由竞赛组织者提供的用于微调模型超参数并评估其性能的训练/验证拆分。KFold拆分策略被保留，但被重新用于训练五个不同的模型，目的是稍后混合它们的输出。这种双管齐下的方法使我能够在可靠性能估计和最终模型的稳健性之间取得平衡。

图像预处理

预处理阶段涉及将图像加载到内存并将其调整大小为62 * patch_size乘以37 * patch_size的尺寸，其中DinoV2的patch大小为14。选择62和37这两个数字是为了保持图像的原始纵横比（2200/1550接近62/37）。调整大小使用cv2.resize函数进行，对图像使用cv2.INTER_CUBIC，对深度掩膜使用cv2.INTER_NEAREST。

调整大小后，使用预先计算的均值和标准差值对图像进行标准化。这些值是针对数据集中的每个图像计算的，然后进行平均。

鉴于输入图像是单通道的，而DinoV2使用三个通道，我将相同的图像复制三次，以模仿三个通道。对于训练数据，我加入了一些基本的增强，而验证图像则保持原样。

self.aug_transform = A.Compose(
    [
        A.OneOf(
            [
                A.HorizontalFlip(),
                A.VerticalFlip(),
            ],
            p=1.0,
        ),
    ],
    p=0.5,
)

然后，处理过的图像通过模型。输出被调整回处理图像的尺寸，使用torch.nn.functional.interpolate函数进行插值处理后，通过比较调整大小的深度掩膜与插值过程的输出来计算损失。

在推断期间，插值是从模型输出到图像的原始大小进行的。

使用裁剪图像与调整大小图像进行训练

在这个比赛中，输入图像的尺寸约为2200*1500。鉴于这种高分辨率，直接将完整图像馈送到网络中是不可行的，尤其是对于具有二次内存复杂性的视觉变换器骨干。例如，在完整图像上进行一次前向传递消耗了超过40GB的内存。

我研究的大多数深度估计论文都建议使用图像的裁剪段进行模型训练，另一种方法是调整整个图像的大小。我的初始策略是在图像的裁剪段上训练模型，然后使用CPU对完整图像执行推断，或者使用测试时间增强（TTA）。TTA的一种方法是使用滑动窗口在图像的不同裁剪段上生成预测，最终预测是所有单个预测的平均值。

测试时间增强（TTA）涉及创建原始图像的修改版本，并使用模型对其进行处理。然后，将得到的预测汇总为单个通常更准确的预测。

在这个比赛中，使用裁剪图像进行训练似乎有两个潜在的优势：

由于所有图像的大小不相同，裁剪将有助于保持原始纵横比，避免由调整大小引起的扭曲。
使用裁剪图像进行训练有助于更容易进行数据增强，可能减少过拟合。

然而，与期望相反，在这个比赛中使用裁剪图像并没有产生令人满意的结果。我的分析表明，这可能是由于在裁剪时丢失了有价值的上下文信息。例如，考虑一幅带有汽车和树的图像（图像A）。当这个图像被调整大小（图像B）时，模型仍然保留了树的可见性，这对于汽车的深度估计可能是至关重要的。然而，如果树被裁剪掉（图像C），这个有价值的上下文线索就丢失了，可能会对模型的性能产生负面影响。

模型架构

我的最终解决方案结合了两个预训练模型，然后在我的数据集上进行了微调。我使用DinoV2模型作为骨干，并使用MIM模型的头部（舍弃了MIM的SwinBaseV2骨干）。以下考虑因素启发了这种方法：

MIM架构对我表现良好。在比赛期间，DinoV2论文发布了以及其权重。鉴于作者声称具有最先进性能，我决定将其纳入我的流程。
虽然DinoV2的作者确实测试了他们的模型进行深度估计任务，但他们只发布了骨干的权重，而没有发布任务本身的权重。他们建议使用深度估计工具包（https://github.com/facebookresearch/dinov2/issues/46），但我在安装过程中遇到了库版本不一致的问题。此外，该工具包缺乏预训练权重，我认为从头开始训练头部并不是最有效的方法。

因此，我选择了合并两个模型的最佳部分。我使用了包含300M参数的DinoV2大型模型作为骨干，以及MIM Base头部，其中包括一个额外的解码器块并且消除了线性放大层。

我还尝试过DinoV2 G模型（1100M参数）和MIM的不同版本（large/base）。嵌入大小为：

DinoV2输出大小：

大（L） - 1024
大（G） - 1536

MIM（SwinBaseV2）头部输入大小：

基础 - 1024
大 - 1536

我测试了各种组合（L+Base，L+Large等）。如果嵌入大小不匹配，我包含了一个1x1卷积来调整Dino输出的大小。最好的结果是使用Dino大型和MIM基础模型获得的。

举例说明，以下是训练预测的示例：左图是输入，中间图表示深度目标，右图显示模型的预测。预测中的显著方块伪影是由于ViT中的补丁造成的

冻结骨干，微调头部

在数据集相对较小的情况下，微调骨干可能不会有益，因为它可能导致过拟合。因此，在微调过程中通常会冻结骨干，仅微调或从头开始训练头部。

如果骨干被冻结，其输出将保持不变。骨干占据模型总参数的相当大的部分。例如，我使用的DinoV2骨干的参数在300到1100百万之间，而简单的卷积头部的参数在1到10百万之间。

因此，我们可以为数据集中的每个图像缓存骨干的输出，然后使用这个输出而不是通过骨干传递特征。以下是说明这个想法的简化伪代码：

backbone_model = ...
head_model = ...


# prepare cache - consumes a lot of RAM or disk space
cache = {}
for i, picture in enumerate(dataset):
    features = backbone_model(picture)
    cache[i] = features


# run model training - much faster
dataloader = DataLoader(dataset)
for batch in dataloader:
    x, y_true = batch
    y_hat = head_model(x)
    loss = clc_loss(y_true, y_hat)
    [...]


# run inference
input_pic = ...
features = backbone_model(input_pic)
answer = head_model(features)

在我的实验中，我将DinoV2的特征存储在磁盘上，大约占用了100GB的磁盘空间。然而，训练过程加速了大约五倍，使得这种方法变得值得一试。

不幸的是，与骨干未冻结的管道相比，模型的性能较差。因此，我决定不将这种方法纳入我的最终解决方案。

优化器：SGD、Adam、AdamW、Adan和Lion

考虑到微调的任务，我最初假设随机梯度下降（SGD）会产生最佳性能。在比赛期间，我尝试了几种优化器，包括：

SGD — 考虑到手头的任务，我认为纯SGD对微调是一个理想的选择。
Adam — 一个经得住考验的选择，Adam是优化的可靠工作马。
AdamW — 考虑到数据集的有限大小和增强的温和强度，我认为一些额外的正则化可能是有益的。
Lion和Adan — 我还想测试这些现代优化器。

根据我的实验，Adan表现出最佳性能。AdamW和Adan紧随其后。Lion和SGD，不幸的是，在这个特定任务中没有产生良好的结果。

一个担忧是在训练的初始阶段，当Adam的矩估计还没有估计出来时，“步骤”可能过大，这可能对模型的性能产生负面影响。为了在训练过程中促进稳定性，我加入了一个简短的预热：在训练的前200个步骤中，学习率从0线性增加到0.00004。

累积批次

为了训练我的模型，我使用了一个带有40GB内存的A100 GPU。根据模型和分辨率，GPU可以处理1到6个图像的批次。这导致了两个显着的挑战：

小批量大小（1-2）导致学习不稳定。
不同的批次大小（例如，1对比6）导致不可比较的结果。较小的批次意味着每个时期的更新更多，使得时期末的损失成为不可靠的度量。

为了解决这些问题，我转而使用梯度累积。我将有效批次大小设置为12，这是一个相当保守的数字，但在我的情况下证明是有效的。

BS = 4
NUM_ACCUMULATION_STEPS = 12 % BS


loss = criterion(prediction, target)
loss = loss / NUM_ACCUMULATION_STEPS
loss.backward()


if n_steps % NUM_ACCUMULATION_STEPS == 0:
    optimizer.step()
    optimizer.zero_grad()

大梯度

在整个比赛中，我遇到了模型无法有效收敛的情况。我怀疑这个问题可能归因于梯度过大的问题。大梯度意味着可能朝错误的方向迈出较大的步伐。

为了进一步调查，我开发了一个函数来检查每个层中梯度的分布。然而，由于其性能较慢，我只在初始训练运行的每个第n个时期执行了这个检查，为了效率目的，稍后禁用了它。

def plot_gradients(model, output_folder):
    gradients = {}
    for name, param in model.named_parameters():
        if param.grad is not None:
            if name not in gradients:
                gradients[name] = []
            gradients[name] = param.grad.cpu().detach().numpy()


    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # Plot and save gradient distribution for each layer
    for name, grad in gradients.items():
        plt.hist(np.reshape(grad, [-1]))
        plt.title(f"{name} Gradient Distribution")
        plt.xlabel("Gradient Bins")
        plt.ylabel("Frequency")
        plt.savefig(os.path.join(output_folder, f"{name}.png"))
        plt.clf()

当分析网络的最后几层的梯度时，问题显现出来。这些层显示出显著大的梯度，对模型的收敛产生了不利影响。一个具体的例子是输出层的梯度，其中幅度明显较大。

我通过应用一种称为梯度裁剪的技术来解决这个问题。通过实施梯度裁剪，我限制了梯度的幅度，以防止其超过某个阈值。这种方法有助于缓解网络最后几层中梯度过大的问题，并有助于改善收敛性能。

clip_grad_max_norm = 3
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), clip_grad_max_norm)
optimizer.step()
optimizer.zero_grad()

· END ·

HAPPY LIFE

本文仅供学习交流使用，如有侵权请联系作者删除

阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
如何让RocketMQ保证消息的顺序消费？思维导图代码示例（java 架构) 用心去追梦 java-rocketmq rocketmq java
保证消息的顺序消费在某些业务场景中非常重要，例如金融交易、库存管理等。RocketMQ提供了有序消息（FIFO消息）的支持，确保消息按照发送的顺序被消费。为了实现这一点，RocketMQ采用了一些特定的机制和配置来确保消息的顺序性。RocketMQ顺序消费思维导图建议顺序消费原理单队列模式每个Topic下的每个队列只由一个消费者线程处理确保消息按序处理分区有序对于有多个分区的Topic，可以通过设
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
开源OA办公系统零起飞 ERP 开源 oa
介绍07FlyOA是一款基于TP5+HAdmin+Mysql打造的简单实用的开源的企业办公系统框架。可以帮助解决企业办公项目60%的重复工作，让开发更多关注业务逻辑。既能快速提高开发效率，帮助公司节省人力成本，同时又不失灵活性。使用07FLyOA可以简单快速地开发出企业级的Web应用系统。系统特点系统各功能模块，一目了然，操作简单；通用型的后台权限管理框架，员工的操作记录全覆盖跟踪，紧随潮流、极低
【深度分析】Deepseek为什么会这么爆火？精通代码大仙深度分析新媒体运营创业创新
算力霸权崩塌之夜：一场颠覆AI工业体系的静默革命当DeepSeek用600万美元训练成本击穿硅谷巨头60亿美元的护城河时，整个AI工业体系的地基正在发生断裂。这场看似技术跃迁的盛宴，实则是算力霸权崩塌的末日钟声——当中国团队用1/10的显卡数量训练出性能碾压Llama3的模型，硅谷引以为傲的暴力堆料范式正在沦为数字时代的蒸汽机车。效率革命的背后暗藏致命悖论：MoE架构创造的11倍训练效率奇迹，是否
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
自动驾驶（Automated Driving）系统组成和主要技术--以思维导图形式介绍大连海事的亲外甥自动驾驶人工智能机器学习
一、自动驾驶概念介绍自动驾驶是指汽车依靠传感器、高精度地图和复杂的算法等，不需要驾驶员操作而自动完成驾驶的技术。二、自动驾驶系统组成和主要技术架构图思维导图形式绘制1、感知层传感器模块:包括摄像头、激光雷达、毫米波雷达和超声波雷达等，用于获取车辆周围环境的数据，如道路状况、其他车辆、行人和障碍物等。定位传感器模块:包括GNSS(全球导航卫星系统)、INS(惯性导航系统)和视觉SLAM等，用于确定车
Python酷库之旅-第三方库Pandas(005) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习和成长
目录一、用法精讲7、pandas.read_clipboard函数7-1、语法7-2、参数7-3、功能7-4、返回值7-5、说明7-6、用法7-6-1、代码示例7-6-2、结果输出8、pandas.DataFrame.to_clipboard函数8-1、语法8-2、参数8-3、功能8-4、返回值8-5、说明8-6、用法8-6-1、代码示例8-6-2、结果输出9、pandas.read_excel函
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
PyTorch 框架实现线性回归：从数据预处理到模型训练全流程大模型铲屎官 PyTorch pytorch 线性回归人工智能深度学习 python
系列文章目录Pytorch基础篇01-PyTorch新手必看：张量是什么？5分钟教你快速创建张量！02-张量运算真简单！PyTorch数值计算操作完全指南03-Numpy还是PyTorch？张量与Numpy的神奇转换技巧04-揭秘数据处理神器：PyTorch张量拼接与拆分实用技巧05-深度学习从索引开始：PyTorch张量索引与切片最全解析06-张量形状任意改！PyTorchreshape、tra
HTML表单深度解析：GET 和 POST 提交方法大模型铲屎官 html 前端 HTML GET POST javascript 编程
系列文章目录01-从零开始学HTML：构建网页的基本框架与技巧02-HTML常见文本标签解析：从基础到进阶的全面指南03-HTML从入门到精通：链接与图像标签全解析04-HTML列表标签全解析：无序与有序列表的深度应用05-HTML表格标签全面解析：从基础到高级优化技巧06-HTML表单深度解析：GET和POST提交方法文章目录系列文章目录前言一、HTML表单的基本概念与元素1.1表单概述1.1.
【Python进阶】5招轻松掌握Python计算机视觉，你还用传统方法吗？墨瑾轩 Python入门~精通 python 计算机视觉开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5招轻松掌握Python计算机视觉，你还用传统方法吗？开场白嘿，小伙伴们！今天我们要聊一个非常酷炫的话题——如何使用Python进行计算机视觉。想象一下，当你手头上有一组图像数据，需要对其进行识别、检测或分割，你会怎么做？手动编程？Nonono，那太累了！今天
【深度分析】DeepSeek 遭暴力破解，攻击 IP 均来自美国，造成影响有多大？有哪些好的防御措施？精通代码大仙深度分析新媒体运营创业创新
技术铁幕下的暗战：当算力博弈演变为代码战争一场针对中国AI独角兽的全球首例国家级密码爆破，揭开了数字时代技术博弈的残酷真相。DeepSeek服务器日志中持续跳动的美国IP地址，不仅是网络攻击的地理坐标，更是技术霸权对新兴挑战者的精准绞杀。这场攻防战早已超越传统网络安全范畴，成为大国科技博弈的微观镜像。暴力破解的每一声警报都在叩击技术主权的边界。攻击波峰时每秒数万次的认证请求，实质是算力优势向网络安
机器学习Day01 酒脑猫机器学习人工智能
人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径，深度学习是机器学习的一种更加深入的方法。机器学习学习方法基于规则的学习：程序员根据自己经验定义规则基于模型的学习：由于某些事物，问题无法可以定义明确的规则，如：图片，语音
如何评价deepseek上线的deepseek-V3模型？怎么使用？百态老人学习
DeepSeek-V3模型是深度求索公司最新推出的自研MoE（混合专家）模型，具有6710亿参数，激活参数为370亿，经过14.8万亿token的预训练。该模型在多项评测中表现出色，超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，并与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相媲美。性能评价性能表现：DeepSeek-V3在知识类任务、长文本处理、代
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
AI技术赋能电商行业，引领变革 m0_74136676 人工智能
AI大模型在电商行业的应用正在不断拓展，其强大的数据处理和分析能力为电商平台带来了前所未有的创新机遇。一、购物推荐的创新应用AI大模型通过分析用户的浏览历史、购买记录、搜索关键词等大量数据，能够生成个性化的商品推荐。这种推荐系统比传统的基于规则或简单协同过滤的推荐更为精准。它利用深度学习技术，更准确地预测用户的兴趣点，使推荐内容更加贴切，从而提高用户点击率和购买转化率。例如，当用户在电商平台上搜索
OpenCV 功能函数介绍（二） ኈ ቼ ዽ 人工智能算法
一，梯度处理的sobel算子函数功能：用于计算图像梯度（gradient）的函数参数：cv2.Sobel(src,ddepth,dx,dy,ksize=3,scale=1,delta=0,borderType=None)cv2.Sobel（输入图像，应该是灰度化后的图像输出图像的所需深度，：-1来表示与输入图像相同的深度x方向上的导数阶数，如果你想要计算x方向上的梯度，设置这个参数为1；如果你不关
2024年AIGC技术未来发展趋势与挑战：从应用创新到伦理监管小宝哥Code ChatGPT与AIGC AIGC
生成式人工智能（AIGC，ArtificialIntelligenceGeneratedContent）作为人工智能领域的一个重要分支，正在快速发展并改变着多个行业的格局。2024年，AIGC技术持续取得突破，并进入更多实际应用场景。本文将详细介绍AIGC的基本概念、原理、最新前沿技术及发展趋势。1.生成式人工智能（AIGC）基本概念与原理生成式人工智能（AIGC）是指通过人工智能技术，尤其是深度
Prompt提示词完整案例：让chatGPT成为“书单推荐”的高手老六哥_AI助理指南 AI提示词案例 prompt chatgpt 人工智能
大家好，我是老六哥，我正在共享使用AI提高工作效率的技巧。欢迎关注我，共同提高使用AI的技能，让AI成功你的个人助理。许多人可能会跟老六哥一样，有过这样的体验：当我们遇到一个能力出众或对事物有独到见解的朋友时，我们往往会认为他们一定经过了特别的学习或培训。我们常向他们请教推荐书目，希望从中获得启发。在互联网上，那些在各自领域表现卓越的人士也乐于分享自己的阅读清单，以此展示他们的专业素养和知识深度。
技术文档规划布局：构建系统性与连贯性的架构 m0_74136676 软件工程
在技术文档的创作历程中，规划布局堪称构建稳固大厦的蓝图设计环节。合理确定文档的整体架构，包括精心设计章节设置与巧妙安排逻辑顺序，是确保信息呈现系统性与连贯性的关键所在，直接关系到文档的质量与可用性。一、明确核心主题与目标受众在着手规划文档架构之前，必须对文档的核心主题有透彻的理解。无论是关于一款软件的使用指南、一项技术的研发手册还是某个系统的运维说明，明确主题边界与重点内容是基础。同时，精准定位目
DeepSeek V3 模型微调（SFT）技术详解 zhangjiaofa 大模型 DeepSeek 模型微调
DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3模型概述3.1模型架构3.2预训练任务3.3模型性能监督微调（SFT）技术详解4.1数据准备4.1.1数据收集与清洗4.1.2数据标注4.1.3数据增强4.2模型初始化4.2.1预训
Maven项目管理随记 brisk_time 工具使用 maven工具随记
本篇文章仅为Maven学习随记一：maven介绍与环境搭建：maven是基于项目对象模型（POM），可以通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。下载好后：①：bin目录下面包含mvn的运行脚本②：boot目录包含了一个类加载器的框架③：conf是配置文件的目录④：lib是maven运行时所需要的类库，除了自身的还包含了maven运行时所依赖的第三方的类库。二：maven目
信息学奥赛一本通-1178-成绩排序解答爆炒玛奇玛信息学奥赛一本通 c++
【题目描述】给出班里某门课程的成绩单，请你按成绩从高到低对成绩单排序输出，如果有相同分数则名字字典序小的在前。【输入】第一行为n(0usingnamespacestd;structnode{charname[30];inta;}c[30],b;intmain(){intn;inti,j;cin>>n;for(i=1;
RWA资产的逆袭：为什么它会是下一个投资爆点？ DAppNode 区块链人工智能大数据
在全球金融市场的深处，有一种资产悄然崛起，正悄无声息地改变着资本流动的规则——它就是RWA（RealWorldAssets，真实世界资产）。这些资产的总规模远超我们熟知的加密资产市场，它们的市场潜力和投资机会，远远超出了很多人的想象。那么，为什么RWA在今天会如此受到关注？它又为什么会成为投资者争相追逐的新“金矿”？从理论到实践，RWA到底有什么独特之处，能够带来这样的吸引力？今天，我们就来深度剖
数据结构入门模板 free-9d 数据结构
一、栈（Stack）定义栈是一种**后进先出（LIFO，LastInFirstOut）**的数据结构。插入和删除操作只能在栈顶进行。特点只能从栈顶操作数据。操作简单，时间复杂度为O(1)O(1)O(1)。应用场景表达式求值（如括号匹配）。深度优先搜索（DFS）。时间复杂度操作时间复杂度入栈（push）O(1)O(1)O(1)出栈（pop）O(1)O(1)O(1)访问栈顶元素O(1)O(1)O(1)
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

深度估计之旅 — AICrowd单目深度感知

你可能感兴趣的:(深度估计之旅 — AICrowd单目深度感知)