Adagrad

Illumination Adaptive Transformer

Abstract.

现实世界中具有挑战性的照明条件（低光、曝光不足和曝光过度）不仅会产生令人不快的视觉外观，还会影响计算机视觉任务。现有的光自适应方法通常单独处理每种情况。更重要的是，它们中的大多数经常在 RAW 图像上运行或过度简化相机图像信号处理 (ISP) 管道。通过将光变换管道分解为局部和全局 ISP 组件，我们提出了一种轻量级快速照明自适应变换器（IAT），它包含两个变换器式分支：局部估计分支和全局 ISP 分支。虽然局部分支估计与照明相关的像素级局部分量，但全局分支定义了参与整个图像以解码参数的可学习要求。我们的 IAT 还可以在各种光照条件下进行对象检测和语义分割。我们在多个真实数据集上对 2 个低级任务和 3 个高级任务的 IAT 进行了广泛评估。仅 90k 个参数和 0.004s 的处理速度（不包括高级模块），我们的 IAT 始终取得优于 SOTA 的性能。代码可在 https://github.com/cuiziteng/IlluminationAdaptive-Transformer 获取。

1 Introduction

计算机视觉在拍摄精美的图像和视频方面取得了巨大成功。然而，现实世界中不断变化的光照条件对视觉外观和下游计算机视觉任务（例如语义分割和对象检测）提出了挑战。照明不足的图像（图 1）会受到光子计数有限和相机内噪声的影响。另一方面，室外场景经常暴露在强光下，例如直射阳光，由于传感器范围有限和相机图像管道的非线性，导致图像饱和。更糟糕的是，曝光不足和过度曝光可能同时存在，即阴影投射的空间变化照明可能使对比度达到 1000:1 或更高。

人们提出了多种技术，例如低光增强[37,59,25,47,52,48,24,73,35,62]、曝光校正[69,1]来适应困难的光照条件。低光增强方法可以恢复细节，同时抑制伴随的噪音。曝光校正侧重于调整曝光不足和曝光过度的情况，以在强烈的光照变化下重建清晰的图像。虽然上述算法侧重于改善以人为本的视觉感知，但也有几种方法将增强功能集成到高级任务中，例如对象检测，以提高针对弱光的鲁棒性[46,16,43,52]和过度曝光条件[49]。在本文中，我们的目标是提出一个统一的轻量级框架来解决现实世界中的这些低级和高级任务。

如图 1 所示，图 1 中的左侧 RGB 图像的照明不完美。然而，由于相机中的图像信号处理器（ISP）管道，这些图像的强度与实际场景辐照度不成线性比例。由于将这些图像转换为正常照明的 RGB 图像并不简单，现有方法要么直接对 RAW 图像进行操作 [9,3]，要么通过伽玛校正 [48] 等过度简化 ISP 管道。

在这项工作中，我们分析了一个管道，该管道通过反向 ISP 将输入 RGB 图像传输到 RAW，然后将适应的正常光照 RAW 图像转换为目标 RGB。它表明该管道可以分解为像素级局部组件和全局 ISP 组件的组合。基于分析，我们提出了一种照明自适应变压器（IAT），如图1所示，它也由两个变压器式分支组成。两个分支都被设计为轻量级的，以估计生成适应的 RGB 图像的因素。局部分支估计与照明相关的逐像素局部分量，其中维持输入分辨率以保留信息细节。全局分支通过设计可学习查询来参与整个图像来估计全局 ISP 参数。此外，通过附加高级任务模块，我们可以联合优化 IAT，以在具有挑战性的光照条件下进行对象检测和语义分割。

在几个真实世界的数据集上进行了大量的实验，即用于低级任务的 LOL [65] 和 FiveK [6]，以及用于高级任务的 EXDark [46]、ACDC [56] 和 TYO-L [29] 。结果表明，我们的 IAT 可以在一系列任务中实现最先进的性能。更重要的是，我们的 IAT 仅包含 0.09M 模型参数，比当前的 SOTA 模型小 100 倍（例如 MAXIM[62] 的 14.14M）。此外，它在 LOL 基准 [65] 上的平均推理时间每张图像只需要 0.004 秒，而 SOTA 方法通常每张图像需要 1 秒。

我们的贡献可总结如下：

– 我们提出了一种快速轻量级框架，照明自适应变压器（IAT），来处理现实世界中具有挑战性的光照条件。

– 我们提出了一种新颖的 Transformer 式结构来估计全局 ISP 参数以融合 RGB 目标图像，其中利用可学习的查询来关注整个图像。

– 对 2 个低级任务和 3 个高级任务的多个真实数据集进行的广泛实验表明，IAT 比 SOTA 方法具有优越的性能。 IAT 轻量级且适合移动设备，模型参数仅为 0.09M，每张图像的处理时间为 0.004 秒。我们将在发布后发布源代码。

2 Related Works

2.1 Enhancement against Challenging Light Condition

Low-light Enhancement.

早期的低光图像增强解决方案使用基于 RetiNex 理论 [37] 的方法和基于直方图均衡化 [22,59] 的方法。由于 LLNet [47] 首先利用深度自动编码器结构，基于深度学习的方法 [48,73,72,35,24,74,51,64,62,20] 已广泛用于此任务并获得 SOTA 结果在基准增强数据集上[6,65]。

图像增强还与多光源估计相关，可以纠正不期望的光色偏。假设照明在图像上平滑变化，则可以估计空间变化的光源[19,37]。利用局部信息，[21,23]对局部特征进行聚类以对独立的光源进行分组。深度学习解决方案也受到了关注。例如，比安科等人[3] 直接在 RAW 数据上应用 CNN 来估计单照明和多重照明。

Exposure Correction.与低光增强类似，传统的曝光校正算法[38,8]也使用图像直方图来调整图像强度。另一种策略是通过训练有素的深度学习模型调整色调曲线来纠正曝光错误[68,53]。最近，阿菲菲等人[1]提出了一种从粗到细的神经网络来校正照片的曝光。

High-level Task.现有的高级视觉框架 [7,54,12,45] 在大规模正常光数据集（即 MS COCO [42]、ImageNet [17]）上进行训练。面对具有挑战性的光照条件，直接将弱光/强光数据作为输入会出现亮度不一致的情况[66,43]，从而降低性能。另一种解决方案是在进行检测 [54,7] 或分割 [12] 之前使用增强方法 [48,73,51] 对图像进行预处理。然而，由于目标不一致[52,16,44]，大多数增强方法都是为了改善人类视觉感知而设计的，这可能不一定有利于高级任务。

为了解决这个问题，YOLO-in-the-dark [57] 构建了一个师生模型来弥补低光 RAW 和正常光 RGB 之间的差距，以进行低光 RAW 物体检测。 MAET [16]提出了一种低光数据合成方法，并使用自监督学习策略[71]来训练目标检测器进行低光目标检测。 DB-GAN [49]使用GAN进行图像归一化，然后联合训练GAN模型和物体检测器来处理强光环境下的物体检测。

2.2 Vision Transformers

自ViT[18]以来，基于Transformer的模型在许多计算机视觉任务中获得了优越的性能，包括图像分类[45]、目标检测[7]等。对于低级视觉任务，基于Transformer的模型在图像超分辨率[41]、图像恢复[70]、图像着色[36]、图像增强[74]和恶劣天气恢复等多项任务上取得了很大进展[10,63]。此外，基于MLP-Mixer [58,60]的方法[62]也显示了MLP模型在低级视觉任务上的潜力。然而，直接使用 Transformer 作为图像到图像的结构会带来太多的计算成本，使得很难在移动和边缘设备上构建 Transformer 模型。

3 Illumination Adaptive Transformer

3.1 Light Adaption Model

对于空间可变光Li下的RGB图像Ii，光适应模型将其映射到与真实照片匹配的目标RGB图像It（在光Lt下）。现有的方法往往遵循过于简化的模型，要么是线性的，要么只考虑伽玛校正[48]。然而，相机中的实际处理涉及更复杂的非线性操作，例如去马赛克、白平衡、色彩空间变换、伽马校正等。这称为图像信号处理器（ISP）管道，它对原始 RAW 图像进行线性变换。与场景辐照度、计算机视觉数据集和任务中使用的 RGB 图像成正比。现有的光照估计或增强方法[3,9]往往选择直接对RAW数据而不是RGB图像进行操作，从而不可避免地限制了应用范围。

布鲁克斯等人[5]表明可以定义可逆双射函数 f(·) 将 RAW 数据空间中的数据点映射到 RGB 空间。如图 2 右侧所示，像素 x 处颜色通道 c ∈ {r, g, b} 的输入 RGB 图像 Ii(x) 首先通过逆 ISP 映射到 RAW 空间 Ri(x)程序：

我们将方程1和D(·)的复杂非线性变换简化为乘数因子M(x)和加法A(x)的组合。人们广泛认为光 L 的空间分布是平滑变化的，相邻位置之间不会突然变化 [37,19]。由于像素级因子 M(x) 和 A(x) 取决于 Lt(x) 和 Li(x) 的局部信息以及 ISP 过程的全局配置，因此像素值 M(x) 和 A(x) 也应该整个空间平滑变化，在空间分布上留下很小的自由度。

3.2 Model Structure

给定光照条件 Li 下的输入 RGB 图像 Ii ∈ RH×W×3，其中 H×W 表示尺寸维度，3 表示通道维度 ({r, g, b})。如图2所示，我们提出了照明自适应变换器（IAT），在适当的均匀光Lt下将输入RGB图像Ii传输到目标RGB It ∈ RH×W×3。通过结合下游检测或分割模块[ 7,54,12]，我们的IAT还可以在不同的照明环境下实现高级视觉任务。

根据上面的讨论，如图2所示的传输RGB图像Iio RGB图像It的复杂管道可以简化为方程5。非线性操作被分解为局部像素分量 M、A ∈ RH×W×3 和全局 ISP 分量 W ∈ R3×3、γ ∈ R1×1。因此，我们设计了两个 Transformer 风格的分支：局部分支和全局 ISP 分支，分别估计局部像素分量和全局 ISP 分量。

Local Branch.

在局部分支中，我们重点估计局部分量 M、A，以按照方程 5 校正光照的影响。我们没有采用 UNet [55] 风格的结构，即在上采样之前先对图像进行下采样，而是通过局部分支保持输入分辨率以保留信息细节。因此，我们为局部分支提出了一种新颖的变压器式架构。与流行的 U-Net [55] 风格结构相比，我们的结构还可以处理任意分辨率的图像，而无需调整它们的大小。

首先，我们通过 3×3 卷积扩展通道维度，并将它们传递给由逐像素增强模块（PEM）堆叠的两个独立分支。由于 M 和 A 应该在空间域上平滑变化，如第 3.1 节中讨论的那样，在我们的逐像素增强模块（PEM）中，我们按照之前的工作中的建议用深度卷积替换自注意力 [26,40,39 ]。如图3（a）所示，我们的PEM首先通过3×3深度卷积对位置信息进行编码，然后使用PWConvDWConv-PWConv增强局部细节。最后，我们采用两个 1×1 卷积分别增强 token 表示。特别地，我们设计了颜色归一化来代替图层归一化[2]。它通过两个可学习参数学习缩放 a 和偏置 b，并通过可学习矩阵融合通道，该矩阵最初是单位矩阵。此外，我们采用 Layer Scale [61] 来实现更好的收敛，它将特征乘以一个小数 k1/k2。

我们在每个分支中堆叠 3 个 PEM，然后通过逐元素加法将输出特征与输入特征连接起来。这种跳跃连接[27]有助于保持原始图像细节。最后，我们通过 3×3 卷积减少通道维度，并采用 ReLU/Tanh 函数生成式（5）中的局部分量 M/A。

Global ISP Branch.

在传输目标 RGB 图像 It 时，全局 ISP 分支占 ISP 管道 [28,32,34,5] 的一部分（即伽玛校正、颜色矩阵变换、白平衡）。具体地，目标图像中每个像素的值由方程5中定义的全局运算确定。

受检测变压器 DETR [7] 使用对象查询来解码位置和标签的启发，我们还设计了全局组件查询来解码和预测 W、γ，然后应用它来生成 RGB 图像。这种转换器结构允许捕获上下文和各个像素之间的全局交互。如图2所示，我们首先堆叠两个卷积作为轻量级编码器，以较低的分辨率对高维特征进行编码。然后这些特征被传递到全局预测模块（GPM），以进行有效的全局建模。如图3（b）所示，与DETR不同，我们的全局组件查询Q被初始化为零，没有额外的多头自注意力。 Q 是全局组件可学习嵌入，涉及从编码特征生成的键 K 和值 V。 K 和 V 的位置编码来自深度卷积，这对不同的输入分辨率很友好。在具有两个线性层 [18] 的 FFN 之后，我们添加两个具有特殊初始化的额外参数来输出颜色矩阵和伽玛。这样的初始化确保颜色矩阵是单位矩阵W并且伽玛值g在一开始就是1，从而有助于稳定的训练。

3.3 High-level Vision

如图4所示，通过将It传递给附加的下游任务模块，我们的IAT可以进行对象检测和语义分割。在 train3×3 1×1 5×5 1×1 Color Norm 1×1 GELU 1×1 Color Norm 3×3 FC LN FC GELU FC 训练过程中，我们的目标是最小化下游框架的损失函数（即目标检测损失 Lobj 之间通过联合优化整个网络的参数来预测 ˆt 和真实值 t)（见方程 7）。与后续的高级模块相比，我们的 IAT 主结构的时间复杂度和模型存储可以忽略不计（即 IAT 主结构与 YOLO-V3 [54]，417KB vs 237MB）。

4 Experiments

我们在不同光照条件下的低级和高级视觉任务的基准数据集和实验设置上评估了我们提出的 IAT 模型。三个低级视觉任务包括：（a）图像增强（LOL [65]），（b）图像增强（MIT-Adobe FiveK [6]），（c）曝光校正[1]。三个高级视觉任务包括：（d）低光物体检测（e）低光语义分割（f）各种光物体检测。局部分支中生成M和A的PEM编号均设置为3，而PEM中的通道编号设置为16。

对于所有低级视觉实验：{(a)、(b)、(c)}，IAT 模型在批量大小为 8 的单个 GeForce RTX 3090 GPU 上进行训练。我们使用 Adam 优化器来训练我们的 IAT 模型，同时使用 Adam 优化器来训练 IAT 模型。初始学习率和权重衰减分别设置为2e−4和1e−4。还采用了余弦学习计划来避免过度拟合。对于数据增强，水平和垂直翻转已被用来获得更好的结果。

4.1 Image Enhancement Results

对于 (a) 和 (b) 图像增强任务，我们在两个基准真实世界数据集上评估我们的 IAT 框架：LOL [65] 和 MIT-Adobe FiveK [6]。

LOL [65] 是一个小型数据集，由 789 个配对的正常光图像和低光图像组成。 689 张图像用于训练，另外 100 张图像用于测试。 LOL数据集训练的输入图像Ii和目标图像It之间的损失函数是混合损失函数[63]，由smooth L1损失和VGG损失组成[33]。如方程式8所示，λ是权重参数，在我们的实验中设置为0.04。在训练和测试中，图像分辨率都保持在 600 × 400。我们将我们的方法与 SOTA 低光增强方法进行比较 [25,65,48,73,24,67,72,62,35]。对于图像质量分析，我们评估三个指标：峰值信噪比（PSNR）、结构相似性指数测量（SSIM）和NIQE [50]。为了分析计算复杂度，我们还报告了三个指标：FLOPs、模型参数和测试时间，如表 1 的最后一列所示。我们列出了不同模型在其相应代码平台上的测试时间（M表示Matlab，T表示TensorFlow，P表示PyTorch）。如表1所示，IAT(local)表示仅使用局部网络来训练模型，IAT表示使用整个框架。我们可以看到我们的 IAT 在图像质量和计算复杂度上都获得了 SOTA 结果。

MIT-Adobe FiveK [6] 数据集包含 5000 张图像，每张图像均由五位不同的专家 (A/B/C/D/E) 手动增强。按照之前的设置[64,74,51]，我们只使用专家C的调整图像作为地面实况图像。对于 MIT-Adobe FiveK [6] 数据集训练，我们使用单个 L1 损失函数来优化 IAT 模型。我们在 FiveK 数据集上将我们的方法与 SOTA 增强方法 [30,55,14,31,64,64,51,74] 进行比较，然后在表中报告图像质量结果（PSNR，SSIM）和模型参数。 2、IAT在质量和效率上也取得了令人满意的成绩。 LOL[65]和FiveK[6]的定性结果如图5所示，更多结果在补充中。

4.2 Exposure Correction Results

对于(c)曝光校正任务，我们在[1]提出的基准数据集上评估IAT。该数据集包含 24,330 张 8 位 sRGB 图像，分为 17,675 张训练图像、750 张验证图像和 5905 张测试图像。 [1] 中的图像由 MIT-Adobe FiveK [6] 数据集调整，具有 5 种不同的曝光值 (EV)，范围从曝光不足到过度曝光条件。与[6]相同，测试集有5个不同专家的调整结果（A/B/C/D/E）。按照[1]的设置，训练图像被裁剪为 512 × 512 块，测试图像被调整为最大尺寸 512 像素。我们将测试图像与所有五位专家的结果进行比较。这里我们使用混合损失函数（方程8）进行曝光校正训练。

评价结果示于表3中，我们的比较方法包括传统图像处理方法（Histogram Equalization [22]、LIME [25]）和深度学习方法（DPED [31]、DPE [14]、RetinexNet [65]、Deep-UPE [64]，零 DCE [24]、MSEC [1]）。评估指标与[1]相同，包括PSNR、SSIM和感知指数（PI）。图3显示我们的IAT模型在所有评估指标上都获得了最好的结果。此外，与第二佳结果 MSEC [1] 相比，IAT 的参数要少得多（0.09M 对 7M），评估时间也少得多（每幅图像 0.004 秒对每幅图像 0.5 秒）。定性结果如图5所示，更多结果在补充中。

4.3 Performance of High-level Vision

4.4 Ablation Analysis

Contribution of each part.

为了评估 IAT 模型中每个部分的贡献，我们对 LOL [65] 数据集的低光增强任务和 EXDark [46] 数据集的低光目标检测任务进行了消融研究。我们报告了增强任务的 PSNR 和 SSIM 结果以及检测任务的 mAP 结果。我们将我们的归一化类型与 LayerNorm [2] 和 ResMLP 的归一化 [60] 进行比较，然后评估全局分支的不同部分的贡献（预测矩阵和预测伽玛值）。消融结果如表6所示。

Blocks & Channels Ablation.

为了评估 IAT 模型的可扩展性，我们在局部分支中尝试不同的块号和通道号。我们尝试不同的 PEM 数来生成 M 和 A。LOL [65]数据集上的 PSNR 结果如表 7 所示。它表明，保持相同的 PEM 编号来生成 M 和 A 将有助于 IAT 的性能。

保持相同的块号来生成M和A，然后用相似的参数进行评估，以回答局部分支应该“短而粗”还是“长而细”。将局部分支的块号和通道号分别设置为2/24和4/12进行比较。 PSNR、SSIM 和模型参数的结果列于表8中。

5 Conclusion

明确考虑相机中的 ISP 管道，我们提出了一种新颖的 IAT 框架，用于应对具有挑战性的光照条件。尽管 IAT 在低级和高级任务的多个现实数据集上都具有卓越的性能，但它非常轻量级且速度很快。轻量级且适合移动设备的 IAT 有潜力成为计算机视觉社区的常备插件工具。

景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
COMP 5076 Problem Solving in the Digital Age 后端
COMP5076ProblemSolvingintheDigitalAgeAssignment1–Wizard-of-OzPaperPrototypeUniSASTEMTheUniversityofSouthAustralia2025SP2Warning:ThismaterialhasbeenreproducedandcommunicatedtoyoubyoronbehalfoftheUniver
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&