s1ckrain

【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT

PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT

原文摘要
1. 研究背景与问题：
  - SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。
  - 尽管 SAM 具有通用性，但在无需人工提示的情况下，针对特定视觉概念（如自动分割用户宠物狗）的定制化研究尚不充分。
2. 方法提出：
  - 提出了一种无需训练的 SAM 个性化方法，称为 PerSAM。
  - 仅需单次数据（一张带参考掩码的图像），即可在新图像中获取目标概念的正负位置先验。
  - 通过目标视觉语义，提出了两种技术增强 SAM 的个性化分割能力：目标引导注意力和目标语义提示。
3. 优化与扩展：
  - 提出了一个高效的单次微调变体 PerSAM-F（缓解分割尺度的模糊性），通过尺度感知微调来聚合多尺度掩码，仅需调整 2 个参数并在 10 秒内完成，提升性能。
  - 冻结 SAM 的整个模型结构，避免大规模训练。
4. 实验与评估：
  - 构建了一个新数据集 PerSeg，用于评估个性化目标分割。
  - 在多个单次图像和视频分割基准上测试了方法的有效性。
5. 应用扩展：
  - 提出将 PerSAM 用于改进 DreamBooth，提升个性化文本到图像生成的效果。
    - DreamBooth 是一种用于个性化文本到图像生成的技术，由 Google Research 在 2022 年提出。它的核心目标是通过少量用户提供的图像（通常只需 3-5 张），训练一个能够生成特定主体（如个人宠物、特定物体或个人肖像）的定制化文本到图像生成模型。
  - 通过减少训练集背景的干扰，实现了更好的目标外观生成和更高的文本提示保真度。

1. 介绍

1.1 研究背景与动机

基础模型（如视觉、语言和多模态领域）在大规模数据集和计算资源的支持下取得了显著进展，它们展示了强大的零样本泛化能力和交互性。
Segment Anything Model (SAM) 提出了一个可提示的分割框架，能够通过手工提示分割任意对象。
然而，SAM 缺乏对特定视觉概念（如用户宠物或特定物体）的自动分割能力，需要大量人工干预，效率低下。

1.2 方法提出

提出了 PerSAM，一种无需训练的 SAM 个性化方法，仅需单次数据（一张用户提供的参考图像和粗略掩码）。
核心步骤：
- 通过特征相似性生成目标对象的位置置信度图----考虑了每一个前景像素的样子
- 根据置信分数，选择正负位置先验点，并将其编码为提示符输入 SAM 的解码器。
关键技术----为了释放SAM的特定分割能力，在decoder中用两种方法加入了目标视觉语义：
- 目标引导注意力：通过位置置信度图引导 SAM 解码器中的 token-to-image 交叉注意力层，聚焦于目标区域。
- 目标语义提示：为了清晰地提供高层次的目标语义（指抽象特征或类别、形状等语义信息），将目标对象的嵌入与原始提示符融合，这样能够为低级位置提示（指用户提供的具体位置信息）提供额外的视觉语义信息。

1.3 优化与扩展：

提出了 PerSAM-F，一种高效的微调变体，仅需在 10 秒内微调 2 个参数，解决掩码尺度模糊问题。
核心设计：
- 冻结 SAM 的预训练参数，保留其通用知识。
- 为了灵活地选择不同的目标的最佳尺寸，作者使用了可学习的相关权重对不同尺度的掩码进行加权求和，自适应选择最佳分割结果。

1.4 改进 DreamBooth：

给定包含特定视觉概念的少量图像（例如你的宠物猫或背包），DreamBooth 会学习将这些图像转换为词嵌入空间中的标识符 [V]。然而，这一过程可能会同时包含背景信息（例如楼梯或森林），这会覆盖新提示的背景，并干扰目标外观的生成。因此，我们提出利用 PerSAM 对训练图像中的目标对象进行分割，并仅对 DreamBooth 进行前景区域的监督，从而实现更高质量的文本到图像合成。
- 核心改进：
  - 利用 PerSAM 分割训练图像中的目标对象，仅对前景区域进行监督。
  - 减少背景干扰，生成更高保真度的目标外观图像。

2. 方法

2.1 个性化目标分割

2.1.1 SAM的回顾

SAM的三个主要组件
- Prompt Encoder (Enc_P)：编码用户提供的提示（如点、框或粗略掩码）。
- Image Encoder (Enc_I)：提取输入图像的特征。
- Mask Decoder (Dec_M)：基于注意力机制的特征交互，生成最终的分割掩码。
SAM的工作流程
- 输入：一张图像 I 和一组提示 P（如点、框或粗略掩码）。
- 图像特征提取：通过图像编码器 Enc_I 提取图像特征 F_I。
- 提示编码：通过提示编码器 Enc_P 将提示 P 编码为提示符 T_P 。
- 解码器输入：将可学习的掩码符 T_M 与提示符 T_P 拼接（前者作为后者的前缀），作为解码器的输入的一部分。
- 掩码生成：通过掩码解码器 Dec_M 进行特征交互，生成最终的分割掩码 M。
  - 公式：
    
    $Dec_M\left(F_I, \text{Concat}(T_M, T_P)\right)$

2.1.2 任务定义

尽管 SAM 通过提示能够分割任意对象，但它缺乏自动分割特定目标实例的能力。
任务输入与目标：
- 输入：用户提供一张参考图像和一个指示目标视觉概念的掩码（可以是精确分割或粗略草图）。
- 目标：定制化 SAM，使其能够在无需额外人工提示的情况下，在新图像或视频中分割指定目标。
评估数据集：
- 构建了一个新数据集 PerSeg，用于评估个性化分割任务。
- 数据来源：从主题驱动的扩散模型相关工作中收集的原始图像。
- 数据集特点：包含不同类别、姿态和场景的视觉概念。
方法提出：
- 针对该任务，提出了两种高效的解决方案，并在后文中详细阐述。

2.2 Training-free PerSAM

2.2.1 位置置信图

位置置信图的生成
- 基于用户提供的参考图像 I_R 和掩码 M_R ，PerSAM 生成一个置信图，用于指示目标对象在新测试图像 I 中的位置。
特征提取
- 使用图像编码器（默认采用 SAM 的图像编码器 Enc_I ）提取参考图像 **I_R**和测试图像 I 的视觉特征：
  
  $F_I = \text{Enc}_I(I), \quad F_R = \text{Enc}_I(I_R)$
  - 其中 F_I 和 F_R 形状都为**（H，W，C）**,C为特征纬度
前景特征裁剪
- 利用参考掩码 **M_R**∈ **R^h×w×1 **裁剪参考图像特征 F_R 中的前景像素特征，得到一组局部特征：
  
  $\{T_R^i\}_{i=1}^n = M_R \circ F_R$
- T_Rⁱ 的形状为（1，C），∘ 表示空间逐元素乘法
  - 空间逐元素乘法（Element-wise Multiplication）是一种矩阵或张量运算，其特点是对两个形状相同的矩阵或张量的对应元素进行逐个相乘。在图像处理或深度学习领域，这种操作通常用于对特征图或掩码进行逐像素的调整或过滤
置信图计算
- 计算每个前景像素特征 $T_R^i$ 与测试图像特征 $F_I$ 的余弦相似度，生成 $n$ 个局部置信图：

${S^i\}_{i=1}^n = \{F_I {T_R^i}^T\}_{i=1}^n$

> 其中， $S^i \in \mathbb{R}^{h \times w}$ ， $F_I$ 和 $T_R^i$ 均已进行逐像素 L2 归一化

> $S^i$ 表示目标对象不同局部部分在测试图像中的分布概率。

全局置信图聚合
- 对 $n$ 个局部置信图进行平均池化，生成目标对象的全局置信图：
  
  $\frac{1}{n} \sum_{i=1}^n S^i \in \mathbb{R}^{h \times w}$
- 通过考虑每个前景像素的置信度，全局置信图能够综合目标对象不同部分的视觉外观，获得更全面的位置估计

2.2.2 Positive- negative Location Prior

在测试图像上，选择两个点：
- 正点 P_h：置信值最高的点，表示目标对象最可能的中心位置。
- 负点 P_l ：置信值最低的点，表示背景区域。
将正点和负点作为正负点提示输入到prompt encoder中，作为 $T_p$

$T_P = \text{Enc}_P(P_h, P_l) \in \mathbb{R}^{2 \times c}$

SAM 倾向于分割围绕正点 $P_h$ 的连续区域，同时丢弃负点 $P_l$ 所在的背景区域。

2.2.3 目标引导注意力

提出了一种更明确的语义指导方法，用于 SAM 解码器中的交叉注意力操作，以集中在前景目标区域内的特征聚合。
整体置信度地图S
- S 用于指示测试图像中目标视觉概念的粗略区域，颜色越热表示得分越高
一般的注意力地图
- 注意力地图（Attention Map）是一种在图像处理和计算机视觉中用于表示模型关注区域的可视化工具。它能够显示模型在处理图像时，对不同区域的关注程度或权重分布。具体来说，注意力地图通过颜色强度（如热力图）来指示模型对图像中某些区域的关注程度，颜色越“热”（如红色）表示关注度越高，颜色越“冷”（如蓝色）表示关注度越低。
- 计算
  
  $\text{softmax}(QK^T/ \sqrt{d})$
  - Q 是查询矩阵（Query），通常由提示符 $ T_P$ 生成。
  - K 是键矩阵（Key），通常由图像特征 $ F_I$ 生成。
  - d 是特征维度。
PerSAM中的注意力地图的调制
- 利用 S 指导解码器中每个 token-to-image 交叉注意力层的注意力地图。
- 对注意力地图 A ∈ R^h*×w 进行调制，公式为：
  
  $A^g = \text{softmax}(A + \alpha \cdot \text{softmax}(S))$
  - 其中， $\alpha$ 是平衡因子
注意力偏置的作用
- 通过注意力偏置，掩码和提示符能够捕捉与目标主题相关的更多视觉语义，而不是不重要的背景区域。
- 这种方法在注意力机制中实现了更有效的特征聚合，从而提高了 PerSAM 在无训练情况下的最终分割精度。

2.2.4 目标语义提示

通过利用目标概念的视觉特征作为额外的高层次语义提示，以增强解码器的性能
全局嵌入 $T_R$ 的获取
- 通过平均池化不同局部特征，获得参考图像中目标对象的全局嵌入 $ T_R $
目标语义的融合
- 将全局嵌入 $ T_R $ 元素级地添加到测试图像的所有输入标记中，然后送入解码器块。
- 通过重复操作和拼接，形成新的输入标记 $ T^g $：
- repeat即可以是 $T_R$ 与后者维度一样，又可以使目标语义出现多次，增强解码器对目标的理解
- $ T^g $是目标语义引导的解码器输入token

2.2.5 Cascaded Post-refinement

通过上述技术，用户可从SAM解码器中获得初始mask，但会有粗糙边缘和背景的孤立噪声
为此，对初始mask再送回SAM中进行后两步处理
- 第一步，用初始分割掩码和之前的正负位置先验来提示 SAM 解码器
- 第二步，计算出第一步中掩码的边界框，并用这个边界框提示解码器，以实现更精确的目标定位

2.3 Fine-Tuning of PerSAM-F

分割尺寸的模糊性
- 如上图所示，平台顶部的茶壶由壶盖和壶身两部分组成。如果正先验（用绿星表示）位于壶身，而负先验（用红星表示）并不排除类似颜色的平台，那么 PerSAM 在分割时就会产生歧义
- 而在SAM中会生成三个结果，让用户自己选，这样会消耗额外的人力
Scale-aware Fine-tuning
- PerSAM-F 通过 PerSAM 获取位置优先级，并参考 SAM 的原始解决方案，输出三个尺度的掩码，分别记为 M1、M2 和 M3
- 采用两个可学习的权重，通过加权求和计算出最终掩码的输出
- 初始w1和w2设置为1/3
- 一次性fine-tuning
  - 在参考图像上进行一次性 fine-tuning，将给定的掩码作为 ground truth，学习最优权重 ω1 和 ω2。
  - 冻结整个 SAM 模型以保留其预训练知识，仅 fine-tune 两个参数 ω1 和 ω2。

2.4 PerSAM优化后的DREAMBOOTH

原始DreamBooth
- DreamBooth 通过少量特定对象的图片（如宠物猫）微调预训练的扩散模型，以生成特定对象的图像。
- 它通过文本提示（如 “a [V] cat”）生成目标对象，并在整个重建图像上计算损失。
- 存在的问题
  - DreamBooth 在训练过程中会将背景信息注入标识符 [V]，导致生成图像时背景信息覆盖新提示的背景，干扰目标外观的生成。
改进后的DreamBooth
- 引入 PerSAM 方法，利用目标对象的掩码分割前景目标，并丢弃背景区域的梯度反向传播。
- 通过仅微调目标对象的视觉外观，减少背景干扰，提升生成图像的质量和背景多样性。

3. 实验

3.1 个体化评估

以下是基于图片内容的分点总结：

PerSeg 数据集：
- 为了测试个性化分割能力，构建了一个新的分割数据集 PerSeg。
- 数据来源：从主题驱动的扩散模型（如 Ruiz et al., 2022; Gal et al., 2022; Kumari et al., 2022）的训练数据中收集。
- 数据集内容：包含 40 个对象，涵盖日用品、动物和建筑等类别。
- 数据格式：每个对象在不同姿态或场景下包含 5~7 张图像和掩码，固定其中一张图像-掩码对作为用户提供的一次性数据。
评估指标：
- 采用 mIoU（平均交并比）和 bIoU（边界交并比）进行评估。

3.2 已存在的分割基准

视频对象分割：
- PerSAM 和 PerSAM-F 在没有视频训练的情况下，表现优于其他方法（如 Painter 和 SegGPT）。
- 在复杂场景中，PerSAM-F 甚至优于一些完全基于视频数据训练的方法（如 Lin et al., 2019; Liang et al., 2020）。
- 结果表明，PerSAM 和 PerSAM-F 在时间序列数据和复杂场景中具有强大的泛化能力。
一次性语义及部分分割：
- 在四个数据集（FSSS-1000、LVIS-92、PASCAL-Part 和 PACO-Part）上的评估显示，PerSAM-F 优于 Painter，与 SegGPT 表现相当。
- 对于某些领域内训练的方法（如 Min et al., 2021; Hong et al., 2022），PerSAM-F 也能取得更高的分数。
- 实验证明，PerSAM-F 不仅适用于对象级别的分割，还可用于类别和部分个性化分割。

3.3 优化后的DreamBooth

3.4 消融实验

主要组件分析：
- 基线：仅采用正点位置先验（positive location prior）作为基础。
- 负点提示：增加负点提示（negative point prompt），提升 mIoU 3.6%。
- 级联后处理：引入级联后处理（cascaded post-refinement），进一步提升 mIoU 11.4%。
- 目标语义提示：将高层次目标语义引入 SAM 解码器，用于注意力引导和语义提示，分别提升 mIoU 1.9% 和 3.5%。
- 尺度感知微调：通过高效的尺度感知微调（scale-aware fine-tuning），PerSAM-F 进一步提升 mIoU 6.0%，展示了卓越的准确性。
不同微调方法比较：
- 比较了多种参数高效微调（PEFT）方法，包括提示微调（prompt tuning）、Adapter 和 LoRA。
- 提示微调和 Adapter：容易过拟合一次性数据，严重降低准确性。
- 尺度感知微调：在 PerSAM-F 中表现最佳，同时微调最少的可学习参数。
使用框作为参考：
- 放宽输入限制，允许使用边界框（bounding box）作为参考，而非精确掩码。
- 对 PerSAM 和 PerSAM-F 的性能影响较小，但对其他方法影响较大。

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include