Sijin_Yu

[论文笔记] 13篇 Diffusion Model for Biomedical Image Segmentation 论文串烧

Author: Sijin Yu
本文涉及的13篇论文分别是:

[1] Tao Chen, Chenhui Wang, Hongming Shan. BerDiff: Conditional Bernoulli Diffusion Model for Medical Image Segmentation. MICCAI, 2023.

[5] Xinrong Hu, Yu-Jen Chen, Tsung-Yi Ho, Yiyu Shi. Conditional Diffusion Models for Weakly Supervised Medical Image Segmentation. MICCAI, 2023.

[8] Tianxu Lv, Yuan Liu, Kai Miao, Lihua Li, Xiang Pan. Diffusion Kinetic Model for Breast Cancer Segmentation in Incomplete DCE-MRI. MICCAI, 2023.

[11] G. Jignesh Chowdary, Zhaozheng Yin. Diffusion Transformer U-Net for Medical Image Segmentation. MICCAI, 2023.

[17] Xinyi Yu, Guanbin Li, Wei Lou, Siqi Liu, Xiang Wan, Yan Chen, and Haofeng Li. Diffusion-Based Data Augmentation for Nuclei Image Segmentation. MICCAI, 2023.

[20] Héctor Carrión and Narges Norouzi. FEDD - Fair, Efficient, and Diverse Diffusion-Based Lesion Segmentation and Malignancy Classification. MICCAI, 2023.

[22] Mengxue Sun, Wenhui Huang , and Yuanjie Zheng. Instance-Aware Diffusion Model for Gland Segmentation in Colon Histology Images. MICCAI, 2023.

[23] Jianfeng Zhao and Shuo Li. Learning Reliability of Multi-modality Medical Images for Tumor Segmentation via Evidence-Identified Denoising Diffusion Probabilistic Models. MICCAI, 2023.

[27] Jiacheng Wang, Jing Yang, Qichao Zhou, Liansheng Wang. Medical Boundary Diffusion Model for Skin Lesion Segmentation. MICCAI, 2023.

[30] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, Yehui Yang, Haoyi Xiong, Huiying Liu, and Yanwu Xu. MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model. MIDL, 2023.

[33] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, and Yanwu Xu. MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer. arXiv preprint arXiv:2301.11798, 2023.

[35] Boah Kim, Yujin Oh, Jong Chul Ye. Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation. ICLR, 2023.

[36] Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello.Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models. CVPR, 2023.

文章目录

1. 用 Bernoulli 噪音的 DM 用于医学图像分割
- 1.0 Abstract
- 1.1 Model
- - 1.1.1 Problem Definition
  - 1.1.2 Framework of Diffusion Model
  - 1.1.3 Loss Function
- 1.2 Experiment
- - 1.2.1 Dataset & Preprocessing
  - 1.2.2 消融实验
  - 1.2.3 横向对比
2. 使用类别引导的 CDM 进行弱监督分割
- 2.0 Abstract
- 2.1 Motivation & Contribution
- - 2.1.1 Motivation
  - 2.1.2 Contribution
- 2.2 Model
- - 2.2.1 Training Conditional Denoising Diffusion Model
  - 2.2.2 Gradient Map w.r.t Condition
- 2.3 Experiment
- - 2.3.1 Dataset & Preprocessing
  - 2.3.2 横向对比
  - 2.3.3 消融实验
3. 使用 DM 的血液动力学对比增强 MRI 生成的 feature map 引导分割
- 3.0 Abstract
- 3.1 Model
- 3.2 Experiment
- - 3.2.1 Dataset & Preprocessing
  - 3.2.2 横向对比
  - 3.2.3 消融实验
4. 魔改 DM 中 U-Net 的输入和结构的医学图像分割
- 4.0 Abstract
- 4.1 Model
- - 4.1.1 Cross Attention
  - 4.1.2 Multi-sized Transformer U-Net
- 4.2 Experiment
- - 4.2.1 Dataset
  - 4.2.1 消融实验
  - 4.2.2 横向对比
5. 使用 DM 做数据增强以提高分类性能
- 5.1 Abstract
- 5.2 Motivation & Contribution
- - 5.2.1 Motivation
  - 5.2.2 Contribution
- 5.3 Model
- - 5.3.1 Unconditional Nuclei Structure Synthesis
  - 5.3.2 Conditional Histopathology Image Synthesis
- 5.4 Experiment
- - 5.4.1 Dataset
  - 5.4.2 实验
6. 使用 DM 中的 U-Net 的一层 embedding 用作分割和分类
- 6.1 Abstract
- 6.2 Motivation & Contribution
- - 6.2.1 Motivation
  - 6.2.2 Contribution
- 6.3 Model
- 6.4 Experiment
- - 6.4.1 Dataset
  - 6.4.2 横向对比
  - 6.4.3 探索实验
7. 使用 DM 生成 bounding box, 然后用于 mask 的生成
- 7.1 Abstract
- 7.2 Motivation & Contribution
- - 7.2.1 Motivation
  - 7.2.2 Contribution
- 7.3 Model
- 7.4 Experiment
8. 使用 DM 做分割, 并用 DS 证据理论来促进多模态融合
- 8.1 Abstract
- 8.2 Motivation & Contribution
- - 8.2.1 Motivation
  - 8.2.2 Contribution
- 8.3 Model
- - 8.3.1 Parallel DDPM Path
  - 8.3.2 EIL & CDO
- 8.4 Experiment
- - 8.4.1 Dataset
  - 8.4.2 对比实验
9. 在同一个 DM 分割模型中多次采样, 融合每次的结果, 并衡量不确定性
- 9.1 Abstract
- 9.2 Motivation & Contribution
- - 9.2.1 Motivation
  - 9.2.2 Contribution
- 9.3 Model
- - 9.3.1 Evolution Uncertainty
- 9.4 Experiment
- - 9.4.1 Dataset
  - 9.4.2 消融实验和对比实验
10. 开山鼻祖 MedSegDiff: 使用动态条件编码和可学习滤波器的 DM 医学图像分割
- 10.1 Abstract
- 10.2 Motivation & Contribution
- - 10.2.1 Motivation
  - 10.2.2 Contribution
- 10.3 Model
- - 10.3.1 FF-Parser
- 10.4 Experiment
- - 10.4.1 Dataset
  - 10.4.2 对比实验
  - 10.4.3 消融实验
11. MedSegDiff-V2: 同时在空间域和频率域上做 Attn 的条件和嵌入融合, 使用 DM 直接生成分割
- 11.1 Abstract
- 11.2 Motivation & Contribution
- - 11.2.1 Motivation
  - 11.2.2 Contribution
- 11.3 Model
- 11.4 Experiment
- - 11.4.1 Dataset
  - 11.4.2 消融实验
  - 11.4.3 对比实验
12. 使用对抗学习的自监督分割 (含有 DM)
- 12.1 Abstract
- 12.2 Motivation & Contribution
- - 12.2.1 Motivation
  - 12.2.2 Contribution
- 12.3 Model
- - 12.3.1 Generation Module
  - 12.3.2 Loss Function
- 12.4 Experiment
- - 12.4.1 Dataset
  - 12.4.2 对比实验
  - 12.4.3 消融实验
13. 自然图像上的 DM 分割
- 13.1 Abstract
- 13.2 Motivation & Contribution
- - 13.2.1 Motivation
  - 13.2.2 Contribution
- 13.3 Model
- 13.4 Experiment
- - 13.4.1 Dataset
  - 13.4.2 消融实验
  - 13.4.3 对比实验
- 在这里插入图片描述
Reference List

1. 用 Bernoulli 噪音的 DM 用于医学图像分割

[1] Tao Chen, Chenhui Wang, Hongming Shan. BerDiff: Conditional Bernoulli Diffusion Model for Medical Image Segmentation. MICCAI, 2023.

1.0 Abstract

医学图像分割是一个具有挑战性的任务, 它有内在的模糊性和很高的不确定性, 导致一些不清楚的肿瘤界限和多种看似合理的标注等事实.
对于分割的掩码而言, 准确性和多样性都是很重要的, 以对放射科医生在临床实践中给出有价值的参考.
尽管现有的扩散模型 (Diffusion Model) 在各种视觉生成任务中展现其强大的能力, 在分割中处理分离的掩码依然很具有挑战性.
为了在图像分割掩码中达到高准确性和多样性, 我们为医学图像分割提出一种新式的条件伯努利扩散模型 (conditional Bernoulli Diffusion model, DerDiff).
我们首先提出使用伯努利噪音 (Bernoulli noise) 取代高斯噪音 (Gaussian noise) 作为扩散核 (diffusion kernel) 以增加扩散模型对二进制分割问题的能力, 以获得更高的分割准确性.
其次, 通过利用扩散模型的随机性, 我们的 BerDiff 模型多次随机采样伯努利噪音和中间的隐藏变量以获得各种各样的分割掩码, 这可以突出感兴趣的区域并为医生提供宝贵的参考.
此外, 我们的 BerDiff 模型可以有效地从反向扩散的轨迹中采样子序列, 以加速分割过程.
在两个不同模态的医学图像分割数据集上的大量实验结果证明了我们的 BerDiff 打败了其它模型, 并获得了 SOTA.
我们的结果证明了扩散模型可以作为医学图像分割的强大骨架模型.

1.1 Model

1.1.1 Problem Definition

$x\in\mathbb R^{H\times W\times C}$ 表示输入的图像. $H\times W$ 表示分辨率. $C$ 表示通道数.
ground-truth mask 表示为 $y_0\in\{0,1\}^{H\times W}$ . $0$ 表示背景, $1$ 表示 ROI.
伯努利扩散模型 (Bernoulli Diffusion Model) 可表示为:
$p_{\theta}(y_0|x)=\int p_{\theta}(y_{0:T})\text dy_{1:T}$
其中, 初始化的伯努利噪音 (Bernoulli Noise) 为
$y_T\sim\mathcal B(y_T;\frac12\cdot\textbf1)$

1.1.2 Framework of Diffusion Model

伯努利前向过程 (Bernoulli Forward Process) 是一个马尔可夫链 (Markov Chain), 表示如下:
$q(y_{1:T}|y_0):=\prod_{t=1}^T q(y_t|y_{t-1})$

$q(y_t|y_{t-1}):=\mathcal B(y_t;(1-\beta_t)y_{t-1}+\beta_t/2)$

令 $\alpha_t = 1-\beta_t$ , 和 $\bar \alpha_t=\prod_{\tau=1}^t\alpha_{\tau}$ , 可以得到任意时间步 $t$ 的样本 $y_t$ 的分布为:
$q(y_t|y_0)=\mathcal B(y_t;\bar\alpha_t y_0+(1-\bar\alpha_t)/2)$
为了保证目标函数可导, 采样 $\epsilon\sim\mathcal B(\epsilon;\frac{1-\bar\alpha}{2}\cdot\textbf 1)$ , 并且令 $y_t=y_0\otimes\epsilon$ , 其中 $\otimes$ 为异或 (XOR) 操作. 请注意这是等价的.
伯努利后验概率 (Bernoulli Posterior Probability) 可以被表示为:
$q(y_{t-1}|y_t,y_0)=\mathcal B(y_{t-1};\theta_{post}(y_t, y_0))$
其中, $\theta_{post}(\cdot)$ 为:
$\theta_{post}(y_t,y_0)=Norm\left([\alpha_t[1-y_t,y_t]+\frac{1-\alpha_t}2]\odot\bar\alpha_{t-1}[1-y_0,y_0]+\frac{1-\bar \alpha_{t-1}}{2}\right)$
其中, $\odot$ 表示各元素相乘, $Norm(\cdot)$ 表示在 channel 维度上做归一化.
伯努利反向过程 (Bernoulli Reverse Process) 可以表示为:
$p_{\theta}(y_{0:T}|x):=p(y_T)\prod_{t=1}^Tp_{\theta}(y_{t-1}|y_t,x)$

$p_{\theta}(y_{t-1}|y_t, x):=\mathcal B(y_{t-1};\hat\mu(y_t,t, x))$

其中, 使用 $y_t$ 的估计伯努利噪音 $\hat\epsilon(y_t, t, x)$ , 通过一个标函数 $\mathcal F_C$ 来参数化 $y_t$ 的估计均值 $\hat\mu(y_t,t, x)$ , 即
$\hat\mu(y_t, t, x)=\mathcal F_C(y_t,\hat\epsilon(y_t, t, x))=\theta_{post}(y_t,|y_t-\hat\epsilon(y_t, t, x|)$

1.1.3 Loss Function

KL 损失, 用于拉近后验概率和反向过程的距离
$\mathcal L_{KL}=\mathbb E_{q(x, y_0)}\mathbb E_{q(t_t|y_0)} \left[ D_{KL}[q(y_{t-1}|y_t, y_0)||p_\theta(y_{t-1}|y_t, x)] \right]$
二分类交叉熵损失, 用于拉近噪音估计和标准伯努利分布的距离
$\mathcal L_{BCE}=-\mathbb E_{(\epsilon,\hat\epsilon)}\sum_{(i, j)}^{H,W}[ \epsilon_{(i, j)}\log\hat\epsilon_{(i, j)}+(1-\epsilon_{i, j})\log(1-\hat\epsilon_{i,j}) ]$

最后,
$\mathcal L_{total} = \mathcal L_{KL}+\lambda_{BCE}\mathcal L_{BCE}$

1.2 Experiment

1.2.1 Dataset & Preprocessing

LIDC-IDRI [2, 3]. 包括 1018 张肺部 CT 扫描照片和分割掩码标注. 用于横向对比和消融实验. 被 resized 到 $128\times 128$ .
BRATS 2021 [4]. 对每个病人包括四种不同的 MRI 序列: T1, T2, FIAIR, T1CE. 用于横向对比. 被 resized 到 $224\times224$ .

1.2.2 消融实验

表 1 展示了不同损失函数和目标函数的影响.
表 2 展现了使用高斯噪音和伯努利噪音的影响.

1.2.3 横向对比

表 3 展示了在 LIDC-IDRI 上的横向对比.
表 4 展示了在 BRATS 2021 上的横向对比.

2. 使用类别引导的 CDM 进行弱监督分割

[5] Xinrong Hu, Yu-Jen Chen, Tsung-Yi Ho, Yiyu Shi. Conditional Diffusion Models for Weakly Supervised Medical Image Segmentation. MICCAI, 2023.

2.0 Abstract

最近, 降噪扩散概率模型在图像生成任务上取得了巨大的成功.
尽管已经存在不少工作去探索这一强大的工具在图像语义分割上的潜力, 然而它在弱监督语义分割 (Weakly Supervised Semantic Segmentation, WSSS) 上的应用仍欠探索.
我们观察到条件扩散模型 (Conditional Diffusion Model, CDM) 在特定分布上生成图像的强大能力, 在这一份工作里, 我们利用 CDM 在底层对类别感知的语义信息, 去预测一张仅有图像层面标注的图像的分割掩码.
更具体地, 我们通过近似 CDM 的输出相对于输入条件的导数来定位所需的类别.
我们的方法与先前使用外部分类器引导的扩散模型方法不同, 它们在重建的过程中会累计背景的噪音.
我们的方法在两个公开的医学影像分割数据集上表现得比 SOTA CAM 和其它扩散模型更好, 这证明了 CDM 在 WSSS 的前景.
并且, 实验证明我们的方法比现有的扩散模型方法时间上更高效, 使它在广泛的应用上更加有用.

2.1 Motivation & Contribution

2.1.1 Motivation

医学图像分割对于疾病诊断、治疗规划和异常监测至关重要.
弱监督语义分割 (WSSS) 由于大大降低了像素级标注的成本, 因此在医学图像社区中引起了重要关注.
目前的 WSSS 工作主要由类激活图 (CAM) 及其变体主导, 但存在一定的局限性.

2.1.2 Contribution

本研究提出了一种新型的 WSSS 框架, 使用条件扩散模型 (CDM), 基于不同条件下预测噪声的差异.
通过计算不同阶段预测噪声的导数, 我们的方法突出相关对象, 减少背景误识别.
我们的方法不需要完整的逆向去噪过程, 推理时间与基于 CAM 的方法相当, 且在两个不同任务上展示了最先进的性能.

2.2 Model

2.2.1 Training Conditional Denoising Diffusion Model

设在分布 $D (x ∣ y)$ 中采样了一个样本 $x_0$ . $x_0$ 表示一个图像.

$y$ 是条件, 它可以是各种各样的, 可以包括图像不同的模态、风格、分辨率. 在这份工作中, $y\in\{y_0, y_1\}$ 表示图像的二分类标签 (例如脑部 CT 扫描里的是否有肿瘤).

其中, $y$ 的输入是一个可学习的 embedding $f\in\mathbb R\to\mathbb R^n$
前向过程可以表示为马尔可夫链:
$q(x_t|x_{t-1},y):=\mathcal N(x_t|y;\sqrt{1-\beta_t}x_{t-1}|y,\beta_t\cdot\textbf 1)$
令 $\alpha_t:=1-\beta_t$ 和 $\bar\alpha_t:=\prod_{\tau=1}^t\alpha_{\tau}$ , 给定 $x_0$ , 可以直接得到 $x_t$ :
$q(x_t|x_0,y):=\mathcal N(x_t|y;\sqrt{\bar\alpha_t}x_0|y,(1-\bar\alpha_t)\cdot\textbf 1)$
训练一个 U-Net $\epsilon_{\theta}(x,t,y)$ 去近似反向过程:
$p_{\theta}(x_{t-1}|x_t,y):=\mathcal N(x_{t-1};\mu_{\theta}(x_t, t, y),\Sigma_{\theta}(x_t, t, y))$
将 $x_t$ 用标准高斯分布 $\epsilon\sim\mathcal N(\textbf 0,\textbf 1)$ 重参数化:
$x_t=\sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon$
损失函数为:
$L:=\mathbb E_{x_0, \epsilon} || \epsilon-\epsilon_{\theta}(x_t, t, y) ||$

2.2.2 Gradient Map w.r.t Condition

通过 $x_{t}$ 复原 $x_{t-1}$ 可以通过:
$x_{t-1}(x_t, t, y)=\sqrt{\bar\alpha_{t-1}}\left( \frac{x_t-\sqrt{1-\bar\alpha_t}\hat\epsilon(x_t, y)}{\sqrt{\bar\alpha_t}} \right)+\sqrt{1-\bar\alpha_{t-1}}\hat\epsilon_{\theta}(x_t, y)$
$x_{t-1}(x_t, t, y)$ 对 $y$ 的偏微分 $\frac{\partial x_{t-1}}{\partial y}$ 可以通过下式计算
$\left.\frac{\partial x_{t-1}(x_t, t, y)}{\partial y}\right|_{y=y_1}=\lim_{\tau\to1}\frac{x_{t-1}(x_t, t, f(y_1))-x_{t-1}(x_t, t, \tau f(y_1)+(1-\tau)f(y_0))}{1-\tau}$
在实验中, 取 $\tau=0.95$ .

2.3 Experiment

2.3.1 Dataset & Preprocessing

BraTS (脑肿瘤 MRI 分割) [6]. 包含 2000 张四种不同 MRI 模态的 3D 脑扫描, 和肿瘤的分割标注. 用于横向对比和消融实验.
CHAOS (肾器官分割) [7]. 包含 20 张 T2-SPIR 核磁腹部扫描. 用于横向对比.

2.3.2 横向对比

表 1 是在 BraTS 上的横向对比, 表 2 是在 CHAOS 上的横向对比.

2.3.3 消融实验

图为主要超参数的消融实验结果.

3. 使用 DM 的血液动力学对比增强 MRI 生成的 feature map 引导分割

[8] Tianxu Lv, Yuan Liu, Kai Miao, Lihua Li, Xiang Pan. Diffusion Kinetic Model for Breast Cancer Segmentation in Incomplete DCE-MRI. MICCAI, 2023.

3.0 Abstract

最近在动态对比增强核磁共振成像 (Dynamic Contrast Enhanced Magnetic Resonance Imaging, DCE-MRI)对肿瘤分割的研究通常借助时间动力学特征 (Temporal Kinetic Characteristics) 和深度学习的结合来提高分割性能.
然而, 获取完整的时间序列数据是困难的, 尤其是后对比增强图像 (Post-Contrast Images), 这使现有方法的分割性能、泛化能力、临床应用面临挑战.
在这一份工作中, 我们提出一种扩散动力学模型 (Diffusion Kinetic Model), 它可以隐含地利用 DCE-MRI 中的血液动力学先验信息, 并且能够在仅需要前对比增强图像的情况下有效地生成高质量的分割图.
我们特别考虑了血液动力学响应函数 (Hemodynamic Response Function, HRF) 与降噪扩散过程 (Denoising Diffusion Process, DDP) 之间的潜在关系, 这对于逼真的图像生成展现出显著的效果.
我们提出的 DKM 包括一个扩散模块 (Diffusion Module) 和一个分割模块 (Segmentation Module), 以使得 DKM 能够学习癌症的血液动力学信息, 并提供动力学的隐空间编码以促进分割性能.
一旦 DM 被预训练, 从 DM 中估计得到的潜在编码被简单地整合到 SM 中, 这使得 DKM 能够在仅使用前对比增强图像的情况下, 自动切准确地标注癌症.
据我们所知, 这是第一项研究探索了在动态 MRI 分割中 HRF 和 DDP 之间关系的工作.
我们在公开的乳腺癌 DCE-MRI 数据集上评估了我们所提出的肿瘤分割方法.
与使用完整序列的现有最先进方法相比，我们的方法即使在使用前对比增强图像时也能获得更高的分割性能.

什么是 DCE-MRI, 以及什么是 pre-contrast images 和 post-contrast images?

ChatGPT: 在动态对比增强磁共振成像（DCE-MRI）中，“pre-contrast images” 和 “post-contrast images” 指的是MRI扫描中的不同图像获取阶段，特别是在使用对比剂的情况下。

前对比图像（Pre-Contrast Images）： 这些图像是在注射对比剂之前获取的。前对比图像用作基准，并通常用于解剖参考，以提供与对比剂注射后获取的图像进行比较的基准点。它们有助于评估对比增强前组织的特征。

后对比图像（Post-Contrast Images）： 这些图像是在将对比剂注入患者的血液后获取的。对比剂突出显示了血管和各种组织内的血流分布。后对比图像显示了对比剂在组织内的摄取和分布方式，并有助于评估灌注、血管化和病变或异常的存在。这些图像用于跟踪组织特征的变化，评估对比增强的影响。

DCE-MRI通常用于医学影像学，用于评估各种疾病，包括肿瘤特征化、血管化评估和组织灌注的评估。前对比和后对比图像在提供有关诊断和治疗规划的宝贵信息方面发挥着关键作用。

上图左边表示血液动力图响应函数和 Denoising Diffusion Process 之间的关系, 右边表示体素级别的强度随时间的变化.

[⚠️注: 这里, $x_0, x_1, \cdots,x_k$ 是 DCE-MRI 扫描的图片的过程, $x_0\to x_t$ 是扩散模型的前向过程, $x_t\to x_{t-1}\to\cdots\to x_k$ 是扩散模型的反向过程, 即扩散模型的任务是: 给定前对比图像 $x_0$ , 生成后对比图像 $x_k$ .]

3.1 Model

模型分为 Diffusion Module (图中 a) 和 Segmentation Module (图中 b).

Diffusion Module 为经典的 DDPM, 以前对比图像 $x_0$ 到高斯噪音 $x_t$ 为前向过程, 以高斯噪音 $x_t$ 到 $x_0$ 为反向过程. DM 被预训练后, DM 中间的隐藏输出 $f_{dm}$ 就包含了血液动力学响应函数的信息.

Segmentation Module 由前四层 KineticBlock 和后四层 UpBlock 组成.

KineticBlock 同时以 DM 的隐藏输出 $f_{dm}$ 和上一层 KineticBlock 的输出 $f_{sm}$ 为输入, 通过一个 Fusion Layer 融合它们:
$\hat f=Fusion(f_{dm}, f_{sm})= Concat(ReLU(BN(W*f_{dm}));f_{sm})$

3.2 Experiment

3.2.1 Dataset & Preprocessing

Breast-MRI- NACT-Pilot [9]. 包括 64 位病人的乳腺癌对比增强 MRI.

3.2.2 横向对比

3.2.3 消融实验

$f_i$ 表示 DM 的第 $i$ 阶段的 feature map.

4. 魔改 DM 中 U-Net 的输入和结构的医学图像分割

[11] G. Jignesh Chowdary, Zhaozheng Yin. Diffusion Transformer U-Net for Medical Image Segmentation. MICCAI, 2023.

4.0 Abstract

扩散模型 (Diffusion Model) 已经在各种生成任务上展现出其威力.
当应用扩散模型进行医疗图像分割时, 需要克服一些障碍: 用于条件扩散过程的语义特征与嵌入噪声不够匹配; 而这些扩散模型中采用的 U-Net 主干对于反向扩散过程中对于准确的像素级分割至关重要的上下文信息不够敏感.
为了解决这些问题, 我们提出了一个用于增强来自源图像条件信息的互注意力模块 (cross-attention module), 以及一个拥有用于提取不同尺寸上下文信息的多尺度窗 (Multi-Size Windows) 的 基于 Transformer 的 U-Net.
我们在 Kvasir-Seg, CVC Clinic DB, ISIC 2017, ISIC 2018, 和 Refuge 这五个有不同模态的图像的 benchmark 数据集上的实验发现, 我们的 Diffusion Transformer U-Net 拥有很好的泛化性能, 并且打赢了这些数据集上的所有 SOTA 模型.

4.1 Model

正向过程: 将 ground truth 的分割标注 $M_0$ 通过 $T$ 次加噪变为 $M_T$ .
反向过程 (对于时间步 $t$ ):
- 给定图像 $I$ , 通过 Encoder, 得到 embedding $f_I\in\mathbb R^{h\times w\times c_1}$ .
- 给定上一时间步带噪音的掩码输出 $\hat M_{t+1}$ , 通过 Encoder, 得到 embedding $f_M \in\mathbb R^{h\times w\times c_2}$ .
- 两个 embedding 通过 Cross Attention 融合为一个 embedding, 和时间步 $t$ 一起作为 UNet 的输入.

4.1.1 Cross Attention

最后的输入被 reshape 成和 $f_M$ 一样的形状.

4.1.2 Multi-sized Transformer U-Net

U-Net 的组成是 Multi-sized Transformer.

input 先通过 Multi-sized window 的 Transformer, 一共有 $K$ 条路, 所有路的加和进入 Shifted window, 得到 output.

4.2 Experiment

4.2.1 Dataset

Kvasir-SEG [12] 结肠镜息肉分割.
CVC-Clinic DB [13] 结肠镜息肉分割.
ISIC 2017 [14] 皮肤镜皮肤病分割.
ISIC 2018 [15] 皮肤镜皮肤病分割.
REFUGE [16] 视网膜底片图像的视杯分割.

4.2.1 消融实验

4.2.2 横向对比

5. 使用 DM 做数据增强以提高分类性能

[17] Xinyi Yu, Guanbin Li, Wei Lou, Siqi Liu, Xiang Wan, Yan Chen, and Haofeng Li. Diffusion-Based Data Augmentation for Nuclei Image Segmentation. MICCAI, 2023.

5.1 Abstract

细胞核分割是病理学影像定量分析中一个重要但是充满挑战的任务.
尽管完全监督的基于深度学习的方法已经有了巨大进步, 但它们还是需要大量的有标注图像才能达到很好的分割性能.
考虑到人工标注一个数据集里的所有细胞核实例是十分低效的, 并且得到一个大规模的人工标注数据集是浪费时间的、浪费劳动力的. 因此, 仅使用少量标注图像去增强一个数据集以提高分类性能是一个意义重大切具有应用价值的研究.
在这篇文章中, 我们引入了第一个基于扩散 (diffusion-based) 的增强方法, 用于细胞核分割.
这一想法是生成大量的有标注图像, 以促进分割模型的训练.
为了达到这一目的, 我们提出了一个两步策略.
在第一步中, 我们训练一个无条件的扩散模型 (unconditional diffusion model) 去生成核结构 (Nuclei Structure), 这被定义为像素级语义和距离变换表示.
每一个生成的核结构将作为对组织病理学图像合成的约束, 并进一步后处理为一个实例图.
在第二步中, 我们训练一个条件扩散模型 (conditional diffusion model), 基于核结构去生成病理学图像.
生成的病理学图像将被加入到真实的数据集中并训练分割模型.
实验结果表明, 通过将合成样本增加到标记的真实数据集中的 10%, 可以达到与完全监督 baseline 相当的分割结果.

5.2 Motivation & Contribution

5.2.1 Motivation

细胞核分割在医学图像分析中至关重要, 有助于促进临床诊断和预诊断.
现有方法大多依赖大量标记图像, 但手动标记耗时且需要专业知识.
需要探索少量标记图像是否可以拓展训练数据集, 以达到或超过完全监督的分割性能.
与 GANs 相比, 基于扩散的模型提供了一个生成多样化图像的替代方案, 适合用于数据增强.

5.2.2 Contribution

提出了一种新颖的基于扩散的细胞核分割增强框架, 包括两个步骤: 无条件细胞核结构合成和有条件组织病理学图像合成.
开发了一个无条件的扩散模型, 和一个以细胞核结构为条件的扩散模型.
实验表明, 仅用这一方法增强 10% 的标记训练数据, 就可以达到与完全监督方法相当的结果.

5.3 Model

生成模型由两个步骤组成:

Unconditional Nuclei Structure Synthesis (无条件的细胞核结构生成)
Conditional Histopathology Image Synthesis (有条件的病理学图像生成)

5.3.1 Unconditional Nuclei Structure Synthesis

Nuclei Structure 由 pixel-level semantic (像素级别语义) 和 distance transform (距离变换) 两部分组成.

像素级别语义 (pixel-level semantic) 是一个 mask 图, 只有 0 和 1, 表示一个像素是否属于细胞核.
距离变换 (distance transform) 包括: 水平距离变换 (horizontal distance transform) 和 垂直距离变换 (vertical distance transform). 分别表示这一个像素点到细胞核中心的归一化水平距离和垂直距离.

因此, 一个 Nuclei Structure 是具有三个通道的, 和原始图像一样大的图像.

5.3.2 Conditional Histopathology Image Synthesis

5.4 Experiment

5.4.1 Dataset

MoNuSeg [18]: 包含 44 张有标注的图像, $1000\times 1000$ .
Kumar [19]: 包含 30 张有标注的图像, $1000\times 1000$ .

5.4.2 实验

6. 使用 DM 中的 U-Net 的一层 embedding 用作分割和分类

[20] Héctor Carrión and Narges Norouzi. FEDD - Fair, Efficient, and Diverse Diffusion-Based Lesion Segmentation and Malignancy Classification. MICCAI, 2023.

6.1 Abstract

皮肤病影响着全世界所有种族的数百万人.
提高诊断的可获得性需要公正且准确地分割和分类皮肤病理学图像.
然而, 因为缺乏有标注的医学图像, 尤其是罕见病, 以及对肤色的代表性不足, 对开发一个具有公平性和准确性的模型提出了挑战.
在这项研究中, 我们提出一个公平, 高效, 多样的基于扩散的 (diffusion-based) 的框架 (FEDD), 用于皮肤病的分割和恶性的分类.
FEDD 通过去噪扩散概率骨架 (denoising diffusion probabilistic backbone) 学习语义上有意义的特征嵌入 (semantically meaningful feature embeddings), 并通过线性探针 (linear probes) 处理它们, 以实现在多样化皮肤病学图像 (Diverse Dermatology Images, DDI) 上达到 sota 性能.
我们分别在只使用 5%, 10%, 15% 和 20% 带标注的样本情况下, 达到了 0.18, 0.13, 0.06 和 0.07 的交并比 (IoU) 提升.
此外, 在 10% DDI 预训练的 FEDD 的恶性肿瘤分类准确率为 81%, 比 sota 高 14%.
我们在数据受限的情况下展示了高效性, 同时为不同肤色和罕见恶性病变条件提供公平的表现.

6.2 Motivation & Contribution

6.2.1 Motivation

皮肤疾病影响全球数百万人, 但诊断和治疗通常依赖于主观、耗时且成本高昂的视觉检查, 尤其是在资源匮乏的社区.
针对准确高效处理皮肤病变, 特别是在资源不足的地区, 迫切需要自动化方法.
皮肤病变分析的 AI 系统面临数据稀缺、类别不平衡、数据多样性不足、依赖非特定基础模型和对多样性种族及肤色研究不足等挑战.
现有 AI 模型常因这些问题而具有种族偏见和泛化能力差,这强调了需要更具包容性和平衡性的方法.

6.2.2 Contribution

引入了 FEDD 框架, 这是一种基于去噪扩散的方法, 用于皮肤病变分割和恶性分类, 在小型但肤色平衡的多样化皮肤病学图像子集上训练.
FEDD 在众多肤色和恶性条件下的表现超越了当前方法, 且仅需最少的训练样本.
利用 DDPMs 学习的具有高度语义意义的特征嵌入进行图像合成, 并使用线性探针进行每像素类别或每图像恶性预测.
在 DDI 数据集上实现了最先进的性能, 无需对编码器进行微调, 解决了皮肤病学中现有 AI 模型的挑战.

6.3 Model

在 DM 中的 U-Net 中指定的一层获得 embedding, 它通过上采样以进行分割, 通过下采样以进行分类.

6.4 Experiment

6.4.1 Dataset

DDI [21].

6.4.2 横向对比

6.4.3 探索实验

7. 使用 DM 生成 bounding box, 然后用于 mask 的生成

[22] Mengxue Sun, Wenhui Huang , and Yuanjie Zheng. Instance-Aware Diffusion Model for Gland Segmentation in Colon Histology Images. MICCAI, 2023.

7.1 Abstract

在病理图像分析中, 确定结肠组织学图像中腺体形态对于确定结肠癌的分级至关重要.
然而, 腺体的手动分割极其困难, 因此需要开发自动方法来分割腺体实例.
最近, 由于强大的噪声到图像去噪 pipeline, 扩散模型 (diffusion model) 已成为计算机视觉研究的热点之一, 并已在图像分割领域得到探索.
在本文中, 我们提出了一种基于扩散模型的实例分割方法, 可以自动执行腺体实例的分割.
首先, 我们将结肠组织学图像的实例分割过程建模为基于扩散模型的去噪过程.
其次, 为了恢复在去噪过程中丢失的细节, 我们使用实例感知滤波器 (Instance Aware Filters) 和多尺度掩码分支 (Multi-scale Mask Branch) 来构建全局掩码, 而不仅仅是预测局部掩码.
然后, 为了提高物体与背景之间的区分度, 我们应用条件编码 (Conditional Encoding) 来增强中间特征与原始图像编码.
为了客观验证所提出的方法, 我们在 2015 年 MICCAI 腺体分割挑战(Gland Segmentation challenge, GlaS) 数据集和结直肠腺癌腺体 (Colorectal Adenocarcinoma Gland, CRAG) 数据集上, 将其与最先进的深度学习模型进行了比较.
实验结果表明, 我们的方法提高了分割的准确性, 并证明了该方法的有效性.

7.2 Motivation & Contribution

7.2.1 Motivation

结直肠癌通常表现为腺癌, 带有腺体结构, 这要求在组织学图像中对腺体实例进行准确分割, 以有效评估和判断恶性.
这些腺体实例的手动标注耗时且需要专业知识, 凸显了自动化分割方法的必要性.
现有深度学习分割方法在准确捕捉多样的细胞形状和区分紧密排列的腺体边界方面面临挑战.
扩散模型在图像合成和其他任务中显示出潜力, 暗示其在改进腺体实例分割方面的潜在适用性.

7.2.2 Contribution

提出了一种基于扩散模型的腺体实例分割新方法, 有效处理组织学图像中的去噪和分割问题.
使用实例感知技术和多尺度掩码分支恢复去噪过程中丢失的细节，并创建全局掩膜进行精细分割.
采用条件编码增强物体-背景区分, 将原始图像信息整合进来, 使分割更清晰.
在 GlaS 挑战和 CRAG 数据集上成功训练和测试了该方法, 证明了其在临床应用中的有效性和潜力.

7.3 Model

Image 输入, 通过 ResNet 提取不同尺度的特征. 最后一层的特征为 $F_R$ .
使用 Mask Branch 将不同尺度的特征融合, 并最终输出一个 $F_{\text{mask}}$ .
Diffusion Model 用于生成带有 grounding boxes 的图, 以时间步 $t$ 和 image 的特征 $F_R$ 为条件.
Instance Aware Filters 以 Diffusion Model 的输出和时间步 $t$ 作为输入, 输出 $F_f^t$ .
最后, 使用 Mask FCN Head 接收 $F_{\text{mask}}$ 和 $F_f^t$ , 输出分割掩码图 $s$ .

7.4 Experiment

8. 使用 DM 做分割, 并用 DS 证据理论来促进多模态融合

[23] Jianfeng Zhao and Shuo Li. Learning Reliability of Multi-modality Medical Images for Tumor Segmentation via Evidence-Identified Denoising Diffusion Probabilistic Models. MICCAI, 2023.

8.1 Abstract

因为缺乏解析可靠的多模态医学图像能力, 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPMs) 用于医学图像分割仍然是一个具有挑战性的任务.
在本文中, 我们提出了一种新颖的具有上下文感知能力的证据识别概率扩散模型 (Evidence-Identified DDPM, EI-DDPM), 通过整合多模态医学图像用于肿瘤分割.
与以往的工作相比, EI-DDPM 采用基于 DDPM 的框架来处理多模态医学图像下的分割任务, 并通过上下文感知证据理论来解析多模态医学图像的可靠性.
我们在一个包含 1251 名受试者的 BraTS 2021 数据集和一个包含 238 名受试者的肝脏 MRI 数据集上应用 EI-DDPM.
广泛的实验证明了 EI-DDPM 的优越性, 其性能超过了当前最先进的方法.

8.2 Motivation & Contribution

8.2.1 Motivation

整合多模态医学图像进行肿瘤分割对于全面诊断和手术规划至关重要, 但由于医学图像的复杂性和可变性, 这一任务充满挑战.
现有的多模态医学图像整合方法缺乏评估不同模态信息可靠性的机制.
Dempster-Shafer 理论 (DST) 为整合不确定信息提供了框架, 但尚未有效应用于医学成像中权衡不同解剖信息.
利用去噪扩散概率模型 (DDPM) 解析多模态医学图像的可靠性, 可以显著提升肿瘤分割效果.

8.2.2 Contribution

提出了一种具有上下文感知的证据识别扩散概率模型 (EI-DDPM), 用于整合多模态医学图像进行肿瘤分割.
开发了一种结合 DDPM 与 DST 的新方法, 用于评估和权衡来自不同医学成像模态的信息可靠性.
使用 BraTS 2021 数据集进行脑肿瘤分割和肝脏 MRI 数据集进行肝肿瘤分割的广泛实验, 证明了 EI-DDPM 相比其他方法的优越性.

8.3 Model

EI-DDPM 模型由三个部分组成：

并行的 DDPM 模型 (四路, 分别是四种不同的 MRI 模态: T1, T2, Flair, T1ce), 用于图像特征的提取.
EIL (Evidence Identified Layer) 用于初步的多模态医学图像合成.
CDO (Contextual Discounting Operator) 用于解析多模态医学图像可靠性.

8.3.1 Parallel DDPM Path

DDPM 用于生成分割图, 以某一模态的图像为条件.

8.3.2 EIL & CDO

使用下文中的方法:

https://blog.csdn.net/yusijinfs/article/details/134427358

将 T1, T2, Flair, T1ce 四种模态的分割结果做融合.

8.4 Experiment

8.4.1 Dataset

BraTS 2021 [24, 25, 26]. 包括 1251 个被试的 T1, T2, Flair, T1ce 四个对齐的 MRI 模态. 标注包括三个区域: ET (使用钆作为对比剂后显示出增强信号的肿瘤部分), NCR (肿瘤内部的坏死区域), ED (肿瘤周围的水肿区域).
Liver MRI.

8.4.2 对比实验

9. 在同一个 DM 分割模型中多次采样, 融合每次的结果, 并衡量不确定性

[27] Jiacheng Wang, Jing Yang, Qichao Zhou, Liansheng Wang. Medical Boundary Diffusion Model for Skin Lesion Segmentation. MICCAI, 2023.

9.1 Abstract

由于多尺度边界关注和特征增强模块的进步, 皮肤病变在皮肤镜图像中的分割近期取得了成功.
然而, 依赖于端到端学习范式的现有方法, 这些方法直接输入图像并输出分割图, 常常难以处理极其困难的边界, 例如在特别小或特别大的病变中发现的边界.
这一限制产生的原因是, 任何有限模型的感受野和局部上下文提取能力不可避免地受到限制, 而且为更大的模型获取额外的专家标注数据成本高昂.
受到将图像合成视为参数化链式过程的扩散模型令人印象深刻的进步的启发, 我们引入了一种新颖的方法, 将皮肤病变分割构想为一个边界演化过程, 以彻底探索边界.
具体来说, 我们提出了医学边界扩散模型 (Medical Boundary Diffusion Model, MB-Diff), 该模型以随机采样的高斯噪声为起点, 通过有限次数的边界演化来获得清晰的分割图.
首先, 我们提出了一个高效的多尺度图像引导模块 (Multi-Scale Image Guidance Module) 来约束边界的演化, 使演化方向适应我们所需的病变.
其次, 我们提出了一种基于演化不确定性的融合策略 (Evolution Uncertainty-Based Fusion Strategy), 用以细化演化结果并产生更精确的病变边界.
我们在两个流行的皮肤病变分割数据集上评估了我们模型的性能, 并将我们的模型与最新的 CNN 和 Transformer 模型进行了比较.
我们的结果表明, 我们的模型在所有指标上都优于现有方法, 并在极具挑战性的皮肤病变上取得了卓越的性能.
所提出的方法有潜力显著提高皮肤病变分割的准确性和可靠性, 为诊断和治疗提供关键信息.

9.2 Motivation & Contribution

9.2.1 Motivation

从皮肤镜图像中分割皮肤病变是皮肤癌诊断和治疗规划中的关键任务.
手动病变分割耗时且容易受到观察者间和观察者内变异性的影响.
为了提高临床工作流程的效率和准确性, 多年来开发了许多自动皮肤病变分割模型.
这些模型通过使用多尺度特征融合、注意力机制等技术来增强特征表示, 从而在皮肤病变分割性能上取得了显著改进.
然而, 对于边界模糊的皮肤病变分割, 特别是在极具挑战性的尺度上, 仍然是一个需要解决的瓶颈问题.

9.2.2 Contribution

为了解决这一挑战, 我们提出了一种新的方法, 将重点从仅仅分割病变边界转移到预测其演化.
我们的方法受到扩散概率模型在图像合成方面的最新进展的启发, 这些模型通过有限步骤从随机采样的高斯分布生成合成样本.
我们调整了这个过程, 以将皮肤病变边界的演化建模为一个参数化的链式过程, 从高斯噪声开始, 经过一系列去噪步骤, 最终产生一个具有明确病变边界的清晰分割图.
通过预测链式过程中的下一步而不是最终分割图, 我们的方法能够比以前的模型更准确地分割具有挑战性的病变.
我们在 ISIC-2016 和 PH2 数据集上评估了我们的模型, 并发现它比现有模型表现得更好.

9.3 Model

DM 用于生成分割的边界 mask 图, 以原图为条件.

9.3.1 Evolution Uncertainty

DM 的模型参数被固定.
不同的分割结果是因为不用的高斯噪音初始化样本造成的.
令 $y_0$ 表示分割图 groundtruth.
DM 的初始噪音为 $y_T^*\sim\mathcal N(0, \mathbf I)$ .
假设对一个图像进行 $n$ 次分割, 则第 $i$ 次的初始噪音为 $y_T^{*,i}$ .
对 $n$ 个初始化噪音 ${y_T^{*,i}\}_{i=1}^n$ , 都跑 DM, 则均值 $\{\mu^{*, i}\}_{i=1}^n$ 和方差 $\{\Sigma^{*,i}\}_{i=1}^n$ 为 DM 得到的结果.
第 $i$ 个分割图计算如此计算: $y^{*,i}=\mu^{*,i}+\exp(\frac12\Sigma^{*,i})\mathcal N(0, \mathbf I)$ .
不确定性如此计算:
$\delta=\sqrt{\frac{1}{n}\sum^n_{i=1}\left(\mu^{*,i}-\frac{1}{n}\sum_{j=1}^{n}\mu^{*,j}\right)^2}$
分割图由最大值投票得来: $y^*=(\sum_{i=1}^ny^{*,i})\geq \tau$ . 其中, $\tau$ 是投票阈值.

9.4 Experiment

9.4.1 Dataset

ISIC-2016 [28].
PH2 [29].

9.4.2 消融实验和对比实验

10. 开山鼻祖 MedSegDiff: 使用动态条件编码和可学习滤波器的 DM 医学图像分割

[30] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, Yehui Yang, Haoyi Xiong, Huiying Liu, and Yanwu Xu. MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model. MIDL, 2023.

10.1 Abstract

扩散概率模型 (Diffusion Probabilist Model, DPM) 最近成为了计算机视觉里最热门的话题之一.
它的图像生成应用, 包括图像层面、隐藏层面的扩散模型和稳定扩散, 已展现出令人印象深刻的生成能力, 在社区中引起了广泛讨论.
许多近期研究还发现它在许多其他视觉任务中也很有用, 例如图像去模糊、超分辨率和异常检测.
受 DPM 成功的启发, 我们提出了第一个基于 DPM 的模型, 用于通用医学图像分割任务, 我们将其命名为 MedSegDiff.
为了增强 DPM 中用于医学图像分割的逐步区域注意力 (Step-wise Regional Attention), 我们提出了动态条件编码 (Dynamic Conditional Encoding), 为每个采样步骤建立了状态自适应条件.
我们进一步提出了特征频率解析器 (Feature Frequency Parser, FF-Parser), 以消除此过程中高频噪声成分的负面影响.
我们在三个具有不同图像模态的医学分割任务上验证了MedSegDiff, 这些任务分别是视网膜图像上的视杯分割、MRI图像上的脑肿瘤分割以及超声图像上的甲状腺结节分割.
实验结果表明, MedSegDiff 在性能上显著超过 sota 方法, 表明所提出模型的泛化能力和有效性.

10.2 Motivation & Contribution

10.2.1 Motivation

分割是许多医学图像分析应用 (如诊断、手术规划和影像引导手术) 中的基本步骤.
它的重要性在于, 它能帮助医生和其他医疗专业人员更好地理解他们所看到的内容, 它还使比较图像和随时间跟踪变化变得更容易.

10.2.2 Contribution

受 DPM 近期成功的启发, 我们设计了一种独特的基于 DPM 的分割模型, 用于医学图像分割任务.
我们提出了首个适用于不同图像模态的通用医学图像分割的基于 DPM 的模型.
我们提出了动态条件编码策略, 用于逐步关注.
我们提出了 FF-Parser 来消除高频分量的负面影响.
在三个不同图像模态的医学分割任务上均超越了以前的最先进水平.

10.3 Model

扩散模型用于分割的生成.
原始图像用于扩散的条件.
Attention 机制的描述如下:
$\mathcal A(m_I^k, m_x^k)=(LN(m_I^k)\otimes LN(m_x^k))\otimes m_I^k$
- $\otimes$ 是按元素相乘.
- $L N$ 是 layer normalization.
- $m_I^k$ 和 $m_x^k$ 分别表示第 $k$ 层的图像特征和分割特征.

10.3.1 FF-Parser

给定特征图为 $m\in \mathbb R^{H\times W\times C}$ .
计算其 2D 快速傅立叶变换 (Fast Fourier Transform, FFT):
$M=\mathcal F[m]\in\mathbb C^{H\times W\times C}$
学习一个频域注意图 (Attentive Map):

$M'=A\otimes M$

对新的频域图做逆快速傅立叶变换 (IFFT):

$m'=\mathcal F^{-1}[M']$

$m^{'}$ 即为滤波器的输出.

10.4 Experiment

10.4.1 Dataset

REFUGE-2 [31].
BraTS-2021 [4].
DDTI [32].

10.4.2 对比实验

10.4.3 消融实验

11. MedSegDiff-V2: 同时在空间域和频率域上做 Attn 的条件和嵌入融合, 使用 DM 直接生成分割

[33] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, and Yanwu Xu. MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer. arXiv preprint arXiv:2301.11798, 2023.

11.1 Abstract

扩散概率模型 (Diffusion Probabilistic Model, DPM) 最近在计算机视觉领域获得了广泛的关注, 这要归功于它在图像生成应用方面的成功, 例如图像层面和隐藏层面扩散模型, 与稳定扩散等, 这些应用展示了令人印象深刻的能力, 并在社区内引发了大量讨论.
近期研究还发现 DPM 在医学图像分析领域也很有用, 医学图像分割模型 MedSegDiff 在各种任务中的强大表现便是明证.
虽然这些模型最初是以 UNet 骨干网络设计的, 但它们也可能从集成ViT 技术中获益.
然而, 我们发现仅仅将这两种方法结合起来会导致性能不佳.
在本文中, 我们提出了一种新颖的基于变换器的条件 UNet 框架, 以及一个新的频谱空间 Transformer (Spectrum-Space Transformer, SS-Former), 用于建模噪声与语义特征之间的交互.
这种架构上的改进导致了一种新的基于扩散的医学图像分割方法, 称为 MedSegDiff-V2, 它显著提高了 MedSegDiff 的性能.
我们已经在五个具有不同图像模态的分割数据集中的十八个器官上验证了 MedSegDiff-V2 的有效性.
我们的实验结果表明, MedSegDiff-V2 在相当大的范围内超越了SOTA 方法, 进一步证明了所提出模型的泛化能力和有效性.

11.2 Motivation & Contribution

11.2.1 Motivation

医学图像分割对诊断和手术规划至关重要, 需要改进一致性和准确性,自动化方法可以提供这些改进.
深度学习已经推动了医学图像分割的进步, 但将新型模型如扩散概率模型 (DPM) 与现有方法整合仍然充满挑战.
存在一种需求, 即需要弥合基于 Transformer 的模型与 DPM 在有效医学图像分割中的差距.

11.2.2 Contribution

首次将变换器架构与基于扩散的模型整合应用于通用医学图像分割, 这在该领域是一种新颖的方法.
开发了一种使用高斯空间注意力的锚点条件来减少扩散方差, 提升模型性能.
实现了一种带有频谱-空间变换器 (SS-Former) 的语义条件, 有效处理分割噪声与语义特征之间的相互作用.

11.3 Model

扩散模型用于生成分割, 图像作为条件.

11.4 Experiment

11.4.1 Dataset

AMOS 2022 [34]. 腹部多器官分割 CT 扫描.
REFUGE-2 [31]. 视网膜视杯分割.
BraTS [4]. MRI 脑肿瘤分割.
DDTI [32]. 超声成像甲状腺结节分割.

11.4.2 消融实验

11.4.3 对比实验

12. 使用对抗学习的自监督分割 (含有 DM)

[35] Boah Kim, Yujin Oh, Jong Chul Ye. Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation. ICLR, 2023.

12.1 Abstract

在医学图像中的血管分割是血管疾病诊断和治疗规划中的重要任务之一.
虽然基于学习的分割方法已经被广泛研究, 但在监督方法中需要大量真实标签, 而且混乱的背景结构使得神经网络在非监督方式下难以分割血管.
为了解决这个问题, 我们在这里引入了一种新颖的扩散对抗表示学习(Diffusion Adversarial Representation Learning, DARL) 模型, 该模型结合了去噪扩散概率模型和对抗学习, 并将其应用于血管分割.
特别是对于自监督的血管分割, DARL 通过一个扩散模块学习背景信号, 这使得生成模块能够有效地提供血管表示.
此外, 通过基于所提出的可切换空间自适应去归一化 (Switchable Spatial- Adaptive Denormalization) 的对抗学习, 我们的模型估计合成的假血管图像以及血管分割掩码, 这进一步使模型捕获与血管相关的语义信息.
一旦所提出的模型被训练, 它可以在单个步骤中生成分割掩码, 并且可以应用于冠状动脉造影和视网膜图像的一般血管结构分割.
在各种数据集上的实验结果表明, 我们的方法显著优于现有的非监督和自监督血管分割方法.

12.2 Motivation & Contribution

12.2.1 Motivation

临床诊断中的血管分割面临挑战, 如 X 光血管造影中的低对比度和复杂结构, 这需要更先进的方法来准确分析和治疗规划.
传统和基于学习的分割方法存在局限性, 如需要大量标记数据或难以将非监督方法应用于医学图像.
扩散模型在多样化图像生成和数据分布建模方面显示出潜力, 但尚未有效地应用于无标签数据的语义分割.

12.2.2 Contribution

开发了一种新型的扩散对抗性表征学习 (DARL)模型, 用于自监督的血管分割, 这是一种无需真实标签的非迭代方法.
该模型结合了扩散模块和生成模块进行对抗性学习, 有效地分割血管并生成合成血管造影图像.
在包括视网膜图像在内的多个数据集上展示了卓越的血管分割性能, 确认了模型的有效性和泛化能力.

12.3 Model

一组数据由两个图像组成, $x_0^a$ 为血管造影 (angiography), $x_0^b$ 为背景 (background). 在数据采集时, 先采集 $x_0^b$ , 然后给患者注射对比剂, 然后采集到 $x_0^a$ , 在这个过程中可能由于患者的移动导致两张图不对齐.

扩散模块 (Diffusion Module) $\epsilon_\theta$ 用于估计潜在特征 (latent features).
生成模块 (Generation Module) $G$ 用于估计血管分割 mask $\hat s^v$ 和生成的血管造影 $\hat x^a$ .
鉴别器 (Discriminator) $D_s$ 和 $D_a$ 用于鉴别分割是否为真的, 血管造影是否为真的.

12.3.1 Generation Module

生成模块由 $N$ 个 ResnetBlock 组成. 每个 ResnetBlock 的计算是可切换的 (计算取决于当前是路径 A 还是 B). 令特征图为 $v\in\mathbb R^{B\times C\times H\times W}$ , $B, C, H, W$ 分别为批量大小, 通道数, 高, 宽. 在可切换层的计算如下:

当计算路径 A 时, 即不输入 mask 图 $s$ :
$v=\text{IN}(v)$
其中 $\text{IN}(\cdot)$ 是 instance normalization.
当计算路径 B 时, 即输入 mask 图 $s$ :
$v=\text{SPADE}(v, s)$
其中, $\text{SPADE}(\cdot,\cdot)$ 的定义为:
$v_{b,c,h,w}=\gamma_{c, h, w}(s^f)\frac{v_{b,c,h,w}-\mu_c}{\sigma_c}+\beta_{c, h, w}(s^f)$
- $v_{b, c, h, w}$ 表示张量 $v$ 的下标为 $(b, c, h, w)$ 的元素.
- $\mu_c, \sigma_c$ 表示张量 $v$ 在通道 $c$ 上所有元素的均值和方差.
- $\gamma_{c, h, w}$ 和 $\beta_{c, h, w}$ 为可学习的参数.

最后, 模型的生成方式为:

路径 A: 给定加噪的血管造影 $x^a_{t_a}$ , 使用扩散模块计算 latent space $\epsilon_\theta (x_{t_a}^a, t_a)$ , 生成模块 $G$ 生成分割 mask $\hat s^v$ :
$\hat s^v=G(\epsilon_\theta(x_{t_a}^a,t_a);0)$
路径 B: 给定加噪的背景 $x_{t_b}^b$ , 使用扩散模块计算 latent space $\epsilon_\theta(x_{t_b}^b,t_b)$ , 加上分割前景 $s^f$ , 生成模块 $G$ 生成血管造影 $\hat x^a$ :
$\hat x^a=G(\epsilon_\theta(x_{t_b}^b, t_b);s^f)$

12.3.2 Loss Function

对于训练的描述如上图所示, 用到了三个损失函数 $\mathcal L_{adv}, \mathcal L_{diff}, \mathcal L_{cyc}$ .

Adversarial loss 对抗损失 $\mathcal L_{adv}$

这一损失的目的是同时训练生成器和鉴别器.

用于生成器的训练:
$\mathcal L_{adv}^G(\epsilon_\theta, G, D_s, D_a)=\mathbb E_{x^a}[(D_s(G(\epsilon_\theta(x^a); 0))-1)^2] + \mathbb E_{x^a, s^f}[(D_s(G(\epsilon_\theta(x^a); s^f))-1)^2]$
用于鉴别器的训练:
$\mathcal L_{adv}^{D_s}(\epsilon_\theta, G, D_s)=\frac12\mathbb E_{s^f}[(D_s(s^f)-1)^2]+\frac12\mathbb E_{x^a}[(D_s(G(\epsilon_\theta(x^a);0))^2]$

$\mathcal L_{adv}^{D_a}(\epsilon_\theta, G, D_a)=\frac12\mathbb E_{x^a_0}[(D_a(x_0^a)-1)^2]+\frac12\mathbb E_{x^b,s^f}[(D_a(G(\epsilon_\theta(x^b);s^f))^2]$
Diffusion loss 扩散损失 $\mathcal L_{diff}$

这一损失的目的是训练扩散模型
$\mathcal L_{diff}(\epsilon_\theta)=\mathbb E_{t, x_0, \epsilon}[||\epsilon-\epsilon_\theta(\sqrt{\alpha_t}x_0+\sqrt{1-\alpha_t}\epsilon, t)||^2]$
Cyclic reconstruction loss 循环重建损失 $\mathcal L_{cic}$

这是保证使用 $s^f$ 生成的 $\hat x^a$ 再拿去生成 $\hat s^f$ , 两者重建应当一致.
$\mathcal L_{cyc}(\epsilon_\theta, G)=\mathbb E_{x_b, s^f}[||G(\epsilon_\theta(G(\epsilon_\theta(x^b);s^f));0)-s^f||]$

最后, 总的损失有两个:

总扩散/生成损失:
$\mathcal L^G(\epsilon_\theta, G, D_s, D_a)=\mathcal L_{diff}(\epsilon_\theta)+\alpha \mathcal L_{adv}^G(\epsilon_\theta, G, D_s, D_a)+\beta \mathcal L_{cyc}(\epsilon_\theta, G)$
总鉴别损失:
$\mathcal L^D(\epsilon_\theta, G, D_s, D_a)=\mathcal L_{adv}^{D_a}(\epsilon_\theta, G, D_a)+\mathcal L_{adv}^{D_s}(\epsilon_\theta, G, D_s)$

12.4 Experiment

12.4.1 Dataset

XCAD: X 光冠状动脉造影疾病.
134 XCA: X 光冠状动脉造影疾病.
30 XCA: X 光冠状动脉造影疾病.
DRIVE: 视网膜成像.
STARE: 视网膜成像.

12.4.2 对比实验

12.4.3 消融实验

13. 自然图像上的 DM 分割

[36] Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello.Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models. CVPR, 2023.

13.1 Abstract

我们提出了ODISE: 开放词汇扩散式全景分割 (Open-vocabulary DIffusion-based panoptic SEgmentation), 它将预训练的文本-图像扩散模型和判别模型统一起来, 以执行开放词汇的全景分割.
文本到图像的扩散模型 (Text-to-Image Diffusion Model) 具有生成高质量图像的显著能力, 这些图像与多样的开放词汇语言描述相对应.
这表明它们的内部表示空间与现实世界中的开放概念高度相关.
另一方面, 像 CLIP 这样的文本-图像判别模型擅长将图像分类到开放词汇的标签中.
我们利用这两种模型的固定内部表示来执行任何野外类别的全景分割.
我们的方法在开放词汇全景和语义分割任务上均显著优于之前的最先进技术.
特别是, 仅通过 COCO 数据集训练, 我们的方法在 ADE20K 数据集上达到了 23.4 的 PQ 和 30.0 的 mIoU, 比之前的最先进技术分别提高了 8.3 PQ 和 7.9 mIoU.

13.2 Motivation & Contribution

13.2.1 Motivation

在计算机视觉中, 开放词汇识别对于模仿人类般的理解至关重要, 但缺乏一个统一的框架, 同时解析对象实例和场景语义.
现有的文本-图像判别模型虽然能够分类个别对象, 但在空间和关系理解上存在困难, 限制了其在全景分割中的有效性.
扩散模型在图像合成中显示出高度的语义控制潜力, 暗示它们可以被用于更全面的场景理解.

13.2.2 Contribution

提出了 ODISE, 这是一个结合了大规模文本-图像扩散和判别模型的新颖模型, 实现了任何类别的最先进全景分割.
开发了一个有效利用预训练的文本-图像扩散模型内部特征的pipeline, 用于开放词汇的全景分割.
在多种开放词汇识别任务上展示了超越现有基准的卓越性能, 为该领域树立了新标准.

13.3 Model

训练:

测试:

13.4 Experiment

13.4.1 Dataset

COCO.

13.4.2 消融实验

13.4.3 对比实验

Reference List

[1] Tao Chen, Chenhui Wang, Hongming Shan. BerDiff: Conditional Bernoulli Diffusion Model for Medical Image Segmentation. MICCAI, 2023.

[2] Armato III, S.G., McLennan, G., Bidaut, L., McNitt-Gray, M.F., Meyer, C.R., Reeves, A.P., Zhao, B., Aberle, D.R., Henschke, C.I., Hoffman, E.A., et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans. Medical physics, 2011.

[3] Clark, K., Vendt, B., Smith, K., Freymann, J., Kirby, J., Koppel, P., Moore, S., Phillips, S., Maffitt, D., Pringle, M., et al. The cancer imaging archive (TCIA): maintaining and operating a public information repository. Journal of digital imaging, 2013.

[4] Baid, U., Ghodasara, S., Mohan, S., Bilello, M., Calabrese, E., Colak, E., Fara- hani, K., Kalpathy-Cramer, J., Kitamura, F.C., Pati, S., et al. The RSNA-ASNR- MICCAI BraTS 2021 benchmark on brain tumor segmentation and radiogenomic classification. arXiv:2107.02314, 2021.

[5] Xinrong Hu, Yu-Jen Chen, Tsung-Yi Ho, Yiyu Shi. Conditional Diffusion Models for Weakly Supervised Medical Image Segmentation. MICCAI, 2023.

[6] Bakas, S., Akbari, H., Sotiras, A., Bilello, M., Rozycki, M., Kirby, J.S., Freymann, J.B., Farahani, K., Davatzikos, C. Advancing the cancer genome atlas glioma mri collections with expert segmentation labels and radiomic features. Scientific data, 2017.

[7] Kavur, A.E., Gezer, N.S., Barı ̧s, M., Aslan, S., Conze, P.H., Groza, V., Pham, D.D., Chatterjee, S., Ernst, P., O ̈zkan, S., Baydar, B., Lachinov, D., Han, S., Pauli, J., Isensee, F., Perkonigg, M., Sathish, R., Rajan, R., Sheet, D., Dovletov, G., Speck, O., Nu ̈rnberger, A., Maier-Hein, K.H., Bozdag ̆ı Akar, G., U ̈nal, G., Dicle, O., Selver, M.A. CHAOS Challenge - combined (CT-MR) healthy abdominal organ segmentation. Medical Image Analysis, 2021.

[8] Tianxu Lv, Yuan Liu, Kai Miao, Lihua Li, Xiang Pan. Diffusion Kinetic Model for Breast Cancer Segmentation in Incomplete DCE-MRI. MICCAI, 2023.

[9] Newitt, D., Hylton, N. Single site breast DCE-MRI data and segmentations from patients undergoing neoadjuvant chemotherapy. Cancer Imaging Arch, 2016.

[10] Hyun-Jic Oh, Won-Ki Jeong. DiffMix: Diffusion Model-Based Data Synthesis for Nuclei Segmentation and Classification in Imbalanced Pathology Image Datasets. MICCAI, 2023.

[11] G. Jignesh Chowdary, Zhaozheng Yin. Diffusion Transformer U-Net for Medical Image Segmentation. MICCAI, 2023.

[12] Jha, D., et al. Kvasir-SEG: a segmented polyp dataset. Springer, Cham, 2020.

[13] Bernal, J., S ́anchez, F.J., Fern ́andez-Esparrach, G., Gil, D., Rodr ́ıguez, C., Vilarin ̃o, F. Wm-dova maps for accurate polyp highlighting in colonoscopy: valida- tion vs. saliency maps from physicians. Comput. Med. Imaging Graph, 2015.

[14] Codella, N.C., et al. Skin lesion analysis toward melanoma detection: a challenge at the 2017 international symposium on biomedical imaging (ISBI), hosted by the international skin imaging collaboration (isic). ISBI, 2018.

[15] Tschandl, P., Rosendahl, C., Kittler, H. The ham10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions. Scientific data, 2018.

[16] Orlando, J.I., et al. Refuge challenge: a unified framework for evaluating automated methods for glaucoma assessment from fundus photographs. Med. Image Anal, 2020.

[17] Xinyi Yu, Guanbin Li, Wei Lou, Siqi Liu, Xiang Wan, Yan Chen, and Haofeng Li. Diffusion-Based Data Augmentation for Nuclei Image Segmentation. MICCAI, 2023.

[18] Kumar, N., et al. A multi-organ nucleus segmentation challenge. IEEE Trans. Med. Imaging, 2019.

[19] Kumar, N., Verma, R., Sharma, S., Bhargava, S., Vahadane, A., Sethi, A. A dataset and a technique for generalized nuclear segmentation for computational pathology. IEEE Trans. Med. Imaging, 2017.

[20] Héctor Carrión and Narges Norouzi. FEDD - Fair, Efficient, and Diverse Diffusion-Based Lesion Segmentation and Malignancy Classification. MICCAI, 2023.

[21] Daneshjou, R., et al. Disparities in dermatology AI performance on a diverse, curated clinical image set. Sci. Adv, 2022.

[22] Mengxue Sun, Wenhui Huang , and Yuanjie Zheng. Instance-Aware Diffusion Model for Gland Segmentation in Colon Histology Images. MICCAI, 2023.

[23] Jianfeng Zhao and Shuo Li. Learning Reliability of Multi-modality Medical Images for Tumor Segmentation via Evidence-Identified Denoising Diffusion Probabilistic Models. MICCAI, 2023.

[24] Baid, U., et al. The rsna-asnr-miccai brats 2021 benchmark on brain tumor segmentation and radiogenomic classification. arXiv preprint arXiv:2107.02314, 2021.

[25] Bakas, S., et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. Sci. Data, 2017.

[26] Menze, B.H., et al. The multimodal brain tumor image segmentation benchmark (brats). IEEE Trans. Med. Imaging, 2014.

[27] Jiacheng Wang, Jing Yang, Qichao Zhou, Liansheng Wang. Medical Boundary Diffusion Model for Skin Lesion Segmentation. MICCAI, 2023.

[28] Gutman, D., et al. Skin lesion analysis toward melanoma detection: A challenge at the international symposium on biomedical imaging (ISBI) 2016, hosted by the international skin imaging collaboration (ISIC). arXiv preprint arXiv:1605.01397, 2016.

[29] Mendonça, T., Ferreira, P.M., Marques, J.S., Marcal, A.R., Rozeira, J. PH 2-A dermoscopic image database for research and benchmarking. In: 2013 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 2013.

[30] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, Yehui Yang, Haoyi Xiong, Huiying Liu, and Yanwu Xu. MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model. MIDL, 2023.

[31] Fang, H., Li, F., Fu, H., Sun, X., Cao, X., Son, J., Yu, S., Zhang, M., Yuan, C., Bian, C., et al. Refuge2 challenge: Treasure for multi-domain learning in glaucoma assessment. arXiv preprint arXiv:2202.08994, 2022.

[32] Pedraza, L., Vargas, C., Narváez, F., Durán, O., Muñoz, E., Romero, E. An open access thyroid ultrasound image database. In: 10th International symposium on medical information processing and analysis, 2015.

[33] Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, and Yanwu Xu. MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer. arXiv preprint arXiv:2301.11798, 2023.

[34] Ji, Y., Bai, H., Yang, J., Ge, C., Zhu, Y., Zhang, R., Li, Z., Zhang, L., Ma, W., Wan, X., et al. Amos: A large-scale abdominal multi-organ benchmark for versatile medical image segmentation. arXiv preprint arXiv:2206.08023, 2022.

[35] Boah Kim, Yujin Oh, Jong Chul Ye. Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation. ICLR, 2023.

你可能感兴趣的:(Deep,Learning,论文笔记,#,医学AI论文笔记,#,CV,论文笔记,论文阅读,python,计算机视觉,人工智能,深度学习,神经网络,stable,diffusion)

LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
CCF-GESP 等级考试 2025年6月认证Python四级真题解析
1单选题（每题2分，共30分）第1题2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间，跑动着的机器人会利用身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等，那么这类传感器类似于计算机的()。A.处理器B.存储器C.输入设备D.输出设备解析：答案：C。所有传感器都用于采集数据，属于输入设备，故选C。第2题小杨购置的计算机使用一年后觉得内存不够用了，想购置一个容量更
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
Deep in the heart 与《心迷宫》的互译 lingxuanqiquan
前几天，我在别人推荐下，看了一部电影《心迷宫》。整个片子看起来有点像一个小品，反转迭出，高潮迭起。故事采用大量的倒序、插叙，没有用心仔细看的人，或许会看的有点迷茫。按照惯例，此处有大量剧透，介意者误视之~在县城上班的宗耀是村长的儿子，他和老爸不和，因为老爸给他安排的道路不是他想要的。因为是村长的儿子，所以得帮老爸保留面子，但他挡不住内心的悸动——尽管老爸希望他找个城里姑娘恋爱结婚，但他还是和村里的
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
【华为419机考真题】服务器能耗统计，JAVA 题解梦想橡皮擦华为服务器 java 华为OD机试华为OD
最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试，独家整理已参加机试人员的实战技巧本篇题解：服务器耗能题目描述服务器有三种运行状态：空载，单任务，多任务，每个时间片的能耗的分别为111、333、444，每个任务由起始时间片和结束时间片定义运行时
LangChain4j入门：Java开发者的AI应用开发指南半夜偷你家裤衩子 LangChain4j java 人工智能开发语言 LangChain4j
在AI浪潮席卷全球的今天，Java开发者如何快速上手大语言模型应用开发？LangChain4j为我们提供了完美的解决方案！前言：为什么Java开发者需要LangChain4j？想象一下，你正在开发一个企业级应用，需要集成ChatGPT来提供智能客服功能。传统方式需要直接调用OpenAIAPI，处理复杂的HTTP请求、错误重试、上下文管理等问题。而使用LangChain4j，几行代码就能搞定：Cha
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
销售易发布中国首款AI CRM，纷享销客什么时候能抄上作业 wq54wq 人工智能
在数字化转型的深水区，客户关系管理、系统已成为企业增长的核心基础设施，一家可以与企业共同成长的CRM厂商才能跟上企业业务的快速发展，帮助企业实现高质量增长。2025年3月19日，销售易在腾讯云城市峰会上高调发布中国首款AICRM产品——NeoAgent。这款融合了腾讯混元大模型与DeepSeek开源技术的智能体矩阵，不仅重新定义了CRM的交互逻辑，更将行业竞争推向了“使技术真正回归赋能业务的本质”
2020-11-09 风知我意
来的路上在背书，没有心思看外面的风景。回去的路上似乎又没了心情。每次跟他在一起的时候，感觉时间被暂停，不用去思考很多乱七八糟的事。不用着急，不用焦虑。我一直都还挺害怕北京的，还有上海。嗯，是害怕。觉得它庞大，深不可测，光怪陆离，我会生存不下去。这次来，所有虚幻的想法都落了地。这里有我爱的男生，有我喜欢的子鱼，还有好多我喜欢的博主，大晴，斯斯，听话…很多事情变的具体。北大医学部也好，天安门也好，就静
python2.x里面的input（）和raw_input（）函数以及3.x中的input（）函数的区别 scuter_yu python python input函数 raw_input函数 3.x中的input函数
在python3.0及以上的版本中，raw_input（）函数已经和我们说再见了，但是呢，input（）函数则很好地替代了消失了的raw_input（）函数。而且现在的input（）函数所返回的值都是字符串，所以对于要有int，float等类型的数值必须进行强制的类型转换。下面让我对3.0的input（）函数做个小总结：>>>str=input("abc:")abc:15>>>str'15'(虽然
代码相关（python）一个月只能修改一次次代码 python
python程序崩溃提示符用python的时候的各个tips矩阵python判断某个矩阵是否满足要求python生成二维随机数文件/档python检查某个文件存不存在python添加有特定字段的文件到列表python矩阵保存为txt文档python按行读文档python写文档python文档操作字符串python用split来拆分字符串python搜索字符串某个字符的位置给字符串前/后添加字符画图
AI产品经理面试宝典第45天：AI应用设计与伦理隐私问题应对指南 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
如何提升AI产品的用户体验？问：如何提升AI产品的用户体验？答：用户体验优化需从三个维度突破：数据质量、交互逻辑、反馈机制。首先确保训练数据覆盖真实场景长尾需求，例如智能客服需采集方言、行业术语等特殊语料。其次设计渐进式交互路径，如医疗影像诊断产品采用"一键初筛-人工复核-历史对比"三段式流程。最后建立动态反馈闭环，通过埋点采集用户行为数据，结合A/B测试持续迭代模型输出结果。专业指导此题考察产品
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
泽平的ScalersTalk第七轮新概念朗读持续力训练Day 394 20220420 郑泽平
练习材料：L44-3:SpeedandcomfortForafewhours,yousettlebackinadeeparmchairtoenjoytheflight.Therealescapistcanwatchafilmandsipchampagneonsomeservices.Butevenwhensuchrefinementsarenotavailable,thereisplentytok
背靠腾讯的销售易，发布中国首款AI CRM，纷享销客接下来怎么办 CC_54321 人工智能
在数字化转型的深水区，客户关系管理、系统已成为企业增长的核心基础设施，一家可以与企业共同成长的CRM厂商才能跟上企业业务的快速发展，帮助企业实现高质量增长。2025年3月19日，销售易在腾讯云城市峰会上高调发布中国首款AICRM产品——NeoAgent。这款融合了腾讯混元大模型与DeepSeek开源技术的智能体矩阵，不仅重新定义了CRM的交互逻辑，更将行业竞争推向了“使技术真正回归赋能业务的本质”
微软CEO Satya Nadella提出AI重构法则：从范式跃迁到社会盈余 TGITCIC AI-大模型的落地之道 AI大模型大模型AI AI Agent AI智能体 AI落地大模型落地
1.范式跃迁：AI作为第四次技术革命的核心驱动力1.1技术代际的复合效应从客户端到互联网、移动互联网再到云计算，技术平台的演进始终遵循“平台变革→产品跃迁→反哺平台”的螺旋上升逻辑。AI的特殊性在于其叠加了前三代技术的基础设施能力：云计算：提供百亿级参数模型的分布式训练能力互联网：构建全球数据流动与反馈闭环移动终端：扩展AI服务的触达边界技术范式核心特征代表产品对AI的支撑作用客户端本地化计算Wi
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
WPF PRISM 绑定事件及拖拽研究 zhs1931 C#WPF
publicRelayCommandWindowSizeChangedCommand{get{if(WindowSizeChangedCommand==null)WindowSizeChangedCommand=newRelayCommand(param=>WidowSizeChanged(param));returnWindowSizeChangedCommand;}}publicvoidWin
python 密码学模块_Python加密与解密 No module named 'Crypto' weixin_39827304 python 密码学模块
DES加密全称为DataEncryptionStandard，即数据加密标准，是一种使用密钥加密的块算法入口参数有三个：Key、Data、ModeKey为7个字节共56位，是DES算法的工作密钥；Data为8个字节64位，是要被加密或被解密的数据；Mode为DES的工作方式,有两种:加密或解密3DES(即TripleDES)是DES向AES过渡的加密算法使用两个密钥，执行三次DES算法加密的过程是
No module named "Crypto"，如何安装Python三方模块Crypto weixin_30342827 python 操作系统
前两天公司公司老总让我研究怎么用企业微信第三方应用进行官网对接，完成URL回调验证问题。具体如何进行Python的Django网站与企业微信第三方应用进行回调验证的博客地址为：https://www.cnblogs.com/ws17345067708/p/10522472.html这里讲讲，如何在win10下，安装一个非常坑爹的加密算法库，名字叫"Crypto"看了好多博客，没有一个管用的，要么就
Python 报错：ModuleNotFoundError: No module named ‘Crypto‘
Crypto报错解决方案Python报错：ModuleNotFoundError:Nomodulenamed'Crypto'前言问题解决方案Python报错：ModuleNotFoundError:Nomodulenamed‘Crypto’前言Crypto是一个加密模块，它包含了多种加密算法，如AES、DES、RSA等。它不是Python标准库的一部分，需要使用pip安装。pycrypto和Cry
【甲烷数据集】Sentinel-5P 卫星获取的全球甲烷数据集-TROPOMI L2 CH₄ WW、forever 数据集 sentinel
目录数据概述传感器&卫星信息监测目标：甲烷（CH₄）数据产品内容空间与时间覆盖云筛选与协同观测技术文档资源数据下载Python代码绘制CH4数据参考数据概述Sentinel-5PrecursorLevel2Methane(TROPOMIL2CH₄)数据集是由欧洲哥白尼计划的Sentinel-5P卫星获取的，用于监测大气中的甲烷浓度。数据集名称：Sentinel-5PrecursorLevel2Me
LangChain 源码剖析（二）：LangChain 流程编排的核心骨架——Chain 基类源码剖析 ATM006 人工智能 langchain 大模型 Agent
每一篇文章都短小精悍，不啰嗦。在LangChain框架中，Chain是连接各种组件（模型、工具、数据库等）的核心骨架，负责将多个步骤按逻辑串联成可执行的工作流。无论是简单的「提问-回答」流程，还是复杂的「检索-思考-工具调用」pipeline，都依赖Chain基类提供的基础能力。本文将从架构设计、核心功能到实现细节，全面解析这一基类的设计智慧。一、架构定位：为什么需要Chain基类？Chain基类
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
✨ Apache Airflow：当你的工作流不再“996”，全靠这个调度大师！
文章目录️先聊聊痛点：工作流调度为啥让人头大？Airflow是谁？你的工作流“总指挥”！Airflow的核心“大脑”：理解几个关键概念Airflow的魔力大招：为什么开发者爱不释手？Airflow是万能药吗？也聊聊它的“小脾气”️哪些场景最适合召唤Airflow？如何开始你的第一次Airflow“飞行”？我的个人碎碎念（真情实感时间）总结：让Airflow做你的“流程指挥官”！还在为凌晨三点被报警
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
JetBrains IntelliJ IDEA插件推荐 Someone_sky intellij-idea java ide
在IntelliJIDEA可以安装一些插件，让工作更有效率，好的插件可以满足从新手到资深开发者的各种需求。ApifoxHelper:ApifoxHelper是一个免费的、专为Java和Kotlin开发者设计的高效API调试插件。它能够自动分析项目中的接口，并允许你直接在IDEA中发送请求，无需在IDE和其他工具之间来回切换。这个插件还能自动填充请求参数，解析各种响应体，并记录请求历史，方便你实时编
Agent-S：重新定义下一代 AI 智能体开发框架天机️灵韵人工智能编程语言架构设计人工智能开源项目 python
Agent-S：重新定义下一代AI智能体开发框架——探索simular-ai的开源革命引言2025年，AI智能体（Agent）技术正从概念走向产业核心。从自动化工作流到复杂决策系统，开发者亟需更高效的工具链。在这一背景下，simular-ai/Agent-S的诞生引人注目——它承诺以模块化、可扩展的架构，为开发者提供构建企业级智能体的终极工具箱。项目定位：智能体开发的“瑞士军刀”根据GitHub仓
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。