zhaoxfan

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

Abstract

在各种医学图像分割任务上，u形架构（也称为U-Net）已成为事实上的标准并取得了巨大的成功。但是，由于卷积运算的内在局限性，U-Net通常在显式建模远程依赖关系方面显示出局限性。专为序列到序列预测而设计的具有全局自我关注机制的Transformer已经成为替代架构，但是由于缺乏low-level的细节，其结果可能导致定位能力受限。在本文中提出的TransUNet同时具有Transformers和U-Net的优点，是医学图像分割的有力替代方案。一方面，Transformer将来自CNN特征图的标记化图像块编码为提取全局上下文的输入序列。另一方面，解码器对编码的特征进行上采样，然后将其与高分辨率的CNN特征图组合以实现精确的定位。

作者认为通过结合U-Net来恢复localized spatial information来增强神经元细节，可以将Transformers用作医疗图像分割任务的强大编码器。TransUNet在多种医疗应用（包括多器官分割和心脏分割）中，比各种竞争方法具有更高的性能。代码

1 Introduction

在U-Net的不同变体中，由具有skip-connection的对称编解码器网络以增强细节保留，已成为事实上的选择。基于这种方法，在广泛的医疗应用中取得了巨大的成功，例如来自CMR的心脏分割和来自CT的器官分割等等。

尽管基于CNN的方法具有出色的表示能力，但由于卷积运算的固有局限性，通常仍在建模显式远程关系方面存在局限性。因此，这些架构通常会产生较弱的性能，尤其是对于在纹理，形状和大小方面表现出较大的患者间差异的目标结构。为了克服这种局限性，现有研究提议基于CNN特征建立自我注意机制。另一方面，专为序列到序列预测而设计的Transformers已经成为替代架构，它完全采用分配卷积运算符并且完全依赖于注意力机制。与以前的基于CNN的方法不同，Transformers不仅在建模全局上下文方面功能强大，而且在大规模预训练下对下游任务也显示出卓越的可移植性。机器翻译和NLP领域已广泛见证了这一成功。最近，在各种图像识别任务的尝试也达到甚至超过了SOTA。

在本文中，作者提出了第一个研究，探讨了在医学图像分割背景下Transformers的潜力。但是，作者发现单纯的用法（即使用Transformers对标记化的图像patches进行编码，然后直接将隐藏的特征表示升采样为全分辨率的密集输出）无法产生令人满意的结果。

这是由于Transformers将输入视为1D序列，并且只专注于在所有阶段建模全局上下文，因此会导致低分辨率特征缺乏局部信息的细节。通过直接上采样到完整分辨率无法有效地恢复此信息，因此会导致粗略的分割结构。另一方面，CNN架构（eg. U-Net）提供了提取低级视觉cue的途径，可以很好地弥补此类空间细节。

为此，提出了TransUNet，该框架从序列到序列的预测角度建立了自我注意机制。为了补偿由Transformers带来的特征分辨率的损失，TransUNet采用了一种混合CNN-Transformer体系结构，以利用来自CNN特征的详细高分辨率空间信息以及由Transformers编码的全局上下文。受U形结构设计的启发，然后对Transformers编码的自注意特征进行上采样，与从编码路径中跳连接的各种高分辨率CNN特征相结合，以实现精确的定位。实验表明，这种设计使框架能够保留Transformers的优势，并有益于医学图像分割。实验结果表明，与以前的基于CNN的自我注意方法相比，基于Transformer的体系结构提供了一种更好的利用自我注意的方法。另外，作者观察到，更深入地整合低级特征通常会导致更好的分割精度。

3 Method

给定图像其空间分辨率为HxW，通道数为C。目标是预测尺寸为HxW的相应像素级标签图。最常见的方法是直接训练CNN（例如U-Net）以将图像首先编码为高级特征表示，然后将其解码回到完整的空间分辨率。与现有方法不同，TransUNet通过使用Transformers将自我注意机制引入编码器设计。第3.1节中首先介绍如何直接应用Transformer对来自分解后的图像patch的特征表示进行编码。然后，将在3.2节中详细说明TransUNet的总体框架。

3.1 Transformers as Encoder

Image Sequentialization：如下图所示，首先通过将输入reshaping为一系列2D patches

上图模型概述：将图像分割成固定大小的patch，线性地嵌入每个patch，添加位置嵌入，然后将所得的矢量序列提供给标准的Transformer编码器。为了执行分类，向序列添加额外的可学习“分类令牌”的标准方法。这项工作的灵感来自
Attention Is All You Need

TransUNet是在此基础上的创新。论文地址ViT，这个工作的思想是在模型设计中，尽可能地遵循原始的Transformer。这种特意简单的设置的一个优点是，几乎可以立即使用可扩展的NLP Transformer体系结构及其有效的实现。

Patch Embedding：使用可训练的线性投影将矢量化patch Xp映射到潜在的D维嵌入空间中。为了对patch空间信息进行编码，我们学习特定的位置嵌入，将其添加到patch嵌入中以保留位置信息，如下所示：

其中E是patch嵌入投影，Epos代表位置嵌入。

Transformer编码器由L层多头自注意（MSA）和多层感知器块（MLP）组成（Eq. (2)(3)）。因此，L层的输出能被表示如下：

LN(·)代表layer normlization操作，Z L是编码图像表示。

3.2 TransUNet

出于分割的目的，一个直观的解决方案是简单地将编码后的特征表示Z L上采样到完整分辨率，以预测密集输出。为了恢复空间顺序，应首先将编码特征的大小从HW/P2更改为H/P X W/P。我们使用1x1的卷积以将重塑特征的通道大小减小到类的数量，然后将特征图直接双线性上采样到全分辨率HxW，以预测最终的分割结果。

如上所述，尽管结合使用Transformer和简单的上采样已经可以产生合理的性能，但是由于H/P x W/P通常比原始图像分辨率HxW小得多，因此该策略并不是分割中Transformer的最佳用法，因此不可避免地会导致缺少low-level的细节（例如器官的形状和边界）。
因此，为了补偿这种信息丢失，TransUNet采用了混合CNN-Transformer架构作为编码器以及级联的上采样器，以实现精确的定位。

CNN-Transformer Hybrid as Encoder
TransUNet没有使用纯Transformer作为编码器（Section 3.1），而是采用了CNN-Transformer混合模型，其中CNN首先用作特征提取器来生成输入的特征图。Patch嵌入适用于从CNN特征图提取的1x1patches而不是原始图像。

之所以选择这种设计

它允许我们在解码路径中利用中间的高分辨率CNN特征图；
作者实验发现，混合型CNN-Transformer编码器的性能要优于单纯使用纯Transformer作为编码器。

Cascaded Upsampler
我们引入了级联上采样器（CUP），它由多个上采样步骤组成，以解码隐藏特征以输出最终分割掩码。将隐藏特征Z L的序列重塑为H/P x W/P x D的形状后，我们通过级联多个上采样块以实现从H/P x W/P到H x W的完整分辨率来实例化CUP，其中每个块包括
一个2上采样算子，一个3x3卷积层和一个ReLU层。

我们可以看到CUP与混合编码器一起形成了一个U形架构，该架构可以通过跳过连接以将不同的分辨率级别进行特征聚合。 CUP的详细体系结构以及中间的跳过连接可以在图1（b）中找到。

4 Experiments and Discussion

文中使用了两个数据集，分别是腹部CT扫描和心脏CMR。

Synapse multi-organ segmentation dataset
Automated cardiac diagnosis challenge

Implementation Details

对于所有实验，我们都应用简单的数据扩充，例如随机旋转和提取。

对于纯基于Transformer的编码器，我们仅采用具有12个Transformer层的ViT。对于混合编码器设计，我们在本文中将ResNet-50和ViT结合在一起，记为R50-ViT。所有Transformer主干（即ViT）和ResNet-50（表示为R-50）都已在ImageNet上进行了预训练。除非另外指定，否则输入分辨率和色块大小P设置为224 224和16。因此，我们需要在CUP中连续级联四个2个上采样块，以达到完整的分辨率。
并且使用SGD优化器对模型进行了训练，学习速率为0.01，动量为0.9，权重衰减为1e-4。对于ACDC数据集，默认批处理大小为24，默认的训练迭代数为20k，对于Synapse数据集，默认训练迭代数为14k。所有实验均使用单个Nvidia RTX2080Ti GPU进行。

以逐个切片的方式推断所有3D体积，并将预测的2D切片堆叠在一起以重建3D预测以进行评估。

Comparison with State-of-the-arts

Analytical Study

Visualizations

5 Conclusion

Transformer被称为具有强大的先天性自我注意机制的架构。在本文中，我们提出了第一个研究，以调查Transtrans在一般医学图像分割中的用途。为了充分利用Transformers的功能，提出了TransUNet，它不仅通过将图像特征视为序列来编码强大的全局上下文，而且还通过U形混合体系结构设计很好地利用了低级CNN特征。作为基于FCN的主流医学图像分割方法的替代框架，TransUNet的性能优于包括基于CNN的自我注意方法在内的各种竞争方法。

你可能感兴趣的:(医学图像分割,计算机视觉,深度学习,神经网络)

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑岁月的眸人工智能
如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。在这个预算范围内，以下是推荐的配置：1.关键硬件配置(1)GPU(显卡)推荐显卡：NVIDIARTX4090(24GBVRAM)或者RTX3090（24GBVRAM）理由：7B模型推理：24GB显存足够跑7B模型的推理，但全参数训练可能吃力，适合LoRA等微调
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
【Elasticsearch】分词器概述 risc123456 Elasticsearch elasticsearch
Elasticsearch分词与神经网络分词的区别Elasticsearch的分词过程产生的是优化用于搜索和检索的语言学分词。这与机器学习和自然语言处理中的神经分词不同。神经分词器将字符串转换为更小的子词分词，这些分词被编码为向量，供神经网络使用。Elasticsearch没有内置的神经分词器。分词器接收一个字符流，将其分解为单独的分词（通常是单个单词），并输出一个分词流。例如，`whitespa
DeepSeek R1：开启AI推理新时代，强在哪里？人工智能
DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】你是否曾好奇，AI模型是如何学会拆解数学问题，或是一步步解释代码的呢？在过去几年，许多公司开发出了大型语言模型（LLM），它们能创作文章、翻译语言、编写
2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025) GSRA会务组房老师计算机视觉人工智能数据挖掘图像处理目标检测云计算语言模型
2025年计算机视觉研究进展与应用国际学术会议(ACVRA2025)2025InternationalConferenceonAdvancesinComputerVisionResearchandApplications重要信息2025年3月28-30日南京一轮截稿日期：2024年12月26日EI检索稳定早投稿，早审稿，早录用【会议简介】2025年计算机视觉研究进展与应用国际学术会议（ACVRA2
【学术投稿-2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)】CSS样式解析：行内、内部与外部样式的区别与优先级分析禁默前端学术会议 css 前端
简介2025年计算机视觉研究进展与应用（ACVRA2025）将于2025年2月28-3月2日在中国广州召开，会议将汇聚世界各地的顶尖学者、研究人员和行业专家，聚焦计算机视觉领域的最新研究动态与应用成就。本次会议将探讨前沿技术，包括深度学习、多模态学习、图像和视频分析、3D重建等，以及其在智能交通、医疗影像、增强现实和自动化等多个实际应用中的创新转化。会议官网：www.acvra.org目录前言一、
小白零基础学习深度学习之张量爱理科的小王子学习深度学习人工智能
1.张量PyTorch中的张量（Tensor）就是一种用来存储数据的“盒子”，这个盒子可以有不同的形状和大小，里面可以装各种数字。张量是PyTorch中最基本的东西，就像乐高积木一样，你可以用它来搭建各种复杂的模型。2.张量的用途存储数据：你可以把张量当作一个容器，用来存储各种数据。比如，一张图片可以用一个三维张量来表示，其中第一维是颜色通道（红、绿、蓝），第二维和第三维是图片的宽度和高度。进行计
深度学习-情感分析小赖同学啊人工智能深度学习人工智能
以下将分别使用PyTorch和TensorFlow框架实现基于深度学习的情感分析，这里以影评的情感分析为例，数据集使用IMDB影评数据集。使用PyTorch实现1.安装必要的库pipinstalltorchtorchtextspacypython-mspacydownloaden_core_web_sm2.代码实现importtorchimporttorch.nnasnnimporttorch.o
R-CNN架构人工智能
R-CNN架构架构RCCN由三个模块组成：第一个模块生成与类别无关的区域提议。这些提议定义了我们的检测器可用的候选检测集。第二个模块是一个大型卷积神经网络，它从每个区域中提取固定长度的特征向量。第三个模块是一组特定类别的线性支持向量机（SVM）。虽然R-CNN对特定的区域提议方法不挑剔，但选择性搜索（Selectivesearch）是最常用的方法，以便与之前的检测工作进行有对照的比较。实现在测试时
如何训练LLMs进行“思考”（如o1和DeepSeek-R1）人工智能
如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】一台会思考的笔记本电脑OpenAI的o1模型为大型语言模型（LLM）的训练开创了全新范式。它引入了所谓的“思考”令牌（tokens
【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer） IT古董深度学习人工智能深度学习 gpt transformer
GPT（GenerativePre-trainedTransformer）1️⃣什么是GPT？GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive）语言模型。它能够通过大量无监督数据预训练，然后微调（Fine-tuning）以适应特
机器翻译技术的演进与未来趋势：从规则到神经网络的革新 Echo_Wish 人工智能前沿技术机器翻译神经网络人工智能
随着全球化的不断推进和多语言交流的日益频繁，机器翻译（MachineTranslation,MT）技术的需求日益增长。机器翻译技术经历了从基于规则的方法到统计方法，再到如今的神经网络方法的发展历程。本文将探讨机器翻译技术的演进过程及其未来趋势，并结合Python代码示例，展示现代机器翻译技术的应用。一、机器翻译技术的发展历程1.基于规则的机器翻译（RBMT）早期的机器翻译技术主要基于规则（Rule
DeepSeek 实现原理探析 rockmelodies 人工智能 ai deepseek 深度学习
DeepSeek实现原理探析引言DeepSeek是一种基于深度学习的智能搜索技术，它通过结合自然语言处理（NLP）、信息检索（IR）和机器学习（ML）等多领域的技术，旨在提供更加精准、智能的搜索结果。本文将深入探讨DeepSeek的实现原理，分析其核心技术及其在实际应用中的表现。一、DeepSeek的核心技术自然语言处理（NLP）词嵌入（WordEmbedding）：DeepSeek使用如Word
神经网络常见激活函数 9-CELU函数亲持红叶神经网络常见激活函数深度学习机器学习人工智能数学建模神经网络 python
文章目录CELU函数+导函数函数和导函数图像优缺点pytorch中的CELU函数tensorflow中的CELU函数CELU连续可微指数线性单元：CELU（ContinuouslyDifferentiableExponentialLinearUnit）,是一种连续可导的激活函数，结合了ELU和ReLU的特点，旨在解决ELU在某些情况下的梯度问题。函数+导函数CELU函数CELU(x)={xx≥0α
位图的深入解析：从数据结构到图像处理与C++实现 Exhausted、机器学习计算机视觉人工智能图像处理 c++算法数据结构开发语言
在学习优选算法课程的时候，博主学习位运算了解到位运算的这个概念，之前没有接触过，就查找了相关的资料，丰富一下自身，当作课外知识来了解一下。位图（Bitmap）是一种用于表示图像的数据结构，它将图像分解为像素的二维网格，每个像素的颜色值存储在一个矩阵中。位图广泛应用于计算机图形学、图像处理和计算机视觉等领域。目录1.位图的基本概念1.1像素1.2分辨率1.3颜色深度2.位图的存储格式2.1BMP格式
深度学习视频教程推荐 yunTrans Deep Learning 深度学习视频神经网络
推荐一个深度学习视频教程，中文，推导详细。老先生娓娓道来，将神经网络、深度学习讲的非常透彻。由复旦大学吴立德老师教授的课程：http://www.youku.com/playlist_show/id_21508721.html
基于深度学习的商品推荐 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的商品推荐系统利用深度学习技术对用户的行为和商品的特征进行分析和建模，从而向用户推荐最相关的商品。这类系统在电子商务、社交媒体和内容推荐等领域中具有广泛应用。以下是对这一领域的系统介绍：1.任务和目标商品推荐系统的主要任务和目标包括：个性化推荐：根据用户的兴趣和行为，向用户推荐个性化的商品列表。提高用户体验：通过精准推荐，提高用户的购物体验和满意度。增加销售额：通过推荐相关商品，增加用
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
深度学习视频推荐小赖同学啊人工智能深度学习音视频人工智能
以下为你呈现一个基于深度学习实现视频推荐的简化代码示例。这里我们使用的是协同过滤思想结合神经网络的方式，借助TensorFlow和Keras库来构建模型。在这个示例中，假设已有用户对视频的评分数据，目标是预测用户对未评分视频的评分，进而为用户推荐可能感兴趣的视频。1.环境准备要确保你已经安装了必要的库，如numpy、pandas、tensorflow等，可以使用以下命令进行安装：pipinstal
23、深度学习-自学之路-激活函数relu、tanh、sigmoid、softmax函数的正向传播和反向梯度。小宇爱深度学习-自学之路深度学习人工智能
在使用这个非线性激活函数的时候，其实我们重点还是学习的是他们的正向怎么传播，以及反向怎么传递的。如下图所示：第一：relu函数的正向传播函数是：当输入值（隐藏层）值大于了，就输出自己本身的值。反向梯度传播：当输出值大于0，那么反向梯度值就等于输出值乘以1如果小于0，那反向梯度值就等于0.通俗的来说就是，如果输入值是0或小于0，那么输出值的反向增强就没有。如果输入值大于0，那么输出值的方向增强就有。
基于深度学习的半导体检测与预测算法研究(二) 埃菲尔铁塔_CV算法深度学习人工智能神经网络 opencv 计算机视觉 python
摘要随着半导体行业的飞速发展，对生产过程中的检测和性能预测提出了更高要求。深度学习凭借其强大的数据处理和特征提取能力，在半导体领域展现出巨大的应用潜力。本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术，并通过实际案例验证了深度学习算法在
基于深度学习的半导体算法原理及应用埃菲尔铁塔_CV算法算法机器学习人工智能计算机视觉深度学习 python
摘要随着半导体产业的持续发展，深度学习技术在该领域的应用日益广泛且深入。本文全面阐述了基于深度学习的半导体算法原理，涵盖卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）等在半导体制造过程监测、缺陷检测、性能预测等方面的应用。详细分析了这些算法处理半导体相关数据的机制，探讨了算法实现中的关键技术，如数据预处理、模型训练与优化等。通过实际案例展示
计算机视觉国内外研究现状（综述）埃菲尔铁塔_CV算法计算机视觉
1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究
【深入探索-deepseek】高等数学与AI的因果关系我的青春不太冷人工智能机器学习数学
目录数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数2.微积分3.概率论与统计二、自然语言处理领域三、语音识别领域四、数学在AI不同领域应用的逻辑图五、参考资料数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数图像变换：想象我们有一张二维图片，图片里有个点，它的位置用坐标((x,y))表示。现在我们想把这个点绕着图片的原点（就像把纸钉在墙上，以钉子的位置为中心）逆时针旋转一定角度
联想Y7000 2024版本笔记本 RTX4060安装ubuntu22.04双系统及深度学习环境配置七七@你一起学习深度学习 python
目录1..制作启动盘2.Windows磁盘分区，删除原来ubuntu的启动项3.四个设置4.安装ubuntu5.ubuntu系统配置1..制作启动盘先下载镜像文件，注意版本对应。Rufus-轻松创建USB启动盘用rufus制作时，需要注意选择正确的分区类型和系统类型。不然安装的系统会有问题！2.Windows磁盘分区，删除原来ubuntu的启动项手把手教你调整电脑磁盘的分区大小_调整分区大小-CS
图像分类与目标检测算法 BugNest AI 算法分类目标检测 ai 人工智能图像处理
在计算机视觉领域，图像分类与目标检测是两项至关重要的技术。它们通过对图像进行深入解析和理解，为各种应用场景提供了强大的支持。本文将详细介绍这两项技术的算法原理、技术进展以及当前的落地应用。一、图像分类算法图像分类是指将输入的图像划分为预定义的类别之一。这一过程的核心在于特征提取和分类器的设计。1.特征提取特征提取是图像分类的第一步，其目标是从图像中提取出能够区分不同类别的关键信息。传统的特征提取方
【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】萌虎不虎 OpenHarmony harmonyos opencv 华为
鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪OpenCV介绍OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。它由一系列的C函数和少量C++类构成，同时提供Python、Java和MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV具有极广的应用领域，它包括但不限于：人脸识别和物
精通LangChain：如何使用Unstructured处理多种格式的图像文档 hshahtjtbh langchain python
#引言随着人工智能和深度学习的快速发展，文档图像分析(DocumentImageAnalysis,DIA)在许多领域中变得至关重要。然而，处理多种图像格式的文档仍然是一个挑战。本文将介绍如何使用Unstructured库，通过LangChain框架加载和处理多种格式的图像文档，帮助您在DIA任务中实现更高效的工作流程。#主要内容##安装Unstructured在开始之前，确保安装了Unstruct
计算机视觉工业相机、镜头、接口、光源概览及选型参考坐望云起深度学习从入门到精通计算机视觉数码相机人工智能镜头接口数据接口镜头
一、相机1、分类按芯片类型分类：CCD相机、CMOS相机按传感器的结构特性分类：线阵相机、面阵相机按输出信号方式分类：模拟相机、数码相机按输出色彩方式分类：黑白相机、彩色相机2、重要参数芯片尺寸芯片尺寸表示图像传感器感光区域的面积大小，直接决定了整个系统的物理放大率。相机的芯片尺寸如图所示。分辨率分辨率表示每英寸包含的像素数。对于图像来说，分辨率是非常重要的，决定了图像是否能够清晰地呈现：相机的分
【人工智能】Python中的深度学习优化器：从SGD到Adam 蒙娜丽宁 Python杂谈人工智能人工智能 python 深度学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。本文将介绍深度学习中常用的优化器，从传统的随机梯度下降（SGD）到现代的自适应优化器（如Adam）。我们将深入探讨每种优化器的原理、优缺点，并通过Python实现
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他