zenRRan

一文速览医学多模态进展

每天给你送来NLP技术干货！

机构｜中国人民大学高瓴人工智能学院

来自 | RUC AI Box

引言：目前，自然图像-文本的多模态预训练模型已经在各种各样的下游任务上取得了非常好的效果，但是由于域之间的差异很难直接迁移到医学领域。同时，获取有标注的医学图像领域的数据集通常需要大量的专业知识和较高的成本，所以从对应的放射学报告中得到有效监督从而提高性能成为一种可能。本文主要介绍医学的多模态模型的进展，这些模型方法在下游的分类、分割、检索、图像生成等任务上均取得了性能的提升。

点击这里进群—>加入NLP交流群

Contrastive Learning of Medical Visual Representations from Paired Images and Text

http://arxiv.org/abs/2010.00747

这篇文章提出了ConVIRT框架，核心思想其实就是多模态的对比学习，是CLIP之前的工作，CLIP文中也有说受到ConVIRT的启发，其使用其实的是ConVIRT的简化版本。ConVIRT的整体架构如下：

主要流程比较直观：一张图片先做随机变换得到不同的视图，然后进入Image Encoder，最后接一个非线性变化得到512维的特征表示；对与该图片配对的放射学报告，首先进行随机采样得到其中的某句话，然后进入TextEncoder，最后通过得到512维的特征表示；最后分别对图片和文本计算infoNCE loss。

GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition【ICCV2021】

https://ieeexplore.ieee.org/document/9710099/

本文主要从全局和局部进行医学图像的表示学习，提出GLoRIA模型，主要使用注意机制，通过匹配放射学报告中的单词和图像子区域来学习图像的全局-局部表示。其中创建上下文感知的局部图像表示是通过学习基于特定单词的重要图像子区域的注意力权重。如下图中基于单词“effusion”（积液）得到的图像区域积液的权重就比较大。

下图是进行全局和局部学习的方法图。给定一对医学图像和报告，首先使用图像编码器和文本编码器分别提取图像和文本特征。

全局图像-文本表示是通过全局对比损失进行学习的。为了学习局部表征，首先基于图像子区域特征和词级特征计算相似性矩阵，以生成注意力加权图像表示（Attention weighted image representation）。首先计算文本和图像特征的所有组合之间的点积相似性：

上式得到的表示的是个单词和个图像子区域的相似性矩阵，表示的就是第个单词和第个图像子区域之间的相似性。之后通过下面的softmax得到注意力权重：

对于报告中的每个单词，我们根据其与所有图像子区域的相似性计算注意力加权图像表示：

之后通过局部的对比损失来实现这一目标：使用函数计算单词与其相应的注意力加权图像特征之间的相似性。

在给定词表示的情况下，Local contrastive loss的目标是使注意加权图像区域表示的后验概率最大化：

本文主要在图像分类、检索和分割上进行性能评估。其中分类和检索也是结合全局和局部图像文本相似性去实现的。具体来说：通过图像和文本表示提取特征后，基于全局图像和文本表示计算全局相似度；利用基于词的注意加权图像表示和对应的词表示计算局部相似度。通过全局相似度和局部相似度的平均得到最终的图像文本相似度。

但对于分类来说，其没有具体的文本表示，GLoRIA的做法是预生成合理的文本，以描述分类类别中每种疾病子类型、严重程度和位置。通过随机组合子类型、严重性和位置的可能单词生成文本提示来作为每个分类类的文本。

MedCLIP: Contrastive Learning from Unpaired Medical Images and Text【EMNLP 2022】

http://arxiv.org/abs/2210.10163

这篇文章提出了MedCLIP模型，出发点一方面是医学图像文本数据集比互联网上的一般图像文本数据集要少几个数量级，另一方面是以前的方法会遇到许多假阴性，即来自不同患者的图像和报告可能具有相同的语义，但被错误地视为负样本。所以MedCLIP通过将图片文本对进行解耦然后进行对比学习，通过引入外部医学知识而减少假阴性。

假设有个成对的图像文本样本、个标记的图像和个医学句子。以前的方法只能使用对样本，但MedCLIP将个图像文本对分别解耦为个图像和个句子。最终能够通过遍历所有可能的组合来获得图像文本对，所以这样就可以得到倍的监督信号。

为了完成额外的监督，MedCLIP利用外部医学知识来构建知识驱动的语义相似性。这里MedCLIP使用了外部工具MetaMap，MetaMap是可以从原始句子中提取统一医学语言系统（UMLS）中定义的实体。遵循之前工作的做法，主要关注14种主要实体类型。同样，对于带有诊断标签的图像，也是利用MetaMap将原始类映射到UMLS概念，从而与文本中的实体对齐，例如，“Normal”映射到“No Findings”。接下来就可以从提取的图像和文本实体中构建multi-hot向量，分别为和。因此，通过这种方式统一了图像和文本的语义。对于任何图像和文本，MedCLIP就可以通过比较相应的和来衡量它们的语义相似性。

MedCLIP通过构建的语义标签和来连接图像和文本，首先可以得到soft targets：

表示的就是医学语义的相似性。对图片和文本分别进行softmax：

另外我们也可以通过直接将图像和文本特征计算余弦相似性得到logit，同样进行softmax处理：

因此，Semantic Matching Loss是logits和soft targets之间的交叉熵：

Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning【NIPS 2022】

http://arxiv.org/abs/2210.06044

这篇文章提出MGCA框架，通过多粒度跨模态对齐学习通用医学视觉表示。如下图所示，医学图像和放射学报告会在不同层级自然而然表现出多粒度语义对应关系：疾病层级、实例层级和病理区域层级。

图像和文本首先分别经过图像和文本编码器，得到一系列token表示，然后通过下面三个模块实现三个粒度的对应：

Instance-wise Image-Text Alignment (ITA)：进行实例级别的对齐，即图像文本的对比损失。

Cross-attention-based Token-wise Alignment (CTA)：基于交叉注意力机制的token级别的对齐。这个模块的出发点对应到前面的病理区域级别，用CTA模块来显式匹配和对齐局部的医学图像和放射学报告。思路是进行token级别的对齐，使用交叉注意计算生成的视觉和文本token之间的一个匹配。形式上，对于第个图像文本对中的第个视觉token ，我们让去和对应的文本中的所有token 计算其对应的跨模态文本嵌入，看作得到了和图片token相似的文本信息。

之后采用local image-to-text alignment 损失来将图片token 接近其交叉模态文本嵌入，但将推离其他跨模态文本嵌入，同时考虑到不同的视觉标记具有不同的重要性（例如，包含病理的视觉标记显然比具有不相关信息的视觉标记更重要），我们在计算LIA损失时为视觉token分配权重。因此，如下：

Cross-modal Prototype Alignment (CPA)：ITA 和 CTA 都将来自不同实例的样本视为负对，所以可能会把有许多类似的语义的样本在嵌入空间推开，例如相同的疾病的对。因此，CPA模块是为了进行疾病级别的对齐。首先使用迭代的聚类算法Sinkhorn-Knopp，文本和图像分别被聚类算法预测结果是和，同时有个可学习的原型聚类中心，，可以直接计算得到图像/文本和每个类中心的softmax概率：

跨模态疾病水平（即原型）对齐是通过进行跨模态预测和优化以下两个交叉熵损失来实现的。使用作为“伪标签”来训练图像表示，作为“伪标签”来训练文本表示：

最后，CPA损失是所有图像报告对中两个预测损失的平均值：

MGCA总的目标是三个模块目标的加权和。

LViT: Language meets Vision Transformer in Medical Image Segmentation

http://arxiv.org/abs/2206.14718

LViT 模型主要用于医学图像分割，是一个双 U 结构，由一个 U 形 CNN 分支和一个 U 形 Transformer 分支组成。CNN 分支负责图片输入和预测输出，ViT 分支用于合并图像和文本信息，利用 Transformer 处理跨模态信息。

U 形 ViT 分支设计用于合并图像特征和文本特征。第一层DownViT模块接收文本特征输入和来自第一层DownCNN模块的图像特征输入。特定的跨模态特征合并操作由以下等式表示：

后续 DownViT 模块既接收来自上层 DownViT 模块的特征，又接收来自相应层的 DownCNN 模块的特征。

然后，对应尺寸的特征通过 UpViT 模块传输回 CNN-ViT 交互模块。并且该特征与相应层的 DownCNN 模块中的特征合并。这将最大限度地提取图像全局特征，并避免由于文本注释的不准确性而导致的模型性能振荡。

PLAM模块的设计如上图b所示，旨在保留图像的局部特征，并进一步合并文本中的语义特征；

为了扩展 LViT 的半监督版本，LViT使用指数伪标签迭代机制（EPI）。其中表示模型的预测，通过不简单地使用一代模型预测的伪标签作为下一代模型的目标从而避免伪标签质量下降。因此，EPI可以逐步优化模型对每个未标记像素的分割预测结果，并对噪声标签具有鲁棒性。

为了进一步利用文本信息来指导伪标签的生成，设计了Languane-Vision Loss函数。首先计算对应于伪标签的文本特征向量和用于对比标签的文本特征向量之间的余弦相似性TextSim。之后根据TextSim，选择相似度最高的对比文本，并找到与该文本对应的图像mask。然后再计算图片的伪标签和对比标签之间的相似性：

对比标签主要提供近似位置的标签信息，而不是边界的细化。因此的主要目的是避免差异显著的分割错误或错误标记病例。因此只在未标记的情况下使用LV损失，在没有标签的情况下，可以避免伪标签质量的急剧恶化。

Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains

http://arxiv.org/abs/2210.04133

目前许多生成模型虽然表现出了出色的生成能力，但它们通常不能很好地推广到特定领域，例如医学图像领域。但是，利用生成模型生成一些医学图像出来可能有助于缓解医疗数据集的匮乏。因此，这项工作主要是研究将大型预训练基础模型的表示能力扩展到医学概念，具体来说，本文是利用扩散模型stable diffusion生成医学图像。

主要是利用了稳定扩散模型的架构，将整个设定转化为了放射学的图像和文本。具体流程如上图二所示，给定随机噪声进行去噪，在这个过程中会有文本作为条件去影响去噪的过程，最后使用VAE的解码器进行图像的生成。整个工作是比较偏实验和验证性的。主要从stable diffusion的各个模块进行训练，包括VAE、Text Encoder、Textual Projection、Textual Embeddings Fine-tuning、U-Net Fine-tuning。

通过两个简单的prompt：“肺部射线照片”和“带有可见胸腔积液的射线照片”来测试不同设置下的生成能力。并通过定量的FID指标进行评估。

从定性和定量的结果来看，表现最好的是U-Net训练的第二种设定，能够生成较好的图片的同时还能匹配文本的语义，能够理解有无“胸腔积液”的区别。

Generalized radiograph representation learning via cross-supervision between images and free-text radiology reports【Natural Machine Intelligence 2022】

https://arxiv.org/abs/2111.03452

本文提出REFERS模型，主要通过在图像和文本对上进行交叉监督学习去得到放射学表征。

主要考虑到每项患者研究通常都有一份自由文本报告但是通常涉及不止一张 X 光片。首先通过radiograph transformer来提取不同视图的相关特征表示。为了充分利用每份报告的信息，设计了一个基于注意力机制的视图融合模块，以同时处理患者研究中的所有射线照片并融合多个特征。

接下来进行交叉监督学习，从自由文本放射学报告中获取监督信号。主要通过两个任务：reportgeneration和study–report representation consistency reinforcement实现监督。第一项任务采用原始放射学报告中的自由文本来监督radiograph transformer的训练过程。第二项任务加强了患者研究的视觉表示与其相应报告的文本表示之间的一致性。第一项任务主要通过report transformer在给定图像和前面的token的条件下进行token的生成：

第二项任务通过图像和文本的对比来实现。

RoentGen: Vision-Language Foundation Model for Chest X-ray Generation

http://arxiv.org/abs/2211.12737

本文提出了RoentGen，是用于合成高保真的胸片的生成模型，能够通过自由形式的医学语言文本prompt进行插入、组合和修改各种胸片的成像，同时能够具有相应医学概念的高度的图像相关性。

使用RoentGen对胸部X射线图像进行文本到图像合成流程如上图所示。使用微调或重新训练的U-Net 对随机高斯噪声进行降噪，同时此过程中会有文本编码器从医疗文本提示得到的编码。最后VAE的解码器将去噪的向量映射到像素空间，从而产生高保真、多样化的胸部射线图像。

其中，微调或重新训练的具体方式是这样的：使用文本编码器和VAE，对提示和相应的图像进行编码，并将采样噪声添加到后者的潜在表示中，之后U-Net进行预测原始采样噪声：

计算真实噪声和预测噪声之间的MSE loss，由此提高生成能力：

总结：目前医学多模态通过不同的模型设计从而学习局部语义、获取更多相关知识信息、尽可能利用现有数据集、生成图像以尽可能弥补数据量少的问题，在下游的多种任务上得到了性能提升。如何进一步学习更加通用的医学模型、如何将其应用到实际中是仍然值得思考和探索的。

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务

统计机器学习方法 for NLP：基于CRF的词性标注

统计机器学习方法 for NLP：基于HMM的词性标注

点击这里进群—>加入NLP交流群

2025年开源大模型全景：语言、多模态与开发工具的前沿探索软件职业规划开源
语言类开源大模型1.Llama系列开发者：Meta发布时间：2024年7月参数量：8B、70B、405B特点：Llama系列模型以其强大的多语言支持和广泛的自然语言处理能力而闻名。它支持文本生成、问答、翻译等多种任务，尤其在处理长篇文本时表现出色，支持高达128K的上下文长度。Meta与超过25个合作伙伴共同推出该系列模型，包括亚马逊云科技、Databricks和英伟达等，推动了开源大模型在工业界
我与DeepSeek读《大型网站技术架构》- 大型网站架构技术一览与Web开发技术发展历程诺亚凹凸曼架构
文章目录大型网站架构技术一览1.前端架构2.应用层架构3.服务层架构4.存储层架构5.后台架构6.数据采集与监控7.安全架构8.数据中心机房架构Web开发技术发展历程一、静态HTML阶段二、CGI脚本模式阶段三、服务器页面模式阶段大型网站架构技术一览1.前端架构浏览器访问优化：压缩静态资源、减少HTTP请求。CDN加速：将静态资源分发至边缘节点，降低网络延迟。反向代理：缓存热点内容，提供负载均衡与
小白十分钟速通 Spring Boot 基础 Gao_雪 Spring spring boot 后端 java spring vscode
SpringBoot介绍随着Spring体系的不断庞大，加上现代互联网应用体积庞大，构建一个应用还是非常困难的，Spring团队重新打造了一个新的面向微服务的框架SpringBoot。严格来说SpringBoot不能是一个框架，它更是一个方案，Spring工程的快速上手方案，它极大的降低了JavaWeb工程的创建和运行和部署的难度。在过去这些都是Java工程师的老大难，所以说SpringBoot的
基于NXP+FPGA永磁同步电机牵引控制单元（单板结构/机箱结构）深圳信迈主板定制专家轨道交通 NXP+FPGA fpga开发边缘计算人机交互嵌入式硬件人工智能
永磁同步电机牵引控制单元（单板结构/机箱结构）永磁同步电机牵引控制单元（TCU-PMSM）用于牵引逆变器-永磁同步电机构成的牵引电传动系统，采用轴控方式。执行高性能永磁同步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。最大转矩电流比（MTPA）控制和弱磁控制用于轨道交通领域的PMSM的控制目标为：控制牵引电机提供足够大的转矩；控制牵引电机在保持恒定
基于NXP+FPGA轨道交通3U机箱结构牵引控制单元深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发边缘计算人工智能大数据嵌入式硬件
基于NXP+FPGA轨道交通异步电机牵引控制单元(TCU-IM)异步电机牵引控制单元（TCU-IM）用于牵引逆变器-异步电机构成的牵引电传动系统，可采用车控或架控方式。执行高性能异步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。无速度传感器控制通过转速观察算法，推算出准确的转速和转子位置，在实际应用中，达到省去速度传感器的目的，降低成本并减少故障点
Gemini 2.0 全面解析：技术突破、应用场景与竞争格局 zhz5214 AI 人工智能 ai AI编程 AI写作程序员创富
摘要2025年3月，谷歌正式发布Gemini2.0大模型，凭借其在多模态处理、代码生成和长上下文理解等领域的突破性进展，迅速成为AI领域的焦点。本文将深入剖析Gemini2.0的技术架构、应用场景及与Grok3、DeepSeekR1、ChatGPT-4.5等竞品的对比，探讨大模型技术的边界与未来趋势。1.Gemini2.0技术亮点1.1模型架构与性能提升Gemini2.0采用混合专家模型（MoE）
一文掌握：Cursor新版本MCP配置全攻略（Windows与Mac篇） zhz5214 AI 人工智能 ai AI编程 AI写作程序员创富
随着Cursor0.46新版本的发布，对MCP（ModelContextProtocol）的支持为开发者带来了全新的功能体验。MCP作为一种开放标准协议，能够在数据源和AI驱动工具之间建立安全的双向连接，极大地拓展了AI的应用能力。接下来，我们就分别针对Windows和Mac环境，详细介绍MCP的配置方法。Windows环境下的MCP配置准备工作在开始配置前，请确保已经安装了Node.js。因为在
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.25-2024.07.01 小小帅AIGC LLMs论文时报人工智能语言模型深度学习自然语言处理大语言模型 LLM
文章目录～1.AutoCherry-Picker:LearningfromHigh-qualityGenerativeDataDrivenbyLanguage2.BioMNER:ADatasetforBiomedicalMethodEntityRecognition3.BESTOW:EfficientandStreamableSpeechLanguageModelwiththeBestofTwoW
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
医学文本分析中的命名实体识别：从理论到实践软件职业规划语言模型 unity 人工智能
1.数据预处理数据预处理是医学命名实体识别系统的基础步骤，其质量直接影响模型的训练效果和最终性能。数据预处理主要包括医学文本的标注、清洗以及数据增强三个方面。1.1医学文本的标注标注是数据预处理中的关键环节，其目的是将医学文本中的实体明确标记出来，以便模型能够学习到实体的特征和边界。标注的方式通常采用BIO标注法。1.1.1BIO标注法BIO标注法是一种广泛应用于命名实体识别任务的标注方式，它通过
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
什么是"外包"？一文读懂企业外包那些事程序员
什么是"外包"？一文读懂企业外包那些事在当今快速发展的商业环境中，"外包"已经成为一个非常普遍的商业模式。今天，让我们一起来了解什么是外包，以及为什么越来越多的企业选择外包服务。什么是外包？外包（Outsourcing）是指企业将某些非核心业务委托给外部专业机构来完成的一种商业模式。从图中我们可以看到一个典型的外包链条：公司A→公司B→工头C。外包产生的原因1.公司A（发包方）的特点：内部人力资源
养生鲜知酒世界语意合™ 花间流风琴语言学习编程实战100讲几何学情感分析矩阵
养生鲜知酒世界语意合™介绍世界语意合™：无极养生鲜知酒™低代码爬虫插件生成平台，一切人文美篇都含共同的特点：鲜醇如酒，回味悠长，水不在深有龙则灵，山不在高有仙则灵，吐纳健身，诵致养生，气质达人，和气生财，平易近人，和悦泛函，慧极必伤，情深不寿，阳明心学，温文如玉，谦谦君子，神童晏殊启智音律宝典。琴生生物机械科技工业研究所国医学院医疗力量中心。云藏山鹰社会科学概论报告天下才气共一斗，云藏山鹰独占八分
智商测试原理全解析：从心理学到统计学，一文读懂(包含数据接口 2401_84193787 职场发展职场和发展求职招聘单一职责原则
智力测验（IntelligenceTest）是有关人的普通心智功能的各种测验的总称，又称普通能力测验。编制这类测验的目的是为了综合评定人的智力水平。早期编制的智力测验多采取个人测验的形式，这是单独评估心智功能的最好方法。国际上常用的个人智力测验主要有两种：斯坦福-比奈智力量表和韦克斯勒智力量表。现在常用测验包括：比奈－西蒙智力量表、韦克斯勒智力量表、斯坦福一比奈智力量表、瑞文标准智力测验、军队甲种
一文搞懂MCU和SoC的核心差异：从架构到应用场景全解析 Electron-er 单片机架构嵌入式硬件
目录引言一、从“芯片大脑”看本质：架构设计的哲学差异1.MCU：单一任务的执行专家2.SoC：系统级集成的超级平台二、实战对比：六大维度拆解差异1.性能指标对比2.开发模式对比三、选型指南：如何选择MCU或SoC？1.选择MCU的场景2.选择SoC的场景四、技术演进：MCU与SoC的融合趋势1.MCU的进化方向2.SoC的突破方向五、开发者避坑指南结语标签：MCUvsSOC、嵌入式系统、芯片选型、
一文吃透C++数组：概念与操作大揭秘大雨淅淅 C++开发数据库 c++开发语言
目录一、C++数组初印象二、C++数组概念剖析2.1数组定义与本质2.2数组声明与初始化方式2.2.1声明2.2.2初始化2.3数组元素访问三、C++数组操作全解析3.1遍历数组3.1.1for循环遍历3.1.2范围for循环遍历3.2修改数组元素3.3获取数组大小3.4多维数组操作3.4.1二维数组3.4.2.多维数组拓展3.5数组作为函数参数3.5.1传数组名3.5.2函数原型声明四、C++数
用Vue实现海报排版设计功能 powerx_yc javascript ViewUI
一、前言本来想做个微信小程序，实现一键生成海报图片（可替换文字、图片，不需要用户排版），所以后台管理系统上需要实现一个制作海报模板的功能（“简单版ps”），写了挺长时间的，逻辑太多了，现在写得差不多了，但是由于各种事情项目一直没有进展，估计是没能做完了，所以把这个“简单版ps”开源出来。二、界面三、动态效果图四、github源码地址（欢迎star，谢谢~）github.com/CB-ysx/pag
定了！粉丝破800w的陈雷老师确认出席创客匠人5000人的“全球创始人IP领袖高峰论坛” 创小匠 tcp/ip 大数据人工智能
正式官宣！全网粉丝800W+、中医学博士——陈雷，确认应邀参加创客匠人5000人“全球创始人IP领袖高峰论坛”，共襄知识服务领域的年度盛宴！由创客匠人发起的“全球创始人IP领袖高峰论坛”将在2024年12月26日-28日在厦门市国际博览会议中心隆重举行。大会邀请到众多行业内的顶尖大咖和领袖人物亲临现场，围绕“IP、趋势、战略、创新、增长”五大关键词，分享他们的宝贵经验和独到见解。这将是2024年底
双软企业认定干货大放送：条件、流程、时间全知晓卧涛西安17391873147 大数据经验分享
在科技飞速发展的当下，双软企业认定成为众多软件企业关注的焦点。那么，究竟什么是双软企业？认定双软企业又需要满足哪些条件、经历怎样的流程、耗费多长时间呢？今天，就为大家带来满满的干货，一文讲透双软企业认定那些事儿，要是看完还有疑问，欢迎找小编咨询哦！一、什么是双软企业双软企业，简单来说，是指软件企业和软件产品经过相关部门的认定，符合特定标准的企业。软件企业认定侧重于企业的整体研发、生产经营等情况，而
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
做亚马逊、temu、速卖通、希音自养号采购砍单率过高需要怎么解决刘哥测评技术zcwz626 经验分享网络协议网络安全服务器
做无货源模式的卖家越来越多，自养买家号采购时遭遇大砍单是一个普遍而棘手的问题。为了避免这一问题，需要从技术环境搭建、账号权重养成以及下单技巧等多个方面进行系统化操作。以下是一些具体的建议和策略：一、技术环境搭建：确保账号独立性1.硬件隔离：使用独立设备或采用云服务器等隔离技术，确保每个账号拥有唯一的硬件标识，如IMEI、MAC地址等。在同一设备上登录多个账号要确保每个账号都是独立的环境，以防止硬件
DeepSeek 与其他 AI 模型的对比：优势与特色分析 CarlowZJ 人工智能 DeepSeek
一、引言在众多AI模型中，DeepSeek凭借其独特的功能和优势脱颖而出。本文将对比DeepSeek与其他流行的AI模型，分析它的优势与特色。二、与GPT系列的对比功能多样性：DeepSeek不仅支持文本生成，还支持代码生成和对话交互。多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

一文速览医学多模态进展

你可能感兴趣的:(一文速览医学多模态进展)