多模态医学图像第14页

Gemini 1.0：Google推出的全新AI模型，改变生成式人工智能领域的游戏规则！

文章目录前言一.Gemini的发布前期1.1Gemini的准备1.2DeepMnid二.Gemini的三大杀手锏2.1多模态能力2.2可拓展性2.3新硬件，新架构三.生成式人工智能领域的新格局会是什么样

屿小夏·2023-12-21 00:54

【多模态对话】《颠覆性创新：多模态对话与精准区域分割 - VPGTrans & NExT-Chat》学习笔记

【OpenMMLab社区开放麦讲座】《颠覆性创新：多模态对话与精准区域分割-VPGTrans&NExT-Chat》1VPGTrans1.1研究问题1.1.1模态对齐预训练开销很大：训练时间长解决方案：迁移已有的

songyuc·2023-12-20 22:22

论文和模型学习资料合集

1Paper（1）VPGTrans:TransferVisualPromptGeneratoracrossLLMs(NeurIPS2023)【OpenMMLab社区开放麦讲座】《颠覆性创新：多模态对话与精准区域分割

songyuc·2023-12-20 22:52

UI Grounding 学习笔记

学习资料【OpenMMLab社区开放麦讲座】《颠覆性创新：多模态对话与精准区域分割-VPGTrans&NExT-Chat》1.学术关键字LLMDetection2.相关论文InstructBLIP：指令微调

songyuc·2023-12-20 22:21

基于YOLOv8的结核病预测系统设计与实现

程序使用的样本是经过染色处理可以使得结核杆菌在显微镜拍摄的医学图像，通过检测医学图像中的结核杆菌诊断检测该样本的所属者是否患有结核病；为了减少医生的工作量，我们通过构建准确的目标检测模型辅助医生进行检测工作

心无旁骛~·2023-12-20 20:37

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2023-12-20 18:51

斯坦福美女博士创业项目爆火！AI视频生成出道即顶流，半年融资5500万美元

OpenAI大牛AndrejKarpathy转发，并激情附上长文一段：每个人都能成为多模态梦境的导演，就像《盗梦空间》里的筑梦师一样。

度假的小鱼·2023-12-20 18:39

论文解读- nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation

本篇主要解读论文"nnU-Net:Self-adaptingFrameworkforU-Net-BasedMedicalImageSegmentation"==nnU-Net：基于U-Net的自适应医学图像分割框架

Tina姐吖·2023-12-20 17:53

“文思助手”苏哒智能加入飞桨技术伙伴计划，共同打造“大模型+企业办公”新模式

苏哒智能的核心技术包括大模型检索增强生成RAG、行业预训练模型、多模态文档智能

飞桨PaddlePaddle·2023-12-20 14:34

文心一言插件商城重磅上线！

各种详情请大家跟上节奏细细看来文心一言插件商城叠加你的AI技能插件商城集合众多高质量插件，覆盖办公提效、多模态内容理解生成、专业信息

飞桨PaddlePaddle·2023-12-20 14:03

神奇植物在哪里？文心大模型助力一秒读懂花草的“前世今生”

本期文心开发者说邀请到飞桨开发者技术专家谢杰航老师，分享如何利用AI技术构建风景园林行业的植物知识科普系统，接着还介绍了大模型应用的基本技术流程框架，多模态特征提取以及使用向量数据库的优势，使用飞桨星河社区运行向量数据库的方法

飞桨PaddlePaddle·2023-12-20 14:02

会议剪影 | 思腾合力受邀出席首届CCF数字医学学术年会

本次会议由中国计算机学会主办，CCF数字医学分会、复旦大学和上海市医学图像处理与计算机辅助手术重点实验室联合承办，中国科学院

Jericho2022·2023-12-20 12:37

Opencv实验合集——实验四：图片融合

图像融合可以在许多领域中应用，包括计算机视觉、遥感、医学图像处理等。融合的方法有很多：加法融合（AdditiveFusion）：将每个图像的对应像素相加。

我药打十个·2023-12-20 09:27

CVPR 2023 | 最全 AIGC 论文清单汇总版，30个方向130篇！

目录1、图像转换/翻译2、GAN改进/可控3、可控文生图/定制化文生图4、图像恢复5、布局可控生成6、医学图像7、人脸相关8、3D相关9、deepfake

机器学习与AI生成创作·2023-12-20 05:17

nlp与cv的发展

Transformer的出现,促进了更高容量模型的建立,为大模型的出现奠定基础.大模型通常具有十亿个以上参数(仅供参考)左边的蓝色是CV领域、右下绿色是NLP、右上蓝色是多模态基础模型(FoundationalModels

卅拓·2023-12-20 01:58

PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

QueryGenerationModule5、QueryBalanceModule6、MaskDecoder7、MaskedContrastiveLearning8、可视化结果1、Abstract提出了VLT框架，以促进多模态信息之间的深度交互

masterleoo·2023-12-20 01:52

基于Swin_Transformer的图像超分辨率系统

这项技术在许多领域都有广泛的应用，包括医学图像处理、监控摄像头、卫星图像处理等。在过去的几十年里，图像超

xuehai996·2023-12-20 00:32

分水岭算法的应用

上海交通大学医学图像处理数学形态学一个应用是分水岭算法，为了便于理解，可以将图像的灰度空间与地球表面的地形高度相类比，据此，发明了应用于图像领域的分水岭算法。

此间不留白·2023-12-19 22:30

AI浅谈：计算机视觉（CV）技术的优势和挑战

效率和精度提高2.提高安全性3.促进自动化4.促进科学研究5.促进商业发展二、计算机视觉技术的挑战1.环境变化2.精度问题3.隐私和安全问题4.数据质量5.系统复杂度1.自动驾驶汽车2.人脸识别3.农业领域4.医学图像分析

冰海恋雨.·2023-12-19 13:43

论文阅读——Loss odyssey in medical image segmentation

Lossodysseyinmedicalimagesegmentationgithub：https://github.com/JunMa11/SegLossOdyssey这篇文章回顾了医学图像分割中的20

じんじん·2023-12-19 11:17

Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)

近日，Bert-vits2-v2.2如约更新，该新版本v2.2主要把Emotion模型换用CLAP多模态模型，推理支持输入textprompt提示词和audioprompt提示语音来进行引导风格化合成，

刘悦的技术分享·2023-12-19 10:05

【NeurIPS 2023】多模态联合视频生成大模型CoDi

CoDi提出了一种并行多模态生成的大模型，可以同时生成带有音频的视频，距离真正的视频生成更近了一步。相信在不远的将来，可以AI生成的模型可以无缝平替抖音等平台的短视频。

沉迷单车的追风少年·2023-12-19 10:07

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4VwithEmotion:AZero-shotBenchmarkforMultimodalEmotionUnderstandingGPT-4V情感:多模态情感理解的zero-shot基准1.摘要最近

庄园特聘拆椅狂魔·2023-12-19 08:58

Compositional Chain-of-Thought Prompting for Large Multimodal Models大型多模态模型的组合思想链提示

Abstract强大的视觉主干和大型语言模型(LLM)推理的结合使大型多模态模型(LMM)成为各种视觉和语言(VL)任务的当前标准。

Mars_prime·2023-12-19 08:04

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

通过这种方式，答案推理可以更好地利用基于多模态信息生成的基本原理。借助Multim

Mars_prime·2023-12-19 08:31

【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

【论文概述】本文是关于医学图像分割中视觉变换器（VisionTransformers，ViTs）的最新综述。文中详细回顾了ViTs及其与卷积神经网络（CN

cskywit·2023-12-19 05:51

【论文阅读笔记】Pre-trained Universal Medical Image Transformer

【代码开源】【论文概述】本文介绍了一种名为“预训练通用医学图像变换器（Pre-trainedUniversalMedicalImageTransformer，简称PUMIT）”的新型算法，该算

cskywit·2023-12-19 05:18

10.10-11 科研记录一些多模态工作的相关思考

论文出发点很简单，第一，就是想要去除文本的冗余数据，有多篇文章也提到了，冗余文本影响对下游任务的性能，大量无关的文本输入到大模型也会影响大模型的性能，本质也很好理解，就是尽可能去除与任务不相关的部分，减少噪声，第二，就是想提取出文本中与变量相关的部分，更精准地让文本和时序模态中对同一模态的数据能够协同融合，互相补充，从而达到但一直找不到比较创新的方法，其实关键个人认为在于提取关键特征，思考了“at

A half moon·2023-12-18 23:02

MIA-Net：用于多模态情感分析的多模态交互注意力网络

MIA-Net：用于多模态情感分析的多模态交互注意力网络总括：多模态融合时，首先将多种模态分为主模态与辅助模态，通过构建了一个交互注意力模块，从辅助模态中提取对主模态有帮助的信息进行融合。

鱼儿也有烦恼·2023-12-18 19:18

GPT-4.5！！！

3D功能的进一步支持，也就意味着多模态最后一块版图的补齐。尤其对于劳动密集型的游戏行业和影视特效行业来说，AI的加入，将会极大减少开发成本，生产效率直线提升。

楷鹏 : )·2023-12-18 18:39

论文笔记：Bilinear Attention Networks

更精简的论文学习笔记1、摘要多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而，学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。

hongyuyahei·2023-12-18 17:30

如何利用GPT4 和 ChatGPT 搞科研？

2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。

asyxchenchong888·2023-12-18 15:47

玩转字词句魔法：打造超强样本集的数据增强策略，句式变换揭秘同义句生成与回译在数据增强中的创新应用

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法

汀、人工智能·2023-12-18 11:40

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 Slover 部分

【CCFBDCI2023】多模态多方对话场景下的发言人识别Baseline0.71Slover部分概述Solver在多模态发言人识别中的作用Solver在多模态发言人识别中的重要性Solver的工作原理二次规划二次规划的基本形式二次规划的特点二次规划在多模态发言中的应用

我是小白呀·2023-12-18 10:48

NExT-GPT: Any-to-Any Multimodal LLM 阅读学习

方法：通过将语言模型与多模态适配器和不同的解码器相连接，构建了一个端到端的通用任意多模态语言模型系统NExT-GPT。优势：利用现有的高性能编码器和解码器进行微调，既避免了从头开始训

south020·2023-12-18 03:36

OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

但随着大模型朝着多模态、AGI发展，神经元变得庞大、复杂且难控制，RLHF便有点力不从心。

richerg85·2023-12-18 02:33

第六届多模态脑网络数据处理班（直播：2023.7.28~7.31）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2023-12-18 01:21

基于DICOM标准的医学影像PACS系统源码

基于DICOM的PACS是医学图像归档与通信系统，是实现医学图像自动获取、显示、图像后处理、传输、存储、查询、检索、写诊断报告、查看成像设备运行状态等功能复合型医学图像管理系统。

星辰大海里编程·2023-12-17 21:12

【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展

其在自动驾驶、医学图像、结构损伤检测等领域有着广泛的应用。

waski·2023-12-17 19:33

U-Net代码复现--train.py

本文记录自己的学习过程，内容包括：代码解读：Pytorch-UNet深度学习编程基础：Pytorch-深度学习（新手友好）UNet论文解读：医学图像分割：U_Net论文阅读数据：https://hackernoon.com

北方骑马的萝卜·2023-12-17 18:44

明天开课 | 第六届多模态脑网络数据处理班（直播：2023.7.28~7.31）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2023-12-17 15:05

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2023-12-17 12:33

2022-07-12

2022年生物技术与医学图像国际会议(ICBMI2022)==================================大会介绍：2022年生物技术与医学影像国际会议（ICBMI2022）在中国武汉举行

论文小天才·2023-12-17 09:04

GPT-4.5 或将于本月内发布，官方回复称正在修复GPT-4偷懒行为

他还提到OpenAI的主要竞争对手Anthropic，可能也会在本月内发布能够同时处理文本、图像、音频等数据的多模态模型。

无际Ai·2023-12-17 09:51

【论文阅读】MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

paper：code：ABSTRACT优点:(1)加速了T2V模型的训练(不需要从头开始学习视觉和多模态表示)，(2)不需要配对的文本-视频数据，(3)生成的视频继承了当今图像生成模型的庞大性)。

李加号pluuuus·2023-12-17 08:34

论文阅读：UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase

本文提出了一种统一的多模态激光雷达图像分割网络，称为UniSeg，该网络利用RGB图像信息和三视点云信息，同时实现了语义分割和全景分割。

shiyueyueya·2023-12-17 06:52

使用blip2进行图片输入文本输出

多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本github地址：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

清梦枕星河~·2023-12-17 04:20

AI技术延续，关键在场景落地

当下，多模态理解、生成和交互能力正成为大模型新一轮演进的重要方向。

AIGC方案·2023-12-17 02:25

SEED-Bench多模态大模型测评基准更新

技术报告SEED-Bench-1：https://arxiv.org/abs/2307.16125SEED-Bench-2：https://arxiv.org/abs/2311.17092测评数据SEED-Bench-1：https://huggingface.co/datasets/AILab-CVC/SEED-BenchSEED-Bench-2：https://huggingface.co/d

TechBeat人工智能社区·2023-12-17 02:14

谷歌Gemini AI模型使用指南

引言2023年12月7日，谷歌宣布推出其迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemini。根据最新的性能评估，Gemini在多项指标上已经超越了ChatGPT4。

26岁的学习随笔·2023-12-17 01:33

推荐频道

多模态医学图像

Gemini 1.0：Google推出的全新AI模型，改变生成式人工智能领域的游戏规则！

【多模态对话】《颠覆性创新：多模态对话与精准区域分割 - VPGTrans & NExT-Chat》学习笔记

论文和模型学习资料合集

UI Grounding 学习笔记

基于YOLOv8的结核病预测系统设计与实现

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

斯坦福美女博士创业项目爆火！AI视频生成出道即顶流，半年融资5500万美元

论文解读- nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation

“文思助手”苏哒智能加入飞桨技术伙伴计划，共同打造“大模型+企业办公”新模式

文心一言插件商城重磅上线！

神奇植物在哪里？文心大模型助力一秒读懂花草的“前世今生”

会议剪影 | 思腾合力受邀出席首届CCF数字医学学术年会

Opencv实验合集——实验四：图片融合

CVPR 2023 | 最全 AIGC 论文清单汇总版，30个方向130篇！

nlp与cv的发展

PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

基于Swin_Transformer的图像超分辨率系统

分水岭算法的应用

AI浅谈：计算机视觉（CV）技术的优势和挑战

论文阅读——Loss odyssey in medical image segmentation

Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)

【NeurIPS 2023】多模态联合视频生成大模型CoDi

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

Compositional Chain-of-Thought Prompting for Large Multimodal Models大型多模态模型的组合思想链提示

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

【论文阅读笔记】Pre-trained Universal Medical Image Transformer

10.10-11 科研记录 一些多模态工作的相关思考

MIA-Net：用于多模态情感分析的多模态交互注意力网络

GPT-4.5！！！

论文笔记：Bilinear Attention Networks

如何利用GPT4 和 ChatGPT 搞科研？

玩转字词句魔法：打造超强样本集的数据增强策略，句式变换揭秘同义句生成与回译在数据增强中的创新应用

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 Slover 部分

NExT-GPT: Any-to-Any Multimodal LLM 阅读学习

OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

第六届多模态脑网络数据处理班（直播：2023.7.28~7.31）

基于DICOM标准的医学影像PACS系统源码

【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展

U-Net代码复现--train.py

明天开课 | 第六届多模态脑网络数据处理班（直播：2023.7.28~7.31）

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

2022-07-12

GPT-4.5 或将于本月内发布，官方回复称正在修复GPT-4偷懒行为

【论文阅读】MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

论文阅读：UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase

使用blip2进行图片输入文本输出

AI技术延续，关键在场景落地

SEED-Bench多模态大模型测评基准更新

谷歌Gemini AI模型使用指南

10.10-11 科研记录一些多模态工作的相关思考