Grounded-SAM真的能卷掉国内大多数标注工具

万能的分割模型:SAM + SD + chatGPT + Grounded

就在 SAM 发布后一天,国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。
Grounded-SAM 把 SAM 和 BLIP、Stable Diffusion 集成在一起,将图片「分割」、「检测」和「生成」三种能力合一,成为最强 Zero-Shot 视觉应用。

说一百遍不如亲自体验一遍,按照这个链接进行了深度学习环境配置:https://github.com/IDEA-Research/Grounded-Segment-Anything,目前这个开源项目在github上已经有7.1kstar,最新功能更新了聊天机器人,实现语音输入,一键更换语义场景等,结合SD可以做到局部替换功能,电脑配置太低不建议,楼主3060TI显卡只能算是勉强分析。

  1. 这个功能主要是通过whisper模块对语音进行转换,直接对图片的检测对象进行替换,例如将狗替换成猴子,看图片确实是毫无违和感,这部分功能相信在不久的将来应该能实现落地使用

Grounded-SAM真的能卷掉国内大多数标注工具_第1张图片

  1. 这个功能是实现自动数据标注,包括标签信息及预测概率,有点类似于YOLOV8系列,借助SAM分割万物的思想可以直接对图片中的所有场景进行分割及分类标注。使用Tag2Text直接生成标签,使用Grounded-SAM进行box和mask生成。Tag2Text 具有卓越的标记和字幕功能。使用BLIP生成标题,使用chatGPT提取标签,使用Ground-SAM生成框和MASK图片。浅浅的谈一句,针对简单场景,确实该项目有很多过人的优势,复杂场景的实际应用还有待商榷,目前看来最大的一个问题是分割的场景会存在分割过细的情况,需要手动人工check,而且并不是所有参数对不同图片都适用,针对训练的大量图片,实际自动标注效果还有待优化。稍加优化,该模型的落地应用应该不错!!!
    Grounded-SAM真的能卷掉国内大多数标注工具_第2张图片
  2. 其他更多有趣的功能,比如更换头发颜色、背景、交互式应用等。这些模块感觉就是抖音的下一个热点!!!

    如有小伙伴有需求,可联系楼主进行环境配置、小工具输出等,相信你也会成为下一个流量风口,可私聊!!!

如有侵权,请联系作者进行删除!!!!!!
欢迎转载,欢迎大家一起讨论!!!!!

你可能感兴趣的:(人工智能)