segment anything原来可以这么玩

Segment Anything能给我们做什么

  • 前言
  • 内容
  • 具体实现
  • 成果

前言

最近,大模型的热度确实是非常非常的高,从chatgpt到segment anything,这些东西整的我这刚入门的小白确实有点懵逼。最近实在是不知道干啥, 想想能不能用大模型整点花活。

这时候突然想起来了去年的极乐净土,确实做的有点粗糙,去年就是提取了下边缘加个rgb就完事了,这让我有点不大尽兴,直到我看到了小鸡舞。
segment anything原来可以这么玩_第1张图片
segment anything是干啥的,不就是图像分割吗,那我是不是可以把这位舞者分割出来,然后换到其他背景里,说干就干。
segment anything原来可以这么玩_第2张图片

内容

大致的思路其实就是我们用segment anything把图像分割出来,然后把人的掩码单独拿出来,然后再随便整个背景,把我们提取的人物放进去就完事了,整个过程看着还是蛮简单的哈,我们具体看看咋做。

首先第一步就是要配置下segment anything的环境,这里我们不使用segment anything官方提供的服务跑了,因为确实要跑好多张,所以我们自己配一下。其实很简单就是安装一下pytorch gpu版本(显卡稍微差点的话可以用cpu的),然后把项目从github拉下来,在安装下他要求的库就ok了,网上有很多配置segment anything 的博客,这里我就不展开说了。

这时候我们把视频转换成图片,就直接用opencv转换就可以,详细代码在下一节。然后我们使用segment anything对其进行分割,就可以拿到这样的掩码
segment anything原来可以这么玩_第3张图片
我们可以看到,分割的效果非常nice,但是有一个问题,我怎么把人的掩码单独提出来呢???

博主找了一下,好像是已经有人在segment anything的基础上进行分类了,但确实有点麻烦,博主本着能坐着就不能站着,能躺着就不坐着的心态思考了下,发现还真有个个省事。

要知道,我们可是有yolo的呀,这目标检测能力嘎嘎的
segment anything原来可以这么玩_第4张图片
那我们就可以直接提取检测框里的最大掩码就可以了,这样我们就拿到了人物的掩码
segment anything原来可以这么玩_第5张图片
到此为止,人物就提取出来了,接下来我们就是随便找个背景拼接下就完事了,看看具体实现吧。

具体实现

因为segment anything和yolov5都有现成的代码,我们就不介绍了,我们只介绍这个拼接的部分

拼接代码

# -*- codeing = utf-8 -*-
# @Time : 2023/7/5 19:30
# @Author : xiaow
# @File : test.py
# @Software : PyCharm
import os

import cv2

import numpy as np


def mix():
    # 背景图片存放的位置
    backs = os.listdir('../video2img2')
    # 人物掩码的位置
    masks = os.listdir('mask')
    # 0 1 掩码的位置
    mask2s = os.listdir('mask2')
    # 设置输出视频的帧数
    fps = 15
    videopath = 'test10.avi'  # 图片保存地址及格式
    size = (1000, 666)
    out1 = cv2.VideoWriter(videopath, cv2.VideoWriter_fourcc(*'DIVX'), fps, size)

    for i in range(len(backs)):
        print(masks[i])

        back = cv2.imread('../video2img2/' + backs[i])
        # 修改背景尺寸大小
        back = cv2.resize(back, size, interpolation=cv2.INTER_AREA)
        human = cv2.imread('mask/' + masks[i])
        mask2 = cv2.imread('mask2/' + mask2s[i], 0)


        # 设置mask,human大小和背景相同大小  start
        width = back.shape[0]
        height = back.shape[1]
        width_diff = width - human.shape[0]
        height_diff = height - human.shape[1]
        human = np.pad(human, ((width_diff // 2, width_diff // 2), (height_diff // 2, height_diff // 2), (0, 0)))
        mask2 = np.pad(mask2, ((width_diff // 2, width_diff // 2), (height_diff // 2, height_diff // 2)))
        # 设置mask,human大小和背景相同大小  end

        mask2 = np.expand_dims(mask2, 2)
        out1.write((1 - mask2) * back + human)


if __name__ == '__main__':
    mix()

成果


这里以gif的形式展示一部分内容,全部视频可以在b站搂一眼

segment anything 碰上小鸡舞

就到这了 溜了溜了

如有侵害您的权益请联系我们,侵权必删

你可能感兴趣的:(图像处理,深度学习,python,深度学习,计算机视觉,人工智能)