TinaO-O

mask rcnn model.py 总结

这个作者代码长度差不多3000，666.jpg。我们先看下他的网络代码。

类MaskRCNN

__init__方法

build方法

train方法

set_trainable方法

类MaskRCNN

这里有个比较重要的类就是Mask RCNN类，该类包含了很多种方法，简单的看一下：

总览MaskRCNN类的工作原理。建立清晰的框架。方便抓住重点。

init方法初始化模型配置参数，比如说学习率等。调用的build方法。

build方法负责建立模型，并且返回。

此时如果不调用MaskRCNN中的train方法，那么模型是不会训练的。所以在coco.py中，先建立了MaskRCNN的实例，然后调用了train方法。

init接受了config而train接受了训练数据，

init方法

被coco.py调用

就是把一个类实体化，这样他才真实存在，有数据。c++，java都这样。可以去学一下类object class。

那么需要传入的参数。config我们之前在coco.py见过，是config.py的子类。

小提醒一下，在coco.py中：

#引入config.py
from mrcnn.config import Config
#CocoConfig继承config类，内容此处因为是提示所以就省略了。
class CocoConfig(Config):
#实例化CocoConfig成为对象，改变attribute
# Configurations
if args.command == "train":
    config = CocoConfig()
else:
    #看到这里又继承了，因为inference和train的参数不太一样
    class InferenceConfig(CocoConfig):
        # Set batch size to 1 since we'll be running inference on
        # one image at a time. Batch size = GPU_COUNT * IMAGES_PER_GPU
        GPU_COUNT = 1
        IMAGES_PER_GPU = 1
        DETECTION_MIN_CONFIDENCE = 0
    #对应的，也会实例化InferenceConfig,而不是CocoConfig
    config = InferenceConfig()
config.display()
#将CocoConfig对象当做参数传入MaskRCNN类的实例化，也就是__init__方法
if args.command == "train":
    model = modellib.MaskRCNN(mode="training", config=config,
                                  model_dir=args.logs)
else:
    model = modellib.MaskRCNN(mode="inference", config=config,
                                  model_dir=args.logs)

下面可以看下inference里面的config具体内容

这下就清楚的知道MaskRCNN怎么被实例化的了。也知道实例化的参数都来源于哪里了。__init__方法除了接收参数之外，还调用了两个方法。其中build能够返回创建的Keras.Model方法创建的model实例。所以这个self.keras_model记住了，这是我们这个类当中最重要的属性。

 def __init__(self, mode, config, model_dir):
        """
        mode: Either "training" or "inference"
        config: A Sub-class of the Config class
        这里的model_dir就是训练过程中的日志以及参数储存的位置。
        model_dir: Directory to save training logs and trained weights
        """
#判断mode是不是合法的，如果输入的不是['training', 'inference']里面的值，会报错
        assert mode in ['training', 'inference']
#给类MaskRCNN的attribute赋值
        self.mode = mode
        self.config = config
        self.model_dir = model_dir
#调用了两个方法
        #名字起得很好，设置日志路径
        self.set_log_dir()
        #调用自己的build方法。build会建立MaskRCNN的模型结构，只传入了选项（训练还是validation）
        #以及config参数。
        self.keras_model = self.build(mode=mode, config=config)

下面就看一下build方法

build方法

被__init__方法调用，传入参数。

 def build(self, mode, config):
        """Build Mask R-CNN architecture.
            #这里作者说明一下，他所谓的input_shape什么意思。因为他下面会用到
            input_shape: The shape of the input image.
            #区分training还是validation主要是因为模型会有不同的输入输出
            mode: Either "training" or "inference". The inputs and
                outputs of the model differ accordingly.
        """
        assert mode in ['training', 'inference']

检测图片的尺寸是否符合网络的需求，必须至少能被64整除。

 # Image size must be dividable by 2 multiple times
        h, w = config.IMAGE_SHAPE[:2]
        if h / 2**6 != int(h / 2**6) or w / 2**6 != int(w / 2**6):
            raise Exception("Image size must be dividable by 2 at least 6 times "
                            "to avoid fractions when downscaling and upscaling."
                            "For example, use 256, 320, 384, 448, 512, ... etc. ")

输入数据的建立，这里用到了keras.layer的input，注意这里只知道了tensor的大小，还没有真实的数据，通俗来讲就是先占个楼，等以后数据来了，在更新。IMAGE_SHAPE[2]的值是3.根据config。config.IMAGE_META_SIZE是93，inference里面，估计训练也是这样的，因为inference语句里面没有单独声明这两个参数。

# Inputs
        input_image = KL.Input(
            shape=[None, None, config.IMAGE_SHAPE[2]], name="input_image")
        input_image_meta = KL.Input(shape=[config.IMAGE_META_SIZE],
                                    name="input_image_meta")

下面构建RPN的结构。以及物体检测groundtruth包含的class id，一般是个整数。 boxes位置一般是个长度为4的向量，左上角，右下角的坐标就可以确定一个box，还有物体的mask。

如果是inference模式，那么显然，前面声明的这些groundtruth都不能用了。但是还是需要有anchor才能够生成bbox，从而ROI，从而得到最终的mask

        if mode == "training":
            # RPN GT
            input_rpn_match = KL.Input(
                shape=[None, 1], name="input_rpn_match", dtype=tf.int32)
            input_rpn_bbox = KL.Input(
                shape=[None, 4], name="input_rpn_bbox", dtype=tf.float32)

            # Detection GT (class IDs, bounding boxes, and masks)
            # 1. GT Class IDs (zero padded)
            input_gt_class_ids = KL.Input(
                shape=[None], name="input_gt_class_ids", dtype=tf.int32)
            # 2. GT Boxes in pixels (zero padded)
            # [batch, MAX_GT_INSTANCES, (y1, x1, y2, x2)] in image coordinates
            input_gt_boxes = KL.Input(
                shape=[None, 4], name="input_gt_boxes", dtype=tf.float32)
            # Normalize coordinates
            gt_boxes = KL.Lambda(lambda x: norm_boxes_graph(
                x, K.shape(input_image)[1:3]))(input_gt_boxes)
            # 3. GT Masks (zero padded)
            # [batch, height, width, MAX_GT_INSTANCES]
            if config.USE_MINI_MASK:
                #这里的minimask是和论文不一样的为了节省资源的操作，下面有链接.
                input_gt_masks = KL.Input(
                    shape=[config.MINI_MASK_SHAPE[0],
                           config.MINI_MASK_SHAPE[1], None],
                    name="input_gt_masks", dtype=bool)
            else:
                input_gt_masks = KL.Input(
                    shape=[config.IMAGE_SHAPE[0], config.IMAGE_SHAPE[1], None],
                    name="input_gt_masks", dtype=bool)
        elif mode == "inference":
            # Anchors in normalized coordinates
            input_anchors = KL.Input(shape=[None, 4], name="input_anchors")

这里的MINI_Mask可以看作者写的jupyter notebook上面看。

下面就是网络结构的构造：由于在FPN中要使用每个stage最后一层的feature map，所以这里要返回最后一层，并且FPN不使用第一层的Feature map，所以不要C1。

 # Build the shared convolutional layers.
        # Bottom-up Layers
        # Returns a list of the last layers of each stage, 5 in total.
        # Don't create the thead (stage 5), so we pick the 4th item in the list.
        if callable(config.BACKBONE):
            #这里由于我们并没有额外定义其他的主干网络，所以不会进入
            _, C2, C3, C4, C5 = config.BACKBONE(input_image, stage5=True,
                                                train_bn=config.TRAIN_BN)
        else:
            #调用model.py 里面的resnet_graph 这个方法。后面再说
            _, C2, C3, C4, C5 = resnet_graph(input_image, config.BACKBONE,
                                             stage5=True, train_bn=config.TRAIN_BN)

tip: 这里调用了callable函数去获取backbone，backbone在.../mrcnn/Config.py中

    # Backbone network architecture
    # Supported values are: resnet50, resnet101.
    # You can also provide a callable that should have the signature
    # of model.resnet_graph. If you do so, you need to supply a callable
    # to COMPUTE_BACKBONE_SHAPE as well
    BACKBONE = "resnet101"

    # Only useful if you supply a callable to BACKBONE. Should compute
    # the shape of each layer of the FPN Pyramid.
    # See model.compute_backbone_shapes
    COMPUTE_BACKBONE_SHAPE = None

自上而下的FPN结构会得到P2,P3,P4,P5.

可以看到，先进行加法得到最上层的P4，然后再上采样用于更大feature map C3（C3被1*1卷积）的相加。等所有的P层全得到后，采用3*3的卷积得到最后的feature map，而不是加完了马上卷积.这也就意味着有如下公式：

P5 = conv1(C5)
P4 = up2(P5)+conv1(C4)
P3 = up2(P4)+conv1(C3)
= up2[ up2(P5) +conv1(C4) ]+conv1(C3)
= up4(P5)+up2[ conv1(C4) ]+conv1(c3)

我在github上问了，等有回复在确定是不是真的等同于布顿的上采样相加。

同时我在facebook的detectron上也下载了代码。看到他在自上而下时循环的调用了一个函数，等自上而下内容都结束皇后再加上3*3的卷积，所以感觉基本符合我的猜测。

最上层比如C5 到P2的信息传递是通过八倍上采样，C4到P2是四倍上采样，由于不对任何P层(P2,P3,P4,P5)施加卷积操作，所以应该就是上采样。

对C的卷积操作：conv2D这里使用的卷积是1*1的，一共有config.TOP_DOWN_PYRAMID_SIZE个数256个。会对边界进行补0.所以会保持原始特征图的长宽。

之后对P进行卷积操作：使用卷积核3*3同时也是256个。所以最终P的通道数是256。会对边界进行补0.所以会保持原始特征图的长宽。

# Top-down Layers
        # TODO: add assert to varify feature map sizes match what's in config
        P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c5p5')(C5)
        P4 = KL.Add(name="fpn_p4add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p5upsampled")(P5),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c4p4')(C4)])
        P3 = KL.Add(name="fpn_p3add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p4upsampled")(P4),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c3p3')(C3)])
        P2 = KL.Add(name="fpn_p2add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p3upsampled")(P3),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c2p2')(C2)])
        # Attach 3x3 conv to all P layers to get the final feature maps.
        P2 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p2")(P2)
        P3 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p3")(P3)
        P4 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p4")(P4)
        P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p5")(P5)
        # P6 is used for the 5th anchor scale in RPN. Generated by
        # subsampling from P5 with stride of 2.
        P6 = KL.MaxPooling2D(pool_size=(1, 1), strides=2, name="fpn_p6")(P5)

将最终的feature map总结起来：P6是将P5进行最大池化得到的更高级特征。只在rpn时使用得到proposal。

# Note that P6 is used in RPN, but not in the classifier heads.
        rpn_feature_maps = [P2, P3, P4, P5, P6]
        mrcnn_feature_maps = [P2, P3, P4, P5]

上面我们提到过inference过程中的anchor，那么在训练过程中anchor是这样的,这几行代码并没有实际的用anchor，一直是在给出anchors

IMAGE_SHAPE声明的时1024*1024*3的，调用的get_anchors方法能够直接给出：

"""Returns anchor pyramid for the given image size."""

# Anchors
        if mode == "training":
            anchors = self.get_anchors(config.IMAGE_SHAPE)
            # Duplicate across the batch dimension because Keras requires it
            # TODO: can this be optimized to avoid duplicating the anchors?
            anchors = np.broadcast_to(anchors, (config.BATCH_SIZE,) + anchors.shape)
            # A hack to get around Keras's bad support for constants
            anchors = KL.Lambda(lambda x: tf.Variable(anchors), name="anchors")(input_image)
        else:
            anchors = input_anchors

第一句是rpn的模型建立，使用了config中的参数，希望你们看了anchor。此处用到了我们上面收集到的RPN的list，rpn_feature_maps = [P2,P3,P4,P5,P6].

 # RPN Model
        rpn = build_rpn_model(config.RPN_ANCHOR_STRIDE,
                              len(config.RPN_ANCHOR_RATIOS), config.TOP_DOWN_PYRAMID_SIZE)
        # Loop through pyramid layers
        layer_outputs = []  # list of lists
        for p in rpn_feature_maps:
            layer_outputs.append(rpn([p]))
        # Concatenate layer outputs
        # Convert from list of lists of level outputs to list of lists
        # of outputs across levels.
        # e.g. [[a1, b1, c1], [a2, b2, c2]] => [[a1, a2], [b1, b2], [c1, c2]]
        output_names = ["rpn_class_logits", "rpn_class", "rpn_bbox"]
        outputs = list(zip(*layer_outputs))
        outputs = [KL.Concatenate(axis=1, name=n)(list(o))
                   for o, n in zip(outputs, output_names)]

        rpn_class_logits, rpn_class, rpn_bbox = outputs

train方法

其中的train方法是承接coco.py输入的，我们之前提到了coco.py中的MaskRCNN实例化，以及模型训练方法的调用。

在coco.py中第400多行有如下代码：

 # Create model
    if args.command == "train":
        model = modellib.MaskRCNN(mode="training", config=config,
                                  model_dir=args.logs)
    else:
        model = modellib.MaskRCNN(mode="inference", config=config,
                                  model_dir=args.logs)

 # Training - Stage 1
        print("Training network heads")
        model.train(dataset_train, dataset_val,
                    learning_rate=config.LEARNING_RATE,
                    epochs=40,
                    layers='heads',
                    augmentation=augmentation)

        # Training - Stage 2
        # Finetune layers from ResNet stage 4 and up
        print("Fine tune Resnet stage 4 and up")
        model.train(dataset_train, dataset_val,
                    learning_rate=config.LEARNING_RATE,
                    epochs=120,
                    layers='4+',
                    augmentation=augmentation)

        # Training - Stage 3
        # Fine tune all layers
        print("Fine tune all layers")
        model.train(dataset_train, dataset_val,
                    learning_rate=config.LEARNING_RATE / 10,
                    epochs=160,
                    layers='all',
                    augmentation=augmentation)

那么在model.train()这个方法中到底做了什么，我们看一下代码

值得一提的是这里的layer，可以指定你的训练层数。比如第三层往上，比如只训练头部，比如全部训练。自己看一下注释。

然后用layer_regex regex这正则表达式的意思。做一个正则表达式字典。layer将会根据你输入的层数，从该字典中取正则表达式。

比如head指的是只有头部，所以诸如res3,4,5这样的resnet主干网络，以及bn3,4,5就不训练，所以head这个关键字对应的是：

r"(mrcnn\_.*)|(rpn\_.*)|(fpn\_.*)",这个正则表达式。所以实际上训练了rpn和fpn，classifier以及mask的头部。

而其它选项也至少训练了这些。比如5+，除了以上部分，还额外训练了res5，bn5

 def train(self, train_dataset, val_dataset, learning_rate, epochs, layers,
              augmentation=None, custom_callbacks=None, no_augmentation_sources=None):
        """Train the model.
        train_dataset, val_dataset: Training and validation Dataset objects.
        learning_rate: The learning rate to train with
        epochs: Number of training epochs. Note that previous training epochs
                are considered to be done alreay, so this actually determines
                the epochs to train in total rather than in this particaular
                call.
        layers: Allows selecting wich layers to train. It can be:
            - A regular expression to match layer names to train
            - One of these predefined values:
              heads: The RPN, classifier and mask heads of the network
              all: All the layers
              3+: Train Resnet stage 3 and up
              4+: Train Resnet stage 4 and up
              5+: Train Resnet stage 5 and up
        """
  layer_regex = {
            # all layers but the backbone
            "heads": r"(mrcnn\_.*)|(rpn\_.*)|(fpn\_.*)",
            # From a specific Resnet stage and up
            "3+": r"(res3.*)|(bn3.*)|(res4.*)|(bn4.*)|(res5.*)|(bn5.*)|(mrcnn\_.*)|(rpn\_.*)|(fpn\_.*)",
            "4+": r"(res4.*)|(bn4.*)|(res5.*)|(bn5.*)|(mrcnn\_.*)|(rpn\_.*)|(fpn\_.*)",
            "5+": r"(res5.*)|(bn5.*)|(mrcnn\_.*)|(rpn\_.*)|(fpn\_.*)",
            # All layers
            "all": ".*",
        }
        if layers in layer_regex.keys():
            layers = layer_regex[layers]

同时train这个方法中，还有恢复上次训练的代码：

 # Create log_dir if it does not exist
        if not os.path.exists(self.log_dir):
            os.makedirs(self.log_dir)

        # Callbacks
        callbacks = [
            keras.callbacks.TensorBoard(log_dir=self.log_dir,
                                        histogram_freq=0, write_graph=True, write_images=False),
            keras.callbacks.ModelCheckpoint(self.checkpoint_path,
                                            verbose=0, save_weights_only=True),
        ]

        # Add custom callbacks to the list
        if custom_callbacks:
            callbacks += custom_callbacks

既然训练肯定要获取数据，

实际上，训练使用了keras的fit_generator，那么就需要遵守这个类的入口，使用fit_generator主要是因为该类能够不一次性的将所有的图片加载到内存中，而是源源不断的产生，然后加进去。可以看下data_generator这个方法，也在MaskRCNN这个类里面

 # Data generators
        #这是fit_generator的典型用法，需要利用一个数据产生器来生成训练数据和标注。
        #这里根据data_generator 的方法生成了训练数据以及bbox和他们的标签还有mask 
train_generator = data_generator(train_dataset, self.config, shuffle=True,
                                         augmentation=augmentation,
                                         batch_size=self.config.BATCH_SIZE,
                                         no_augmentation_sources=no_augmentation_sources)
        val_generator = data_generator(val_dataset, self.config, shuffle=True,
                                       batch_size=self.config.BATCH_SIZE)
self.keras_model.fit_generator(
            train_generator,
            initial_epoch=self.epoch,
            epochs=epochs,
            steps_per_epoch=self.config.STEPS_PER_EPOCH,
            callbacks=callbacks,
            validation_data=val_generator,
            validation_steps=self.config.VALIDATION_STEPS,
            max_queue_size=100,
            workers=workers,
            use_multiprocessing=True,
        )

train.py中使用data_generator源源不断获取数据，这样不用一次性读入图片，不会浪费内存。

train_generator = data_generator(train_dataset, self.config, shuffle=True,
                                         augmentation=augmentation,
                                         batch_size=self.config.BATCH_SIZE,
                                         no_augmentation_sources=no_augmentation_sources)
        val_generator = data_generator(val_dataset, self.config, shuffle=True,
                                       batch_size=self.config.BATCH_SIZE)

def data_generator(dataset, config, shuffle=True, augment=False, augmentation=None,
                   random_rois=0, batch_size=1, detection_targets=False,
                   no_augmentation_sources=None):
    """A generator that returns images and corresponding target class ids,
    bounding box deltas, and masks.

最终返回的是该数据库的训练用的东西，一共四个：图片，以及相应的ids ，bbox和masks。是一个总的数据生成器，

好，下面是训练代码，前面做了很多准备工作：

# Train
        log("\nStarting at epoch {}. LR={}\n".format(self.epoch, learning_rate))
        log("Checkpoint Path: {}".format(self.checkpoint_path))
        self.set_trainable(layers)
        self.compile(learning_rate, self.config.LEARNING_MOMENTUM)

log是他自己写的方法。为了方便自己一次性的打印出numpy数组的shape,min,max三个属性。

def log(text, array=None):
    """Prints a text message. And, optionally, if a Numpy array is provided it
    prints it's shape, min, and max values.
    """
    if array is not None:
        text = text.ljust(25)
        text += ("shape: {:20}  ".format(str(array.shape)))
        if array.size:
            text += ("min: {:10.5f}  max: {:10.5f}".format(array.min(),array.max()))
        else:
            text += ("min: {:10}  max: {:10}".format("",""))
        text += "  {}".format(array.dtype)
    print(text)

至于set_trainable,以及compile，之后马上讲。因为train这个方法就剩一点了。我们看完。

为了windows用户好使，所以特意停用了windows用户的多CPU。具体的为什么keras不让windows使用CPU： https://github.com/matterport/Mask_RCNN/issues/13#issuecomment-353124009

 # Work-around for Windows: Keras fails on Windows when using
        # multiprocessing workers. See discussion here:
        # https://github.com/matterport/Mask_RCNN/issues/13#issuecomment-353124009
        if os.name is 'nt':
            workers = 0
        else:
            workers = multiprocessing.cpu_count()

        self.keras_model.fit_generator(
            train_generator,
            initial_epoch=self.epoch,
            epochs=epochs,
            steps_per_epoch=self.config.STEPS_PER_EPOCH,
            callbacks=callbacks,
            validation_data=val_generator,
            validation_steps=self.config.VALIDATION_STEPS,
            max_queue_size=100,
            workers=workers,
            use_multiprocessing=True,
        )
        self.epoch = max(self.epoch, epochs)

至此，train这个方法我们看完了。主要的作用是做一些准备工作。不过更具体了，他准备了数据，调用训练，同时能够恢复上次训练。

set_trainable方法

上面的train方法能够指定训练层数。那么，主要是通过set_trainable这个方法做到的。

    def set_trainable(self, layer_regex, keras_model=None, indent=0, verbose=1):
        """Sets model layers as trainable if their names match
        the given regular expression.
        """

你可能感兴趣的:(mask,rcnn)

Linux中open函数详解 460833359 Linux C linux open函数
初级文件I/O函数（即不用缓存的I/O函数）：open（打开文件）相关函数read，write，fcntl，create，lseek，close，link，stat，umask，unlink，fopen头文件#include#include#include定义函数intopen(constchar*pathname,intflags);intopen(constchar*pathname,intf
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
视频也能分割？！在云服务器上部署最新视觉大模型SAM2教程、详细代码注释和视频演示 Hanley_Yeung 图像处理人工智能 python 人工智能 python 深度学习 SAM2 计算机视觉图像分割
使用SAM2进行视频分割本笔记本展示了如何使用SAM2在视频中进行交互式分割。它将涵盖以下内容：在帧上添加点击以获取和细化masklets（时空掩码）在整个视频中传播点击以获取_masklets同时分割和跟踪多个目标我们使用术语_segment_或_mask_来指代单个帧上对象的模型预测，_masklet_指代整个视频中的时空掩码。如果使用Jupyter在本地运行，请首先根据安装说明在您的环境中安
【JAVA】数据脱敏技术（对称加密算法、非对称加密算法、哈希算法、消息认证码（MAC）算法、密钥交换算法）使用方法来一杯龙舌兰 Java java 开发语言数据脱敏技术加密算法 AES
文章目录数据脱敏的定义和目的数据脱敏的技术分类对称加密算法非对称加密算法哈希算法消息认证码（MAC）算法密钥交换算法数据脱敏的技术方案实现字符替换哈希算法（例如:SHA-3算法）消息认证码（MAC）算法(CMAC)消息认证码（MAC）算法(HMAC)对称/非对称加密实现方式（例如：AES加密算法）数据分段数据伪装更多相关内容可查看数据脱敏的定义和目的数据脱敏（DataMasking）是指对数据进行
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
Linux虚拟化网络之路由转发实战 wespten 虚拟化技术 SDN NFV 云计算技术 OpenStack linux 运维服务器
一、Linux路由配置如果要在不同网段直接通讯，需要添加路由，Linux添加路由命令如下：route[add|del][-net|-host]target[netmaskNm][gwGw][[dev]If]add:添加一条路由规则；del:删除一条路由规则；-net:目的地址是一个网络；-host:目的地址是一个主机；target:目的网络或主机；netmask:目的地址的网络掩码；gw:路由数据
常见的ROM(只读存储器)及其区别（超详细）嵌入式-JY老师嵌入式工程师 c语言硬件架构智能硬件嵌入式硬件硬件工程
目录1.掩模ROM(MaskROM)2.可编程ROM(ProgrammableROM,PROM)3.可擦写可编程ROM(ErasableProgrammableROM,EPROM)4.电可擦写可编程ROM(ElectricallyErasableProgrammableROM,EEPROM)5.闪存(FlashMemory)6.NVRAM(Non-VolatileRAM)各类ROM的主要区别ROM
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01 小小帅AIGC VLM论文时报人工智能语言模型自然语言处理 VLM 大语言模型计算机视觉视觉语言模型
文章目录～1.PayingMoreAttentiontoImage:ATraining-FreeMethodforAlleviatingHallucinationinLVLMs2.MTA-CLIP:Language-GuidedSemanticSegmentationwithMask-TextAlignment3.MarvelOVD:MarryingObjectRecognitionandVisi
Windows、Linux添加路由用数据说话用数据决策 linux 运维服务器
目录一、Windows添加路由1.查看路由规则2.添加路由规则3.添加默认路由4.删除路由规则二、Linux添加路由1.查看路由2.添加路由3.删除路由4.修改路由5.临时路由6.默认网关设置一、Windows添加路由1.查看路由规则routeprint2.添加路由规则routeadd-p$目标网段mask$netmask$gatewayrouteadd-p$目标网段mask$netmask$ga
metamask简述小朴同学
metamask是一个谷歌插件。他是一个很轻的以太坊钱包，支持正式的以太坊网络，支持主流的三种以太坊测试网络：Ropsten，Kovan，Rinkeby。也支持Localhost8545(尝试连接一个未可知的私人网络，可能会连接失败)和CustomRPC(自定义RPC)。简单功能创建新的账户发币和收币购买正式币和测试币（根据不同的测试网络获取的方式不一致）更改地址所在的网络调用合约功能未测试成功T
膨胀腐蚀操作opencv dilate膨胀白膨胀，erode腐蚀是黑吃白。主要针对二值图 tony365 opencv 人工智能计算机视觉
效果：代码：importcv2importnumpyasnpfrommatplotlibimportpyplotaspltif__name__=="__main__":h=10w=10data=np.random.normal(0,1,[h,w])#sigma,2*sigma,3*sigma之间的数的比例分别为0.68，0.96，0.99mask_new=data>2print(data)prin
Capture local packets using Wireshark 使用 wireshark 抓本地包 Chia-Te Kuan http-flv 經驗談分析工具测试工具网络
一般而言windows系統本地到本地ip的傳輸不會經過網卡，因此無法由wireshark捕捉解析，本文介紹wireshark同步安裝Npcap方式，藉此loopback本地ip到本地ip本文不推薦網傳routeaddmask255.255.255.255這個方法，因將大幅拖慢系統效率(所有本地到本地的包都要重新入網卡)，甚者導致timeout而無法運行NetworkprogramGenerally
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
2、MySQL总结 In_life 在生活体系搭建 mysql
一、基础部分（一）、概念关系型数据库（二）、SQL编写CRUD（查询、插入、更新、删除）左右连接、内连接、子查询（三）、存储过程、存储函数存储过程和函数（一）-CSDN博客（四）、触发器二、高阶部分（一）、索引1.索引底层结构InnoDB行格式（行格式：一条记录的存储结构）1.1.变长字段长度列表非必须，逆序存放1.2.null值列表非必须，逆序存放1.3.记录头信息delete_mask：标示这
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！... 我爱计算机视觉网络计算机视觉机器学习人工智能深度学习
关注公众号，发现CV技术之美▊写在前面语言Transformer的成功主要归功于maskedlanguagemodeling（MLM）的预训练任务，其中文本首先被标记为语义上有意义的片段。在这项工作中，作者研究了maskedimagemodeling（MIM），并指出了使用语义上有意义的视觉标记器（visualtokenizer）的优势和挑战。作者提出了一个自监督的框架iBOT，它可以通过在线标记
【人工智能】Transformers之Pipeline（十三）：填充蒙版（fill-mask） LDG_AGI Pipeline 人工智能机器学习计算机视觉 python 时序数据库大数据自然语言处理
目录一、引言二、填充蒙版（fill-mask）2.1概述2.2技术原理2.2.1BERT模型的基本概念2.2.2BERT模型的工作原理2.2.3BERT模型的结构2.2.4BERT模型的应用2.2.5BERT模型与Transformer的区别和联系2.3应用场景2.4pipeline参数2.4.1pipeline对象实例化参数2.4.2pipeline对象使用参数2.4.3pipeline返回参数
centos 7 等linux 配置网络晨曦Bai
cd/etc/sysconfig/network-scriptsTYPE=Ethernet#配置为互联网网卡BOOTPROTO=static#配置获取IP地址形式为静态获取IPADDR=192.168.100.112#配置网卡地址NETMASK=255.255.255.0#配置子网掩码NETWORK=192.168.100.0#配置网络地址NAME=enp0s3#配置网卡名字DEVICE=enp0
平均精度（Average Precision，AP）以及AP50、AP75、APs、APm、APl、Box AP、Mask AP等不同阈值和细分类别的评估指标说明 fydw_715 深度学习基础分类数据挖掘人工智能
平均精度（AveragePrecision，AP）是信息检索领域和机器学习评价指标中常用的一个衡量方法，特别广泛用于目标检测任务。它在评估模型的表现时结合了准确率（Precision）和召回率（Recall），为我们提供一个综合性的评估指标。关键概念Precision（准确率）：精确率表示在模型预测为正例的所有样本中，实际上为正例的比例。它的计算公式为：Precision=TruePositive
Python | Leetcode Python题解之第393题UTF-8编码验证 Mopes__ 分享 Python Leetcode 题解
题目：题解：classSolution:defvalidUtf8(self,data:List[int])->bool:MASK1,MASK2=1int:if(num&MASK1)==0:return1n,mask=0,MASK1whilenum&mask:n+=1ifn>4:return-1mask>>=1returnnifn>=2else-1index,m=0,len(data)whilein
C++ | Leetcode C++题解之第393题UFT-8编码验证 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:staticconstintMASK1=14){return-1;}mask>>=1;}returnn>=2?n:-1;}boolvalidUtf8(vector&data){intm=data.size();intindex=0;while(indexm){returnfalse;}for(inti=1;i
Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）爱睡觉的咋 LLM transformer 深度学习人工智能
文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？两个计算复杂度和效果上有什么区别？4.为什么在softmax之后要对attention进行scaled（为什么除以d_k的平方根）5.在计算attentionscore时，如何对padding做mask操作6.简单介
vscode远程调试 bash 文件的 launch.json写法示例 my墨羽 vscode bash json
{"version":"0.2.0","configurations":[{"name":"${workspace}/train_net.py","type":"python","request":"launch","args":["--config-file","configs/coco-stuff-164k-156/mask2former_maft.yaml","--num-gpus","1"
PCM、PCMA和PCMU之间区别与转换 yaoao214 音频编码
一、三者优缺点1.PCM优点：压缩比小(CD音质>400kbps)，编解码延时短缺点:声音质量一般2.PCMA优点：语音质量优缺点：占用的带宽较高3.PCMU优点：语音质量优（PCMU>PCMA）缺点：占用的带宽较高二、相互转换获取原始录音字节流数据并转换成相应音频格式编码的字节数据PCM转PCMAstaticbytelinear2alaw(shortpcm_val){shortmask;shor
DNN学习平台（GoogleNet、SSD、FastRCNN、Yolov3）吾名招财人工智能 MFC界面应用 dnn opencv 神经网络
DNN学习平台（GoogleNet、SSD、FastRCNN、Yolov3）前言相关介绍1，登录界面：2，主界面：3，部分功能演示如下（1）识别网络图片（2）GoogleNet分类（3）人脸识别（4）SSD目标检测（5）FasterRCNN目标检测资源链接（含源码）前言还记得上学那会儿刚学完几个深度学习模型的C++简单部署应用，当时特别兴奋，外加那会儿还能自己写界面生成应用程序了，就想着做一个
MasaCtrl:Tuning-free mutual self-attention control for consistent image synthesis and editing Kun Li 图像视频生成大模型 stable diffusion
https://github.com/TencentARC/MasaCtrl/issues/13https://github.com/TencentARC/MasaCtrl/issues/13QuestionaboutMask·Issue#31·TencentARC/MasaCtrl·GitHub
css实现鼠标禁用默默@85 css css 前端
禁用样式:(鼠标滑过显示红色禁止符号)cursor:no-drop禁止鼠标点击事件(需要鼠标点击mask或者图层之下的元素)pointer-events:none注:使用禁止触发事件时,鼠标样式会失效,变成箭头,即cursor:not-allowed,与pointer-events:none;不可同时使用
HTML蒙版css,浅谈图片蒙版效果-webkit-mask_html/css_WEB-ITnose weixin_39632467 HTML蒙版css
会用PS的童鞋一定知道“蒙版”的概念，它可以在图片上实现一定的遮罩效果，当然这里我们不介绍ps里的蒙版，而是介绍利用CSS3的新属性-webkit-mask来实现网页中的图片遮罩效果。大家对-webkit-mask这一属性可能不太熟悉，或许有很多人都是第一次见到，没错，这一属性也是还未被众多浏览器所支持的CSS属性，目前支持这一属性的仅有-webkit-前缀的谷歌及safari浏览器，但是相信在不
-webkit-mask-box-image 适配小程序 wangxtqd 小程序 webkit 微信小程序
微信小程序经常修改底层规则，导致很多时候mask属性失效，此时使用-webkit-mask-box-image这个属性可以有效的替换mask属性，使显示正常起来。.coupon-wrap{mask:url($IMG_URL+'/qz_score_bg.png');-webkit-mask-box-image:url($IMG_URL+'/qz_score_bg.png');
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。