叠加态的猫

『计算机视觉』Mask-RCNN_推断网络其六：Mask生成

一、Mask生成概览

上一节的末尾，我们已经获取了待检测图片的分类回归信息，我们将回归信息（即待检测目标的边框信息）单独提取出来，结合金字塔特征mrcnn_feature_maps，进行Mask生成工作（input_image_meta用于提取输入图片长宽，进行金字塔ROI处理，即PyramidROIAlign）。

            # Detections
            # output is [batch, num_detections, (y1, x1, y2, x2, class_id, score)] in
            # normalized coordinates
            detections = DetectionLayer(config, name="mrcnn_detection")(
                [rpn_rois, mrcnn_class, mrcnn_bbox, input_image_meta])

            # Create masks for detections
            detection_boxes = KL.Lambda(lambda x: x[..., :4])(detections)
            mrcnn_mask = build_fpn_mask_graph(detection_boxes, mrcnn_feature_maps,
                                              input_image_meta,
                                              config.MASK_POOL_SIZE,
                                              config.NUM_CLASSES,
                                              train_bn=config.TRAIN_BN)

二、Mask生成函数

我们在『计算机视觉』Mask-RCNN_推断网络其四：FPN和ROIAlign的耦合已经介绍过了PyramidROIAlign class的内容，

def build_fpn_mask_graph(rois, feature_maps, image_meta,
                         pool_size, num_classes, train_bn=True):
    """Builds the computation graph of the mask head of Feature Pyramid Network.

    rois: [batch, num_rois, (y1, x1, y2, x2)] Proposal boxes in normalized
          coordinates.
    feature_maps: List of feature maps from different layers of the pyramid,
                  [P2, P3, P4, P5]. Each has a different resolution.
    image_meta: [batch, (meta data)] Image details. See compose_image_meta()
    pool_size: The width of the square feature map generated from ROI Pooling.
    num_classes: number of classes, which determines the depth of the results
    train_bn: Boolean. Train or freeze Batch Norm layers

    Returns: Masks [batch, num_rois, MASK_POOL_SIZE, MASK_POOL_SIZE, NUM_CLASSES]
    """
    # ROI Pooling
    # Shape: [batch, num_rois, MASK_POOL_SIZE, MASK_POOL_SIZE, channels]
    x = PyramidROIAlign([pool_size, pool_size],
                        name="roi_align_mask")([rois, image_meta] + feature_maps)

    # Conv layers
    x = KL.TimeDistributed(KL.Conv2D(256, (3, 3), padding="same"),
                           name="mrcnn_mask_conv1")(x)
    x = KL.TimeDistributed(BatchNorm(),
                           name='mrcnn_mask_bn1')(x, training=train_bn)
    x = KL.Activation('relu')(x)

    x = KL.TimeDistributed(KL.Conv2D(256, (3, 3), padding="same"),
                           name="mrcnn_mask_conv2")(x)
    x = KL.TimeDistributed(BatchNorm(),
                           name='mrcnn_mask_bn2')(x, training=train_bn)
    x = KL.Activation('relu')(x)

    x = KL.TimeDistributed(KL.Conv2D(256, (3, 3), padding="same"),
                           name="mrcnn_mask_conv3")(x)
    x = KL.TimeDistributed(BatchNorm(),
                           name='mrcnn_mask_bn3')(x, training=train_bn)
    x = KL.Activation('relu')(x)

    x = KL.TimeDistributed(KL.Conv2D(256, (3, 3), padding="same"),
                           name="mrcnn_mask_conv4")(x)
    x = KL.TimeDistributed(BatchNorm(),
                           name='mrcnn_mask_bn4')(x, training=train_bn)
    x = KL.Activation('relu')(x)

    x = KL.TimeDistributed(KL.Conv2DTranspose(256, (2, 2), strides=2, activation="relu"),
                           name="mrcnn_mask_deconv")(x)
    x = KL.TimeDistributed(KL.Conv2D(num_classes, (1, 1), strides=1, activation="sigmoid"),
                           name="mrcnn_mask")(x)
    return x

PyramidROIAlign之后（这里会降采样一次），最终生成众多宽高等同输入ROI feat，但是是单通道的Mask输出（最后的激活函数很疯狂，relu接sigmoid，保证每个像素位置介于01之间），此时的Mask掩码输出大小为[2*MASK_POOL_SIZE, 2*MASK_POOL_SIZE]，对demo.pynb而言是28*28（源码注释给的数目是没有*2的，由于最后有一个stride为2的转置卷积，所以应该是疏忽，毕竟config的另外一个参量MASK_SHAPE值为28*28，虽然在推断网络没有使用到）。

至此，推断网络的最后一个输出——对象级别原始Mask计算了出来。

三、build函数返回

然后，我们将整个build函数构建model所需要的输入tensor和输出tensor进行打包，创建keras模型，

            model = KM.Model([input_image, input_image_meta, input_anchors],
                             [detections, mrcnn_class, mrcnn_bbox,
                                 mrcnn_mask, rpn_rois, rpn_class, rpn_bbox],
                             name='mask_rcnn')

        # Add multi-GPU support.
        if config.GPU_COUNT > 1:
            from mrcnn.parallel_model import ParallelModel
            model = ParallelModel(model, config.GPU_COUNT)

        return model

整理一下模型输出Tensor：

# num_anchors,    每张图片上生成的锚框数量
# num_rois,       每张图片上由锚框筛选出的推荐区数量，
# #               由 POST_NMS_ROIS_TRAINING 或 POST_NMS_ROIS_INFERENCE 规定
# num_detections, 每张图片上最终检测输出框，
# # 由 DETECTION_MAX_INSTANCES 规定

# detections, [batch, num_detections, (y1, x1, y2, x2, class_id, score)]
# mrcnn_class, [batch, num_rois, NUM_CLASSES] classifier probabilities
# mrcnn_bbox, [batch, num_rois, NUM_CLASSES, (dy, dx, log(dh), log(dw))]
# mrcnn_mask, [batch, num_detections, MASK_POOL_SIZE, MASK_POOL_SIZE, NUM_CLASSES]
# rpn_rois, [batch, num_rois, (y1, x1, y2, x2, class_id, score)]
# rpn_class, [batch, num_anchors, 2]
# rpn_bbox [batch, num_anchors, 4]

由于我们的GPU_COUNT为1，不是多卡训练，所以不需要GPU支持（多GPU模型后面应该会单开一节讲），直接将model返回即可。

附、MaskRCNN class网络构建方法总览

再次将build函数全貌贴出，分支选项按照mode='inference'选即为本系列推断网络的内容。

############################################################
#  MaskRCNN Class
############################################################

class MaskRCNN():
    """Encapsulates the Mask RCNN model functionality.

    The actual Keras model is in the keras_model property.
    """

    def __init__(self, mode, config, model_dir):
        """
        mode: Either "training" or "inference"
        config: A Sub-class of the Config class
        model_dir: Directory to save training logs and trained weights
        """
        assert mode in ['training', 'inference']
        self.mode = mode
        self.config = config
        self.model_dir = model_dir
        self.set_log_dir()
        self.keras_model = self.build(mode=mode, config=config)

    def build(self, mode, config):
        """Build Mask R-CNN architecture.
            input_shape: The shape of the input image.
            mode: Either "training" or "inference". The inputs and
                outputs of the model differ accordingly.
        """
        assert mode in ['training', 'inference']

        # Image size must be dividable by 2 multiple times
        h, w = config.IMAGE_SHAPE[:2]  # [1024 1024 3]
        if h / 2**6 != int(h / 2**6) or w / 2**6 != int(w / 2**6):  # 这里就限定了下采样不会产生坐标误差
            raise Exception("Image size must be dividable by 2 at least 6 times "
                            "to avoid fractions when downscaling and upscaling."
                            "For example, use 256, 320, 384, 448, 512, ... etc. ")

        # Inputs
        input_image = KL.Input(
            shape=[None, None, config.IMAGE_SHAPE[2]], name="input_image")
        input_image_meta = KL.Input(shape=[config.IMAGE_META_SIZE],
                                    name="input_image_meta")
        if mode == "training":
            # RPN GT
            input_rpn_match = KL.Input(
                shape=[None, 1], name="input_rpn_match", dtype=tf.int32)
            input_rpn_bbox = KL.Input(
                shape=[None, 4], name="input_rpn_bbox", dtype=tf.float32)

            # Detection GT (class IDs, bounding boxes, and masks)
            # 1. GT Class IDs (zero padded)
            input_gt_class_ids = KL.Input(
                shape=[None], name="input_gt_class_ids", dtype=tf.int32)
            # 2. GT Boxes in pixels (zero padded)
            # [batch, MAX_GT_INSTANCES, (y1, x1, y2, x2)] in image coordinates
            input_gt_boxes = KL.Input(
                shape=[None, 4], name="input_gt_boxes", dtype=tf.float32)
            # Normalize coordinates
            gt_boxes = KL.Lambda(lambda x: norm_boxes_graph(
                x, K.shape(input_image)[1:3]))(input_gt_boxes)
            # 3. GT Masks (zero padded)
            # [batch, height, width, MAX_GT_INSTANCES]
            if config.USE_MINI_MASK:
                input_gt_masks = KL.Input(
                    shape=[config.MINI_MASK_SHAPE[0],
                           config.MINI_MASK_SHAPE[1], None],
                    name="input_gt_masks", dtype=bool)
            else:
                input_gt_masks = KL.Input(
                    shape=[config.IMAGE_SHAPE[0], config.IMAGE_SHAPE[1], None],
                    name="input_gt_masks", dtype=bool)
        elif mode == "inference":
            # Anchors in normalized coordinates
            input_anchors = KL.Input(shape=[None, 4], name="input_anchors")

        # Build the shared convolutional layers.
        # Bottom-up Layers
        # Returns a list of the last layers of each stage, 5 in total.
        # Don't create the thead (stage 5), so we pick the 4th item in the list.
        if callable(config.BACKBONE):
            _, C2, C3, C4, C5 = config.BACKBONE(input_image, stage5=True,
                                                train_bn=config.TRAIN_BN)
        else:
            _, C2, C3, C4, C5 = resnet_graph(input_image, config.BACKBONE,
                                             stage5=True, train_bn=config.TRAIN_BN)
        # Top-down Layers
        # TODO: add assert to varify feature map sizes match what's in config
        P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c5p5')(C5)  # 256
        P4 = KL.Add(name="fpn_p4add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p5upsampled")(P5),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c4p4')(C4)])
        P3 = KL.Add(name="fpn_p3add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p4upsampled")(P4),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c3p3')(C3)])
        P2 = KL.Add(name="fpn_p2add")([
            KL.UpSampling2D(size=(2, 2), name="fpn_p3upsampled")(P3),
            KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c2p2')(C2)])
        # Attach 3x3 conv to all P layers to get the final feature maps.
        P2 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p2")(P2)
        P3 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p3")(P3)
        P4 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p4")(P4)
        P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p5")(P5)
        # P6 is used for the 5th anchor scale in RPN. Generated by
        # subsampling from P5 with stride of 2.
        P6 = KL.MaxPooling2D(pool_size=(1, 1), strides=2, name="fpn_p6")(P5)

        # Note that P6 is used in RPN, but not in the classifier heads.
        rpn_feature_maps = [P2, P3, P4, P5, P6]
        mrcnn_feature_maps = [P2, P3, P4, P5]

        # Anchors
        if mode == "training":
            anchors = self.get_anchors(config.IMAGE_SHAPE)
            # Duplicate across the batch dimension because Keras requires it
            # TODO: can this be optimized to avoid duplicating the anchors?
            anchors = np.broadcast_to(anchors, (config.BATCH_SIZE,) + anchors.shape)
            # A hack to get around Keras's bad support for constants
            anchors = KL.Lambda(lambda x: tf.Variable(anchors), name="anchors")(input_image)
        else:
            anchors = input_anchors

        # RPN Model, 返回的是keras的Module对象, 注意keras中的Module对象是可call的
        rpn = build_rpn_model(config.RPN_ANCHOR_STRIDE,  # 1 3 256
                              len(config.RPN_ANCHOR_RATIOS), config.TOP_DOWN_PYRAMID_SIZE)
        # Loop through pyramid layers
        layer_outputs = []  # list of lists
        for p in rpn_feature_maps:
            layer_outputs.append(rpn([p]))  # 保存各pyramid特征经过RPN之后的结果
        # Concatenate layer outputs
        # Convert from list of lists of level outputs to list of lists
        # of outputs across levels.
        # e.g. [[a1, b1, c1], [a2, b2, c2]] => [[a1, a2], [b1, b2], [c1, c2]]
        output_names = ["rpn_class_logits", "rpn_class", "rpn_bbox"]
        outputs = list(zip(*layer_outputs))  # [[logits2,……6], [class2,……6], [bbox2,……6]]
        outputs = [KL.Concatenate(axis=1, name=n)(list(o))
                   for o, n in zip(outputs, output_names)]

        # [batch, num_anchors, 2/4]
        # 其中num_anchors指的是全部特征层上的anchors总数
        rpn_class_logits, rpn_class, rpn_bbox = outputs

        # Generate proposals
        # Proposals are [batch, N, (y1, x1, y2, x2)] in normalized coordinates
        # and zero padded.
        # POST_NMS_ROIS_INFERENCE = 1000
        # POST_NMS_ROIS_TRAINING = 2000
        proposal_count = config.POST_NMS_ROIS_TRAINING if mode == "training"\
            else config.POST_NMS_ROIS_INFERENCE
        # [IMAGES_PER_GPU, num_rois, (y1, x1, y2, x2)]
        # IMAGES_PER_GPU取代了batch，之后说的batch都是IMAGES_PER_GPU
        rpn_rois = ProposalLayer(
            proposal_count=proposal_count,
            nms_threshold=config.RPN_NMS_THRESHOLD,  # 0.7
            name="ROI",
            config=config)([rpn_class, rpn_bbox, anchors])

        if mode == "training":
            # Class ID mask to mark class IDs supported by the dataset the image
            # came from.
            active_class_ids = KL.Lambda(
                lambda x: parse_image_meta_graph(x)["active_class_ids"]
                )(input_image_meta)

            if not config.USE_RPN_ROIS:
                # Ignore predicted ROIs and use ROIs provided as an input.
                input_rois = KL.Input(shape=[config.POST_NMS_ROIS_TRAINING, 4],
                                      name="input_roi", dtype=np.int32)
                # Normalize coordinates
                target_rois = KL.Lambda(lambda x: norm_boxes_graph(
                    x, K.shape(input_image)[1:3]))(input_rois)
            else:
                target_rois = rpn_rois

            # Generate detection targets
            # Subsamples proposals and generates target outputs for training
            # Note that proposal class IDs, gt_boxes, and gt_masks are zero
            # padded. Equally, returned rois and targets are zero padded.
            rois, target_class_ids, target_bbox, target_mask =\
                DetectionTargetLayer(config, name="proposal_targets")([
                    target_rois, input_gt_class_ids, gt_boxes, input_gt_masks])

            # Network Heads
            # TODO: verify that this handles zero padded ROIs
            mrcnn_class_logits, mrcnn_class, mrcnn_bbox =\
                fpn_classifier_graph(rois, mrcnn_feature_maps, input_image_meta,
                                     config.POOL_SIZE, config.NUM_CLASSES,
                                     train_bn=config.TRAIN_BN,
                                     fc_layers_size=config.FPN_CLASSIF_FC_LAYERS_SIZE)

            mrcnn_mask = build_fpn_mask_graph(rois, mrcnn_feature_maps,
                                              input_image_meta,
                                              config.MASK_POOL_SIZE,
                                              config.NUM_CLASSES,
                                              train_bn=config.TRAIN_BN)

            # TODO: clean up (use tf.identify if necessary)
            output_rois = KL.Lambda(lambda x: x * 1, name="output_rois")(rois)

            # Losses
            rpn_class_loss = KL.Lambda(lambda x: rpn_class_loss_graph(*x), name="rpn_class_loss")(
                [input_rpn_match, rpn_class_logits])
            rpn_bbox_loss = KL.Lambda(lambda x: rpn_bbox_loss_graph(config, *x), name="rpn_bbox_loss")(
                [input_rpn_bbox, input_rpn_match, rpn_bbox])
            class_loss = KL.Lambda(lambda x: mrcnn_class_loss_graph(*x), name="mrcnn_class_loss")(
                [target_class_ids, mrcnn_class_logits, active_class_ids])
            bbox_loss = KL.Lambda(lambda x: mrcnn_bbox_loss_graph(*x), name="mrcnn_bbox_loss")(
                [target_bbox, target_class_ids, mrcnn_bbox])
            mask_loss = KL.Lambda(lambda x: mrcnn_mask_loss_graph(*x), name="mrcnn_mask_loss")(
                [target_mask, target_class_ids, mrcnn_mask])

            # Model
            inputs = [input_image, input_image_meta,
                      input_rpn_match, input_rpn_bbox, input_gt_class_ids, input_gt_boxes, input_gt_masks]
            if not config.USE_RPN_ROIS:
                inputs.append(input_rois)
            outputs = [rpn_class_logits, rpn_class, rpn_bbox,
                       mrcnn_class_logits, mrcnn_class, mrcnn_bbox, mrcnn_mask,
                       rpn_rois, output_rois,
                       rpn_class_loss, rpn_bbox_loss, class_loss, bbox_loss, mask_loss]
            model = KM.Model(inputs, outputs, name='mask_rcnn')
        else:
            # Network Heads
            # Proposal classifier and BBox regressor heads
            # output shapes:
            #     mrcnn_class_logits: [batch, num_rois, NUM_CLASSES] classifier logits (before softmax)
            #     mrcnn_class: [batch, num_rois, NUM_CLASSES] classifier probabilities
            #     mrcnn_bbox(deltas): [batch, num_rois, NUM_CLASSES, (dy, dx, log(dh), log(dw))]
            mrcnn_class_logits, mrcnn_class, mrcnn_bbox =\
                fpn_classifier_graph(rpn_rois, mrcnn_feature_maps, input_image_meta,
                                     config.POOL_SIZE,  # 7
                                     config.NUM_CLASSES,
                                     train_bn=config.TRAIN_BN,
                                     fc_layers_size=config.FPN_CLASSIF_FC_LAYERS_SIZE)

            # Detections
            # output is [batch, num_detections, (y1, x1, y2, x2, class_id, score)] in
            # normalized coordinates
            detections = DetectionLayer(config, name="mrcnn_detection")(
                [rpn_rois, mrcnn_class, mrcnn_bbox, input_image_meta])

            # Create masks for detections
            detection_boxes = KL.Lambda(lambda x: x[..., :4])(detections)
            mrcnn_mask = build_fpn_mask_graph(detection_boxes, mrcnn_feature_maps,
                                              input_image_meta,
                                              config.MASK_POOL_SIZE,  # 14
                                              config.NUM_CLASSES,
                                              train_bn=config.TRAIN_BN)

            # num_anchors,    每张图片上生成的锚框数量
            # num_rois,       每张图片上由锚框筛选出的推荐区数量，
            # #               由 POST_NMS_ROIS_TRAINING 或 POST_NMS_ROIS_INFERENCE 规定
            # num_detections, 每张图片上最终检测输出框，
            # #               由 DETECTION_MAX_INSTANCES 规定

            # detections,     [batch, num_detections, (y1, x1, y2, x2, class_id, score)]
            # mrcnn_class,    [batch, num_rois, NUM_CLASSES] classifier probabilities
            # mrcnn_bbox,     [batch, num_rois, NUM_CLASSES, (dy, dx, log(dh), log(dw))]
            # mrcnn_mask,     [batch, num_detections, MASK_POOL_SIZE, MASK_POOL_SIZE, NUM_CLASSES]
            # rpn_rois,       [batch, num_rois, (y1, x1, y2, x2, class_id, score)]
            # rpn_class,      [batch, num_anchors, 2]
            # rpn_bbox        [batch, num_anchors, 4]
            model = KM.Model([input_image, input_image_meta, input_anchors],
                             [detections, mrcnn_class, mrcnn_bbox,
                                 mrcnn_mask, rpn_rois, rpn_class, rpn_bbox],
                             name='mask_rcnn')

        # Add multi-GPU support.
        if config.GPU_COUNT > 1:
            from mrcnn.parallel_model import ParallelModel
            model = ParallelModel(model, config.GPU_COUNT)

        return model

Next.js 实战 (十)：中间件的魅力，打造更快更安全的应用白雾茫茫丶 Nextjs15 实战系列 Next.js middleware
什么是中间件？在Next.js中，中间件（Middleware）是一种用于处理每个传入请求的功能。它允许你在请求到达页面之前对其进行修改或响应。通过中间件，你可以实现诸如日志记录、身份验证、重定向、CORS配置、压缩等任务。中间件是构建高效和安全的web应用的重要组成部分。应用场景身份验证你可以在中间件中检查用户的身份验证状态，比如从cookie或头部信息中读取JWT令牌，并根据验证结果决定是否允
C# 与 Python 代码互相调用的实践一只小灿灿 net Python c#python
一、引言在当今的软件开发领域，不同的编程语言都有其独特的优势和适用场景。C#是一种功能强大、面向对象的编程语言，主要应用于Windows平台开发、企业级应用开发以及游戏开发（借助Unity引擎等）等领域；而Python则以其简洁的语法、丰富的库以及在数据科学、机器学习、自动化脚本等众多方面的出色表现备受青睐。在实际的项目开发中，有时候我们希望能够结合这两种语言的优势，实现C#与Python代码的互
【MYSQL学习】MySQL内置函数：窗口函数的5大绝招你GET到了吗？墨瑾轩 MySql入门~精通 mysql 学习 android
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MySQL内置函数：窗口函数的5大绝招你GET到了吗？引言❓在数据分析和报表生成中，窗口函数是一个非常强大的工具，它可以让你在同一个查询中进行复杂的聚合和排序操作。但你真的了解窗口函数吗？今天，我们就来一场深入浅出的探索之旅，带你了解窗口函数的5大绝招，让你在
【教程】Ollama 部署 MindSpore 训练的大模型 Hsiayukoo llama python
gguf-mindspore本项目（gguf-mindspore）帮助用户快速的将MindSpore生成的大模型的ckpt文件，转换为Ollama可以加载的GGUF格式文件，主要思路是针对已有的如Huggingface上的对应模型的GGUF文件，利用MindSpore生成的ckpt文件，替换掉GGUF文件中的张量信息部分，生成自己的GGUF文件。依赖gguf==0.6.0mindsporenump
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
Python文件封装成EXE（可执行文件）苏学能 python 开发语言后端
Section1-创建纯python环境创建一个python环境，最好32位的，这样执行生成的exe可以在32位系统和64位系统上运行，此外，打包编译的exe也不至于过于庞大，以及出现总是打包不成功的问题。Section2-执行pipinstallpyinstaller在纯python环境中pip命令下执行。Section3-修改配置文件：#-*-mode:python-*-block_ciphe
使用RAG-Chroma与OpenAI构建高效问答系统 srudfktuffk 人工智能 python
在AI驱动的应用场景中，检索增强生成(Retrieval-AugmentedGeneration,RAG)是一种强大的技术，可以提升问答系统的精度和效能。在这篇文章中，我们将深入探讨如何使用Chroma与OpenAI结合，构建一个基于RAG的问答系统。技术背景介绍RAG是一种结合信息检索（IR）和自然语言生成（NLG）的技术。它通过先检索与问题相关的信息，然后生成答案，提高了问答系统的准确性和相关
【OpenAI】获取OpenAI API Key的两种方法，从入门到精通的详解教程！ senger_lcc ai AI编程
文章目录OpenAIAPIKey的使用场景方式一：通过“OpenAI官网”获取APIKey（国外）步骤1：访问OpenAI官网步骤2：创建或登录账户步骤3：进入API管理界面步骤4：生成新的APIKey使用OpenAIAPI代码方式二：通过“CodeMoss”获取APIKey（国内）步骤1：访问CodeMoss工具步骤2：进入API管理界面步骤3：生成新的APIKey使用OpenAIAPI的实战教
使用Neo4j-Semantic-Ollama构建智能交互代理 safHTEAHE neo4j oracle 数据库 python
在现代应用中，结合图数据库与语义层的智能代理能够极大提升数据交互的效率和灵活性。本文将展示如何使用Neo4j-Semantic-Ollama模板来开发一个能够通过语义层与Neo4j图数据库交互的智能代理。我们将关注其如何利用Mixtral作为JSON格式的代理，通过用户意图与数据库进行交互。技术背景介绍Neo4j是一种高性能的图数据库，它适合于处理结构复杂的数据。在此基础上，加入语义层可以让应用程
FastAPI教程：快速构建高性能API 迪小莫学AI fastapi python
FastAPI教程：快速构建高性能API介绍FastAPI是一个现代的、快速的（高性能）Web框架，用于构建APIs，基于标准的Python类型提示。它非常适合用于构建高效、易于维护的API服务。FastAPI支持自动生成文档，输入数据验证和异步编程，且性能接近Go和Node.js。本教程目标本教程将带领你构建一个简单的FastAPI应用，包括：1.创建FastAPI项目2.定义和处理API端点3
如何有效控制 KV 缓存的内存占用，优化推理速度？ m0_70960708 笔记缓存
使用KV缓存技术的目的是在生成过程中计算过去tokens的键和值张量时，将这些张量存储（“缓存”）在GPU内存中，从而避免在每个生成步骤中重新计算这些tokens的键和值张量。KV缓存是一种妥协：我们以内存的消耗换取计算量的减少。在这篇文章中，我们将了解KV缓存的容量有多大、会带来哪些挑战，以及面对这些挑战最常用的应对策略是什么。01KV缓存的容量有多大？这相当简单：对于每个batch中每个序列的
利用Ollama和OpenAI实现多查询RAG检索 jkgSFS 前端 javascript 开发语言 python
在这篇文章中，我们将探讨如何结合使用Ollama和OpenAI的多查询检索技术（RAG）来增强信息检索的准确性和效率。多查询检索器是一种查询转换的例子，它基于用户的输入查询生成多个不同视角的查询。对于每个查询，系统检索一组相关文档，并合并所有查询的独特联合体以进行答案合成。技术背景介绍RAG（Retrieval-AugmentedGeneration）是一种结合检索与生成的技术，它通过在生成答案之
Python 打包成 EXE 的方法详解小黄编程快乐屋 1024程序员节
#1024程序员节｜征文#日常开发中，python由于其便捷性成为了很多人的首选语言，但是python的环境配置也是有点麻烦的，那么我们如何让其变得更加友好呢？没错，就是打包成exe可执行文件。一、PyInstaller简介PyInstaller是一个非常流行的Python工具，可以将Python脚本打包为独立的可执行文件。它支持Windows、macOS和Linux系统，特别适合需要跨平台打包的
走进JavaWeb技术世界11：单元测试框架Junit 程序员黄小斜走进JavaWeb技术世界 Java
本系列文章将整理到我在GitHub上的《Java面试指南》仓库，更多精彩内容请到我的仓库里查看https://github.com/h2pl/Java-Tutorial喜欢的话麻烦点下Star哈文章首发于我的个人博客：www.how2playlife.com本文是微信公众号【Java技术江湖】的《走进JavaWeb技术世界》其中一篇，本文部分内容来源于网络，为了把本文主题讲得清晰透彻，也整合了很多
基于CISCO PACKET TRACER企业网仿真的设计与实现 QWQ雨落轻尘网络
第1章背景1.1设计背景随着企业信息化建设不断深入，企业的生产业务系统、经营管理系统、办公自动化系统均得到大力发展，对于企业园区网的建设要求越来越高。传统园区网建设初期往往面临网络拓扑相对混乱，不便于对网络性能瓶颈进行正确评估和有效扩容，给日常网络管理也带来很大难度，对于网络可靠性考虑不够，网络中既存在单点故障导致网络可靠性低、影响企业生产和经营管理行为，同时也存在网络过度冗余、造成投资浪费的现象
Python基础—用python读取xml文件！小尤笔记 python xml 开发语言
读取XML文件在Python中是一个常见的任务，通常可以使用内置的xml.etree.ElementTree模块来完成。这个模块提供了简单而高效的XML解析和生成功能。下面是一个详细的代码示例和讲解，展示了如何使用xml.etree.ElementTree来读取XML文件。代码示例假设我们有一个名为example.xml的XML文件，内容如下：120081411004201159900我们的目标是
深入探秘 Java 网络编程：从基础到多线程服务器的全方位指南 2的n次方_ java 网络服务器
我的主页：2的n次方_Java作为一门功能强大的编程语言，不仅在桌面应用、移动开发、后端开发等领域表现出色，还在网络编程中拥有广泛的应用。网络编程涉及在两个或多个设备之间通过网络进行通信，这对于构建分布式系统、客户端-服务器应用程序、以及互联网服务至关重要。在这篇博客中，我们将详细探讨Java网络编程的基础知识，并通过代码示例展示如何在Java中实现网络通信。1.Java网络编程基础Java网络编
上海家化新掌舵人押注兴趣电商：内部架构大变革，三季报业绩仍降港湾商业观察用户运营
《港湾商业观察》杨忆宋10月29日，上海家化（600315.SH）公布了2024年第三季度业绩报告。上海家化拥有125年的品牌历史，是中国第一家上市的美妆日化企业，旗下品牌包括六神、佰草集、典萃、玉泽、双妹、高夫、家安、美加净、启初和汤美星。长期以来，上海家化一直是国货美妆行业的领跑者。然而，近年来公司业绩却每况愈下。2024年前三季度，公司营收和净利润双双下滑，第三季度，归属净利润更是出现上市以
C语言编程笔记：文件处理的艺术就爱学编程新星杯 c语言笔记开发语言
大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！本文目录引言正文一、为什么要用文件二、文件的分类三、文件指针四、文件的打开与关闭1.文件的打开2.文件的关闭五、文件缓冲区六、文件的基本操作（1）打开文件（2）关闭文件（3）检测文件末尾和错误（4）清除文件错误标志七、顺序读写文件（1）字符级操作函数fgetc
Golang 中强大的重试机制，解决瞬态错误 Ai 编码 Golang教程 golang 开发语言后端
文章精选推荐1JetBrainsAiassistant编程工具让你的工作效率翻倍2ExtraIcons：JetBrainsIDE的图标增强神器3IDEA插件推荐-SequenceDiagram，自动生成时序图4BashSupportPro这个ides插件主要是用来干嘛的？5IDEA必装的插件：SpringBootHelper的使用与功能特点6Aiassistant,又是一个写代码神器7Cursor
Android 在后台无法启动Activity 屈佳俊 android 移动开发
前言前几天接触的一个闹钟APP项目，闹钟触发从后台启动一个activity，执行之后的响铃操作，但是却失效了，闹钟并没有按时响铃。最后发现是系统拦截了从后台启动的Activity。具体原因一、AndroidQ从后台启动Activity的限制Android10(API级别29)及更高版本对后台应用可启动Activity进行限制。Android10中,当App的Activity不在前台时，其启动Act
杨建：网站加速--服务器编写篇黄传通服务器 centos buffer server tcp 多线程
杨建：网站加速--服务器编写篇（上）--提升性能的同时为你节约10倍以上成本From:http://blog.sina.com.cn/iyangjian一，如何节约CPU二，怎样使用内存三，减少磁盘I/O四，优化你的网卡五，调整内核参数六，衡量WebServer的性能指标七，NBAjs直播的发展历程八，新浪财经实时行情系统的历史遗留问题(7byte=10.68wRMB/year)---------
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
SpringBoot集成Netty实战：构建高效TCPUDP通信服务端【物联网开发必备】 m0_74825678 面试学习路线阿里巴巴 spring boot 物联网后端
SpringBoot集成Netty实现TCP/UDP通信协议【优化版】引言在现代物联网(IoT)应用中，设备与服务器之间的实时通信至关重要。Netty作为一个高性能的网络应用框架，与SpringBoot的集成可以简化开发过程，并提高应用性能。本文将详细介绍如何在SpringBoot中集成Netty，实现TCP和UDP通信协议。通讯协议在设计通讯协议时，我们考虑了数据的完整性和命令的明确性。以下是我
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
2025 年成为 AI 独立开发者的 3 个步骤程序员陆通人工智能
2025年成为AI独立开发者的3个步骤每天拆解一个AI应用或模型功能选择一个热门的AI应用或开源模型（如ChatGPT、MidJourney、Whisper），深度体验其核心功能，分析背后的技术实现。用笔记工具记录其亮点、缺点，以及你认为可以改进的地方。思考如何通过自己的开发能力优化这些功能，形成自己的产品思路。每天学习1小时AI开发相关技能针对独立开发者需要的核心技能，每天学习一点点，比如：如何
个人职业发展与AI赋能的前端开发前端
在瞬息万变的科技浪潮中，个人职业发展显得尤为重要。对于前端开发者而言，如何提升自身竞争力，适应日新月异的技术革新，是持续关注的核心问题。而近年来，人工智能（AI）技术的飞速发展，特别是AI代码生成器的兴起，正深刻地改变着前端开发的格局，为开发者们提供了前所未有的机遇。本文将以ScriptEcho为例，探讨AI技术如何赋能前端开发，助力个人职业发展。市场趋势与个人技能提升当前市场对前端开发人才的需求
OpenCV: 深入理解OpenCV中CV_WRAP_AS宏及其作用湫兮之风 opencv opencv 人工智能计算机视觉
在OpenCV中，CV_WRAP_AS是一个宏，主要用于为C++函数或运算符定义别名，以便在生成语言绑定时使用。这对于在不同的编程语言（如Python）中使用OpenCV库时提供更友好的接口非常有用。尽管它在C++代码中不会改变函数的行为，但它在OpenCV的语言绑定系统中起到了重要作用，特别是当OpenCV要为多个语言（如Python）提供接口时。1.CV_WRAP_AS宏的基本用途CV_WRA
代码重构的革命：AI代码生成器如何改变游戏规则前端
在软件开发的世界里，代码重构是一项既重要又艰巨的任务。繁琐的重复性工作、低下的效率以及难以避免的错误，常常让开发者们疲惫不堪。然而，随着人工智能技术的飞速发展，智能化代码重构的时代已经到来，而AI代码生成器正成为这场革命的核心驱动力。代码重构的挑战：一个开发者的心声传统的代码重构过程充满了挑战。想象一下，你需要将一个庞大的、混乱的代码库改造成模块化、易于维护的结构。这需要你花费大量的时间去理解现有
看板工具提升敏捷管理：实现透明、高效的团队协作与进度管理敏捷看板类协作工具
引言随着科技的快速发展与市场需求的不断变化，企业的管理方式也发生了深刻的变革。传统的项目管理方法渐渐无法满足当今企业面对的高效性、灵活性与快速响应的要求。特别是在研发、产品设计、市场营销等多个领域，团队需要更加灵活和透明的工作流管理方式。在这种背景下，敏捷管理应运而生。作为敏捷管理中的一种有效工具，看板（Kanban）凭借其高效、简洁且灵活的特点，已成为全球各行业中团队管理的重要组成部分。本篇文章
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

『计算机视觉』Mask-RCNN_推断网络其六：Mask生成

一、Mask生成概览

二、Mask生成函数

三、build函数返回

附、MaskRCNN class网络构建方法总览

你可能感兴趣的:(『计算机视觉』Mask-RCNN_推断网络其六：Mask生成)