予以初始

多模态情感分析模型VistaNet代码实践

1 介绍

关于模型 VistaNet 的原理，我已在之前的文章基于多模态数据的情感分析中进行了详细介绍。本文是其姊妹篇，主要以搭建模型的代码为主，对算法原理不清楚的小伙伴建议先熟悉一下原理。

鉴于有很多小伙伴评论和私信问我有没有此模型的代码，最近两天我对 VistaNet 进行了复现，本文会结合算法的原理进行代码的讲解，代码中加入充分注释以易理解。

Tips: 文本代码使用 TF2.x 实现。

下面进入正题…

2 原理简述

上图为 VistaNet 的模型结构图，大致分为三层：

Word Encoder + Attention： 将一个句子的所有词输入单层双向 GRU 层得到词向量，然后这些词向量经过自注意力机制计算得到对应的权重，最后加权累加得到句子的向量表示。(模型输入的一条样本为一个文档 (一段评论)，文档的每个句子都会经过该层得到向量表示，一个文档的最大句子数定义为L，所以经过该层共得到 L 个句向量 )
Sentence Encoder + Attention： 将一个文档的所有句向量输入单层双向 GRU 层得到加强语义后的句向量，评论附带的图片会经过 VGG-16 得到图像向量。所有句向量分别跟每一个图像向量使用注意力计算得到相应的权重，然后加权累加得到一个文档向量，有 M 张图像就会得到 M 个文档向量，表示不同图像对应的不同向量描述。
Document Encoder + Attention： 多个文档向量经过自注意力计算相应权重，然后加权求和得到最终的文档向量描述d，最后接任务层做 softmax 得到多分类结果即可。

3 层的定义

3.1 Word Encoder + Attention

以下是自注意力的计算流程，表示对 GRU 层每时刻的输出 h 进行行加权求和。

下面是自注意力层的实现代码，建议结合公式理解代码，并且注意每次运算后张量 shape 的变化。

import tensorflow as tf
from tensorflow.keras.layers import Layer
from tensorflow.keras.layers import Dense, Conv2D, MaxPool2D, Dropout, Flatten
import tensorflow.keras.backend as K

# 自注意力层
class Self_Attention(Layer):
    # input:  [None, n, k]输入为n个维度为k的词向量
    # mask:   [None, n]表示填充词位置的mask
    # output: [None, k]输出n个词向量的加权和
    def __init__(self, dropout_rate=0.0):
        super(Self_Attention, self).__init__()
        self.dropout_layer = Dropout(dropout_rate)

    def build(self, input_shape):
        self.k = input_shape[0][-1]  #词向量维度
        self.W_layer = Dense(self.k, activation='tanh', use_bias=True) #对h的映射
        self.U_weight = self.add_weight(name='U', shape=(self.k, 1),   #U记忆矩阵
                                        initializer=tf.keras.initializers.glorot_uniform(),
                                        trainable=True)

    def call(self, inputs, **kwargs):
        input, mask = inputs #输入有两部分[input, mask]
        if K.ndim(input) != 3:
            raise ValueError("The dim of inputs is required 3 but get {}".format(K.ndim(input)))

        # 计算score
        x = self.W_layer(input)              # [None, n, k]
        score = tf.matmul(x, self.U_weight)  # [None, n, 1]
        score = self.dropout_layer(score)    # 随机dropout(也可不要)

        # softmax之前进行mask
        mask = tf.expand_dims(mask, axis=-1)  # [None, n, 1]
        padding = tf.cast(tf.ones_like(mask)*(-2**31+1), tf.float32) #mask的位置填充很小的负数
        score = tf.where(tf.equal(mask, 0), padding, score)
        score = tf.nn.softmax(score, axis=1)  # [None, n, 1] mask之后计算softmax

        # 向量加权和
        output = tf.matmul(input, score, transpose_a=True)   # [None, k, 1]
        output /= self.k**0.5                                # 归一化
        output = tf.squeeze(output, axis=-1)                 # [None, k]
        return output

3.2 Sentence Encoder + Attention

下面是图像与句向量之间的注意力计算公式，首先是分别对图像向量与句向量的非线性转换，然后计算两者的内积，再乘上记忆矩阵 V，经过 softmax 得到对应的权重。

class Image_Text_Attention(Layer):
	# 该层的输入有三部分image_emb、seq_emb、mask
	# image_emb: [None, M, 4096]对应M个4096维的图像向量(由vgg16提取得到)，每条评论的M可以不一致
    # seq_emb:   [None, L, k]表示L个维度为k的句向量
    # mask:      [None, L]表示L个句子的mask(因为存在句子数不足L的文档，有被padding的句子)
    # output:    [None, M, k]输出为M个图像对应的文档向量表示
    def __init__(self, dropout_rate=0.0):
        super(Image_Text_Attention, self).__init__()
        self.dropout_layer = Dropout(dropout_rate)

    def build(self, input_shape):
        self.l = input_shape[1][1]   # 句子个数
        self.k = input_shape[1][-1]  # 句向量维度
        self.img_layer = Dense(1, activation='tanh', use_bias=True)  # 将image_emb映射到1维
        self.seq_layer = Dense(1, activation='tanh', use_bias=True)  # 将seq_emb也映射到1维(方便内积)
        self.V_weight = self.add_weight(name='V', shape=(self.l, self.l),
                                        initializer=tf.keras.initializers.glorot_uniform(),
                                        trainable=True)

    def call(self, inputs, **kwargs):
        image_emb, seq_emb, mask = inputs  # 输入为三部分[image_emb, seq_emb, mask]

        # 线性映射
        p = self.img_layer(image_emb)  # [None, M, 1]
        q = self.seq_layer(seq_emb)    # [None, L, 1]

        # 内积+映射(计算score)
        emb = tf.matmul(p, q, transpose_b=True)   # [None, M, L]
        emb = emb + tf.transpose(q, [0, 2, 1])    # [None, M, L]
        emb = tf.matmul(emb, self.V_weight)       # [None, M, L]
        score = self.dropout_layer(emb)           # 随机dropout(也可不要)

        # mask
        mask = tf.tile(tf.expand_dims(mask, axis=1), [1, score.shape[1], 1])  # [None, M, L]，将mask矩阵复制到与score相同的形状
        padding = tf.cast(tf.ones_like(mask) * (-2 ** 31 + 1), tf.float32)
        score = tf.where(tf.equal(mask, 0), padding, score)
        score = tf.nn.softmax(score, axis=-1)      # [None, M, L]

        # 向量加权和
        output = tf.matmul(score, seq_emb)   # [None, M, k]
        output /= self.k**0.5                # 归一化
        return output

3.3 Document Encoder + Attention

该部分的注意力计算公式如下，同第一层的自注意力层，是将 M 个文档向量加权求和得到一个文档向量，该层直接使用之前的 Self_Attention 层即可。

3.4 VGG-16

VGG16 的原理这里不再赘述，可自行查找其原理，并结合起来理解以下代码。

class VggNet(Layer):
    def __init__(self, block_nums, out_dim=1000, dropout_rate=0.0):
    	# block_nums: [list]，表示每个模块中连续卷积的个数，vgg16为[2,2,3,3,3]
    	# out_dim: 该层最终的输出维度
        super(VggNet, self).__init__()
        self.cnn_block1 = self.get_cnn_block(64, block_nums[0])
        self.cnn_block2 = self.get_cnn_block(128, block_nums[1])
        self.cnn_block3 = self.get_cnn_block(256, block_nums[2])
        self.cnn_block4 = self.get_cnn_block(512, block_nums[3])
        self.cnn_block5 = self.get_cnn_block(512, block_nums[4])
        self.out_block = self.get_out_block([4096, 4096], out_dim, dropout_rate)
        self.flatten = Flatten()

    # 单个卷积模块的搭建(layer_num个连续卷积加一个池化)
    def get_cnn_block(self, out_channel, layer_num):
        layer = []
        for i in range(layer_num):
            layer.append(Conv2D(filters=out_channel,
                                kernel_size=3,
                                padding='same',
                                activation='relu'))
        layer.append(MaxPool2D(pool_size=(2,2), strides=2))
        return tf.keras.models.Sequential(layer) #封装成一个模块
        
	# 输出模块的搭建(连续的全连接层)
    def get_out_block(self, hidden_units, outdim, dropout_rate):
        layer = []
        for i in range(len(hidden_units)-1):
            layer.append(Dense(hidden_units[i], activation='relu'))
            layer.append(Dropout(dropout_rate))
        layer.append(Dense(outdim, activation='softmax'))
        return tf.keras.models.Sequential(layer) #封装成一个模块

    def call(self, inputs, **kwargs):
        # 标准输入：[batchsize, 224, 224, 3]
        if K.ndim(inputs) != 4:
            raise ValueError("The dim of inputs is required 4 but get {}".format(K.ndim(inputs)))

        x = inputs
        cnn_block_list = [self.cnn_block1, self.cnn_block2, self.cnn_block3, self.cnn_block4, self.cnn_block5]

        # 卷积层
        for cnn_block in cnn_block_list:
            x = cnn_block(x)
        x = self.flatten(x)

        # 输出层
        output = self.out_block(x)
        return output

4 模型定义

搭建好了所有需要使用的 Layer 后，下面开始整体模型的搭建。

import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Dense, GRU, Bidirectional

class VistaNet(Model):
    def __init__(self, block_nums=[2,2,3,3,3], out_dim=4096, vgg_dropout=0.0, attention_dropout=0.0, gru_units=[64, 128], class_num=5):
    	# block_nums: vgg16各层卷积的个数
    	# out_dim: vgg16输出维度
    	# dropout: 各层的dropout系数
    	# gru_units: 两个单层双向GRU的输出维度
    	# class_num： 模型最终输出维度
        super(VistaNet, self).__init__()
        self.vgg16 = VggNet(block_nums, out_dim, vgg_dropout)       # VGG-16
        self.word_self_attention = Self_Attention(attention_dropout)# 第一层中的自注意力
        self.img_seq_attention = Image_Text_Attention(attention_dropout)  # 第二层中的Image-Text注意力
        self.doc_self_attention = Self_Attention(attention_dropout) # 第三层中的自注意力
        # 两个单层双向GRU层
        self.BiGRU_layer1 = Bidirectional(GRU(units=gru_units[0],
                                             kernel_regularizer=tf.keras.regularizers.l2(1e-5),
                                             recurrent_regularizer=tf.keras.regularizers.l2(1e-5),
                                             return_sequences=True),
                                          merge_mode='concat')
        self.BiGRU_layer2 = Bidirectional(GRU(units=gru_units[1],
                                             kernel_regularizer=tf.keras.regularizers.l2(1e-5),
                                             recurrent_regularizer=tf.keras.regularizers.l2(1e-5),
                                             return_sequences=True),
                                          merge_mode='concat')
        self.output_layer = Dense(class_num, activation='softmax') # 任务层

    def call(self, inputs, training=None, mask=None):
    	# 输入inputs包含三部分：(假设batchsize为1，省略掉第一维None)
        # image_inputs: [M, 227, 227, 3]一条评论样本包含的M个图像
        # text_inputs:  [L, T, k]一条样本表示一个文档，所以输入张量为3维:[最大句子数，最大单词数， 词向量维度]
        # mask: [L, T]每句话中mask词的位置
        image_inputs, text_inputs, mask = inputs 

        # 获取图像emb向量
        image_emb = self.vgg16(image_inputs)       # [M, 224, 224, 3] -> [M, 4096]

        # 经过GRU层获取词向量word_emb
        word_emb = self.BiGRU_layer1(text_inputs)  # [L, T, k] -> [L, T, 2k]

        # 经过self_attention得到句向量seq_emb
        input = [word_emb, mask]                   # [L, T, 2k] & [L, T]
        seq_emb = self.word_self_attention(input)  # [L, T, 2k] -> [L, 2k]

        # 经过GRU层提取语义
        input = tf.expand_dims(seq_emb, axis=0)    # [1, L, 2k]
        seq_emb = self.BiGRU_layer2(input)         # [1, L, 2k] -> [1, L, 4k]

        # 经过img_seq_attention得到M个文档向量doc_emb
        image_emb = tf.expand_dims(image_emb, axis=0) # [1, M, 4096]
        mask = tf.argmax(mask, axis=1)                # [L, ]
        mask = tf.expand_dims(mask, axis=0)           # [1, L]
        input = [image_emb, seq_emb, mask]
        doc_emb = self.img_seq_attention(input)       # [1, M, 4k] M个文档向量表示

        # 经过self_attention得到最终的文档向量
        mask = tf.ones(shape=[1, doc_emb.shape[1]])   # [1, M],全为非0值，因为该注意力无需mask
        input = [doc_emb, mask]
        D_emb = self.doc_self_attention(input)        # [1, 4k]

		# output layer
        output = self.output_layer(D_emb)             # [1, class_num]
        return output

到此，VistaNet 模型的整体搭建就结束了。

番外篇：

本没打算对该模型进行复现，因为一直没有找到对应的数据集，搭好了也没法调试。但应广大小伙伴的需求，还是复现了一下。然后自己生成虚拟样本调试了一番，顺利跑通了该模型。

model = VistaNet()

# 随机生成一条样本
image_input = np.random.rand(6, 224, 224, 3) #6个评论图像
text_input = np.random.rand(50, 128, 256)	 #包含50句话，每句话128个词的文档
mask = np.random.rand(50, 128)				 #50句话中每个词的padding位置

input = [image_input, text_input, mask]
pre = model(input)		# [1，class_num] class_num个类别的输出

输入数据格式说明： (一条样本)

image_input：M个图像数据需要处理成四维张量格式 [M，width, height, channel]，因为每条样本的 M可能不同，所以暂时无法批量的作为 dataset 输入模型，只能一次输入一个样本(有好方法的小伙伴记得教教我)；
text_input：一个文档需要先分句，然后对每句进行分词，得到三维张量 [L, T，K]，L为最大句子数，T为句子的最大单词数，K为词向量维度；
mask：表示一个文档被 padding 的位置矩阵，形状为 [L，T]。

写在最后

需要复现的小伙伴可参考这份代码。希望看完此文的你，能够有所收获~

有问题欢迎评论or私信，也可以去我的知乎，我在那更活跃一些。

【初学数据结构】关于KMP算法的回退思考 Das1 算法数据结构
初学KMP算法时，理解next数组以及回退过程是一个超级劝退过程。如果实在理解不了的，可以直接背。虽然作为十大经典算法之一，但是并不是非常重要，也就考试会考到罢了。关键数据结构解释next数组：next[k]是t[0]~t[j-1]这个串的最大相同前缀的后一个地址，同时也表示最大相同前缀的数量。s串，t串：表示两个索引j,k在进行匹配时所指代的字串next数组是什么？求next数组实际上就是求对于
【算法-图论】图的定义与一些常用术语小蛋编程 C++c++算法
【算法-图论】图的定义图论编辑器1：https://csacademy.com/app/graph_editor/图论编辑器2：https://graphonline.top/ch/1.图是什么图（graph）由节点（node）和边（edge）组成。其中，节点集合记为VVV，边集合记为EEE。每条边连接两个节点，某些图的边可能具有方向性。集合元素的数量用该集合的绝对值来表示。通过对比可以看出，图比
【PTA数据结构 | C语言版】求图中关键活动
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现求带权的有向图中关键活动的算法。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。输出格式：按格式输出关键活动，其中u为起点编号，v为终点编号。按起点编号的
【PTA数据结构 | C语言版】最短路的交点
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目给定有向加权图G，和4个顶点u,v,s,t。假设图G中所有边的权值都非负。设计一个算法来判定“从u到v的最短路径”和“从s到t的最短路径”是否存在一个交点w。也即，顶点w是u到v的最短路径上的一个顶点，同时也是s到t的最短路径上的一个顶点。注意：最短路径包含两个端点；一对顶点间的最短路径可能不止一条，求交点时必须将所有最短路径考虑在内。输
【PTA数据结构 | C语言版】求单源最短路的Dijkstra算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现在带权的有向图中求单源最短路的Dijkstra算法。注意：当多个待收录顶点路径等长时，按编号升序进行收录。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
python中的字典类型_Python中字典数据类型石墨稀 python中的字典类型
一.创建字典方法①:>>>dict1={}>>>dict2={'name':'earth','port':80}>>>dict1,dict2({},{'port':80,'name':'earth'})方法②:从Python2.2版本起>>>fdict=dict((['x',1],['y',2]))>>>fdict{'y':2,'x':1}方法③:从Python2.3版本起,可以用一个很方便的内建
Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
列表简单数据类型天池小晨 python
整型浮点型布尔型容器数据类型列表元组字典集合字符串1.列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1,元素2,...,元素n]。关键点是「中括号[]」和「逗号,」中括号把所有元素绑在一起逗号将每个元素一一分开2.列表的创建创建一个普通列表【例子】1x=['Monday','Tuesday','Wednesday','Thursday','Frid
Python-难点-获取项目根目录
1需求2接口3示例4参考资料在Python中，“设置根目录”通常指指定项目的基准路径，以便统一管理文件路径。以下是几种常见方法，结合不同场景和兼容性需求：一、基于路径拼接（最常用）通过手动拼接路径来定义根目录，适用于结构固定的项目。importos#方法1：根据当前文件位置向上递归定义（推荐）defset_project_root():current_file=os.path.abspath(__
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
python 抓取小红书小五咔咔咔 python 开发语言
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlPython抓取小红书数据的科普文章小红书是一个流行的社交电商平台，用户可以分享购物心得、生活点滴等。本文将介绍如何使用Python语言抓取小红书的数据
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
python JSON Lines (JSONL)的保存和读取；jsonl的数据保存和读取，大模型prompt文件保存常用格式医学小达人常用算法 NLP prompt JSON Lines JSONL jsonl jsonl文件保存读取
1.JSONLines(JSONL)文件保存将一个包含多个字典的列表保存为JSONLines(JSONL)格式的文件，每个字典对应一个JSONL文件中的一行。以下是如何实现这一操作的Python代码importjson#定义包含字典的列表data=[{"id":1,"name":"Alice","age":30,"email":"[email protected]"},{"id":2,"name"
四十行Python代码，带你爬取热门音乐评论，制作评论词云图！
请求页面数据driver.get(‘https://music.163.com/#/song?id=569213220’)#selenium无法直接获取到嵌套页面里面的数据switch_to.frame()切换到嵌套网页driver.switch_to.frame(0)让浏览器加载的时候,等待渲染页面driver.implicitly_wait(10)driver.page_source获取请求页
Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
交错并联Buck+LLC变换器的建模与控制优化研究
交错并联Buck+LLC变换器的建模与控制优化研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。摘要本文针对宽输入电压范围(200-450V)、多电压输出(12-48V)的高效DC-DC变换系统，提出了一种基于交错并联Buck预调节器和LLC谐振变换器的两级式拓扑结构。中间母线电压设定为200V，系统输出功率为1500W，要求电压和
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
Python中的enumerate()函数冉成未来 Service python 开发语言
文章目录基本用法参数说明特点实际应用与zip()的比较注意事项enumerate()是Python内置的一个非常有用的函数，它用于在遍历可迭代对象（如列表、元组、字符串等）时，同时获取元素的索引和值。基本用法fruits=['apple','banana','cherry']forindex,fruitinenumerate(fruits):print(index,fruit)输出：0apple1
长篇科幻小说《黄茧》第33章发现 3 橙黄茧香
如果……如果那样下沉……那样穿越，就……就算最终能够完成，只怕……只怕我……我也会被这透明凝胶给窒息而亡。提取转化后的个体意识量子态信息数据，全需接受蜜云虚拟世界数理逻辑算法制约，必须在M蜜巢系统模式构架下运行，故环境数据对个体意识数据形成制约，如两者间发生数理冲突，个体意识信息数据必会被M蜜巢系统算法清除，个体意识也就将会在蜜云虚拟世界内消亡，窒息本质上对信息数据不构成损伤，但它执行是蜜云虚拟世
ROS和autosar区别和联系，以及AP/CP对比ROS Jaliang_ 汽车
ROS和autosar区别和联系ROS(RobotOperatingSystem)和AUTOSAR(AutomotiveOpenSystemArchitecture)是两个不同领域的开源软件框架。应用领域的不同:ROS主要面向机器人技术和相关的智能系统，它为机器人研发提供了一套完整的软件解决方案，包括通信、驱动、算法、模拟等各方面的支持。ROS适合用于机器人的控制、感知、规划、模拟等方面的开发，也
空间曲线正交投影及其距离计算的理论与实践老歌老听老掉牙 python 正交投影
引言：正交投影的几何本质在三维空间中，正交投影是一种基础而重要的几何变换，它将空间中的点沿特定方向映射到一个平面上。当我们考虑将空间曲线投影到由给定法向量n\mathbf{n}n定义的平面时，这一问题在计算机图形学、CAD/CAM系统和科学计算中具有广泛应用。本文将从数学原理、Python实现到距离计算的等价性问题，全面探讨这一几何操作的深层内涵。设空间曲线由参数方程r(t)=(x(t),y(t)
pip是如何卸载你安装的第三方库的酷python python python
使用pipuninstall命令可以卸载掉你所安装的第三方库，所有与其相关的文件都将被pip整理出来展示并询问是否真的要删除，类似下面的提示pipuninstallnoxFoundexistinginstallation:nox2020.8.22Uninstallingnox-2020.8.22:Wouldremove:d:\python\lib\site-packages\nox-2020.8.
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，