深度残差网络(DeepResidualNetwork,ResNet)[34]的出现是卷积神经网络在图像处理领域史上的里程碑事件,其提出的残差网络让深度学习的“深度”优势得以显现。理论上讲,更深层的神经网络能够进行更加复杂的特征提取,捕获更抽象的特征,深层网络应比浅层网络取得更好的效果,至少不会更差。然而事实上,56层的神经网络在CIFAR-10数据集上的效果远不如20层的神经网络,层数的加深反而使网络退化了。针对这个问题,ResNet提出了残差学习的思想,让层数的加深不会让网络效果变差,从而解决了深度网络的退化问题。
残差学习的思想假设一个神经网络已经在某一层取得最优结果,其后的深层网络是冗余的,如果能够让这些冗余层完成一个恒等映射,使冗余层的输入与输出不变,就能使网络一直保存最优层的输出结果。残差网络通过引入一个残差模块来达到恒等映射效果,残差模块如图2所示。对于一个冗余的网络层,假设输入为x,在引入残差模块前,网络学习到的参数应满足线性变换H(x)=x;引入残差模块后,H(x)=F(x),这样网络参数只需要满足令残差F(x)=0,相较于直接学习H(x)=x更加容易。
ResNet152模型在进行了大量的卷积操作后,直接对图像做了一次全局平局池化操作,将7×7的特征图压缩为1×1的矩阵,从而捕获特征图的全局特征用于分类。这种方法在一定程度上损失了图像中局部特征蕴含的语义信息和位置信息,本文借鉴了Vit[35]对图像的处理方式,将ResNet152卷积操作后最终提取的特征图分割为均等的子特征图,并将这些子特征图按照线性顺序排列作为图像的特征表示。本文改进后的图像特征提取模型结构如图3所示。
本文把将特征图分割为子特征图并线性排列的操作称为UP(UnfoldPatches),经过UP操作后,可以得到蕴含位置信息的图像特征表示,这些位置信息能够辅助Transformer模型更全面地理解图像,提取到图像中的语义信息,更好的辅助文本模态进行文本分类。
MM-IMDB数据集[36]由Arevalo等人提供,该数据集由IMDB网站提供的电影情节大纲与电影海报构成,并按照电影体裁对电影进行分类,每个电影都可能被分类为多种体裁,体裁共有25个种类,因此这是一个多标签分类问题。整个数据集包含25891条文本以及对应的海报图片。本文又在其基础上扩充了每条文本包含的实体信息。实验中数据集按照60%,10%,30%的比例被分为训练集、验证集与测试集。
在多标签分类问题中,模型性能的评价方法相较传统分类问题更复杂。本文选用了两种评价指标:MicroF1和MacroF1。其中MicroF1同时计算所有预测的F1值,MacroF1计算每个标签的F1值并取平均结果,各评价指标的计算公式如下:
其中precision为精确率,即被预测为正的样本中实际为正的比例,recall为召回率,即原本为正的样本中被预测为正的比例。F1值则权衡了精确率和召回率,是二者的调和平均数。N指的是标签的种类数。MicroPrecision和MicroRecall是同时计算所有类别的总精确率和总召回率。
本文分别使用单模态信息和多模态融合信息进行了一系列对比实验来验证本文方法的有效性:
1)Bert预训练模型(TextOnly).使用Bert预训练模型对单模态的文本数据进行训练与分类。
2)ResNet152预训练模型(ImageOnly).使用ResNet152预训练模型对单模态的图像数据进行训练与分类。
3)MMBT模型(MultimudalBitransformer).文献[30]所提出的多模态分类模型,也是本实验的基线模型之一。分别使用BERT提取文本特征表示,使用ResNet152提取图像特征表示,并级联拼接输入到BERT进行训练与分类。
4)UP_E_MMBT模型(UnfoldPatches-Entity-MMBT).本文提出的主要模型,在MMBT模型的基础上,在图像的特征提取中引入UP操作,得到了包含位置信息的图像特征表示。同时,本文还引入了实体向量,使用TransE方法训练Wikidata获得实体向量,进一步提升模型的性能。
5)晚期融合模型(LateConcat):晚期融合对不同模态的数据分别进行训练,然后再进行融合并输入分类器进行训练与分类。本实验将各模态的特征表示进行了一系列晚期融合实验。实验使用Bert作为文本的特征提取器,使用ResNet或基于ResNet改进的模型作为图像的特征提取器,使用TransE方法训练Wikidata提取实体特征。
实验结果如表2所示,为验证方法的有效性,各模型的实验参数(除模型新增参数)和实验环境保持完全一致。
从实验结果可以看出:
1)单模态的情况下,文本信息的分类效果优于图像信息,一方面这是由于相较于图像,文本更容易挖掘出其蕴含的语义信息,另一方面则是由分类任务的性质决定的,多模态文本分类任务中的图像信息所表达的内容往往是抽象的、不具体的,仅依靠单模态的图像信息难以支撑模型进行有效的分类决策。
2)多模态融合的情况下,各模型的分类效果均优于单模态情况,这说明为模型引入图像信息和实体知识信息能够提升模型的分类性能。引入图像能够补充文本中没有的语义信息,引入实体知识能够使模型获取额外的先验知识,这些信息都可以帮助模型做出更科学的分类决策,提升模型的分类性能。
3)多模态早期融合的方式取得了更好的效果,这说明在多模态融合时利用自注意力机制进行早期融合能够让模型更好地学习到各模态对分类结果的贡献度。UP_E_MMBT的表现优于MMBT,说明本文对图像特征表示的改进,即对图像特征图的UP操作能够提取图像中更深层的语义信息。
4)多模态晚期融合的效果并不理想,甚至不如纯粹的Bert模型,这是因为直接拼接会忽略各模态对分类结果的贡献权重,但是从实验结果仍然可以看出,引入图像和实体知识以及引入图像UP操作后,模型性能会得到提升,这可以佐证本文提出方法的有效性。
[1]贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154.HeMing,SunJian-jun,Chengying.TextClassificationBasedonNaiveBayes:AReview[J].InformationScience,2016,34(7):147-154.
[2]崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302.CuiJian-ming,LiuJian-ming,LiaoZhou-yu.ResearchofTextCategorizationBasedonSupportVectorMachine[J].ComputerSimulation,2013,30(2):299-302.
[3]张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172.ZhangNing,JiaZi-yan,ShiZhong-zhi.TextCategorizationwithKNNAlgorithm[J].ComputerEngineering,2005,31(8):171-172.
[4]HintonGE,SalakhutdinovRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-507.
[5]LecunY,BottouL.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[6]LiuP,QiuX,HuangX.RecurrentNeuralNetworkforTextClassificationwithMulti-TaskLearning[J].AAAIPress,2016:2873-2879.
[7]MikolovT,ChenK,CorradoG,etal.EfficientEstimationofWordRepresentationsinVectorSpace[J].arXivpreprintarXiv:1301.3781,2013.
[8]PetersM,NeumannM,IyyerM,etal.DeepContextualizedWordRepresentations[C]//Proceedingsofthe2018ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(HLT-NAACL),Volume1(LongPapers).2018.2227-2237.
[9]RadfordA,NarasimhanK,SalimansT.ImprovingLanguageUnderstandingbyGenerativePre-Training[J/OL].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf,2018
[10]DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[J].arXivpreprintarXiv:1810.04805,2018.
[11]HochreiterS,SchmidhuberJ.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735-1780.
[12]KimY.ConvolutionalNeuralNetworksforSentenceClassification[J].arXivpreprintarXiv:1408.5882,2014.
[13]KalchbrennerN,GrefenstetteE,BlunsomP.Aconvolutionalneuralnetworkformodellingsentences[J].arXivpreprintarXiv:1404.2188,2014.
[14]BahdanauD,ChoK,BengioY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXivpreprintarXiv:1409.0473,2014.
[15]VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[C]//AdvancesinNeuralInformationProcessingSystems(NIPS),2017:5998-6008.
[16]VrandecicD,KrtoetzschM.Wikidata:afreecollaborativeknowledgebase[J].CommunicationsoftheAcm,2014,57(10):78-85.
[17]SuchanekFM,KasneciG,WeikumG.YAGO:ACoreofSemanticKnowledgeUnifyingWordNetandWikipedia[C]//InternationalConferenceonWorldWideWeb(ICWWW),2007:697-706.
[18]AuerS,BizerC,KobilarovG,etal.DBpedia:ANucleusforaWebofOpenData[C]//ProceedingsofInternationalSemanticWebConference(ISWC),2007:722-735.[19]Miller,GeorgeA.WordNet:alexicaldatabaseforEnglish[J].CommunicationsoftheAcm,1995,38(11):39-41.
[20]WangJ,WangZ,ZhangD,et.al.Combiningknowledgewithdeepconvolutionalneuralnetworksforshorttextclassification[C]//InTwenty-SixthInternationalJointConferenceonArtificialIntelligence(AAAI),2017:2915-2921.
[21]ChenJ,HuY,LiuJ,etal.DeepShortTextClassificationwithKnowledgePoweredAttention[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019,33(1):6252-6259.10ComputerEngineeringandApplications
[22]ZhangZ,HanX,LiuZ,etal.ERNIE:Enhancedlanguagerepresentationwithinformativeentities[J].arXivpreprintarXiv:1905.07129,2019.
[23]LiuW,ZhouP,ZhaoZ,etal.K-bert:Enablinglanguagerepresentationwithknowledgegraph[J].arXivpreprintarXiv:1909.07606,2019.
[24]AnastasopoulosA,KumarS,LiaoH.NeuralLanguageModelingwithVisualFeatures[J].arXivpreprintarXiv:1903.02930,2019.
[25]ZadehA,ChenM,PoriaS,etal.TensorFusionNetworkforMultimodalSentimentAnalysis[C]//empiricalmethodsinnaturallanguageprocessing,2017:1103-1114.
[26]NamH,HaJW,KimJ.DualAttentionNetworksforMultimodalReasoningandMatching[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:299-307.
[27]LuJ,BatraD,ParikhD,etal.ViLBERT:PretrainingTask-AgnosticVisiolinguisticRepresentationsforVision-and-LanguageTasks[J].arXivpreprintarXiv:1908.02265,2019.
[28]LiLH,YatskarM,DYin,etal.VisualBERT:ASimpleandPerformantBaselineforVisionandLanguage[J].arXivpreprintarXiv:1908.03557,2019.
[29]AlbertiC,LingJ,CollinsM,etal.FusionofDetectedObjectsinTextforVisualQuestionAnswering[J].arXivpreprintarXiv:1908.05054,2019.
[30]KielaD,BhooshanS,HFirooz,etal.SupervisedMultimodalBitransformersforClassifyingImagesandText[J].arXivpreprintarXiv:1909.02950,2019.
[31]WuL,PetroniF,JosifoskiM,etal.ScalableZero-shotEntityLinkingwithDenseEntityRetrieval[C]//Proceedingsofthe2020ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).2020:6397-6407.
[32]BordesA,UsunierN,Garcia-DuranA,etal.TranslatingEmbeddingsforModelingMulti-relationalData[C]//InProceedingsofthe26thInternationalConferenceonNeuralInformationProcessingSystems(NIPS)-Volume2,2013:2787-2795.[33]HanX,CaoS,LvX,etal.OpenKE:AnOpenToolkitforKnowledgeEmbedding[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing:SystemDemonstrations(EMNLP),2018:139-144.
[34]HeK,ZhangX,RenS,etal.DeepResidualLearningforImageRecognition[J].IEEE,2016:770-778.
[35]DosovitskiyA,BeyerL,KolesnikovA,etal.AnImageisWorth16x16Words:TransformersforImageRecognitionatScale[J].arXivpreprintarXiv:2010.11929,2020.
[36]ArevaloJ,SolorioT,MMontes-Y-Gómez,etal.GatedMultimodalUnitsforInformationFusion[J].arXivpreprintarXiv:1702.01992,2017.
[37]YuJ,JiangJ,XiaR.Entity-sensitiveattentionandfusionnetworkforentity-levelmultimodalsentimentclassification[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2019,28:429-439.