林小瓜0327

论文笔记：Multimodal Machine Learning: A Survey and Taxonomy

文章目录

论文笔记：Multimodal Machine Learning: A Survey and Taxonomy
- 多模态的历史回顾
- 多模态的五个核心技术挑战
- - 多模态表示（Representation）
  - - 联合表示（Joint Representations）
    - - 神经网络
      - 概率图形模型
      - 顺序表示
    - 协调表示
    - - 基于神经网络
      - 图像和语言的顺序嵌入
      - 基于正则相关分析（CCA）
    - 讨论
  - 多模态映射/翻译
  - - 基于实例
    - 基于生成
    - 讨论
  - 多模态对齐
  - - 显式对齐
    - 隐式对齐
    - 讨论
  - 多模态融合
  - - 模型不可知论方法
    - 基于模型的方法
    - - 基于内核的方法
      - 基于图形模型
      - 基于神经网络
    - 讨论
  - 多模态协同学习
  - - 并行
    - 非并行
    - 混合
    - 讨论
- 总结

在本文中，我们主要关注但不限定三种模式：既可以写也可以说的自然语言；通常用图像或视频表示的视觉信号；编码声音和副词信息的声音信号，如韵律、声乐等。

由于数据的异构性，多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。从多模态信息源中学习提供了捕获模态之间的对应关系并获得对自然现象深入理解的可能性。

多模态的历史回顾

视听语音识别(AVSR)：
多媒体内容检索
理解人类行为
新的多模态应用程序类别，它强调了语言和视觉：媒体描述。最具代表性的应用程序之一是图像字幕，评估挑战其任务是生成输入图像的文本描述

各应用涉及到的挑战

多模态的五个核心技术挑战

本文对**多模态机器学习的五个核心技术挑战（及其相关子挑战）**进行了识别和探讨。它们是多模态学习的中心，需要处理才能促进该领域发展。我们的综述超越了典型的早期和晚期融合分割，包括以下五个挑战：

表示（Representation）：第一个基本挑战是学习如何以一种利用多种模态的互补性和冗余性的方式表示和汇总多模式数据。多模数据的异构性使得构造这样的表示方法具有挑战性。例如，语言通常是象征性的，而音频和视频形式将被表示为信号。
映射（Translation）：第二个挑战是如何将数据从一种模式转换(映射)到另一种模式。不仅异构数据，而且模式之间的关系往往是开放的或主观的。例如，有许多正确的方法来描述一个图像，一个完美的映射可能不存在。
对齐（Alignment）：第三个挑战是确定来自两种或两种以上不同模式的(子)元素之间的直接关系。例如，我们可能希望将菜谱中的步骤与显示正在制作的菜肴的视频对齐。为了解决这一挑战，我们需要度量不同模式之间的相似性，并处理可能的长期依赖性和模糊性。
融合（Fusion）：第四个挑战是连接来自两个或多个模式的信息来执行预测。例如，在视听语音识别中，将唇动的视觉描述与语音信号融合，预测语音单词。来自不同模式的信息可能具有不同的预测能力和噪声拓扑结构，其中至少有一种模式可能丢失数据。
协同学习（Co-learning）：第五个挑战是在模态、它们的表示和它们的预测模型之间传递知识。这一点可以用协同训练、概念基础和零样本学习的算法来举例说明。协同学习探索了从一个模态中学习知识如何帮助在不同模态中训练的计算模型。当其中一种模式的资源有限（例如，注释数据）时，这一挑战尤其重要。

多模态表示（Representation）

通过各模态的信息找到某种对多模态信息的统一表示。来自同一个体的不同模态信息的表征（向量）间应具备更高的相似程度。

表示多种形式存在许多困难：如何组合来自不同来源的数据；如何处理不同级别的噪声；以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模式问题至关重要，并且是任何模型的主干。

良好的表示对于机器学习模型的性能非常重要，这一点在语音识别和视觉对象分类系统的性能最近的飞跃中得到了证明。Bengio等人的[18]识别了许多良好表示的属性:平滑性、时间和空间相干性、稀疏性和自然聚类等。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应该反映出相应概念的相似性，即使在没有一些模态的情况下也应该很容易得到表示，最后，在给定观察到的模态的情况下，应该有可能补全缺失的模态。

本文提出了两种多模态表示：联合表示和协调表示

联合表示：将单模态信号组合到同一个表示空间中，在数学上表示为(1)式，多模态表示x_m使用依赖于单模态表示x1…xn的函数f(例如，深度神经网络、受限玻尔兹曼机或递归神经网络)计算.[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uu6vWj4a-1642591073231)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1642495178826.png)]
协调表示单独处理单模态信号，但对其施加一定的相似性约束，使其达到我们所说的协调空间，在数学上表示为(2)式，其中每个模态都有对应的投影函数(f和g)，将其映射到一个协调的多模态空间。而投影到每个形态的多通道空间是独立的,但它们之间产生的结果空间是协调的(表示为∼)。这种协调的例子包括最小化余弦距离[61]，最大化相关[7]，以及在结果空间之间强制执行偏序[212]。

联合表示（Joint Representations）

联合表示法主要（但不是唯一）用于在训练和推理步骤中同时存在多模态数据的任务。联合表示的最简单示例是**单个模态特征的串联（**也称为早期融合[50]）。在本节中，我们讨论了创建联合表示的更先进的方法，首先是神经网络，然后是图形模型和循环神经网络。

神经网络

一般来说，神经网络由连续的内积构建块和非线性激活函数组成。为了使用神经网络作为一种表示数据的方式，首先训练它来执行一个特定的任务（例如，识别图像中的对象）。由于深度神经网络的多层性质，每一层都假设以更抽象的方式[19]表示数据，因此通常使用最后或倒数第二个神经层作为数据表示形式。要使用神经网络构建多模态表示，每个模态从几个单独的神经层开始，然后是一个隐藏层，将模态投射到一个联合空间。然后，联合多模态表示将通过多个隐藏层本身或直接用于预测。这些模型可以经过端到端学习训练，以表示数据和执行特定的任务。这导致了在使用神经网络时，多模态表示学习和多模态融合之间的密切关系。

由于神经网络需要大量带标签的训练数据，因此通常使用自动编码器对无监督数据进行预训练[80]。Ngiam等人提出的模型[151]将使用自动编码器的思想扩展到多模域。他们使用堆叠式去噪自动编码器分别表示每个模态，然后使用另一个自动编码器层将它们融合成多模态表示。同样，Silberer和Lapata[184]提议使用多模自动编码器来完成语义概念基础的任务（见第7.2节）。除了使用重构损失训练表示，它们还将一个术语引入到使用表示来预测对象标签的损失函数中。由于使用AutoEncoder构造的表示是通用的，不一定是针对特定任务优化的，因此通常对手头特定任务的结果表示进行微调[217]。

基于神经网络的联合表示的优势是其通常具有优越的性能，并且能够在无监督的情况下对表示进行预训练。然而，性能的提高取决于可用于训练的数据量。缺点之一是模型不能自然地处理丢失的数据——尽管有一些方法可以缓解这个问题[151]，[217]。最后，深度网络往往很难训练[69]，但该领域在更好的训练技术方面正在取得进展[196]。

概率图形模型

一种通过使用潜在随机变量来构造表示的常用方法，如何使用概率图模型来表示单模和多模数据呢？基于图形模型的表示最流行的方法是深度玻尔兹曼机：deep Boltzmann machines (DBM)[176]，将restricted Boltzmann machines (RBM)[81]堆叠起来作为构建块。与神经网络类似，DBM的每个连续层都期望在更高的抽象级别上表示数据。DBMs的吸引力来自于他们不需要监督数据进行训练的事实[176]。由于它们是图形模型，因此数据的表示是概率的，但是可以将它们转换为确定性神经网络——但这就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模态深度信念网络作为多模态表征。Kim等[104]对每一种模态都使用了一个深度信念网络，然后将其组合成联合表征进行视听情感识别。Huang and KingsburyAVSR[86]采用了类似的模型，Wu等[225]基于音频和骨骼关节的手势识别。

Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到了多模态DBMs中。多模态DBMs能够从多种模态中学习联合表示，方法是使用隐藏单元的二进制层合并两个或多个无向图。由于模型的无向性，它们允许每个模态的低级表示在联合训练后相互影响。Ouyang等[156]探讨了多模态DBMs在多视图数据人体姿态估计中的应用。他们证明，在单模态数据经过非线性转换后的后期对数据进行集成对模型是有益的。同样，Suk等[199]利用多模态DBM表示法从正电子发射断层扫描和磁共振成像数据中对阿尔茨海默病进行分类。使用多模态DBMs学习多模态表示的最大优点之一是其生成特性，这允许以一种简单的方式处理丢失的数据——即使整个模态丢失，模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本，或者从表示中生成两种模态的样本。与自动编码器类似，可以以非监督的方式对表示进行训练，从而支持使用未标记的数据。DBMs的主要缺点是训练困难，计算成本高，需要使用近似变分训练方法[198]。

顺序表示

到目前为止，我们已经讨论了可以表示固定长度数据的模型，但是，我们通常需要表示不同长度的序列，例如句子、视频或音频流。在本节中，我们将描述可用于表示此类序列的模型。循环神经网络(RNNs)及其变体，如长-短时记忆(LSTMs)网络[82]，由于在不同任务的[12]序列建模方面的成功，近年来受到了广泛的欢迎[213]。到目前为止，RNNs主要用于表示单模态的单词、音频或图像序列，在语言领域取得了很大的成功。与传统神经网络相似，RNN的隐藏状态可以看作是数据的一种表示，也就是说，RNN在时间步t处的隐藏状态可以看作是该时间步之前序列的总结。这在RNN编码器框架中尤为明显，编码器的任务是以解码器可以重构的方式来表示处于RNN隐藏状态的序列[12]。RNN表示的使用并不局限于单模态域。使用rns构造多模态表示的早期使用来自Cosi等人在AVSR上的工作。它们还用于表示影响识别的视听数据[37]、[152]和表示多视图数据，例如用于人类行为分析的不同视觉线索[166]。

协调表示

联合多模表示的一种替代方法是协同表示。我们不是将模态一起投影到一个联合空间中，而是为每个模态学习单独的表示，但是通过一个约束来协调它们。我们从强调表示之间的相似性的协调表示开始讨论，接着讨论在结果空间上加强结构的协调表示。相似模型最小化了协调空间中模态之间的距离。例如，这种模型鼓励“狗”和“狗”图像的表示，它们之间的距离小于“狗”和“汽车”图像的表示之间的距离[61]。最早的例子之一就是韦斯顿等人的研究。在WSABIE（通过图像嵌入的网络比例注释）模型中，为图像及其注释构建了一个协调的空间。WSABIE从图像和文本特征构造了一个简单的线性映射，这样相应的注释和图像表示在它们之间会比不相关的注释和图像表示有更高的内积（更小的余弦距离）。

基于神经网络

近年来，神经网络由于具有学习表示的能力，已成为一种常用的构造协调表示的方法。它们的优势在于能够以端到端的方式共同学习协调的表示。这种协调表示的一个例子是设计深度视觉语义嵌入[61]。设计使用了类似于WSABIE的内积和排序损失函数，但使用了更复杂的图像和单词嵌入。Kiros等[105]利用LSTM模型和两两排序损失来协调特征空间，将其扩展到句子和图像的协调表示。Socher等人[191]处理了相同的任务，但将语言模型扩展到依赖树RNN以合并组合语义。Pan等人也提出了类似的模型。[159]，但使用视频而不是图像。Xu等人[231]还使用主题、动词、宾语组合语言模型和深层视频模型构建了视频和句子之间的协调空间。然后将该表示用于跨模式检索和视频描述任务。

图像和语言的顺序嵌入

结构化协调表示的另一个例子来自图像和语言的顺序嵌入[212]，[249]。Vendrov等[212]提出的模型强制执行了一个不对称的不相似度量，实现了多模态空间中的偏序概念。其思想是捕获语言和图像表示的部分顺序——在空间上强制执行层次结构;例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。 Young等人[238]也提出了一个使用符号图的类似模型，其中符号图用于诱导部分排序。最后，Zhang等人提出了如何利用文本和图像的结构化表示以一种无监督的方式创建概念分类[249]。

基于正则相关分析（CCA）

CCA计算一个线性投影，该投影最大化了两个随机变量(在我们的例子中是模态)之间的相关性，并强制新空间的正交性。CCA模型被广泛用于跨模态检索[76]，[106]，[169]和视听信号分析[177]，[187]。对CCA的扩展试图构造一个最大相关非线性投影。核正则相关分析(Kernel canonical correlation analysis, KCCA)[116]使用复制核希尔伯特空间进行投影。但是，由于该方法是非参数的，因此它与训练集的大小之间的伸缩性很差，并且与非常大的实际数据集之间存在问题。引入了深正则相关分析（DCCA）[7]作为KCCA的替代方法，解决了可扩展性问题，并给出了更好的相关表示空间。类似的通信自动编码器[58]和深度通信RBMS[57]也被提议用于跨模式检索。

CCA、KCCA和DCCA是无监督的技术，只优化表示上的相关性，因此主要捕获跨模式共享的内容。深层规范相关的自动编码器[220]还包括一个基于自动编码器的数据重建术语。这促使表示也能捕获模态特定的信息。语义相关最大化方法[248]也鼓励语义相关性，同时保留相关最大化和由此产生的空间的正交性-这导致了CCA和跨模式散列技术的结合。

讨论

在本节中，我们确定了两种主要的多模态表示形式——联合和协调。联合表示将多模态数据投射到一个公共空间中，最适合在推理过程中出现所有模态的情况。它们被广泛用于AVSR、情感和多模手势识别。另一方面，协调表示法将每个模态投影到一个单独但协调的空间中，使其适用于测试时只有一个模态的应用，例如：多模态检索和翻译（第4节）、接地（第7.2节）和零镜头学习（第7.2节）。最后，虽然联合表示用于构建两种以上模态的表示，但到目前为止，协调空间主要限于两种模态。

多模态映射/翻译

多模态机器学习的很大一部分涉及从一种形式到另一种形式的映射。给定一个模态中的实体，任务是用不同的模态生成相同的实体。例如，给定一个图像，我们可能希望生成一个描述它的句子，或者给定一个文本描述，生成一个匹配它的图像。多模态翻译是一个长期研究的问题，在语音合成[88]、视觉语音生成[136]、视频描述[107]、跨模态检索[169]等领域都有早期的工作。

多模态翻译：一个特别受欢迎的问题是视觉场景描述，也称为图像[214]和视频字幕[213]，它是许多计算机视觉和NLP问题的一个很好的测试平台。要解决这一问题，我们不仅要充分理解视觉场景，识别其突出的部分，而且要在语法上正确、全面而简洁的描述它的句子。虽然多模态翻译的方法非常广泛，而且通常是模态特有的，但它们有许多共同的因素。我们将它们分为两类——基于实例的和生成的。基于实例的模型在模式之间转换时使用字典。

基于实例

基于实例的算法受到训练数据字典的限制，这类算法有两种类型

基于检索的算法：直接使用检索到的转换，而不需要修改它，依赖于在字典中找到最接近的样本，并将其用作翻译结果。检索可以在单模态空间或中间语义空间进行
- 单模态检索方法：在字典中查找源空间中最接近的实例
- 在检索过程中使用中间语义空间进行相似性比较
基于组合的算法：依赖于更复杂的规则来基于大量检索到的实例创建转换，不只是从字典中检索示例，而是以一种有意义的方式将它们组合起来，以构建更好的翻译

缺点：除非任务简单或字典很大，否则期望与源示例相关的完整和准确的翻译总是存在于字典中是不现实的。这部分由能够构建更复杂结构的组合模型来解决。然而，它们只能在一个方向上执行翻译，而基于语义空间检索的模型可以同时执行这两种方式。

基于生成

在给定单模源实例的情况下，多模态翻译的生成方法构造了能够执行多模翻译的模型。已有三大生成模型

基于语法的生成模型：使用语法限制目标域来简化任务，依赖于预定义的语法来生成特定的模态，首先从源模式检测高级概念，例如图像中的对象和视频中的动作。然后将这些检测与基于预定义语法的生成过程结合在一起，生成目标模态
- 优点：当它们使用预定义模板和受限制的语法时，它们更有可能生成语法上(对于语言)或逻辑上正确的目标实例
- 缺点：仅仅是公式化翻译，而不是创造性翻译。此外，基于语法的方法依赖于复杂的管道进行概念检测，每个概念都需要单独的模型和单独的训练数据集。
基于编码器-解码器的生成模型：首先将源模态编码为矢量表示，然后使用解码器模块生成目标模态，所有这些都在一个单通道管道中
- 编码：常用RNNs[35]和DBNs[79] ，CNN(图像)
- 解码：RNN,LSTM
- 缺点：网络可能是在记忆训练数据，而不是学习如何理解和生成视觉场景。
连续生成模型：用于序列转换，并以在线方式在每个时间步上生成输出。这些模型在将序列转换为序列(如文本到语音、语音到文本和视频到文本)时非常有用。已经为此类建模提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。
- 这些模型需要解决的额外困难是模式之间的时间一致性要求。
- 视觉语音生成[203]和文本语音转换[245]任务：HMM模型
- 音频和视频转换：使用共享高斯过程潜在变量模型进行基于音频的视觉语音合成
- 语音到文本翻译（语音识别）：RNN

讨论

多模态翻译方法面临的一个主要挑战是很难对其进行评价。虽然语音识别等任务只有一个正确的翻译，但语音合成和媒体描述等任务没有。有时，就像在语言翻译中一样，多个答案都是正确的，决定哪个翻译更好往往是主观的。幸运的是，在模型评估中有许多近似的自动度量。

评价主观任务的理想方法是通过人的判断。那就是让一组人评估每一个翻译。这可以在Likert量表上进行，在该量表中，每个翻译都在一定的维度上进行评估：语音合成的自然度和平均意见分数[209]、[244]、视觉语音合成的现实性[6]、[203]以及媒体描述的语法和语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]

虽然人类研究是评估的黄金标准，但已经为媒体描述的任务提出了许多自动替代方案：BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。这些指标直接取自(或基于)机器翻译中的工作，并计算出度量两者之间相似性的得分生成的和基本的真实文本。

我们认为，解决评价问题对多式翻译系统的进一步成功至关重要。这样不仅可以更好地比较各种方法，而且可以优化更好的目标。

多模态对齐

定义：从两个或多个模态中查找实例子组件之间的关系和对应。例如，给定一幅图像和一个标题，我们希望找到与标题的单词或短语对应的图像区域[98]。另一个例子是，给定一部电影，将其与剧本或书中它所基于的章节进行比对[252]。

显式对齐

我们显式地对在模式之间对齐子组件感兴趣，例如，使用相应的教学视频对齐菜谱步骤。

如果论文的主要建模目标是来自两个或多个模式的实例子组件之间的对齐，那么我们将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同模式度量子组件之间的相似性作为基本构建块。这些相似性可以手动定义，也可以从数据中学习。处理显式对齐的算法有两种

无监督算法：不使用直接对齐标签(即来自不同模式的实例之间的通信）
- 无监督的多模式校准：解决了模式校准而无需任何直接校准标签
- DTW
- 基于CCA的DTW模型
弱监督算法：依赖于标记对齐的实例，它们用于训练用于对齐模式的相似性度量。

隐式对齐

用作另一个任务的中间(通常是隐藏)步骤，例如，基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤[99]。这使得在许多任务中，包括语音识别、机器翻译、媒体描述和视觉问答，可以获得更好的性能。这类模型不显式地对齐数据，也不依赖于监督对齐示例，而是学习如何在模型培训期间对数据进行隐式对齐。我们确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。

基于图形模型：用于更好地对齐机器翻译语言之间的单词[216]和语音音素与其转录的对齐[186]。但是，它们需要手动构造模式之间的映射，例如，将电话映射到声学特性的生成电话模型[186]。构建这样的模型需要培训数据或人类专业知识来手动定义它们。
基于神经网络：将对齐作为神经网络转换的中间步骤

讨论

多模态对齐面临许多困难

1)具有显式标注对齐的数据集较少

2)两种模式之间的相似度指标难以设计

3)可能存在多种可能的对齐方式，一种模式中的元素不一定在另一种模式中都有对应关系。

多模态融合

优点

（1）能够访问观察同一现象的多种模式，可能会使预测更加可靠。

（2）能够访问多种模式可能允许我们捕获互补的信息——一些在单独的模式中不可见的信息

（3）当其中一种模态缺失时，多模态系统仍然可以运行，例如，当一个人不讲[50]时，从视觉信号中识别情绪

应用：视听语音识别(AVSR)[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]

模型不可知论方法

早期融合（基于特征）：在提取特征后立即集成特征（通常只需将其表示连接起来），只需要单个模型的训练，这使得训练管道比后期和混合融合更容易。
晚期（即基于决策）：在每种模式做出决定（例如分类或回归）后执行集成，使用单模态决策值，并使用平均[181]、投票方案[144]、基于信道噪声[163]和信号方差[53]的加权等融合机制将其融合，或者使用学习模型[68]、[168]。它允许对每个模态使用不同的模型，因为不同的预测器可以更好地为每个单独的模态建模，从而提供更多的灵活性。但是容易忽略模式之间的低水平相互作用。
混合融合：结合了早期融合的输出和单个单模态预测因子，混合融合试图在公共框架中利用上述两种方法的优点。它已成功地用于多模态扬声器识别[226]和多媒体事件检测(MED)[117]。

优点：它们几乎可以使用任何单模态分类器或回归器来实现。

基于模型的方法

基于内核的方法

多核学习（MKL）：对内核支持向量机(kernel support vector machines, SVM)的扩展，它允许对数据的不同模式/视图使用不同的内核[70]。由于内核可以看作是数据点之间的相似函数，MKL中特定于模式的内核可以更好地融合异构数据。被用于多模态情感识别、多模态情绪识别、和多媒体事件检测(MED)

基于图形模型

优点是能够方便地利用数据的空间和时间结构，使其在时间建模任务(如AVSR和多模态影响识别)中特别受欢迎。它们还允许将人类的专家知识构建到模型中，并经常导致可解释的模型。

基于神经网络

应用： AVSR的研究[163]、视觉和媒体的问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]。

缺点：神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么，以及哪种模式或特征起着重要作用。此外，神经网络需要大的训练数据集才能成功。

讨论

多模态融合仍然面临以下挑战

1)信号可能不是时间对齐的(可能是密集连续信号和稀疏事件)

2)难以建立利用补充信息而不仅仅是补充信息的模型

3)每种模态可能在不同的时间点表现出不同的类型和不同程度的噪声

多模态协同学习

通过从另一个(资源丰富的)模态中获取知识来帮助(资源贫乏的)模态建模。当其中一种模式的资源有限时(缺少带注释的数据、有噪声的输入和不可靠的标签)，它尤其重要。我们称这种挑战为共同学习，因为大多数情况下，辅助模式只在模型训练中使用，在测试期间不使用。我们根据培训资源确定了三种类型的共同学习方法:并行、非并行和混合。

并行

并行数据方法需要训练数据集，其中来自一种模式的观察直接链接到来自其他模式的观察。换句话说，当多模态观测来自相同的实例时，例如在视听语音数据集中，其中的视频和演讲样本来自同一个演讲者。

在并行数据共同学习中，两种模式共享一组实例——带有相应视频、图像及其句子描述的音频记录。这允许两种算法利用这些数据来更好地建模模式:联合训练和表示学习。

协同训练是在多模态问题[21]中只有少量的标记样本时，生成更多标记样本的过程。基本算法在每个模态中构建弱分类器，以便为未标记的数据彼此引导标签。研究表明，在Blum和Mitchell的开创性工作[21]中，人们发现了更多基于网页本身和超链接的网页分类培训样本。根据定义，该任务需要并行数据，因为它依赖于多模态样本的重叠。

非并行

非并行数据方法不需要在不同模式的观测之间建立直接联系。这些方法通常通过在类别上使用重叠来实现共同学习。例如，在零镜头学习中，传统的视觉对象识别数据集通过维基百科的第二个纯文本数据集进行扩展，以提高视觉对象识别的通用性。

依赖于非并行数据的方法不需要模式具有共享实例，而只需要共享类别或概念。非并行协同学习方法在学习表示时可以提供帮助，允许更好地理解语义概念，甚至可以执行不可见的对象识别。

零距离学习(Zero shot learning, ZSL)指在没有明确看到任何例子的情况下识别概念。例如，在没有见过(标记的)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题，例如在许多任务中，如可视化对象分类：为每一个感兴趣的可想象对象提供培训示例是非常昂贵的。

单模态ZSL：查看对象的组成部分或属性，如用于识别未听过的单词的音素，或用于预测未见的可视类[55]的视觉属性，如颜色、大小和形状
多模态ZSL：通过第二模态的帮助识别主模态中的对象——在第二模态中，对象已经被看到

混合

在混合数据设置中，模式通过共享模式或数据集进行桥接。

最值得注意的例子是桥接相关神经网络[167]，它使用一个中心模态来学习存在非并行数据的协调多模态表示。例如，在多语言图像标题的情况下，图像模式在任何语言中总是与至少一个标题配对。这些方法也被用来连接那些可能没有并行语料库但可以访问共享的枢轴语言的语言，例如机器翻译[148]、[167]和文档音译[100]。

有些方法不使用单独的模式进行桥接，而是依赖于来自类似或相关任务的大型数据集的存在，从而在仅包含有限注释数据的任务中获得更好的性能。Socher和Fei-Fei[189]利用大文本语料库的存在来指导图像分割。而Hendricks等[78]采用单独训练的视觉模型和语言模型，可以得到更好的图像和视频描述系统，但数据有限。

讨论

多模态联合学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。需要注意的是，联合学习是独立于任务的，可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零镜头学习(zero shot learning, ZSL)等算法为例，在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到了广泛的应用。

总结

这篇综述论文的重点主要是过去十年的多模态研究，但是用过去成就的知识来解决未来的挑战是重要的。主要可以通过这篇文章了解到一些模型在多模态机器学习的整个地位以及分布。

参考文章：
https://zhuanlan.zhihu.com/p/63143789
https://www.cnblogs.com/lizhe-cnblogs/p/14148905.html
https://zhuanlan.zhihu.com/p/53511144

你可能感兴趣的:(多模态,机器学习,人工智能,深度学习)

给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
DeepSeek的崛起：2025新春国产AI模型的全球影响力耶耶Norsea 网络杂烩人工智能百度
摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。这款大型人工智能模型不仅展现了国产技术的实力，还为用户提供了高效便捷的使用体验，成为行业内的焦点。关键词DeepSeek崛起,2025新春,国产AI模型,免费易用,高性能特点一、国产AI的崭新篇章1.1DeepSeek的诞生背景在2025年新春之际，DeepSee
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
YOLO算法全面改进指南（二） niuTaylor YOLO改进 YOLO 算法
以下是为YOLO系列算法设计的系统性改进框架，结合前沿技术与多领域创新，提供可支持高水平论文发表的详细改进思路。本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。一、多模态提示驱动的开放场景检测系统1.核心创新三模态提示机制：文本提示编码器：基于RepRTA（可重参数化区域文本对齐）构建轻量级文本编码网络，将自然语言描述映射为128维语义向量。视觉提示编码器：采用S
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户