该文章将 2018-2022 年的考试习题、作业题和重要部分试题进行汇总,开卷考试时可以直接打印这个资料。
参考答案:
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。
(2). 多媒体分析与理解广泛应用于 安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。
(3). 面对的挑战如下
参考答案:
(1). 必要性
特征表示学习是指在机器学习中,对原始数据进行处理,提取出有用的特征信息并将其转换为模型可以处理的形式,以便对数据进行分析和建模。 必要性如下:
(2). 主要解决方法
参考答案:
(1). 特征降维:通过某种数学变换将样本表示由高维空间映射到低维子空间,合适的数据变换依据有:样本最大可分性、距离属性保持等;主要方法:主成分分析、线性判别分析、流形学习等。
(2). 特征选择:从给定特征集合中选择出最有效的特征子集,主要方法包括过滤法 Fliter,包裹法 Wrapper,嵌入法 Embedding。
(3). 特征融合:数据对象的表征具有天然的多特征特性,实现对数据对象的分析理解需要融合多元化数据非常重要,包括特征层融合、决策层融合。
参考答案:
(1). 文本
(2). 音频
(3). 图像
参考答案:
(1). 反向传播基本原理:用输出层的误差来估计前一层的误差,然后再用这个误差估计更前一层的误差,依次将误差反向传播下去,从而获得所有其它各层的误差估计;然后使用梯度下降法,结合逐层的误差估计,对网络的所有权重进行调节。
(2). 能遇到的典型问题及相应的解决方法如下:
参考答案:
典型层三种基本操作:卷积 —> 非线性变换 —> 池化
(1). 卷积操作:
(2). 非线性变换:
(3). 池化操作:
参考答案:
(1). ResNet 网络针对深度神经网络难以训练和退化问题,提出了如下图所示残差链接机制,使得中间单元学习期望输出和输入之间的残差,从而使网络更加容易学习。
当残差为 0 的时候,该残差链接单元至少做了恒等映射,从而保证了深层网络的性能不会低于浅层网络;同时,由于残差连接的存在,使得进行梯度反向传播的过程中不会轻易地出现梯度消失的现象,从而使得训练深层网络成为可能。通过对残差连接单元的堆叠,可以得到 ResNet 网络的整体结构。
(2). DenseNet 借鉴了 ResNet 网络残差链接的思想,直接将每一层之前所有的特征层进行连
接,更加有效的利用了各个不同尺度的参数量,其整体网络架构如下所示。
DenseNet 网络在同等大小参数的情况下,能够取得优于 ResNet 网络的性能。
(3). 随着 Transformer 在自然语言处理领域取得巨大成功,许多基于 Transformer 的视觉模型被相继提出,如 ViT、DeiT、Swin-Transformer 等等。VAN 网络认为 Transformer 结构仍然不适合处理二维结构的图像数据,然后设计了一种基于大核卷积注意力的卷积神经网络,通过大核卷积提升了网络的感受野,使模型获得了较长距离建模的能力。其将大核卷积拆分为如下的卷积,即局部卷积、大核空洞卷积和 1 × 1 1 \times 1 1×1卷积的组合。
然后通过堆叠大核卷积和 FFN 单元得到整体的 VAN 卷积神经网络。
(2). 以 AlexNet 为例计算网络可训练参数:
AlexNet 网络结构如下,其包含两个 GPU 上的两部分网络。
Conv1: 2 × ( 11 × 11 + 1 ) × 3 × 48 = 35136 2 \times (11\times 11+ 1) \times 3 \times 48=35136 2×(11×11+1)×3×48=35136
Conv2: 2 × ( 5 × 5 + 1 ) × 48 × 128 = 638976 2 \times (5 \times 5 + 1) \times 48 \times 128=638976 2×(5×5+1)×48×128=638976
Conv3: 2 × ( 3 × 3 + 1 ) × 128 × 192 = 491520 2 \times (3 \times 3 + 1) \times 128 \times 192=491520 2×(3×3+1)×128×192=491520
Conv4: 2 × ( 3 × 3 + 1 ) × 192 × 192 = 737280 2 \times (3 \times 3 + 1) \times 192 \times 192=737280 2×(3×3+1)×192×192=737280
Conv5: 2 × ( 3 × 3 + 1 ) × 192 × 128 = 491520 2 \times (3 \times 3 + 1) \times 192 \times 128=491520 2×(3×3+1)×192×128=491520
FC1: 6 × 6 × 128 × 2 × 4096 = 3.77 × 1 0 7 6 \times 6 \times 128 \times 2 \times 4096 =3.77 \times 10^7 6×6×128×2×4096=3.77×107
FC2: 4097 × 4096 = 1.678 × 1 0 7 4097 \times 4096=1.678 \times 10^7 4097×4096=1.678×107
FC3: 4097 × 1000 = 4.097 × 1 0 6 4097 \times 1000=4.097 \times 10^6 4097×1000=4.097×106
总参数量为: 6.03825 × 1 0 7 6.03825 \times 10^7 6.03825×107
参考答案:
(1). 语言模型的基本概念
语言模型用于表示语言中词语序列出现的概率。它通常用来预测一个语言序列中下一个词语的可能性。自然语言中标记(词、字符、字节)序列的概率分布,记为 ,语言模型用于衡量词序列符合自然语言表达的程度。 语言模型在自然语言处理领域中有广泛应用,包括语音识别、机器翻译、拼写检查和信息检索等领域。例如,在语音识别中,可以利用语言模型来评估识别出的文本序列是否合理,以提高识别准确率。
(2). 典型的语言模型
参考答案:
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系, 期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。
(2). 图像语义理解基本任包括:
(3). 目标检测的一个经典算法如下:
参考答案:
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵 R R R;基于SVD的推荐方法对矩阵 R R R进行分解,并且要求矩阵元素非负,如下
R U × I = P U × K Q K × I R_{U\times I}=P_{U\times K}Q_{K\times I} RU×I=PU×KQK×I然后用 R R R中已知数据训练 P P P和 Q Q Q,使得 P P P和 Q Q Q相乘能最好地拟合已知评分。具体地,预测用户 U U U对商品 I I I的评分为。
r ^ u i = p u T q i \hat{r}_{ui}=p_{u}^{T}q_i r^ui=puTqi则预测误差为 e u i = r u i − r ^ u i e_{ui}=r_{ui}-\hat{r}_{ui} eui=rui−r^ui,总平方误差为。
S S E = ∑ e u i 2 \mathrm{SSE}=\sum{e_{ui}^{2}} SSE=∑eui2然后将 S S E \mathrm{SSE} SSE作为损失对模型进行训练即可。
(2). RBM
将某一用户对某一商品的评分视作一个 s o f t m a x softmax softmax 神经元, s o f t m a x softmax softmax 神经元是个长度为 k k k 的向量,其只有一个分量为1,其余分量为0。而未评分的部分就可以用全0的 s o f t m a x softmax softmax 神经元表示。这样某个用户的评分可以用矩阵 V V V 来表示,在给定可见单元的状态下其激活概率为:
P ( h j = 1 ∣ V ) = 1 1 + exp ( − b j − ∑ i = 1 M ∑ k = 1 K V i K W i j K ) P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}} P(hj=1∣V)=1+exp(−bj−∑i=1M∑k=1KViKWijK)1同理,在给定隐单元状态下 ,可见单元的激活率为:
P ( V i K = 1 ∣ h ) = exp ( a i K + ∑ j = 1 F w i j K h j ) ∑ l = 1 K exp ( a i l + ∑ j = 1 F w i j h j ) P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }} P(ViK=1∣h)=∑l=1Kexp(ail+∑j=1Fwijhj)exp(aiK+∑j=1FwijKhj)在训练阶段,输入用户打分过分的物品,依次计算输入层和隐藏层的值,完成编码过程;然后,根据隐层值计算输入值,完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
在预测阶段,将用户 u u u的所有评分作为 RBM 的 s o f t m a x softmax softmax 单元的输入,然后计算隐藏层单元的激活概率,再计算可见层单元的概率,取所有概率的期望作为预测值。
(3). 比较:SVD计算过程虽更简单,但由于训练目标单一,容易造成过拟合,而RBM则可以防止梯度爆炸和梯度消失,但求期望的过程会比较复杂,学习效率过慢。
参考答案:
(1). 迭代量化哈希方法的基本思想为,先对原始空间的数据集进行 PCA 降维,然后寻找量化误差最小的旋转矩阵,即可得到对应该最优旋转矩阵下的特征向量的二进制编码。(查找 PCA 嵌入式数据;对于 c c c 位编码,采用前 c c c 个 PCA 的主方向 s s s,并在该方向上零阈值进行二值化)
(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣
参考答案:
(1). PageRank:
PageRank 基本思想:如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的 PagePank 值越高、排名也越高;如果一个网页的 PageRank 值较高,则其所键接的网页也比较重要,PageRank 值也较高。
在初始阶段:网页通过链接关系构建起 Web 图,每个页面设置相同的 PageRank 值,通过若干轮的计算,会得到每个页面所获得的最终 PageRank 值。随着每一轮的计算进行,网页当前的 PageRank 值会不断得到更新,在一轮中更新页面 PageRank 得分的计算公式为
r ( p ) = α ∑ q : ( q , p ) ∈ q r ( q ) w ( q ) + ( 1 − α ) 1 N r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N} r(p)=αq:(q,p)∈q∑w(q)r(q)+(1−α)N1
(2). 可能的改进
参考答案:
(1). 困难包括:光照变化、动态背景、伪装目标、相机抖动、相机对焦不准、间断的物体运动、阴影影响等等。
(2). 目前常用方法包括如下: