综述

选择题

  1. 音乐合成的步骤
    作曲作词>编曲>录音>混音

  2. 音乐处理技术
    Midomi 公司用了什么技术---旋律检测(待定)

  3. 语音信号处理方法

  • 语音信号时域分析
    预处理 采样、量化、预加重、短时加窗
    • 音量(Volume )
    • 过零率(Zero Crossing Rate ) 短时分析
    • 端点检测(End-Point Detection )
    • 基频 (F0) 提取方法、自相关法
  • 语音信号频域分析
  1. 特征提取预处理的目的

  2. 关键帧提取算法
    基于镜头边界法
    基于颜色特征法
    基于运动分析法
    基于聚类的关键帧提取

  3. 镜头相似度提取的特征

  4. 视频目录构造的过程
    视频目录生成构造的主要步骤
    镜头边缘检测>关键帧提取>时空特征提取>时间可适性成组>场景结构构造

  5. 语音发声的形成过程 (16-17)
    声门振动的快慢,决定声音的基本频率(即音高)。
    口腔、鼻腔、舌头的位置、嘴型等,决定声音的內容
    (即音色)。
    肺部压缩空气的力量大小,决定音量大小

判断题

  1. Nyquist API的功能(错误,在讲OpenAL)
    Nyquist是一个基于LISP用于声音合成的语言,基本声音的合成
    :OpenAl自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
    功能:在来源物体、音效缓冲和收听者中编码
    应用:音乐制作、大型的3D游戏、大型电影
  1. MFCC(错误,顺序错误)
    FFT ->LOG -> DCT
    Speech –> FFT based spectrum -> Mel scale triangular filters -> Acoustic vector

  2. 组的定义
    组(Group):组是介于物理镜头和语义场景之间的结构。
    例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另一组。

简答题

  1. 音乐合成的四要素及具体定义
  • 音高
    指各种不同高低的声音,由发音体的振动频率决定的
  • 音强
    即音的强弱(响亮)程度,由发音时发音体振动幅度(简称振幅)的大小决定的
  • 音长
    是指声音的长短,它决定于发音体振动时间的久暂
  • 音色
    即声音的感觉特性,音色是由发音物体所产生的谐波决定的,发音物体的性质、形状不同,所产生的谐波也不同,因而音色也不同

第一题变种:答旋律节奏和声以及这三个的定义

  • 节奏
    节奏是指组织起来的音的长短关系,它是音乐的骨架。节拍是指时值相等的强拍和弱拍有规律地交替出现。
  • 旋律
    旋律是指长短、高低、强弱不同的一连串乐音有组织地进行。旋律又是曲调,它是音乐的基础和灵魂
  • 和声
    和声包括“和弦”及“和声进行”。和弦通常是由三个或三个以上的乐音按一定的法则纵向(同时)重叠而形成的音响组合。和弦的横向组织就是和声进行
  1. 三种音乐可编程方法
  • 基于Niquist的音乐合成(LISP语言)
    Nyquist是一个基于LISP用于声音合成的语言,由CMU的Roger B. Dannenberg 教授带领开发
  • OpenAL
    自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
  • Matlab
  • Flash Action Script
  1. PITCH提取
  • Time-domain methods 时域方法
    • ACF: Autocorrelation function 自相关
    • SMDF: Average magnitude difference function 平均幅值差
    • SIFT: Simple inverse filter tracking 逆滤波
  • Frequency-domain methods 频域方法
  • Harmonic product spectrum method 谐波法
  • Cepstrum method 倒谱法
  1. 端点检测算法

  2. 运动向量提取算法
    标准匹配、顺序查找、对数搜索、分层搜索
    Criteria of matching \ Sequential Search
    Logarithmic search \ Hierarchical Search

  3. 视频时序结构图构造
    主要步骤
    视频解码
    视频切分
    关键帧提取
    视频聚类分析
    构造时序图
    按照时序图浏览

  4. 短时平稳假设 (16-17)

语音信号特性是随时间而变化的,本质上是一个非 平稳过程。但不同的语音是由人的口腔肌肉运动构成 声道的某种形状而产生的响应,而这种肌肉运动频率 相对于语音频率来说是缓慢的,因而在一个短时间范 围内,其特性基本保持不变,即相对稳定,可以视作 一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧(frame).一般假设为10- 30ms的短时间隔。

简答题

I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)

P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)

B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累~。

P帧的预测与重构:
P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

你可能感兴趣的:(综述)