《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文

《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第1张图片

简介

用token序列来做音乐生成时, 不同的token属于不同的类型, 不同类型的token有着不同的属性。 而目前的大多数模型都将这些token不加区分, 在这篇论文中作者将token细分为不同类型, 如note types 或者 metric types。并将若干tokens组成一个复合词(compound word),由此缩短了音乐序列的长度。对Transformer decoder 部分的结构进行改进, 使用不同的 feed-forward heads 来对不同类型的token进行建模。

方法

compound words

MIDI-like 或者 REMI的音乐表示方法中每个token 称之为indivisual token。 token 词典记为 V = 1 , 2 , . . . M \mathcal V ={1,2,...M} V=1,2,...M, 每个token对应一个类型, 类型集合记为 K = 1 , 2 , 3.. K \mathcal K = {1,2,3..K} K=1,2,3..K。 因此可以将 V \mathcal V V划分为K个不同的子集: V = { V k } k = 1 K \mathcal V=\{\mathcal V_k\}_{k=1}^K V={Vk}k=1K

将token序列转换成复合词序列 S C P S_{CP} SCP的步骤:

  1. 将定义一个musical event的tokens组成一个super token(见下图)
    《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第2张图片
    《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第3张图片
    musical event包含note, 一个note通常由[pitch],[duration],[veclocity]组成, 因此可以将这几个token 组合成一个复合词。在REMI中,节奏或者和弦变换通常发生在节拍点, 所以可以将[beat],[chord],[tempo]组成一个复合词。

  2. 将每个时间步复合词中缺失的类型用[ignore]来填充。
    《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第4张图片
    因此 S C P = { c p t } t = 1 T , c p t = w t , 1 , . . w t , K S_{CP} = \{cp_t\}_{t=1}^T, cp_t ={w_{t,1},..w_{t,K}} SCP={cpt}t=1T,cpt=wt,1,..wt,K

  3. 将K个类型再进一步细分为F个类别, 如K可以被分为note family K N \mathcal K_N KN和 metric family K M \mathcal K_M KM。 因此每一个复合词 c p t cp_t cpt对应一个family token f t f_t ft

token embedding

每个复合词 c p t cp_t cpt的embedding为组成的token w t , k w_{t,k} wt,k和family token f t f_t ft的embedding的组合。 首先将这些token的embedding进行拼接, 然后经过一个线性映射层,将其映射为d维的向量。
《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第5张图片

multi-head output Module

在模型设计部分, 使用了K+1个feed-forward heads, 用来预测K个token类型和一个family token。
在预测的时候分为两个阶段进行预测: 首先预测family token, 然后在给定family token的情况下预测其他token。
《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第6张图片
这里 W F , W k W_{\mathcal F}, W_k WF,Wk为K+1个heads, Sample()为采样函数,下面介绍采样策略。

Adaptive Sampling Policy

在inference时采用了stochastic temperature-controlled sampling来防止退化和增加多样性。 不同的type采用了不同的采样策略, 具体如下:
《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第7张图片

结果

《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第8张图片
《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文_第9张图片

在训练时间和推理时长上缩短了时间, 但是质量没有提高。

你可能感兴趣的:(论文阅读,音乐生成)