最新论文阅读(5)

Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding

- 2017年10月  
- 层次化的 LSTM 模型(树形结构)
- 阿里iDST、西安电子科大、西安交大

  基于层次化多模态LSTM的视觉语义联合嵌入;CV和NLP两个领域联合起来,解决「视觉-语义联合嵌入 (Visual-Semantic Embedding)」任务,即将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。常见应用就是Image Captioning,即文字-图像联合的“看图说话”。
  第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子。


Hierarchical Surface Prediction for 3D Object Reconstruction

- 2017年4月
- 编码解码器,coarse2fine
- 伯克利

  从单张色彩图像重建出高质量的3D几何结构。逐步建立3D模型(coarse2fine)的思想。先在大的体素下分类(每一个块被分类成空闲空间、被占空间或分界表面),再将一个大体素分为多个小体素进行分类。降低了运行时间;在ShapeNet数据集上,得到更高分辨率、更多细节的3D模型,但仍不是超高分辨率。


Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

- ICCV2017  
- 行人重识别
- 悉尼科技大学

  集中讨论了 如何利用GAN生成的图像(unsupervised learning) 辅助原有的图像分类/检索问题(supervised learning),希望能提供一个新的view来看待/利用生成数据。
  提出一个新的行人重识别数据集 DukeMTMC-reID。


Deep Voice 1/2/3

- 2017年1月
- 文本转语音TTS
- 百度

  用于从文本合成人工语音,即文本转语音(TTS)。
  Voice1:使用了 CTC(connectionist temporal classification)损失函数;是wavenet的变体。
  Voice2:使用低维可训练的说话人嵌入(embedding)来从单个模型中生成不同的声音;多说话人语音合成。
  voice3:网络结构是编码器(将文本特征转换为内部学习表征)+解码器(将表征向量以一种注意机制解码(即自动回归)为低维声音表征)+转换器(一种全卷积后处理网络,可以从解码的隐藏状态预测最后输出的特征,是非因果的,因此可以依赖未来的语境信息)。
  


Gated Orthogonal Recurrent Units: On Learning to Forget

- 2017年10月
- modelRELU
- 麻省理工大学;蒙特利尔大学

  在GRU 的基础上做了两个修改,一是将参数矩阵 U 变为正交矩阵,而是将 tanh 改为论文提的 modelRELU(),对于某些实验有较明显的提高。
def modReLU(z, b):(b指的就是卷积的偏置)
   z_norm = math_ops.abs(z) + 0.00001
   step1 = nn_ops.bias_add(z_norm, b)
   step2 = nn_ops.relu(step1)
   step3 = math_ops.sign(z)
   return math_ops.multiply(step3, step2)

你可能感兴趣的:(深度学习论文阅读,深度学习--最新论文)