自然语言处理
DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications
@zhangjun 推荐
Machine Reading Comprehension
大型中文阅读理解数据集,工作来自百度。
论文链接
https://www.paperweekly.site/papers/1137
代码链接
https://github.com/baidu/DuReader
TransNets - Learning to Transform for Recommendation
@ccclyu 推荐
Transfer Learning
引入了迁移学习的隐含表示层来减少 test dataset 的稀疏性。
论文链接
https://www.paperweekly.site/papers/1181
代码链接
https://github.com/rosecatherinek/TransNets
计算机视觉
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering
@xiaolu 推荐
Visual Question Answering
视觉问答任务(Viual Question Answering)是最近 2-3 年兴起的多模态任务。对于视觉问答任务,算法需要同时理解图片内容和语言信息,然后推理出正确的答案。目前常见的方法有多模态特征融合和以及视觉注意力机制。
已有的注意力机制主要有两类,一类是基于全图区域的注意力机制,一类是基于检测框区域的注意力机制,前者容易关注到物体的一部分,后者会缺少一些检测框。
本文第一次尝试将基于全图区域的与基于检测框区域的注意力机制融合在一个框架下,充分利用全图区域和检测框之间的互补信息;并且提出新的多模态特征融合方法,将问题特征、全图特征、检测框特征进行有效的融合。模型在 VQA 和 COCO-QA 两个主流数据集上实现了目前最好的结果。
论文链接
https://www.paperweekly.site/papers/1175
代码链接
https://github.com/lupantech/dual-mfa-vqa
Image Crowd Counting Using Convolutional Neural Network and Markov Random Field
@cornicione 推荐
People Counting
文章融合了 MRF 和 deep 网络,提出了一种统计静态图片中人数的方法。
论文链接
https://www.paperweekly.site/papers/1195
代码链接
https://github.com/hankong/crowd-counting
机器学习
Social Attention - Modeling Attention in Human Crowds
@zk5580752 推荐
Attention Model
本文是一篇基于 Social LSTM 的后续论文,Social LSTM 是李飞飞团队于 2016 年提出的行人路径预测方法。本文则在原文基础上改进了预测方式,不仅仅基于 RNN 模型,还引入了 Attention Model,使得预测更加精准和全面。
论文链接
https://www.paperweekly.site/papers/1115
代码链接
https://github.com/vvanirudh/social-lstm-tf
Breaking the Softmax Bottleneck: A High-Rank RNN Language Model
@paperweekly 推荐
RNN
本文尝试改进了语言模型在预测 next token 时用 softmax 遇到的计算瓶颈。
论文链接
https://www.paperweekly.site/papers/1112
代码链接
https://github.com/zihangdai/mos
阅读全文