本次IJCAI之行共七天时间。前面三天是tutorial和workshop同时进行。后面四天是conference，每个时间段有多个session同时进行。由于时间有限，前三天本人只参加了tutorial部分。后面四天是主会阶段，也主要关注了RL部分和部分的classification和embedding。并且由于每个talk只有10-12分钟，所以每篇文章只能给一些关键词参考，具体细节还需大家自行阅读文章。

Tutorial

1. https://sites.google.com/view/lianghu/home/tutorials/ijcai2019

此tutorial持续时间四个小时，讲述范围涵盖了推荐系统的各个类别。

传统的分类方法是：user或item侧基于协同过滤的方法；基于内容的过滤方法；基于地理位置的推荐系统；基于知识的推荐系统。前两种方法是最常用的。第一种方法有数据稀疏和冷启动的困扰；第二种方法有信息不足和内容过分一致的困扰。

但是此tutorial则从不同的角度来分类。先后从用户间关系侧（social RS, group-based RS），item侧（ session-based RS, cross-domain RS）, 多模态侧（multi-modal RS）, 多准则侧（multi-criteria RS ），环境侧（ context-aware RS）来进行分析。

下面分别进行介绍。

Social RS：

此类算法是把social network引入。

Sorec是利用MF分别对social network和user-item rating matrix来共同进行分解，同时共享user latent feature。

SocialMF是根据social trust的假设来作为user latent feature的额外约束，即user latent feature应该等于social network为weight的邻居user的sum。

SoReg则是类似的把social network作为user和其每个邻居向量相似性的weight。

而Sorec的deep neural network版本也在2017年被提出。

还未解决的问题有：如何识别出有影响力的邻居，social network的shift如何capture。

Group-based RS：

此类算法是考虑对于group如何来进行推荐，因为要尽量满足大部分人的需求。

一种方法是直接对于每个人的打分进行合计；

一种是利用MF来对group-item rating matrix分解，其中引入了user，item，group feature；

一种是利用每个user对pairwise items的preference来预测user-item rating matrix然后再整合；

一种是把每个用户分为collective embedding和individual embedding，然后再用神经网络来预测group-item rating matrix；

一种是用attention来对group中的user进行加权作为神经网络的输入来预测group-item的rating matrix；

一种是同时用神经网络来预测user-item和group-item的rating matrix。

现有的问题有：缺少数据集；缺少对不同环境感知的建模能力。

Cross-domain RS：

基于用户在不同domain的喜好相关假设来建模。

一种方法是不同的domain直接共享用户向量，但是没考虑不同domain的异构性；

所以一种方法是在MF里面引入domain factor变成tensor factorization；

进一步对上一个方法引入神经网络就是multi-view deep learning方法；

DiscoGAN则是把不需要配对的两个domain的item进行自动的进行相应转换，具体做法就是把A domain的item作为generation部分的输入跟B domain的item来进行discriminative判断，同时再把generator部分decoder成为A domain的item确保原始信息不丢失。这样一来就可以在预测的时候直接用generator的当作对应的转换输出。

现有的问题有：如果没有user或者item的overlap，要如何进行cross-domain；如何整合多个domain的异构的信息。

Session-based RS：

基于用户在同一个session里选择的item有依赖关系的假设来建模。我们不仅仅是想推荐类似的物品而是相关的物品。

对于一阶依赖假设，可以建立关于u,i,j的pairwise的MF。

对于高阶依赖假设，可以利用RNN来建模，2016年更是提出了一个用parallel的多类RNN利用id和feature来一起建模；2017年有人把机器翻译中的attention-based encoder-decoder架构用来建模。

对于松散的依赖关系假设，可以直接concat历史item作为context embedding直接进行fc变换，或者直接根据距离越近权重越大weighed sum起来，实验表明在天猫的场景下此方法比RNN方法表现更好，同时推荐的多样性也更好；2018年有人用self-attention的方法来计算weight，效果好过RNN和直接concat，并且对order和context的length更鲁棒；基于item不是point wise依赖而是union-level依赖的假设，2018年有人提出Caser把CNN引入来encode历史输入，效果远好于RNN的方法，实际是在用CNN来自动选择不同的item组合方式；

2019年有人把以上方法混合，分别用FC，RNN或者CNN，attention来encode从短到长的依赖，效果远好于Caser或者RNN方法。

总结一下，根据用户和物品特性可以分为以下几种情况：对历史有高阶依赖（RNN方法）；对历史有松散的依赖（CNN方法）；历史中有噪音（attention方法）；历史中由不同的异构关系（混合方法）；历史有层级结构（层级embedding）。

Multi-modal RS：

对于有多种modal特征的item，我们有必要把多种特征结合起来。图像特征可以用预训练好的VGG直接transfer过来，文字特征则可以用word embedding等。

现阶段比较重要的问题有：如何从多模态信息中提取一致的信息；以及如何利用基于GAN的方法去产生更多的sample。

针对第二个问题，2016年已经有人提出了用GAN来从表述中生成图像的方法，具体是把表述加入噪音作为generator的输入，然后再利用discriminator来判断（真表述，真图像），（真表述，假图像），（假表述，真图像）来训练。

Multi-criteria RS：

我们应该从多个维度来评价推荐系统的好坏，包括准确率、多样性、新颖度等。如果用MF来做推荐系统，那么多个目标可以通过约束多个MF间的latent vector一致来达成多准则的model。

现有的问题还有：如果根据用户或者context的不同来个性化的对多目标做integrate；是否可以用game theory的方法来找到多准则间的纳什均衡。

Context-aware RS：

不同context下推荐的item应该不同，考虑如何把context加入到模型中。

一种方法是直接在MF中加入额外的一个维度来做context latent feature；

2011年有人提出了FM来针对更一般的多维度context特征，可以把多种稀疏context特征的二阶组合整合起来作为输入；后续为了得到更高阶的组合特征，2016年提出了wide&deep model。

2. http://maple-lab.net/projects/small_data.htm

此tutorial持续时间四个小时，主要有两部分组成。第一部分是关于unsupervised和semi-supervised学习，第二部分是关于few-shot学习。

a. Unsupervised Methods以及Semi-Supervised Methods

讲述在只有少量标注数据和大量未标注数据的时候，如何进行unsupervised或者semi-supervised学习。

Unsupervised Methods

Auto-Encoder

这里介绍了auto-encoder(AE)，以及variational auto-encoder(VAE)，auto-encoding transformations(AET)。最后一种方法是把输入做了transformation之后让decoder判断对应是transformation是什么。此方法效果不会比AE差，但同时decoder的参数少了很多。

Generative Adversarial Nets(GANs)

传统的GAN并不能从真实data中得到latent code z，2016年有人提出额外加入一个真实数据的encoder，然后把（x,E(x)）当作真实数据，（G(z),z）当作假数据给discriminator。这样一来，就可以根据E(x)来得到latent code了。

GANs的一个缺点是会collapsing to only produce one image no matter what noise it starts with，而GLOW则从数据分布直接入手，通过invertible函数来实现generate。相比GAN此方法还未成熟，局限性较大。

Autoregressive Models

PixelRNN，Contrastive Prediction Coding（CPC）

Semi-Supervised Methods

Semi-Supervised Auto-Encoder

在AE中加入label作为因变量。在AET中加入classifier作为额外task。

Semi-Supervised GANs

此时的generator是通过feature matching来训练，而discriminator部分则变成了判断K+1个class，其中K为真实数据的class数目。

Localized GAN

Teacher-Student Methods

Temporal Ensembling，Mean Teacher，MixUp。

b. Few-Shot Learning

关于在拥有大量的auxiliary set数据之后，如何在少量的support set上训练一个模型使得其在query set上表现良好。即我们想要找到一个算法：有很好的泛化性；有很好的迁移性；在有限的数据集上学到高精度的分类能力。

主要有以下三种方法：

Hallucination based methods

Learn to augment

人类是善于从少量数据里面学习到规则来增强数据。所以我们可以从数据增强方面入手来增加数据量。

Meta-learning based methods

Learn to learn

MANN，MAML，MTL

Metric-learning based methods

Learn to compare

Siamese Neural Networkds，Matching Networks，Episodic training，Prototypical Networks，Relation Network，Covariance Metric Network等

3. http://bit.ly/tf-ijcai

本教程是Google资深开发人员Josh Gordon讲授，提供了最新TensorFlow 2.0的实操介绍，重点介绍了最佳实践。讲述了如何编写几种类型的神经网络(Dense, Convolutional, 和 Recurrent)，以及生成对抗网络（Generative Adversarial Network）。

4. Deep Learning: Why deep and is it only doable for neural networks?

此外还听了周志华教授的此invited talk。在演讲中，周志华教授首先从自己的角度解读了深度神经网络为什么能够成功的比较关键的原因：layer-by-layer processing、feature representation、sufficient model complexity。但是它也有很多局限性：太多超参要调、模型复杂度必须保持一致、黑箱模型、只能连续数值建模，因为必须可导。

参考深度神经网络的三个成功因素，周志华教授介绍了gcForest方法，此方法是基于决策树森林，以及基于集成模型的深度模型。此方法相比神经网络超参比较少，模型复杂度是adaptive的，可解释度较高，也不需要反向传播。但是同时必须保证子forest的多样性才能够把网络做深。此方法有一些比较振奋人心的效果，但是因为没有对应的硬件设备，所以还不能跑太复杂的任务。而最近英特尔也和南京大学联合设立了一个人工智能研究中心，目标就是共同探索是否有可能设计新的人工智能芯片为深度森林提供加速。

Conference

Classification

Zero-shot Learning with Many Classes by High-rank Deep Embedding Networks 是在图像分类任务中，利用其他任务的embedding来zero-shot完成目标任务，使用任务间的feature similarity作为weight来得到目标任务的embedding。

Submodular Batch Selection for Training Deep Neural Networks 在神经网络学习中，如何选择batch也会影响到学习的效率和结果。此文章把batch selection作为一个submodular问题，从而找到一个heuristic来选择batch，方法跟SGD比效果更好

Extensible Cross-Modal Hashing 在cross modal hashing任务中，如果我们想加入新的数据来hashing，历史方法或者是全部重新regenrate或者需要fine-tune，此论文则给出了一种extensible的方法来做

Reinforcement Learning

Soft Policy Gradient Method for Maximum Entropy Deep Reinforcement Learning 此文章是把maximum entropy约束加入到了Q网络中，由于是action-state算法所以需要double sampling。实验中跟SAC，DDPG方法进行了比较。

Adversarial Imitation Learning from Incomplete Demonstrations 此文章类似于state-based GAIL版本，而action只用来当作auxiliary。

An Atari Model Zoo for Analyzing, Visualizing, and Comparing Deep Reinforcement Learning Agents 此文章是Google Brain和OpenAI联合发布，介绍了the Atari Zoo framework，其中包含了在benchmark Atari games训练的一些模型，并且给出了一些分析和视图工具。

Experience Replay Optimization 此文章是关于如何选择experience来replay的，提出根据future reward来选择replay的experience。

Interactive Teaching Algorithms for Inverse Reinforcement Learning 如果teacher和policy是可交互的话，此文章证明了最多 step就足够收敛。

Interactive Reinforcement Learning with Dynamic Reuse of Prior Knowledge from Human and Agent Demonstrations 在inverse RL中，如果人类的demonstration数据并不是全部可信的，那么对于demo数据我们可以加入confidence来充分利用。

Planning with Expectation Models 在planning中，为了建模环境model，或者是表示它的分布，或者是表示它的采样。而此论文则试图表示它的期望，并证明了其优势

Randomized Adversarial Imitation Learning for Autonomous Driving 传统的GAIL还是需要跟环境进行大量交互来学习，而此论文则提出通过finite difference来训练GAIL而不用跟环境交互

Building Personalized Simulator for Interactive Search 此文是关于如何在interactive search中构建个性化的simulator环境。

DeltaDou: Expert-level Doudizhu AI through Self-play 此文章类似于AlphaGo使用MCTS来做斗地主问题

Imitation Learning from Video by Leveraging Proprioception 关于模仿学习

Playing FPS Games With Environment-Aware Hierarchical Reinforcement Learning 使用Hierarchical RL来做FPS游戏，赢得了2018年track1比赛的冠军

Curriculum Learning for Cumulative Return Maximization 此文章使用课程学习来学习如何从cumulative return的角度最大化。

IJCAI 2019