智能创意在哈啰的应用实践

什么是创意

创意类型及组成

创意的类型很多，包括商品广告创意、视频创意、UGC图文创意、营销活动创意等。右图是哈啰营销活动的banner和弹窗，可以看到banner和弹窗属于不同的创意样式，不同创意样式的元素和元素的属性也各不相同。我们在对创意进行优化的时候，可以发现样式乘以模板乘以元素数再乘以元素的属性数，这使得创意的组合是千变万化的。

如何评价创意质量

从算法的角度，图像质量评估有三种建模条件。一是全参考，我们同时有原始(无失真、参考)图像和失真图像，核心是对比两幅图像的信息量或特征相似度；二是半参考，只有原始图像的部分信息或从参考图像中提取的部分特征；三是无参考，也叫盲参考，只有失真图像，难度较高。有两种常用的评估指标，一是线性相关系数，也就是平时我们用的皮尔逊相关系数，用来评估两组数据之间的差异性。它的公式是两组数据的斜方差除以标准差的商值，其中N表示失真图像数。通过这个公式可以算出失真图像和真实图像的相关性，相关性越高，正值就越大，先决条件是它的数据必须要服从正态分布。如果不满足这个条件，就可以用下面的Spearman秩相关系数，在意的是在真实值和预测值序列中的排序位置。它跟皮尔逊相关系数实际上是一样的，都是越大越相关。

接下来介绍2016年提出的DeepBIQ模型，将原始图像切分成多个子区域，对多个子区域预测的分数进行平均来估计图像质量。这个模型之所以具有创新点，是因为首先它使用了不同的预训练模型，由于我们平时所拿到的图片数据量较少，就可以进行迁移学习，用训练好的模型固定它的网络权重，再使用现在较少的数据来进行网络的微调，把别人场景下的网络数据迁移到我们的场景当中。其次它使用了大量的图像块而不是整个图像进行的训练，同时使用了不同的特征和结果融合策略，可以看到中间的Fusion of Feature Vectors，通过输入图像的块状特征，经过了CNN的编码之后得到了特征的向量，再经过三种不同的融合策略，包括pooling+svr、comc+svr和svr+pooling，最后选取最好的一种进行模型的评估。

创意质量评估的第二部分是文案的通顺度。对于一个普通的句子序列，它的概率是多个概率的乘积。困惑度是导数的概念，它是句子概率乘积的导数，再开N次方。因此语言模型预测出句子出现的概率越大，就表明它的困惑度越小，也就是一个比较好的通顺度比较高的句子。

智能创意搭建内容

智能创意系统搭建主要分为四个部分，一是内容理解，如实体识别、分类、标签抽取、embedding和OCR。二是创意生成，包括程序化拼接、素材生成、布局生成和元素渲染。三是质量评估，就是上文提到的文本和图像质量评估。四是创意优选，包括bandit、CTR预估、组合搜索和多模态特征。

如何进行创意生成

什么是生成模型

生成模型是从一个分布为p_data的数据集中取样构成训练集去训练模型，模型会学习和模拟这一分布，我们就可以从学习到的分布中生成一些样本，样本尽可能让它与真实数据分布一致，如图像、文本等。

为什么要研究生成模型

一是生成模型代表我们具有能够表示和操控高维概率分布的能力，二是生成模型可以用有损失的数据进行训练，进行半监督学习，降低了我们获得数据样本的难度。三是有一些任务需要产生看起来真实的样本，如输入低分辨率的图片，生成模型可以产生接近于原分辨率的图片；从街道轮廓图生成真实图，从卫星图生成地图。这些图像复原和修复任务需要一些看起来真实的样本，生成模型可以去完成。

生成对抗网络

生成模型是去求解真实的概率分布，如果我们不在意概率分布本身的样子，只希望通过模型去生成与真实分布差不多的样本，我们就可以用生成对抗网络去建模。对抗是指我们需要构建两个网络，分别是判别网络和生成网络。判别网络的损失是交叉熵损失，生成网络学习的损失函数是判别网络的相反值。这是因为判别网络是为了去区分出真实样本和生成样本之间的差异，并让他们之间的区分度最大；生成网络用来生成样本，希望生成样本和真实样本区别越小越好，所以从建模的目的上说，这两个网络的损失函数需要是相反的值，加在一起是一个经典的零和博弈的问题。

这两个网络学习总目标是在判别网络损失函数最小的情况下，生成网络的损失函数也最小。训练过程就是在以下的两个步骤中交替进行，分别去训练这两个网络，对判别网络进行梯度上升，对生成网络进行梯度下降。在实际的训练过程中，并不是1+1交替进行，而是先去训练判别网络，因为只有好的判别网络之后，才能够更好地更新生成网络的参数。

Transformer

生成对抗网络主要运用的领域是图像生成，图像属于连续系统，难以对概率分布建模，但文本属于离散系统，用神经网络和softmax就可对概率分布建模，transformer模型主要用于文本的生成。

右图的transformer分为两个部分，分别是编码器部分和解码器部分。这里用一个比较形象的例子去阐述transformer的工作方式。第一步我们需要输入一条训练数据，以摘要生成为例，我们输入的训练数据是文章，需要输出的是摘要。在我们输入文章之后，经过encoder层得到一个编码，再经过decoder得到一个预测结果，预测结果代表词表中的词作为生成词的概率向量。比如词表中有三个词，作为生成词的概率向量分别是0.5、0.5、0.8，那么第三个词作为生成词的概率就比较高。第二步我们输入一个句子“张三回家了”中的“张”字，此时我们希望模型吐出“三”字的one-hot编码。第三步是通过刚才的机制去训练，减小损失，最终得到我们的生成模型。

如何进行创意优选

创意优选主要解决两个问题，一是创意到人的精准匹配，和一般的商品排序对比，创意多了很多多模态的内容，多模态内容的联合表征是创意优选的一个难点。二是长尾性加多样性，就是用户对于创意的疲劳度相对较高，它的解法是bandit模型，每种创意维护一个beta(win, lose)分布，win指的是创意被展现且被点击，lose指的是创意被展现但没有被点击，这个分布随着用户反馈的产生实时调整。

哈啰智能创意系统展示

哈啰在智能创意系统上做了很多实践，虽然还没有用到多模态的信息，但整个框架仍然是CTR+EE框架。同时我们也进行了一些内容理解的工作，如文案多分类、多标签提取等，对于新的创意和老的创意的解法也不一样。之后我们会上线图文搭配功能，会考虑到素材的美学搭配。同时在创意优选上会进行细粒度的优选，进行元素级的优选模型搭建。此外，会搭建更完善的报表和更智能的文案助手。

（本文作者：潘云凤）

本文系哈啰技术团队出品，未经许可，不得进行商业性转载或者使用。非商业目的转载或使用本文内容，敬请注明“内容转载自哈啰技术团队”。