Data_driver

知识蒸馏在推荐系统的应用

随着深度学习的快速发展，优秀的模型层出不穷，比如图像领域的ResNet、自然语言处理领域的Bert，这些革命性的新技术使得应用效果快速提升。但是，好的模型性能并非无代价的，你会发现，深度学习模型正在变得越来越复杂，网络深度越来越深，模型参数量也在变得越来越多。而这会带来一个现实应用的问题：将这种复杂模型推上线，模型响应速度太慢，当流量大的时候撑不住。

知识蒸馏就是目前一种比较流行的解决此类问题的技术方向。一般知识蒸馏采取Teacher-Student模式：将复杂模型作为Teacher，Student模型结构较为简单，用Teacher来辅助Student模型的训练，Teacher学习能力强，可以将它学到的暗知识（Dark Knowledge）迁移给学习能力相对弱的Student模型，以此来增强Student模型的泛化能力。复杂笨重但是效果好的Teacher模型不上线，就单纯是个导师角色，真正上战场挡抢撑流量的是灵活轻巧的Student小模型。比如Bert，因为太重，很难直接上线跑，目前很多公司都是采取知识蒸馏的方法，学会一个轻巧，但是因为被Teacher教导过，所以效果也很好的Student模型部署上线。

知识蒸馏典型方法

目前知识蒸馏已经成了独立研究方向，各种新技术层出不穷。但是如果粗略归纳一下的话，主流的知识蒸馏技术有两个技术发展主线：Logits方法及特征蒸馏方法。

我们先简单说明下Logits方法的思路。在介绍之前，首先得明白什么是Logits。我们知道，对于一般的分类问题，比如图片分类，输入一张图片后，经过DNN网络各种非线性变换，在网络接近最后一层，会得到这张图片属于各个类别的大小数值 $Z_{i}$ ，某个类别的 $Z_{i}$ 数值越大，则模型认为输入图片属于这个类别的可能性就越大。什么是Logits? 这些汇总了网络内部各种信息后，得出的属于各个类别的汇总分值 $Z_{i}$ ，就是Logits, i代表第i个类别， $Z_{i}$ 代表属于第i类的可能性。因为Logits并非概率值，所以一般在Logits数值上会用Softmax函数进行变换，得出的概率值作为最终分类结果概率。Softmax一方面把Logits数值在各类别之间进行概率归一，使得各个类别归属数值满足概率分布；另外一方面，它会放大Logits数值之间的差异，使得Logits得分两极分化，Logits得分高的得到的概率值更偏大一些，而较低的Logits数值，得到的概率值则更小。上图中的公式 $q_{i}$ ，就是一个变体的Softmax公式，如果把T拿掉或令T=1，则是个标准的Softmax公式， $Z_{i}$ 就是第i个类别的Logits数值， $q_{i}$ 是Logits数值经过Softmax变换后，归属于第i个类别的概率值。

知道了什么是Logits后，我们来说什么是Logits蒸馏方法。假设我们有一个Teacher网络，一个Student网络，输入同一个数据给这两个网络，Teacher会得到一个Logits向量，代表Teacher认为输入数据属于各个类别的可能性；Student也有一个Logits向量，代表了Student认为输入数据属于各个类别的可能性。最简单也是最早的知识蒸馏工作，就是让Student的Logits去拟合Teacher的Logits，即Student的损失函数为：

$L_{Student}=\left \| z_{t}-z_{s} \right \|^{2}$

其中， $z_{t}$ 是Teacher的Logits， $z_{s}$ 是Student的Logits。在这里，Teacher的Logits就是传给Student的暗知识。

Hinton在论文Distilling the Knowledge in a Neural Network中提出了称为Softmax Temperature的改进方法，并第一次正式提出了“知识蒸馏”的叫法。Softmax Temperature改造了Softmax函数（公式参考上图），引入了温度T，这是一个超参数。如果我们把T设置成1，就是标准的Softmax函数，也就是极端两极分化版本。如果将T设大，则Softmax之后的Logits数值，各个类别之间的概率分值差距会缩小，也即是强化那些非最大类别的存在感；反之，则会加大类别间概率的两极分化。Hinton版本的知识蒸馏，让Student去拟合Teacher经过T影响后Softmax得到的，其实也是让Student去学习Teacher的Logits，无非是加入T后可以动态调节Logits的分布。Student的损失函数由两项组成，一个子项是Ground Truth，就是在训练集上的标准交叉熵损失，让Student去拟合训练数据，另外一个是蒸馏损失，让Student去拟合Teacher的Logits：

H是交叉熵损失函数， $f\left ( x \right )$ 是Student模型的映射函数，是Ground Truth Label， $z_{t}$ 是Teacher的Logits， $z_{s}$ 是Student的Logits， $ST\left ( \right )$ 是Softmax Temperature函数， $\lambda$ 用于调节蒸馏Loss的影响程度。

一般而言，温度T要设置成大于1的数值，这样会减小不同类别归属概率的两极分化程度，因为Logits方法中，Teacher能够提供给Student的额外信息就包含在Logits数值里。如果我们在蒸馏损失部分，将T设置成1，采用常规的Softmax，也就是说两极分化严重时，那么相对标准的训练数据，也就是交叉熵损失，两者等同，Student从蒸馏损失中就学不到任何额外的信息。

另外一种大的知识蒸馏思路是特征蒸馏方法，如上图所示。它不像Logits方法那样，Student只学习Teacher的Logits这种结果知识，而是学习Teacher网络结构中的中间层特征。最早采用这种模式的工作来自于自于论文：“FITNETS：Hints for Thin Deep Nets”，它强迫Student某些中间层的网络响应，要去逼近Teacher对应的中间层的网络响应。这种情况下，Teacher中间特征层的响应，就是传递给Student的暗知识。在此之后，出了各种新方法，但是大致思路还是这个思路，本质是Teacher将特征级知识迁移给Student。因为介绍各种知识蒸馏方法不是我们的主题，这里不展开了，我们尽快切入主题。

知识蒸馏在推荐系统中的三个应用场景

我们知道，工业界常见推荐系统一般有三个级联的过程：召回、粗排以及精排。召回环节从海量物品库里快速筛选部分用户可能感兴趣的物品，传给粗排模块，粗排环节通常采取使用少量特征的简单排序模型，对召回物料进行初步排序，并做截断，进一步将物品集合缩小到合理数量，向后传递给精排模块，精排环节采用利用较多特征的复杂模型，对少量物品进行精准排序。其中，粗排环节根据具体应用可选可不选。

那么，在这种串行级联的推荐体系中，知识蒸馏可以应用在哪个环节呢？假设我们在召回环节采用模型排序（FM／FFM／DNN双塔等模型），那么知识蒸馏在上述三个环节都可采用，不同环节采用知识蒸馏的目的可能也不太相同。也就是说，精排、粗排以及模型召回环节都可以采用知识蒸馏技术来优化现有推荐系统的性能和效果，这里的性能指的线上服务响应速度快，效果指的推荐质量好。

精排环节采用知识蒸馏

为何在精排环节采用知识蒸馏？我们知道，精排环节注重精准排序，所以采用尽量多特征，复杂模型，以期待获得优质的个性化推荐结果。但是，这同时也意味着复杂模型的在线服务响应变慢。若承载相同流量，需要增加在线服务并行程度，也就意味着增加机器资源和成本，比如，DNN 排序模型相对LR／FM等非深度模型，在线推理速度下降明显。此时，我们面临两难选择：要么上简单模型，但是付出的代价是推荐效果不如复杂模型好；要么上复杂模型，虽说效果是提高了，但是要付出额外的机器等资源及成本。有什么技术方案能够在两者之间做个均衡么？就是说，希望找到一个模型，这个模型既有较好的推荐质量，又能有快速推理能力。我们可以实现这一目标么？可以的，在精排环节上知识蒸馏模型即可。

上图展示了如何在精排环节应用知识蒸馏：我们在离线训练的时候，可以训练一个复杂精排模型作为Teacher，一个结构较简单的DNN排序模型作为Student。因为Student结构简单，所以模型表达能力弱，于是，我们可以在Student训练的时候，除了采用常规的Ground Truth训练数据外，Teacher也辅助Student的训练，将Teacher复杂模型学到的一些知识迁移给Student，增强其模型表达能力，以此加强其推荐效果。在模型上线服务的时候，并不用那个大Teacher，而是使用小的Student作为线上服务精排模型，进行在线推理。因为Student结构较为简单，所以在线推理速度会大大快于复杂模型；而因为Teacher将一些知识迁移给Student，所以经过知识蒸馏的Student推荐质量也比单纯Student自己训练质量要高。这就是典型的在精排环节采用知识蒸馏的思路。至于具体蒸馏方法，后文会介绍。当然，你也可以根据前文介绍的经典知识蒸馏方案，自己试着想想应该怎么做。

对于精排环节来说，我觉得，知识蒸馏比较适合以下两种技术转换场景：

一种是排序模型正在从非DNN模型初次向DNN模型进行模型升级；在超大规模数据场景下，从非DNN模型切换到DNN模型，切换成本和付出的时间因素可能比你预想得要高，尤其是线上服务环节，切换到DNN模型导致大量增加在线服务机器成本，这对于很多公司来说是无法接受的。如果在做模型升级的时候采取知识蒸馏方案，导致的效果是：相对线上的非DNN模型，即使上一个蒸馏小模型，效果也可能是有提升的，同时在线服务占用资源能降下来（相对直接上个复杂DNN模型），在线服务速度快，所以可以明显降低模型升级的成本，这样可以相对容易地切换到DNN版本排序模型上来。

第二种情况是：目前尽管线上已经采用了DNN 排序模型，但是模型还非常简单，这个也有利用知识蒸馏优化效果的空间；这种情形下，现有在线模型的服务速度可能是足够快的，因为在线服务模型还比较简单，即使换成Student小模型，在这方面估计也差不太多。但是，可以期待通过知识蒸馏提升线上模型的推荐质量。我们可以离线训练一个复杂但是效果明显优于线上简单DNN排序模块的模型作为Teacher，然后通过知识蒸馏，训练一个可以代替目前线上模型的Student小模型。如果这样，是有可能在响应速度不降的前提下，模型效果上有所提升的。所以，感觉这种情况也比较适合采用蒸馏模型。

而对于其它情形，比如目前线上已有较为复杂的DNN排序系统的业务或者公司，至于是否要上知识蒸馏，则需要面临一个权衡：采用知识蒸馏，线上服务模型从复杂模型切换成小模型，肯定可以明显提高线上QPS，减少服务资源，效率提升会比较大；但是，有可能推荐质量比线上的大模型会有下掉。所以，业务场景是否接受这种指标的临时下降？这个问题的答案决定了不同的选择，在有些业务场景下，这是需要好好考虑考虑的。不同业务环境可能会作出不同的选择。

模型召回以及粗排采用知识蒸馏

在模型召回环节，或者粗排环节，采取知识蒸馏的方案，是非常自然的一个想法拓展，而且非常合算。目前，这块基本看不到完全公开细节的技术资料，所以本文我重点谈谈在这块可能采用的技术，和几位同学讨论出若干可能的方案会列在后面，感兴趣的同学可以尝试一下，在这里是很容易作出收益的，所以特别值得关注与尝试，相信这块用好了，会对完成你的KPI有帮助。

这里所谓的合算，怎么理解呢？因为召回或者粗排环节，作为精排的前置环节，有自己承担的独特职责，需要在准确性和速度方面找到一个平衡点，在保证一定推荐精准性的前提下，对物品进行粗筛，减小精排环节压力。所以，这两个环节本身，从其定位来说，并不追求最高的推荐精度，就算模型效果比精排差些，这也完全不成问题，毕竟在这两个环节，如果准确性不足可以靠返回物品数量多来弥补。而模型小，速度快则是模型召回及粗排的重要目标之一。这就和知识蒸馏本身的特点对上了，所以在这里用是特别合算的。

那么，召回或者粗排怎么用蒸馏呢？如果我们如上图所示，用复杂的精排模型作为Teacher，召回或粗排模型作为小的Student，比如FM或者双塔DNN模型等，Student模型模拟精排环节的排序结果，以此来指导召回或粗排Student模型的优化过程。这样，我们可以获得满足如下特性的召回或者粗排模型：首先，推荐效果好，因为Student经过复杂精排模型的知识蒸馏，所以效果虽然弱于，但是可以非常接近于精排模型效果；其次，Student模型结构简单，所以速度快，满足这两个环节对于速度的要求；再次，通过Student模型模拟精排模型的排序结果，可以使得前置两个环节的优化目标和推荐任务的最终优化目标保持一致，在推荐系统中，前两个环节优化目标保持和精排优化目标一致，其实是很重要的，但是这点往往在实做中容易被忽略，或者因条件所限无法考虑这一因素，比如非模型召回，从机制上是没办法考虑这点的。这里需要注意的一点是：如果召回模型或者粗排模型的优化目标已经是多目标的，对于新增的模型蒸馏来说，可以作为多目标任务中新加入的一个新目标，当然，也可以只保留单独的蒸馏模型，完全替换掉之前的多目标模型，貌似这两种思路应该都是可以的，需要根据具体情况进行斟酌选择。

由以上分析，可见，召回或粗排环节的知识蒸馏方案，看上去貌似是为召回和粗排环节量身定制的推荐系统优化技术选项，对于召回或者粗排优化来说，应该是必试的一个技术选项。

下面我们讨论下在推荐系统里，在各个环节采用知识蒸馏的可能的具体方法。精排蒸馏有三篇公开文献可供参考，而召回或粗排方面的蒸馏技术，很少见相关公开资料，所以后面列的多数是我和几位同学讨论的方案，除个别方法有实践结果外，大多方法仍处于设想阶段，目前并未落地，所以不能保证有效性，这点还需要注意。

精排环节蒸馏方法

目前推荐领域里，在精排环节采用知识蒸馏，主要采用Teacher和Student联合训练（Joint Learning）的方法，而目的是通过复杂Teacher来辅导小Student模型的训练，将Student推上线，增快模型响应速度。

如上图所示，所谓联合训练，指的是在离线训练Student模型的时候，增加复杂Teacher模型来辅助Student，两者同时进行训练，是一种训练过程中的辅导。从网络结构来说，Teacher和Student模型共享底层特征Embedding层，Teacher网络具有层深更深、神经元更多的MLP隐层，而Student则由较少层深及神经元个数的MLP隐层构成，两者的MLP部分参数各自私有。对于所有训练数据，会同时训练Teacher和Student网络，对于Teacher网络来说，就是常规的训练过程，以交叉熵作为Teacher的损失函数。而对于Student网络来说，损失函数由两个部分构成，一个子项是交叉熵，这是常规的损失函数，它促使Student网络去拟合训练数据；另外一个子项则迫使Student输出的Logits去拟合Teacher输出的Logits，所谓蒸馏，就体现在这个损失函数子项，通过这种手段让Teacher网络增强Student网络的模型泛化能力。也即：

H是交叉熵损失函数， $f\left ( x \right )$ 是Student模型的映射函数，是Ground Truth Label， $z_{t}$ 是Teacher的Logits， $z_{s}$ 是Student的Logits， $\lambda$ 用于调节蒸馏Loss的影响程度。

这个模型是阿里妈妈在论文“Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net”中提出的，其要点有三：其一两个模型同时训练；其二，Teacher和Student共享特征Embedding；其三，通过Logits进行知识蒸馏。对细节部分感兴趣的同学可以参考原始文献。

爱奇艺在排序阶段提出了双DNN排序模型，可以看作是在阿里的rocket launching模型基础上的进一步改进。如上图所示，Student和Teacher共享特征Embedding参数层，Student模型在损失函数中加入了拟合Teacher输出阶段的Logits子项，这两点和rocket launching是类似的。主要改进有两点：首先，为了进一步增强student的泛化能力，要求student的隐层MLP的激活也要学习Teacher对应隐层的响应，这点同样可以通过在student的损失函数中加子项来实现。但是这会带来一个问题，就是在MLP隐层复杂度方面，Student和Teacher是相当的，我们说过，一般知识蒸馏，老师要比学生博学，那么，在这个结构里，Teacher相比student，模型复杂在哪里呢？这引出了第二点不同：双DNN排序模型的Teacher在特征Embedding层和MLP层之间，可以比较灵活加入各种不同方法的特征组合功能，通过这种方式，体现Teacher模型的较强的模型表达和泛化能力。

爱奇艺给出的数据对比说明了，这种模式学会的student模型，线上推理速度是Teacher模型的5倍，模型大小也缩小了2倍。Student模型的推荐效果也比rocket launching更接近Teacher的效果，这说明改进的两点对于Teacher传授给Student更强的知识起到了积极作用。更多信息可参考：双 DNN 排序模型：在线知识蒸馏在爱奇艺推荐的实践

召回／粗排环节蒸馏方法

上面介绍了阿里和爱奇艺在精排方面的两个知识蒸馏应用工作，目前知识蒸馏应用在推荐领域的公开资料很少，虽说上面两个工作是应用在精排，目的是加快线上模型推理速度，但是稍微改进一下，也可以应用在召回模型以及粗排模型。

假设我们打算使用上述方案改造召回或者粗排模型，一种直观的想法是：我们基本可以直接参照rocket launching的方案稍作改动即可。对于粗排或者召回模型来说，一般大家会用DNN双塔模型建模，只需要将粗排或召回模型作为Student，精排模型作为Teacher，两者联合训练，要求Student学习Teacher的Logits，同时采取特征Embedding共享。如此这般，就可以让召回或粗排模型学习精排模型的排序结果。快手曾经在AICon分享过在粗排环节采取上面接近rocket launching的蒸馏技术方案，并取得了效果。

因双塔结构将用户侧和物品侧特征分离编码，所以类似爱奇艺技术方案的要求Student隐层学习Teacher隐层响应，是很难做到的。粗排尚有可能，设计简单网络DNN结构的时候不采取双塔结构即可，召回环节几无可能，除非把精排模型也改成双塔结构，可能才能实现这点，但这样可能会影响精排模型的效果。

但是，问题是：我们有必要这么兴师动众，为了训练召回或粗排的蒸馏模型，去联合训练精排模型么？貌似如果这样,召回模型对于排序模型耦合得过于紧密了，也有一定的资源浪费。其实我们未必一定要两者联合训练，也可以采取更节省成本的两阶段方法。

召回蒸馏的两阶段方法

在专门的知识蒸馏研究领域里，蒸馏过程大都采取两阶段的模式，就是说第一阶段先训练好Teacher模型，第二阶段是训练Student的过程，在Student训练过程中会使用训练好Teacher提供额外的Logits等信息，辅助Student的训练。

私以为，精排环节貌似还是联合训练比较好，而召回或粗排环节采取两阶段模式估计更有优势。为什么这么说呢？你可以这么想：如果我们的目的是希望训练一个小的Student精排模型，貌似没有太大的必要采取两阶段训练过程，因为无论是联合训练也好，还是两阶段训练也好，反正一大一小两个模型都需要完整训练一遍，消耗的资源类似。而如果联合训练，则还可以应用特征embedding共享、隐层响应学习等更多可选的技术改进方案。所以貌似没有太大必要改成两阶段的模式。

但是，如果是召回模型或粗排模型作为Student，则情况有所不同。首先，比如隐层响应等技术手段，本来召回或粗排Student模型就无法使用（粗排如果不用双塔，而是简单DNN模型，还是可以的），所以联合训练相对两阶段训练增加的好处不明显。至于Student和Teacher特征Embedding共享，如果是在两阶段模式下，则可以改为使用Teacher训练好的特征Embedding初始化Student的特征，这样貌似损失也不大，所以两阶段模式相对联合训练模式，在效果方面并无明显劣势。另外，因为我们希望召回或者粗排模型学习精排模型，而一般而言，我们能够拿到一个已经训练好的精排模型，比如最近上线的精排模型，既然这样，我们可以直接用当前已训练好的精排模型，让它把用于召回模型的训练数据跑一遍，给每个训练数据打上Logits信息，然后，就可以按照与联合训练完全一样的方式去训练召回蒸馏模型了，优化目标是Ground Truth子目标和Logits蒸馏子目标。上图展示了这一过程。这样做，明显我们节省了精排Teacher的联合训练迭代成本。不过，这种方法是否有效不确定，感兴趣的同学可以尝试一下，不过推论起来应该是能保证效果的。

上面的方法，还是模仿精排蒸馏方式，无非改成了相对节省资源的两阶段模式。这里我们关心另外一个问题：对于召回蒸馏Student模型来说，是否一定要优化那个Ground Truth子目标？这可能要分情况看。按理说，蒸馏模型带上Ground Truth优化目标肯定效果要好于不带这个子目标的模型。如果我们的召回模型或者粗排模型是单目标的，比如就优化点击，那么明显还是应该带上Ground Truth优化目标。但是，事实上，很可能我们手上的召回模型或粗排模型已经是多目标的了，那么这种情况下，其实蒸馏Student模型就没有太大必要带Ground Truth优化目标，因为多目标已经各自做了这个事情了。这种情况下，独立优化蒸馏目标，然后将其作为多目标的一个新目标加入召回或粗排模型比较合适。

所以，我们下面介绍的方案，就抛掉Ground Truth优化目标，单独优化蒸馏目标。如果根据蒸馏Student模型是否需要参考Teacher提供的Logits信息来对方法进行分类，又可以进一步划分为参考Logits信息的方案，和不参考Logits信息的方案。按理说，参考Logits信息效果应该好些，但是，这样Student仍然对Teacher有依赖，而不参考Logits信息的方案比较独立，基本不需要精排模型的直接介入，所需信息直接可以在常规的推荐系统Log里拿到，实现起来更具简单和独立性。而且，如果精排模型已经是多目标的，可能很难获得那个Logits数值，但是我们能够拿到精排模块的排序结果，这意味着Student在优化蒸馏目标的时候，就已经朝着多目标进行优化了，是一种在召回或粗排进行非精细化多目标方向优化的一种简洁手段，所以有额外的好处。如果出于上述目的，此时明显用非Logits方案更从容。综合而言，从效果考虑，应该考虑引入Logits，从独立性和简洁性角度，可以参考非Logits方案。这可能与现实场景相关。

Logits方案

在召回或者精排采用知识蒸馏，此时，精排模型其实身兼二职：主业是做好线上的精准排序，副业是顺手可以教导一下召回及粗排模型。所以，其实我们为了让Teacher能够教导Student，在训练Student的时候，并不需要专门训练一遍Teacher精排模型，因为它就在线上跑着呢。而且我们抛开了Ground Truth优化子目标，所以不需要Teacher对训练数据都过一遍，而只需要多做一件事情：线上精排模型在输出排序结果的时候，对于当前判断实例，除了给出是否点击等判断外，只要把对应优化目标的Logits数值输出，并计入Log即可。这样，召回或粗排模型可以直接使用训练数据中记载的Logits，来作为Student的训练数据，训练蒸馏模型，上图展示了这一过程。所以，综合看，这种Logits方案，是更节省计算资源的方案。当然，上述都是我的个人推论，实际效果如何，还需要做对比实验才能说明问题。

Without-Logits方案

另外一类方法可以进一步减少Student对Teacher的依赖，或适用于无法得到合理Logits信息的场合，即Student完全不参考Logits信息，但是精排作为Teacher，怎么教导Student呢？别忘了，精排模型的输出结果是有序的，这里面也蕴含了Teacher的潜在知识，我们可以利用这个数据。也就是说，我们可以让Student模型完全拟合精排模型的排序结果，以此学习精排的排序偏好。我们知道，对于每次用户请求，推荐系统经过几个环节，通过精排输出Top K的Item作为推荐结果，这个推荐结果是有序的，排在越靠前的结果，应该是精排系统认为用户越会点击的物品。

那么，我们其实可以不用Logits，粗排或者召回环节的Student的学习目标是：像精排模型一样排序。这时，精排模型仍然是Teacher，只是传给召回或粗排模型的知识不再是Logits，而是一个有序的列表排序结果，我们希望Student从这个排序结果里面获取额外的知识。如果这样的话，对于目前的线上推荐系统，不需要做任何额外的工作，因为排序结果是会记在Log里的（也可以用推荐系统在精排之后，经过Re-ranker重排后的排序结果，这样甚至可以学习到一些去重打散等业务规则），只要拿到Log里的信息，我们就可以训练召回或粗排的Student蒸馏模型。

也就是说，对于召回或者粗排模型来说，它看到了若干精排的排序结果列表，精排模型的知识就蕴含在里面，而这可以作为Student模型的训练数据来训练蒸馏模型。很明显，这是一个典型的Learning to Rank问题。我们知道，对于LTR问题，常见的优化目标包括三种：Point Wise、Pair Wise和List Wise。于是，我们可以按照这三种模式来设计召回模型或粗排模型的蒸馏学习任务。其中，下面文中提到的Point Wise方式我们已亲试有效，至于Pair Wise和List Wise蒸馏，仍需实验才能证明是否有效。

Point Wise蒸馏

在Point Wise优化目标下理解召回模型蒸馏，就是说，我们把精排模型的有序输出结果作为训练数据，把学习目标看作一个二分类问题，通过这种方式试图学习精排模型的排序偏好。这种情况下，分类模型的正负例如何设定呢？我们不能把精排模型输出结果列表里用户行为过的Item作为正例，因为这样你等于在学比如点击或者互动等用户行为模型，而不是在学精排模型的排序偏好。一般而言，可以这么做：假设精排每次返回N个结果，我们取列表前Top K的排序靠前的结果，将其指定为正例，位置K之后的例子，作为负例。意思是通过排名最高的一部分数据，来学习精排模型的排序偏好。这样，我们就可以拿这些非标注的排序结果来训练召回模型。当然，这里的K是个超参，怎么定更合理，可能需要实验来确定。上图展示了这一做法。

通过这种方式，我们就可以让召回模型从精排模型的排序列表中学到排序偏好知识，达成知识蒸馏的目标。这种做法，有个可以改进的点：上述切分正负例的方法，并未强调物品排序位置。比如假设K值取5，就是排名前5的物品作为正例，之后的作为负例。正例中排名Rank 1的物品，和排名Rank 4的物品，都各自作为一条正例，没有差别。但是，我们知道，Rank 1应该排名比Rank 4更高，但模型训练过程并没有利用这个信息。我们可以通过对正例引入Loss Weight的简单处理方法来引入这一信息，比如引入一个跟位置相关的Weight函数：

其中，Rank Position是Item的排名名次，将其作为变量引入函数，以此映射函数的数值作为正例的Loss Weight，负例Loss Weight权重与常规训练一样，可认为缺省Loss Weight权重为1。在具体设计这个函数的时候，指导思想是：希望这个函数能做到，排名越靠前的正例，对应的Loss Weight越大。将这个Loss Weight引入损失函数中，就可以让模型更关注排名靠前的物品。比如，我们可以这么定义函数：

这里，Position是排名位置，比如Rank Position=1，则Position=1；Rank Position=4，则Position=4;通过这种定义，就能使得排名靠前的正例，对应的Loss Weight越大，而a可以作为调节权重，来放大或者缩小排名位置的影响。当然，这里还可以引入其它各种花样的Loss Weight定义方法。

热门微博尝试了上述思路FM版本的蒸馏召回模型（多目标召回模型基础上增加蒸馏召回目标），线上AB测试效果，在时长、点击、互动等多个指标都有2+%到6+%之间的不同程度的提升作用，目前正在尝试更多变体模型。

Pair Wise蒸馏

如果我们用Pair Wise Loss的方式来看待召回模型优化问题，可以这么思考：精排的排序结果是有序列表，在列表内随机任意抽取两个Item，都能维持序关系。那么很明显，我们可以构造成对的训练数据，以Item为正例，以排在Item后面任意某个Item作为负例，以此方式构造训练数据来训练模型。在推荐领域，最常用的Pair Wise Loss是BPR损失函数，于是我们可以如法炮制，如上图所示，假设对于排在第三位的Item作为正例，可以抽取排名在其之后的Item，构造足够多的成对训练数据，以此目标来优化召回模型，使得模型可以学会Item间的序列关系。

对成对的训练数据，BPR损失函数希望某个预测系统能够对正例的得分要高于负例的得分，具体计算方法如上图所示，因为是个基础概念，此处不展开介绍。

论文Ranking Distillation: Learning Compact Ranking Models With High Performance for Recommender System 提出了使用Point Wise和Pair Wise Loss来使用Teacher的输出结果训练Student的方法，文中说貌似上面这种BPR的Loss会导致Student训练不稳定有时不收敛，所以这种模式还需要进一步探索成功路径。Ranking Distillation里采用的Point Wise Loss方式是比较成功的，不过和上文介绍的Point Wise有个区别:对于Teacher输出的结果，选择Top K的Item作为正例，没有选取负例；另外Student引入了Ground Truth作为Loss子项。文中还提出了几种比较有意思的Position Loss Weight方法。对具体细节感兴趣的同学可以参考。

List Wise蒸馏

Point Wise Loss将学习问题简化为单Item打分问题，Pair Wise Loss对能够保持序关系的训练数据对建模，而List Wise Loss则对整个排序列表顺序关系建模。List Wise Loss经常被用在排序问题中，但是有个现实困难是训练数据不好做，因为排序列表里每个Item的价值需要人工标注。

我们来考虑下召回蒸馏模型的List Wise Loss优化目标怎么做的问题。既然我们能拿到大量精排给出的有序列表，貌似我们是不缺训练数据的，但是这里隐藏着个潜在的问题，问题等会我们再说。我们先说个应用案例，Instagram的推荐系统在初排阶段采用知识蒸馏的方法，使用精排作为Teacher来指导Student的优化，Student的优化目标用的是NDCG，这是一种非常常用的List Wise Loss函数，对Instagram推荐系统感兴趣的同学可以参考文章：Instagram 推荐系统：每秒预测 9000 万个模型是怎么做到的？

不过遗憾的是，上述文章并未说明是具体怎么做的，只能靠我们自己来摸索一下。其实细想一下，在这里用NDCG来学习精排输出的有序列表，这面临待解决的问题：用NDCG是有前提条件的，有序列表中的每个Item，都需要带有一个价值分。比如对于搜索排序来说，最相关Item是5分，次相关Item是4分，类似这种分数，这一般是人工标注上的，而List Wise Loss就希望排序系统能够将列表整体获得的价值分最大化。上面我们提到存在的问题就是：精排系统只给出了Item之间的排序关系，每个Item并没有提供对应的价值分。

那么，如果想用NDCG或者类似的其它List Wise 损失函数，怎样才能得到列表内每个Item的价值分呢？人工打标注显然是不现实的。这里，感觉可以利用一下精排系统输出的Logits信息，假设我们可以设计一个函数：

这个函数以Logits分数为输入变量，将其映射到比如1分到5分几档上，Logits得分越大，则对应档次分越高。如果我们能做到这点，就可以使用List Wise损失函数来训练召回或粗排模型了。这个函数定义有各种可能的方法，这里不展开，各位有兴趣的同学可以试试。

如果我们想更简单点，不用Logits分数，那么有更加简单粗暴的方法，比如强行将有序列表排在Top 5的Item设置成5分，排在6到10位置的Item赋予4分…..类似这种。这等价于这么定义F函数的：

这个公式充分展示了工业界的简单暴力算法美学，我相信类似的公式充斥于各大公司的代码仓库角落里。

联合训练召回、粗排及精排模型的设想

如果我们打算把知识蒸馏这个事情在推荐领域做得更彻底一点，比如在模型召回、粗排以及精排三个环节都用上，那么其实可以设想一种“一带三”的模型联合训练方法。

如上图所示，我们可以设计一个很复杂但是效果很好的排序模型作为Teacher，然后和召回、粗排、精排三个Student联合训练，精排Student可以使用Logits以及隐层特征响应等各种手段优化，追求效果好前提下的尽可能速度快，召回和粗排Student则追求在模型小的前提下追求效果尽可能好。因为排序Teacher比较复杂，所以能够提供尽可能好的模型效果，通过它来带动三个环节蒸馏模型的效果，而模型速度快则是蒸馏方法的题中应有之意。

这样做有不少好处，比如可以一次训练，多环节收益；再比如可以最大程度上保持推荐系统各个环节的目标一致性等；做起来又不太难，所以看上去是个可行的方案。

最后，归纳下全文，推荐系统在各个环节采取知识蒸馏方法，是可能达到提升推荐质量的同时，提高推荐系统速度的，一举两得，比较容易产生效益，所以是值得深入探索及应用的。

转自：https://zhuanlan.zhihu.com/p/143155437

你可能感兴趣的:(数据挖掘,推荐系统,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement