文文学霸

深度总结 | 知识蒸馏在推荐系统中的应用

作者 | 张俊林@新浪微博

来源 | 知乎

链接 | https://zhuanlan.zhihu.com/p/143155437

知识蒸馏典型方法
知识蒸馏在推荐系统中的三个应用场景
知识蒸馏在三类推荐排序中的方法介绍
联合训练召回、粗排及精排模型的设想

随着深度学习的快速发展，优秀的模型层出不穷，比如图像领域的ResNet、自然语言处理领域的Bert，这些革命性的新技术使得应用效果快速提升。但是，好的模型性能并非无代价的，你会发现，深度学习模型正在变得越来越复杂，网络深度越来越深，模型参数量也在变得越来越多。而这会带来一个现实应用的问题：将这种复杂模型推上线，模型响应速度太慢，当流量大的时候撑不住。

知识蒸馏就是目前一种比较流行的解决此类问题的技术方向。一般知识蒸馏采取Teacher-Student模式：将复杂模型作为Teacher，Student模型结构较为简单，用Teacher来辅助Student模型的训练，Teacher学习能力强，可以将它学到的暗知识（Dark Knowledge）迁移给学习能力相对弱的Student模型，以此来增强Student模型的泛化能力。复杂笨重但是效果好的Teacher模型不上线，就单纯是个导师角色，真正上战场挡抢撑流量的是灵活轻巧的Student小模型。比如Bert，因为太重，很难直接上线跑，目前很多公司都是采取知识蒸馏的方法，学会一个轻巧，但是因为被Teacher教导过，所以效果也很好的Student模型部署上线。

一、知识蒸馏典型方法

目前知识蒸馏已经成了独立研究方向，各种新技术层出不穷。但是如果粗略归纳一下的话，主流的知识蒸馏技术有两个技术发展主线：Logits方法及特征蒸馏方法。

我们先简单说明下Logits方法的思路。在介绍之前，首先得明白什么是Logits。我们知道，对于一般的分类问题，比如图片分类，输入一张图片后，经过DNN网络各种非线性变换，在网络接近最后一层，会得到这张图片属于各个类别的大小数值，某个类别的数值越大，则模型认为输入图片属于这个类别的可能性就越大。什么是Logits? 这些汇总了网络内部各种信息后，得出的属于各个类别的汇总分值，就是Logits, i代表第i个类别，代表属于第i类的可能性。因为Logits并非概率值，所以一般在Logits数值上会用Softmax函数进行变换，得出的概率值作为最终分类结果概率。Softmax一方面把Logits数值在各类别之间进行概率归一，使得各个类别归属数值满足概率分布；另外一方面，它会放大Logits数值之间的差异，使得Logits得分两极分化，Logits得分高的得到的概率值更偏大一些，而较低的Logits数值，得到的概率值则更小。上图中的公式，就是一个变体的Softmax公式，如果把T拿掉或令T=1，则是个标准的Softmax公式，就是第i个类别的Logits数值，是Logits数值经过Softmax变换后，归属于第i个类别的概率值。

知道了什么是Logits后，我们来说什么是Logits蒸馏方法。假设我们有一个Teacher网络，一个Student网络，输入同一个数据给这两个网络，Teacher会得到一个Logits向量，代表Teacher认为输入数据属于各个类别的可能性；Student也有一个Logits向量，代表了Student认为输入数据属于各个类别的可能性。最简单也是最早的知识蒸馏工作，就是让Student的Logits去拟合Teacher的Logits，即Student的损失函数为：

其中，是Teacher的Logits，是Student的Logits。在这里，Teacher的Logits就是传给Student的暗知识。

Hinton在论文Distilling the Knowledge in a Neural Network中提出了称为Softmax Temperature的改进方法，并第一次正式提出了“知识蒸馏”的叫法。Softmax Temperature改造了Softmax函数（公式参考上图），引入了温度T，这是一个超参数。如果我们把T设置成1，就是标准的Softmax函数，也就是极端两极分化版本。如果将T设大，则Softmax之后的Logits数值，各个类别之间的概率分值差距会缩小，也即是强化那些非最大类别的存在感；反之，则会加大类别间概率的两极分化。Hinton版本的知识蒸馏，让Student去拟合Teacher经过T影响后Softmax得到的，其实也是让Student去学习Teacher的Logits，无非是加入T后可以动态调节Logits的分布。Student的损失函数由两项组成，一个子项是Ground Truth，就是在训练集上的标准交叉熵损失，让Student去拟合训练数据，另外一个是蒸馏损失，让Student去拟合Teacher的Logits：

H是交叉熵损失函数，是Student模型的映射函数，是Ground Truth Label，是Teacher的Logits，是Student的Logits，是Softmax Temperature函数，用于调节蒸馏Loss的影响程度。

一般而言，温度T要设置成大于1的数值，这样会减小不同类别归属概率的两极分化程度，因为Logits方法中，Teacher能够提供给Student的额外信息就包含在Logits数值里。如果我们在蒸馏损失部分，将T设置成1，采用常规的Softmax，也就是说两极分化严重时，那么相对标准的训练数据，也就是交叉熵损失，两者等同，Student从蒸馏损失中就学不到任何额外的信息。

另外一种大的知识蒸馏思路是特征蒸馏方法，如上图所示。它不像Logits方法那样，Student只学习Teacher的Logits这种结果知识，而是学习Teacher网络结构中的中间层特征。最早采用这种模式的工作来自于自于论文：“FITNETS：Hints for Thin Deep Nets”，它强迫Student某些中间层的网络响应，要去逼近Teacher对应的中间层的网络响应。这种情况下，Teacher中间特征层的响应，就是传递给Student的暗知识。在此之后，出了各种新方法，但是大致思路还是这个思路，本质是Teacher将特征级知识迁移给Student。因为介绍各种知识蒸馏方法不是我们的主题，这里不展开了，我们尽快切入主题。

二、知识蒸馏在推荐系统中的三个应用场景

我们知道，工业界常见推荐系统一般有三个级联的过程：召回、粗排以及精排。召回环节从海量物品库里快速筛选部分用户可能感兴趣的物品，传给粗排模块，粗排环节通常采取使用少量特征的简单排序模型，对召回物料进行初步排序，并做截断，进一步将物品集合缩小到合理数量，向后传递给精排模块，精排环节采用利用较多特征的复杂模型，对少量物品进行精准排序。其中，粗排环节根据具体应用可选可不选。

那么，在这种串行级联的推荐体系中，知识蒸馏可以应用在哪个环节呢？假设我们在召回环节采用模型排序（FM／FFM／DNN双塔等模型），那么知识蒸馏在上述三个环节都可采用，不同环节采用知识蒸馏的目的可能也不太相同。也就是说，精排、粗排以及模型召回环节都可以采用知识蒸馏技术来优化现有推荐系统的性能和效果，这里的性能指的线上服务响应速度快，效果指的推荐质量好。

2.1 精排环节采用知识蒸馏

为何在精排环节采用知识蒸馏？我们知道，精排环节注重精准排序，所以采用尽量多特征，复杂模型，以期待获得优质的个性化推荐结果。但是，这同时也意味着复杂模型的在线服务响应变慢。若承载相同流量，需要增加在线服务并行程度，也就意味着增加机器资源和成本，比如，DNN 排序模型相对LR／FM等非深度模型，在线推理速度下降明显。此时，我们面临两难选择：要么上简单模型，但是付出的代价是推荐效果不如复杂模型好；要么上复杂模型，虽说效果是提高了，但是要付出额外的机器等资源及成本。有什么技术方案能够在两者之间做个均衡么？就是说，希望找到一个模型，这个模型既有较好的推荐质量，又能有快速推理能力。我们可以实现这一目标么？可以的，在精排环节上知识蒸馏模型即可。

上图展示了如何在精排环节应用知识蒸馏：我们在离线训练的时候，可以训练一个复杂精排模型作为Teacher，一个结构较简单的DNN排序模型作为Student。因为Student结构简单，所以模型表达能力弱，于是，我们可以在Student训练的时候，除了采用常规的Ground Truth训练数据外，Teacher也辅助Student的训练，将Teacher复杂模型学到的一些知识迁移给Student，增强其模型表达能力，以此加强其推荐效果。在模型上线服务的时候，并不用那个大Teacher，而是使用小的Student作为线上服务精排模型，进行在线推理。因为Student结构较为简单，所以在线推理速度会大大快于复杂模型；而因为Teacher将一些知识迁移给Student，所以经过知识蒸馏的Student推荐质量也比单纯Student自己训练质量要高。这就是典型的在精排环节采用知识蒸馏的思路。至于具体蒸馏方法，后文会介绍。当然，你也可以根据前文介绍的经典知识蒸馏方案，自己试着想想应该怎么做。

对于精排环节来说，我觉得，知识蒸馏比较适合以下两种技术转换场景：

一种是排序模型正在从非DNN模型初次向DNN模型进行模型升级；在超大规模数据场景下，从非DNN模型切换到DNN模型，切换成本和付出的时间因素可能比你预想得要高，尤其是线上服务环节，切换到DNN模型导致大量增加在线服务机器成本，这对于很多公司来说是无法接受的。如果在做模型升级的时候采取知识蒸馏方案，导致的效果是：相对线上的非DNN模型，即使上一个蒸馏小模型，效果也可能是有提升的，同时在线服务占用资源能降下来（相对直接上个复杂DNN模型），在线服务速度快，所以可以明显降低模型升级的成本，这样可以相对容易地切换到DNN版本排序模型上来。

第二种情况是：目前尽管线上已经采用了DNN 排序模型，但是模型还非常简单，这个也有利用知识蒸馏优化效果的空间；这种情形下，现有在线模型的服务速度可能是足够快的，因为在线服务模型还比较简单，即使换成Student小模型，在这方面估计也差不太多。但是，可以期待通过知识蒸馏提升线上模型的推荐质量。我们可以离线训练一个复杂但是效果明显优于线上简单DNN排序模块的模型作为Teacher，然后通过知识蒸馏，训练一个可以代替目前线上模型的Student小模型。如果这样，是有可能在响应速度不降的前提下，模型效果上有所提升的。所以，感觉这种情况也比较适合采用蒸馏模型。

而对于其它情形，比如目前线上已有较为复杂的DNN排序系统的业务或者公司，至于是否要上知识蒸馏，则需要面临一个权衡：采用知识蒸馏，线上服务模型从复杂模型切换成小模型，肯定可以明显提高线上QPS，减少服务资源，效率提升会比较大；但是，有可能推荐质量比线上的大模型会有下掉。所以，业务场景是否接受这种指标的临时下降？这个问题的答案决定了不同的选择，在有些业务场景下，这是需要好好考虑考虑的。不同业务环境可能会作出不同的选择。

2.2 模型召回以及粗排采用知识蒸馏

在模型召回环节，或者粗排环节，采取知识蒸馏的方案，是非常自然的一个想法拓展，而且非常合算。目前，这块基本看不到完全公开细节的技术资料，所以本文我重点谈谈在这块可能采用的技术，和几位同学讨论出若干可能的方案会列在后面，感兴趣的同学可以尝试一下，在这里是很容易作出收益的，所以特别值得关注与尝试，相信这块用好了，会对完成你的KPI有帮助。

这里所谓的合算，怎么理解呢？因为召回或者粗排环节，作为精排的前置环节，有自己承担的独特职责，需要在准确性和速度方面找到一个平衡点，在保证一定推荐精准性的前提下，对物品进行粗筛，减小精排环节压力。所以，这两个环节本身，从其定位来说，并不追求最高的推荐精度，就算模型效果比精排差些，这也完全不成问题，毕竟在这两个环节，如果准确性不足可以靠返回物品数量多来弥补。而模型小，速度快则是模型召回及粗排的重要目标之一。这就和知识蒸馏本身的特点对上了，所以在这里用是特别合算的。

那么，召回或者粗排怎么用蒸馏呢？如果我们如上图所示，用复杂的精排模型作为Teacher，召回或粗排模型作为小的Student，比如FM或者双塔DNN模型等，Student模型模拟精排环节的排序结果，以此来指导召回或粗排Student模型的优化过程。这样，我们可以获得满足如下特性的召回或者粗排模型：首先，推荐效果好，因为Student经过复杂精排模型的知识蒸馏，所以效果虽然弱于，但是可以非常接近于精排模型效果；其次，Student模型结构简单，所以速度快，满足这两个环节对于速度的要求；再次，通过Student模型模拟精排模型的排序结果，可以使得前置两个环节的优化目标和推荐任务的最终优化目标保持一致，在推荐系统中，前两个环节优化目标保持和精排优化目标一致，其实是很重要的，但是这点往往在实做中容易被忽略，或者因条件所限无法考虑这一因素，比如非模型召回，从机制上是没办法考虑这点的。这里需要注意的一点是：如果召回模型或者粗排模型的优化目标已经是多目标的，对于新增的模型蒸馏来说，可以作为多目标任务中新加入的一个新目标，当然，也可以只保留单独的蒸馏模型，完全替换掉之前的多目标模型，貌似这两种思路应该都是可以的，需要根据具体情况进行斟酌选择。

由以上分析，可见，召回或粗排环节的知识蒸馏方案，看上去貌似是为召回和粗排环节量身定制的推荐系统优化技术选项，对于召回或者粗排优化来说，应该是必试的一个技术选项。

下面我们讨论下在推荐系统里，在各个环节采用知识蒸馏的可能的具体方法。精排蒸馏有三篇公开文献可供参考，而召回或粗排方面的蒸馏技术，很少见相关公开资料，所以后面列的多数是我和几位同学讨论的方案，除个别方法有实践结果外，大多方法仍处于设想阶段，目前并未落地，所以不能保证有效性，这点还需要注意。

三、精排环节蒸馏方法

目前推荐领域里，在精排环节采用知识蒸馏，主要采用Teacher和Student联合训练（Joint Learning）的方法，而目的是通过复杂Teacher来辅导小Student模型的训练，将Student推上线，增快模型响应速度。

如上图所示，所谓联合训练，指的是在离线训练Student模型的时候，增加复杂Teacher模型来辅助Student，两者同时进行训练，是一种训练过程中的辅导。从网络结构来说，Teacher和Student模型共享底层特征Embedding层，Teacher网络具有层深更深、神经元更多的MLP隐层，而Student则由较少层深及神经元个数的MLP隐层构成，两者的MLP部分参数各自私有。对于所有训练数据，会同时训练Teacher和Student网络，对于Teacher网络来说，就是常规的训练过程，以交叉熵作为Teacher的损失函数。而对于Student网络来说，损失函数由两个部分构成，一个子项是交叉熵，这是常规的损失函数，它促使Student网络去拟合训练数据；另外一个子项则迫使Student输出的Logits去拟合Teacher输出的Logits，所谓蒸馏，就体现在这个损失函数子项，通过这种手段让Teacher网络增强Student网络的模型泛化能力。也即：

H是交叉熵损失函数，是Student模型的映射函数，是Ground Truth Label，是Teacher的Logits，是Student的Logits，用于调节蒸馏Loss的影响程度。

这个模型是阿里妈妈在论文“Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net”中提出的，其要点有三：其一两个模型同时训练；其二，Teacher和Student共享特征Embedding；其三，通过Logits进行知识蒸馏。对细节部分感兴趣的同学可以参考原始文献。

爱奇艺在排序阶段提出了双DNN排序模型，可以看作是在阿里的rocket launching模型基础上的进一步改进。如上图所示，Student和Teacher共享特征Embedding参数层，Student模型在损失函数中加入了拟合Teacher输出阶段的Logits子项，这两点和rocket launching是类似的。主要改进有两点：首先，为了进一步增强student的泛化能力，要求student的隐层MLP的激活也要学习Teacher对应隐层的响应，这点同样可以通过在student的损失函数中加子项来实现。但是这会带来一个问题，就是在MLP隐层复杂度方面，Student和Teacher是相当的，我们说过，一般知识蒸馏，老师要比学生博学，那么，在这个结构里，Teacher相比student，模型复杂在哪里呢？这引出了第二点不同：双DNN排序模型的Teacher在特征Embedding层和MLP层之间，可以比较灵活加入各种不同方法的特征组合功能，通过这种方式，体现Teacher模型的较强的模型表达和泛化能力。

爱奇艺给出的数据对比说明了，这种模式学会的student模型，线上推理速度是Teacher模型的5倍，模型大小也缩小了2倍。Student模型的推荐效果也比rocket launching更接近Teacher的效果，这说明改进的两点对于Teacher传授给Student更强的知识起到了积极作用。更多信息可参考：双 DNN 排序模型：在线知识蒸馏在爱奇艺推荐的实践

四、召回／粗排环节蒸馏方法

上面介绍了阿里和爱奇艺在精排方面的两个知识蒸馏应用工作，目前知识蒸馏应用在推荐领域的公开资料很少，虽说上面两个工作是应用在精排，目的是加快线上模型推理速度，但是稍微改进一下，也可以应用在召回模型以及粗排模型。

假设我们打算使用上述方案改造召回或者粗排模型，一种直观的想法是：我们基本可以直接参照rocket launching的方案稍作改动即可。对于粗排或者召回模型来说，一般大家会用DNN双塔模型建模，只需要将粗排或召回模型作为Student，精排模型作为Teacher，两者联合训练，要求Student学习Teacher的Logits，同时采取特征Embedding共享。如此这般，就可以让召回或粗排模型学习精排模型的排序结果。快手曾经在AICon分享过在粗排环节采取上面接近rocket launching的蒸馏技术方案，并取得了效果。

因双塔结构将用户侧和物品侧特征分离编码，所以类似爱奇艺技术方案的要求Student隐层学习Teacher隐层响应，是很难做到的。粗排尚有可能，设计简单网络DNN结构的时候不采取双塔结构即可，召回环节几无可能，除非把精排模型也改成双塔结构，可能才能实现这点，但这样可能会影响精排模型的效果。

但是，问题是：我们有必要这么兴师动众，为了训练召回或粗排的蒸馏模型，去联合训练精排模型么？貌似如果这样,召回模型对于排序模型耦合得过于紧密了，也有一定的资源浪费。其实我们未必一定要两者联合训练，也可以采取更节省成本的两阶段方法。

4.1 召回蒸馏的两阶段方法

在专门的知识蒸馏研究领域里，蒸馏过程大都采取两阶段的模式，就是说第一阶段先训练好Teacher模型，第二阶段是训练Student的过程，在Student训练过程中会使用训练好Teacher提供额外的Logits等信息，辅助Student的训练。

私以为，精排环节貌似还是联合训练比较好，而召回或粗排环节采取两阶段模式估计更有优势。为什么这么说呢？你可以这么想：如果我们的目的是希望训练一个小的Student精排模型，貌似没有太大的必要采取两阶段训练过程，因为无论是联合训练也好，还是两阶段训练也好，反正一大一小两个模型都需要完整训练一遍，消耗的资源类似。而如果联合训练，则还可以应用特征embedding共享、隐层响应学习等更多可选的技术改进方案。所以貌似没有太大必要改成两阶段的模式。

但是，如果是召回模型或粗排模型作为Student，则情况有所不同。首先，比如隐层响应等技术手段，本来召回或粗排Student模型就无法使用（粗排如果不用双塔，而是简单DNN模型，还是可以的），所以联合训练相对两阶段训练增加的好处不明显。至于Student和Teacher特征Embedding共享，如果是在两阶段模式下，则可以改为使用Teacher训练好的特征Embedding初始化Student的特征，这样貌似损失也不大，所以两阶段模式相对联合训练模式，在效果方面并无明显劣势。另外，因为我们希望召回或者粗排模型学习精排模型，而一般而言，我们能够拿到一个已经训练好的精排模型，比如最近上线的精排模型，既然这样，我们可以直接用当前已训练好的精排模型，让它把用于召回模型的训练数据跑一遍，给每个训练数据打上Logits信息，然后，就可以按照与联合训练完全一样的方式去训练召回蒸馏模型了，优化目标是Ground Truth子目标和Logits蒸馏子目标。上图展示了这一过程。这样做，明显我们节省了精排Teacher的联合训练迭代成本。不过，这种方法是否有效不确定，感兴趣的同学可以尝试一下，不过推论起来应该是能保证效果的。

上面的方法，还是模仿精排蒸馏方式，无非改成了相对节省资源的两阶段模式。这里我们关心另外一个问题：对于召回蒸馏Student模型来说，是否一定要优化那个Ground Truth子目标？这可能要分情况看。按理说，蒸馏模型带上Ground Truth优化目标肯定效果要好于不带这个子目标的模型。如果我们的召回模型或者粗排模型是单目标的，比如就优化点击，那么明显还是应该带上Ground Truth优化目标。但是，事实上，很可能我们手上的召回模型或粗排模型已经是多目标的了，那么这种情况下，其实蒸馏Student模型就没有太大必要带Ground Truth优化目标，因为多目标已经各自做了这个事情了。这种情况下，独立优化蒸馏目标，然后将其作为多目标的一个新目标加入召回或粗排模型比较合适。

所以，我们下面介绍的方案，就抛掉Ground Truth优化目标，单独优化蒸馏目标。如果根据蒸馏Student模型是否需要参考Teacher提供的Logits信息来对方法进行分类，又可以进一步划分为参考Logits信息的方案，和不参考Logits信息的方案。按理说，参考Logits信息效果应该好些，但是，这样Student仍然对Teacher有依赖，而不参考Logits信息的方案比较独立，基本不需要精排模型的直接介入，所需信息直接可以在常规的推荐系统Log里拿到，实现起来更具简单和独立性。而且，如果精排模型已经是多目标的，可能很难获得那个Logits数值，但是我们能够拿到精排模块的排序结果，这意味着Student在优化蒸馏目标的时候，就已经朝着多目标进行优化了，是一种在召回或粗排进行非精细化多目标方向优化的一种简洁手段，所以有额外的好处。如果出于上述目的，此时明显用非Logits方案更从容。综合而言，从效果考虑，应该考虑引入Logits，从独立性和简洁性角度，可以参考非Logits方案。这可能与现实场景相关。

4.2 Logits方案

在召回或者精排采用知识蒸馏，此时，精排模型其实身兼二职：主业是做好线上的精准排序，副业是顺手可以教导一下召回及粗排模型。所以，其实我们为了让Teacher能够教导Student，在训练Student的时候，并不需要专门训练一遍Teacher精排模型，因为它就在线上跑着呢。而且我们抛开了Ground Truth优化子目标，所以不需要Teacher对训练数据都过一遍，而只需要多做一件事情：线上精排模型在输出排序结果的时候，对于当前判断实例，除了给出是否点击等判断外，只要把对应优化目标的Logits数值输出，并计入Log即可。这样，召回或粗排模型可以直接使用训练数据中记载的Logits，来作为Student的训练数据，训练蒸馏模型，上图展示了这一过程。所以，综合看，这种Logits方案，是更节省计算资源的方案。当然，上述都是我的个人推论，实际效果如何，还需要做对比实验才能说明问题。

4.3 Without-Logits方案

另外一类方法可以进一步减少Student对Teacher的依赖，或适用于无法得到合理Logits信息的场合，即Student完全不参考Logits信息，但是精排作为Teacher，怎么教导Student呢？别忘了，精排模型的输出结果是有序的，这里面也蕴含了Teacher的潜在知识，我们可以利用这个数据。也就是说，我们可以让Student模型完全拟合精排模型的排序结果，以此学习精排的排序偏好。我们知道，对于每次用户请求，推荐系统经过几个环节，通过精排输出Top K的Item作为推荐结果，这个推荐结果是有序的，排在越靠前的结果，应该是精排系统认为用户越会点击的物品。

那么，我们其实可以不用Logits，粗排或者召回环节的Student的学习目标是：像精排模型一样排序。这时，精排模型仍然是Teacher，只是传给召回或粗排模型的知识不再是Logits，而是一个有序的列表排序结果，我们希望Student从这个排序结果里面获取额外的知识。如果这样的话，对于目前的线上推荐系统，不需要做任何额外的工作，因为排序结果是会记在Log里的（也可以用推荐系统在精排之后，经过Re-ranker重排后的排序结果，这样甚至可以学习到一些去重打散等业务规则），只要拿到Log里的信息，我们就可以训练召回或粗排的Student蒸馏模型。

也就是说，对于召回或者粗排模型来说，它看到了若干精排的排序结果列表，精排模型的知识就蕴含在里面，而这可以作为Student模型的训练数据来训练蒸馏模型。很明显，这是一个典型的Learning to Rank问题。我们知道，对于LTR问题，常见的优化目标包括三种：Point Wise、Pair Wise和List Wise。于是，我们可以按照这三种模式来设计召回模型或粗排模型的蒸馏学习任务。其中，下面文中提到的Point Wise方式我们已亲试有效，至于Pair Wise和List Wise蒸馏，仍需实验才能证明是否有效。

五、Point Wise蒸馏

在Point Wise优化目标下理解召回模型蒸馏，就是说，我们把精排模型的有序输出结果作为训练数据，把学习目标看作一个二分类问题，通过这种方式试图学习精排模型的排序偏好。这种情况下，分类模型的正负例如何设定呢？我们不能把精排模型输出结果列表里用户行为过的Item作为正例，因为这样你等于在学比如点击或者互动等用户行为模型，而不是在学精排模型的排序偏好。一般而言，可以这么做：假设精排每次返回N个结果，我们取列表前Top K的排序靠前的结果，将其指定为正例，位置K之后的例子，作为负例。意思是通过排名最高的一部分数据，来学习精排模型的排序偏好。这样，我们就可以拿这些非标注的排序结果来训练召回模型。当然，这里的K是个超参，怎么定更合理，可能需要实验来确定。上图展示了这一做法。

通过这种方式，我们就可以让召回模型从精排模型的排序列表中学到排序偏好知识，达成知识蒸馏的目标。这种做法，有个可以改进的点：上述切分正负例的方法，并未强调物品排序位置。比如假设K值取5，就是排名前5的物品作为正例，之后的作为负例。正例中排名Rank 1的物品，和排名Rank 4的物品，都各自作为一条正例，没有差别。但是，我们知道，Rank 1应该排名比Rank 4更高，但模型训练过程并没有利用这个信息。我们可以通过对正例引入Loss Weight的简单处理方法来引入这一信息，比如引入一个跟位置相关的Weight函数：

其中，Rank Position是Item的排名名次，将其作为变量引入函数，以此映射函数的数值作为正例的Loss Weight，负例Loss Weight权重与常规训练一样，可认为缺省Loss Weight权重为1。在具体设计这个函数的时候，指导思想是：希望这个函数能做到，排名越靠前的正例，对应的Loss Weight越大。将这个Loss Weight引入损失函数中，就可以让模型更关注排名靠前的物品。比如，我们可以这么定义函数：

这里，Position是排名位置，比如Rank Position=1，则Position=1；Rank Position=4，则Position=4;通过这种定义，就能使得排名靠前的正例，对应的Loss Weight越大，而a可以作为调节权重，来放大或者缩小排名位置的影响。当然，这里还可以引入其它各种花样的Loss Weight定义方法。

热门微博尝试了上述思路FM版本的蒸馏召回模型（多目标召回模型基础上增加蒸馏召回目标），线上AB测试效果，在时长、点击、互动等多个指标都有2+%到6+%之间的不同程度的提升作用，目前正在尝试更多变体模型。

六、Pair Wise蒸馏

如果我们用Pair Wise Loss的方式来看待召回模型优化问题，可以这么思考：精排的排序结果是有序列表，在列表内随机任意抽取两个Item，都能维持序关系。那么很明显，我们可以构造成对的训练数据，以Item为正例，以排在Item后面任意某个Item作为负例，以此方式构造训练数据来训练模型。在推荐领域，最常用的Pair Wise Loss是BPR损失函数，于是我们可以如法炮制，如上图所示，假设对于排在第三位的Item作为正例，可以抽取排名在其之后的Item，构造足够多的成对训练数据，以此目标来优化召回模型，使得模型可以学会Item间的序列关系。

对成对的训练数据，BPR损失函数希望某个预测系统能够对正例的得分要高于负例的得分，具体计算方法如上图所示，因为是个基础概念，此处不展开介绍。

论文Ranking Distillation: Learning Compact Ranking Models With High Performance for Recommender System 提出了使用Point Wise和Pair Wise Loss来使用Teacher的输出结果训练Student的方法，文中说貌似上面这种BPR的Loss会导致Student训练不稳定有时不收敛，所以这种模式还需要进一步探索成功路径。Ranking Distillation里采用的Point Wise Loss方式是比较成功的，不过和上文介绍的Point Wise有个区别:对于Teacher输出的结果，选择Top K的Item作为正例，没有选取负例；另外Student引入了Ground Truth作为Loss子项。文中还提出了几种比较有意思的Position Loss Weight方法。对具体细节感兴趣的同学可以参考。

七、List Wise蒸馏

Point Wise Loss将学习问题简化为单Item打分问题，Pair Wise Loss对能够保持序关系的训练数据对建模，而List Wise Loss则对整个排序列表顺序关系建模。List Wise Loss经常被用在排序问题中，但是有个现实困难是训练数据不好做，因为排序列表里每个Item的价值需要人工标注。

我们来考虑下召回蒸馏模型的List Wise Loss优化目标怎么做的问题。既然我们能拿到大量精排给出的有序列表，貌似我们是不缺训练数据的，但是这里隐藏着个潜在的问题，问题等会我们再说。我们先说个应用案例，Instagram的推荐系统在初排阶段采用知识蒸馏的方法，使用精排作为Teacher来指导Student的优化，Student的优化目标用的是NDCG，这是一种非常常用的List Wise Loss函数，对Instagram推荐系统感兴趣的同学可以参考文章：Instagram 推荐系统：每秒预测 9000 万个模型是怎么做到的？

不过遗憾的是，上述文章并未说明是具体怎么做的，只能靠我们自己来摸索一下。其实细想一下，在这里用NDCG来学习精排输出的有序列表，这面临待解决的问题：用NDCG是有前提条件的，有序列表中的每个Item，都需要带有一个价值分。比如对于搜索排序来说，最相关Item是5分，次相关Item是4分，类似这种分数，这一般是人工标注上的，而List Wise Loss就希望排序系统能够将列表整体获得的价值分最大化。上面我们提到存在的问题就是：精排系统只给出了Item之间的排序关系，每个Item并没有提供对应的价值分。

那么，如果想用NDCG或者类似的其它List Wise 损失函数，怎样才能得到列表内每个Item的价值分呢？人工打标注显然是不现实的。这里，感觉可以利用一下精排系统输出的Logits信息，假设我们可以设计一个函数：

这个函数以Logits分数为输入变量，将其映射到比如1分到5分几档上，Logits得分越大，则对应档次分越高。如果我们能做到这点，就可以使用List Wise损失函数来训练召回或粗排模型了。这个函数定义有各种可能的方法，这里不展开，各位有兴趣的同学可以试试。

如果我们想更简单点，不用Logits分数，那么有更加简单粗暴的方法，比如强行将有序列表排在Top 5的Item设置成5分，排在6到10位置的Item赋予4分…..类似这种。这等价于这么定义F函数的：

这个公式充分展示了工业界的简单暴力算法美学，我相信类似的公式充斥于各大公司的代码仓库角落里。

八、联合训练召回、粗排及精排模型的设想

如果我们打算把知识蒸馏这个事情在推荐领域做得更彻底一点，比如在模型召回、粗排以及精排三个环节都用上，那么其实可以设想一种“一带三”的模型联合训练方法。

如上图所示，我们可以设计一个很复杂但是效果很好的排序模型作为Teacher，然后和召回、粗排、精排三个Student联合训练，精排Student可以使用Logits以及隐层特征响应等各种手段优化，追求效果好前提下的尽可能速度快，召回和粗排Student则追求在模型小的前提下追求效果尽可能好。因为排序Teacher比较复杂，所以能够提供尽可能好的模型效果，通过它来带动三个环节蒸馏模型的效果，而模型速度快则是蒸馏方法的题中应有之意。

这样做有不少好处，比如可以一次训练，多环节收益；再比如可以最大程度上保持推荐系统各个环节的目标一致性等；做起来又不太难，所以看上去是个可行的方案。

最后，归纳下全文，推荐系统在各个环节采取知识蒸馏方法，是可能达到提升推荐质量的同时，提高推荐系统速度的，一举两得，比较容易产生效益，所以是值得深入探索及应用的。

致谢：上面列的很多想法是在和几位同学的讨论中形成或完善的，感谢微博机器学习佘青云、王志强等同学提出的思路和建议。

喜欢的话点个在看吧????

你可能感兴趣的:(深度总结 | 知识蒸馏在推荐系统中的应用)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe