风度78

【论文解读】YouTube采样修正的双塔模型论文精读

「本文概览」

《Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations》是谷歌在2019年的RecSys上发表的一篇非常具有工业风的论文，介绍了在大规模推荐系统中使用双塔模型来做召回的一些经验，值得细细品读。

1. 这篇文章要解决什么问题？

大规模推荐系统一般分为两个阶段，即召回和排序阶段。本文的重点就在于为一个有百万量级物品的个性化推荐构建一个召回系统。

给定{用户，上下文，物品}的三元组，召回模型通用的方法是：

1）分别计算{用户，上下文} 和 {物品} 的向量表示；
2）利用一个简单的打分函数（例如点积）来计算二者的匹配得分。

“上下文”通常是有动态性质的变量，例如一天里的时间、用户的设备等等。这种基于表示学习的方法通常面临两个方面的挑战：

1）工业级推荐系统的物品集通常很大；
2）从用户反馈中收集的训练数据通常很稀疏，导致对长尾内容的预测过拟合。对于cold-start问题，推荐系统需要适应数据分布的变化来更好地推荐新内容（fresh content）。

工业界现有的推荐系统都需要从一个超大规模的候选集中拉取item进行打分排序。解决数据稀疏和大规模候选集分布的一种通用做法是从item的内容特征中学习出item的稠密表示。这里很自然地就想到了工业界大名鼎鼎且应用广泛的双塔神经网络结构，其中的一塔就是从丰富的item内容特征中学习到item的表示。双塔网络结构如下所示：

上图中双塔模型两侧分别对 {用户，上下文} 和 {物品} 进行建模，并在最后一层计算二者的内积。模型训练好后用图中的两个向量和求dot，对相似度高的item做推荐。其中分两部分：左侧user塔后面的user embedding需要在请求来的时候实时计算；右侧item塔训练的时候预计算好，然后灌入一个向量检索工具中，首先建立索引，然后转化为一个向量检索问题，这方面基本做推荐的各家大公司都有自己的开源工具，比如faiss，annoy等。

YouTube将视频召回看做一个多分类问题，多分类问题中最常使用的激活函数就是Softmax，但是要知道YouTube上视频素材库中的视频数量是巨大的，当类别数量特别大时，使用Softmax来训练模型是比较耗时的。所以一种常用的方法就是进行采样，工业界目前采用流式训练双塔结构一般是通过随机mini-batch内负采样的方式来优化损失函数。这种训练方式存在的一个显著问题就是in-batch loss会因为随机采样偏差而导致模型效果不好，尤其是当样本分布出现明显倾斜的时候。这种batch内负采样的方法具有采样偏差，无法保证采样后的分布和原始数据分布是一样的，这样模型学习到的将会是错误的分布从而影响模型的效果。

为此，作者一方面对损失函数进行了改进（加权对数似然函数），另一方面提出了一种对采样概率进行自适应修正的算法，可以从流式数据中预估item的频率。通过理论分析和实验结果表明，该算法有能力在不知道候选集全部的词典情况下做出无偏差的估计并且可以自适应候选集分布的变化。随后，作者采用了这种“采样偏差修正”的方法为 YouTube 建立了一个基于神经网络的大型检索（召回）系统，该系统用于从包含数千万个视频的语料库中提供个性化服务。

Microstrong在尝试采用流式训练数据做双塔召回时，思考以下问题：

流式训练中，batch内随机负采样效果不佳，如何能拿到item的出现频次，做Negative Sampling呢？我们知道流式训练，训练数据是以滚动的方式输入到网络模型中的，我们无法维护一个动态且占高内存的词表及item频次信息。如果无法拿到item出现的频次，就不能准确的进行负采样操作。
在batch内如何采样，才能使用batch softmax 损失函数呢？召回场景下batch softmax与交叉墒相比，优势在哪里？
当我们进行batch内负采样的时候，item被采作负样本的概率约等于其出现在原始样本中的概率。这样会导致一些热门的受欢迎的item更容易被当成负样本。而在大多数推荐场景中有很明显的热点效应，对于这些热门item的过度打压会使得模型倾向于推荐一些冷门的item，从而影响线上表现。是否可以使用这篇论文提出的修正loss解决此问题呢？

以上三个问题，都促使我精读Google在YouTube视频推荐中具有落地指导意义的这篇论文。

2. 用了什么方法解决？

2.1 采样概率修正

整个召回系统采用的是双塔结构，即分别构建用户侧的Embedding和视频侧的Embedding，两个塔的输出就是各自的embedding向量，最终模型的输出为两个Embedding内积后的结果，即：

θ θ

假设有条训练样本，模型的目标是从这些训练样本中学习模型参数，即：

其中，表示用户特征和上下文特征，表示物品特征，表示每条样本的回报，比如文章的阅读时长、视频的播放比例等。

这篇论文将视频召回看做一个多分类的问题，通常各个类别的权重都为，但是在该场景中，论文中引入了一个用户偏好的权重（用户观看某视频的播放比例）。给定一个用户，从个物品的候选集中选择要推荐的物品。这是一个多分类问题，将模型的输出经过一个Softmax函数之后得到具体对应的类别概率，多分类Softmax函数定义如下：

基于上述Softmax函数的输出和用户偏好权重，损失函数采用加权对数似然函数的形式，具体如下:

「接下来就是这篇论文的第一个核心点了」，上述的做法相当于把该样本中的作为正样本，其余所有的物品当作负样本。当视频素材库的视频数量巨大时（非常大），计算上述的Softmax函数是十分低效且不太现实的。一种通用的做法是通过随机mini-batch的方式来优化损失函数。假设一个包含条数据的mini-batch，那么对于任意一条数据，Softmax计算公式如下：

这种做法相当于把一个batch中此条数据之外物品当作负样本。但是这种做法存在的缺点就是会因为随机采样偏差而导致模型效果不好。对于热门物品来说，由于采样到的概率非常高，当作负样本的次数也会相应变多，热门物品会被“过度惩罚”。所以论文对user和item的embedding向量计算得到的内积进行了logQ修正，即：

上式中，代表第条样本对应的物品在一个mini-batch中被采样到的概率。这里埋下一个伏笔，如何计算呢？这在下一节会详细介绍。基于此修正的内积，得到修正后的Softmax函数的输出：

以及修正后的损失函数如下所示：

然后利用优化器SGD进行参数的更新。具体的模型训练算法如下所示：

「上述模型训练过程可以归纳为：」

从实时数据流中得到一个batch的样本；
基于下文即将提到的采样概率估计算法得到采样概率；
计算上文介绍的修正后的损失函数；
利用SGD更新模型参数；

2.2 Streaming Frequency Estimation

「这篇论文的第二个核心问题是如何得到和设计一个算法维护更新。」 上文中提出的采样概率修正方法，核心思想在于通过采样频率来估计采样概率，如果某个item的采样频率为，则其采样概率为，按照这样的想法，的定义为：

其中，代表什么呢？又是一个怎么的函数呢？这里我猜测肯定代表的采样频率，带着这些问题，我们接着看到底是如何计算的。

由于YouTube中采用流式训练，因此不断会有新物品出现，那么使用固定长度的词表不太合适，因此采用的方式来对物品的采样概率进行更新。

具体来说，首先定义一个函数，把所有视频都映射到之间。这里一下是因为视频是动态的，随时都可能有新的视频进入系统，所以用函数映射一下固定住视频库大小。同时使用两个长度为的数组和，通过来得到给定的在数组和中下标。

: 表示上一次被采样的step；
: 表示平均多少个step被采样一次，即采样频率。这里频率的意思是预估每过多少步可以被采样到一次，那么倒数就是预估被采样到的概率。

当第步物品被采样到，基于如下的公式更新：

其中，则被赋予当前的训练步数。当训练完成时，预估的物品的采样概率是。从数组的定义可以看出，越小，即在训练样本中采样到的概率越高，比如，每两次就会被采样到一次，那么会比较大，就代表比较热门。接着就是更新，其中可看作学习率，剩下的就是带入到损失函数 θ 中梯度下降求解的过程了。

这里还有一个问题，既然是过程，当时，就会存在冲突的情况。冲突的情况会导致较小，因为会较小，从而导致采样概率预估过高。这里的改进方案是使用Multiple Hashings。即使用多组方程和数组、。当训练完成后，在线推理时，使用最大的一个去计算采样概率。

当然论文里还给出来了"Streaming Frequency Estimation"算法的分布式计算方法，这里把用于估计流式数据中，每个batch下item被采样的概率的算法引申到深度学习的分布式训练中，真的是把这个算法运用到工业中落地的细节也讲到了，想详细了解这一块的知识可以读原论文。

这里说到分布式训练模型，我就想给大家聊一下分布式训练在工业界的重要性。我们都知道，现在稍微复杂的业务，都是分布式训练模型的。这里我必须要强调一下，在工业界中大规模分布式推荐算法工程师的一些必备技能：

「对分布式框架的理解。」 掌握分布式训练这个技能非常重要，比如Tensorflow框架中的ps/worker/chief是怎么协同工作的，参数更新在哪里，模型训练在哪里，模型同步训练还是异步训练，分布式训练框架通信问题等等。
「PySpark/Scala的熟练使用。」 Spark是非常强大的处理大规模数据的工具，为模型准备训练数据非常方便，与Hive SQL的交互也十分方便。因此熟练使用Pyspark、Scala处理大规模训练数据非常的重要。
「Hive SQL。」 这是工作中使用频次很高的语言，推荐算法工程师有时也需要从大规模数据中使用Hive SQL发现问题、分析问题。这也是我们常说的推荐算法工程师要有强烈的数据敏感性。

2.3 一些Tricks

（1）「最近邻搜索」：当Embedding映射函数 (user塔或query塔)和（item 塔）学习好后，在线预测包含两步：

计算query的向量；
从事先训练好的函数中得到所有item的Embedding向量，然后采用近邻搜索的方法用user Embedding找到最邻近的item Embedding。

在实际工程中用双塔模型做大规模物品召回，item塔产出的item Embedding得先灌入faiss中。线上实时得到user Embedding，然后去faiss中计算相似度，实现u2i召回。

（2）「归一化」：经验表明，对两侧输出的Embedding进行归一化效果更好，即：

（3）「对于内积计算的结果，除以一个固定的超参」：

除以超参的效果是把Softmax的结果变得更加明显（sharpen），通过对超参的微调可以使召回率或精确率变的更好。这里温度和知识蒸馏中温度超参的出现位置和作用是一样的。关于温度超参的详细解释请看我的这篇文章：

深度学习中的知识蒸馏技术（上），地址：https://mp.weixin.qq.com/s/E7-MF18Y-UeKx694kGFHzA

3. 模型结构与线上部署

实际中的YouTube双塔到底是怎么用的？整个召回的模型网络如下图所示：

将模型分为两个塔，查询塔（包含上下文特征和用户特征）和物料塔，这个模型使用大量的seed video特征和用户观看历史来训练模型。seed video features 是指用户正在观看的视频所具有的属性，某种程度上表征了用户当前的兴趣。

3.1 训练标签

点击视频为正样本。是一个乘到每个样本的上的加权系数，论文中解释这个系数代表播放进度，如果秒视频看了秒则，加权的初衷是播放进度越长则表明喜好程度越大，配上点击则更强地表达了偏好。

「这里引申出一个问题：在视频推荐场景中的召回阶段，用论文中定义的含加权的是否是最优解？」

这里我觉得可以换个思路尝试一下，因为像视频推荐场景我们可能会用完播/播放百分比/播放时长等目标，完播、播放百分比往往会偏好短视频，播放时长会偏好长视频，一般都需要做消偏处理，把点击目标和播放百分比目标结合到一起反倒是不好消偏了。而且这种召回有点不伦不类，线上召回本身就是多路，完全可以将一路召回拆成点击召回和播放召回两种单独做优化，更能体现召回的本质——从多个角度初筛可能感兴趣的候选。

「更近一步的考虑另外一个问题：像视频推荐场景我们可能会用完播/播放百分比/播放时长等目标，完播往往会偏好短视频，播放时长会偏好长视频，那么也需要做debias，有没有什么好办法来消偏呢？」

方法就是统计后验的指标做消偏，即不是对长视频加权，是对该视频消费时长减去相同时长视频大盘消费时长，对diff加权。

3.2 视频特征

视频特征有诸如视频id、频道id之类的类别特征，也有连续特征。类别特征分为单值类别特征（如 video id）和多值类别特征（如 video topic）。单值类别特征，视频id、频道id等特征转化为embedding，对于多值类别特征，采用对其多值embedding加权求和的方式得到最终的embedding。

这里的channel id不是指的体育/美食这种频道，而是类似于作者id的东西，理由是打开每个视频的作者，其url链接是http://www.youtube.com/channel/***。

3.3 用户特征

用户特征主要是基于用户的历史观看记录来捕获用户的兴趣，比如说，用户最近看过个视频的embedding的平均值来刻画用户兴趣。

对于ID型的类别特征，embedding在模型的两侧是共享的。比如，视频id，两个塔进行共享，更好的学习，保证两个塔在一个空间内。

「这里再抛出一个问题：video id共享embedding的原因是什么，共享是最优解吗？」

模型结构图中有多处用到了video id，比如用户观看历史/正在看的seed video/候选集合。由于都是一个video id的embedding，很容易想到share embedding。我认为这个insight初衷应该是两个，其一能够降低ps存储压力，其二是让embedding学习得更加充分。YouTube实验发现share与否对结果没啥影响，那干脆share还能减资源。

我自己一直都是把能share embedding的ID类特征尽量share embedding，以避免线上服务模型太大，造成线上更新耗时太多的问题。但是，@iwtbs 在文章《借Youtube论文，谈谈双塔模型的八大精髓问题》(地址：https://zhuanlan.zhihu.com/p/369152684)中提到自己的经验是share embedding会让预估效果变差，因为严格意义上来说并不完全是一个空间，所以这个点他持怀疑态度。最终要不要share还是得自己试试才知道，即使效果好也要考虑效果和存储资源trade-off的问题。

3.4 在线服务

模型基于Tensorflow实现，并且进行了分布式实现。同时，YouTube 每天都会生成新的训练数据集，模型也会以天为单位进行更新，这样模型便能适应最新的数据分布变化。

infer阶段就跟普通的DNN召回类似，将全量的视频的embedding计算好，然后线上实时生成查询塔的embedding，通过faiss等工具进行topK的查询。

通过双塔的结构和采样校正，YouTube实现了又快又准的召回，YouTube双塔召回同样也运用在广大公司的线上业务中，并且效果还不错。这里列举一些工业界的实践案例：

向量化召回在360信息流广告的实践 - 被包养的程序猿丶的文章 - 知乎 https://zhuanlan.zhihu.com/p/93257390
[58同城]深度召回在招聘推荐中的挑战和实践，地址：https://mp.weixin.qq.com/s/mcETNOICbabRRq9BBdL4zw

4. 效果如何？

论文的实验部分向我们展示了item frequency estimation算法和建模框架的有效性，离线和在线的评估结果都有提升。总的来说，这篇文章便于实现，可以从字里行间看到很多实践出真知的影子，也是对经典知识在实践中改进的例子，是一篇工程性很强的文章。

5. 总结

论文详细介绍了工业界应用双塔DNN模型解决大规模视频召回场景下的问题，详细介绍了双塔模型在使用时的一些 Tricks，包括流式数据处理中的采样概率修正，使用等技术来提高检索效率，Embedding归一化提高准确率，加入超参来微调召回率和精确率。相信很多人对双塔DNN模型并不陌生，也有很多公司实际在这么做，但是文章中提到的很多细节问题可能是我们平时所忽略的，比如对embedding进行归一化处理、对embedding内积引入修正系数、线上如何进一步提高检索效率等。总的来说，还是一篇比较值得细品的论文。

最后，借此机会我们来回顾YouTube的三篇重要的实践论文：

（1）首先是YouTube的深度学习开山之作《Deep Neural Networks for YouTube Recommendations》，这是深度学习在推荐领域的首次工业应用，这篇文章野心很大，将召回和排序都囊括进整篇论文。关于这篇论文的解读，推荐大家读以下两篇文章：
- 重读Youtube深度学习推荐系统论文，字字珠玑，惊为神文 - 王喆的文章 - 知乎 https://zhuanlan.zhihu.com/p/52169807
- YouTube深度学习推荐系统的十大工程问题 - 王喆的文章 - 知乎 https://zhuanlan.zhihu.com/p/52504407
（2）其次是YouTube的双塔召回《Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations》，进一步优化解决召回的冷启动、长尾等问题。
（3）最后是MMoE的应用文章《Recommending What Video to Watch Next: A Multitask Ranking System》，该论文主要聚焦于大规模视频推荐中的排序阶段，介绍一些比较实在的经验和教训，涉及到对多个目标进行建模和解决 Selection Bias这两个排序系统的关键点。关于这篇论文的详细解读，推荐大家阅读这篇文章：
- 多目标学习在推荐系统中的应用，地址：https://mp.weixin.qq.com/s/c7BdWUM9BFQZfzWP7C_wfQ

可以看到，这三篇论文代表了推荐系统中最重要的两个模块——召回和排序的演进，在搭建推荐系统的过程中，也可参照这个流程去搭建适合自己业务的框架。

6. 关于这篇论文的若干问题的思考

在文章开头部分，我提出了自己在尝试采用流式训练数据做双塔召回时，思考的三个问题，现在尝试一下自己给自己答疑。

(1) 流式训练中，batch内随机负采样效果不佳，如何能拿到item的出现频次，做Negative Sampling呢？我们知道流式训练，训练数据是以滚动的方式输入到网络模型中的，我们无法维护一个动态且占高内存的词表及item频次信息。如果无法拿到item出现的频次，就不能准确的进行负采样操作。

「引申出问题：要回答这个问题，我们首先需要清楚召回阶段为什么需要采样？以及现在流行的采样方法有哪些？batch内随机负采样到底是如何做的？」

这个问题的答案来源于：SENet双塔模型：在推荐领域召回粗排的应用及其它 - 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/358779957

我们训练精排模型的时候（假设是优化点击目标），一般会用“用户点击”实例做为正例，“曝光未点击”实例做为负例，来训练模型，基本大家都是这么做的。现在，模型召回以及粗排，也需要训练模型，意思是说，也需要定义正例和负例。一般正例，也都是用“用户点击”实例做为正例，但是怎么选择负例，这里面有不少学问。

我们先来看下不同阶段模型面对的输入数据情况，对于召回模型来说，它面临的输入数据，是所有物料库里的物品；对于粗排模型来说，它面对的输入数据，是各路召回的结果；对于精排模型来说，它面临的输入是粗排模型的输出结果。如果我们仍然用“曝光未点击”实例做为召回和粗排的负例训练数据，你会发现这个训练集合，只是全局物料库的一小部分，它的分布和全局物料库以及各路召回结果数据差异较大。即，召回和粗排模型面临的实际输入数据与采用“曝光未点击”实例做为负例训练数据，分布差异比较大。所以根据这种负例训练召回和粗排模型，效果如何就带有疑问，我们一般把这个现象称为“Sample Selection Bias”问题。

为了解决“Sample Selection Bias”问题，我们在召回或者粗排模型训练的时候，应该调整下负例的选择策略，使得它尽量能够和模型输入的数据分布保持一致。这里 @张俊林(知乎ID)老师简单归纳下可能的做法。

「选择1: 曝光未点击数据」

这就是上面说的导致Sample Selection Bias问题的原因。我们的经验是，这个数据还是需要的，只是要和其它类型的负例选择方法，按照一定比例进行混合，来缓解Sample Selection Bias问题。当然，有些结论貌似是不用这个数据，所以用还是不用，可能跟应用场景有关。

「选择2: 全局随机选择负例」

就是说在原始的全局物料库里，随机抽取做为召回或者粗排的负例。这也是一种做法，YouTube DNN双塔模型就是这么做的。从道理上讲，这个肯定是完全符合输入数据的分布一致性的，但是，一般这么选择的负例，因为和正例差异太大，导致模型太好区分正例和负例，所以模型能学到多少知识是成问题的。

「选择3: Batch内随机选择负例」

就是说只包含正例，训练的时候，在Batch内，选择除了正例之外的其它Item，做为负例。这个本质上是：给定用户，在所有其它用户的正例里进行随机选择，构造负例。它在一定程度上，也可以解决Sample Selection Bias问题。比如Google的双塔召回模型，就是用的这种负例方法。

「选择4: 曝光数据随机选择负例」

就是说，在给所有用户曝光的数据里，随机选择做为负例。这个我们测试过，在某些场景下是有效的。

「选择5: 基于Popularity随机选择负例」

这种方法的做法是：全局随机选择，但是越是流行的Item，越大概率会被选择作为负例。目前不少研究证明了，负例采取Popularity-based方法，对于效果有明显的正面影响。它隐含的假设是：如果一个例子越流行，那么它没有被用户点过看过，说明更大概率，对当前的用户来说，它是一个真实的负例。同时，这种方法还会打压流行Item，增加模型个性化程度。

「选择6: 基于Hard选择负例」

它是选择那些比较难的例子，做为负例。因为难区分的例子，很明显给模型带来的和信息含量比较多，所以从道理上讲是很合理的。但是怎样算是难的例子，可能有不同的做法，有些还跟应用有关。比如Airbnb，还有不少工作，都是在想办法筛选Hard负例上。

以上是几种常见的在召回和粗排阶段选择负例的做法。

「正式回答自己提出问题：」 看到这里这个问题就相对简单了，论文提出的“Streaming Frequency Estimation”算法，不就是为了解决流式训练中，没有固定的词表，得不到item的频次信息，而提出的预估item采样频率的算法么。在流式训练中可以直接抛弃Negative Sampling算法，采用“Streaming Frequency Estimation”算法。

（2）在batch内如何采样，才能使用batch softmax 损失函数呢？召回场景下batch softmax与交叉熵相比，优势在哪里？

「回答第一小问：」 上面提到的“Batch内随机选择负例”的办法，就可以直接使用batch softmax 损失函数。

「回答第二小问，答案来源于」：借Youtube论文，谈谈双塔模型的八大精髓问题 - iwtbs的文章 - 知乎 https://zhuanlan.zhihu.com/p/369152684

交叉熵实际上就是建模为二分类问题，这种兴趣绝对值是point-wise。召回本身需要负采样，在不构建hard-negative情况下流式训练一般维护一个实时更新的他人正例采样池，如果负样本难度不够大（往往都不够大）其实最后auc会学得很高，拟合效果未必学的好；而精排由于是准确的正负样本用二分类刚刚好。

batch softamx则是把batch内的所有样本作为彼此的负样本，这种采样的方式强依赖于batch的分布，会带来非常大的bias。batch softmax建模的是相对兴趣pair-wise，但是还是同样的问题，负样本过于简单比较相对兴趣也没特别大意义？而且看很多人都提到在推荐领域用pair-wise不如point-wise，搜索用pair-wise更好，所以之前我也一直没试，相比较margin hinge loss这种方式多加了一个阈值更说得通。

（3）当我们进行batch内负采样的时候，item被采作负样本的概率约等于其出现在原始样本中的概率。这样会导致一些热门的受欢迎的item更容易被当成负样本。而在大多数推荐场景中有很明显的热点效应，对于这些热门item的过度打压会使得模型倾向于推荐一些冷门的item，从而影响线上表现。是否可以使用这篇论文提出的修正解决此问题呢？

答：由于大多数推荐场景的物品都服从长尾分布，因此在batch内负采样的时候，对于热门物品来说，由于采样到的概率非常高，当作负样本的次数也会相应变多，热门物品会被“过度惩罚”。所以论文对user 和 item的 embedding向量计算得到的内积进行了logQ修正，可以使用这篇论文提出的修正解决此问题。

7. Reference

【1】借Youtube论文，谈谈双塔模型的八大精髓问题 - iwtbs的文章 - 知乎 https://zhuanlan.zhihu.com/p/369152684
【2】【百家争鸣】YouTube，地址：https://mp.weixin.qq.com/s/KHsJk_NZZvBY6qOUh-QdRg
【3】谷歌最新双塔DNN召回模型——应用于YouTube大规模视频推荐场景 - 被包养的程序猿丶的文章 - 知乎 https://zhuanlan.zhihu.com/p/128988454
【4】【推荐系统经典论文(九)】谷歌双塔模型 - 努力搬砖的小李的文章 - 知乎 https://zhuanlan.zhihu.com/p/137538147
【5】Youtube2019双塔召回论文精读，地址：http://yougth.top/2021/02/01/2019Recsys%E5%8F%8C%E5%A1%94%E5%8F%AC%E5%9B%9E%E8%AE%BA%E6%96%87%E7%B2%BE%E5%BA%A6/
【6】RS Meet DL(72)-[谷歌]采样修正的双塔模型，地址：https://cloud.tencent.com/developer/article/1556169
【7】 youtube 双塔模型，地址：http://d0evi1.com/youtube-2tower/
【8】【CTR】Youtube：双塔召回模型，地址：https://mp.weixin.qq.com/s/G-8eqvQyG480HOv9eQbPqA
【9】推荐系统中的debias算法 - iwtbs的文章 - 知乎 https://zhuanlan.zhihu.com/p/369948358
【10】深度召回在招聘推荐中的挑战和实践，地址：https://mp.weixin.qq.com/s/mcETNOICbabRRq9BBdL4zw
【11】推荐算法岗是否存在严重人才过剩? - 阿里巴巴淘系技术的回答 - 知乎 https://www.zhihu.com/question/320805246/answer/1906346931
【12】SENet双塔模型：在推荐领域召回粗排的应用及其它 - 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/358779957

往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808，加入微信群请扫码：

你可能感兴趣的:(算法,大数据,编程语言,python,推荐系统)

使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
Python 之进阶学习 _ZestyJt Python python 学习
学习Python之进阶学习一切皆对象1.变量和函数皆对象2.模块和类皆对象3.对象的基本操作(1).可以赋值给变量(2).可以添加到集合中(3).可以作为函数参数(4).可以作为函数返回值返回4.object,type,class之间的关系(1).object类(2).type类和type对象闭包1.查看闭包(1).查看闭包(2).查看环境变量2.分析闭包3.闭包的用处Lambda表达式1.匿名函
[每日一学]数据分析与可视化：anaconda与pythoncharm使用上的区别之处及优越点，使用哪款比较好用拼命绽放 python 开发语言
anaconda、.jupyter·jupyter的基本使用，开发环境与pythoncharm有什么区别？在数据分析和可视化使用中有什么区别？哪个在数据分析和可视化上更占优势？如果用pythoncharm如何去实现数据分析与可视化有影响吗？一、Anaconda是一个开源的Python发行版本，集成了多个常用的数据科学、机器学习、深度学习等相关工具，例如JupyterNotebook、Spyder、
计算机视觉算法实战——车道线检测喵了个AI 计算机视觉实战项目计算机视觉
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨车道线检测是计算机视觉领域的一个重要研究方向，尤其在自动驾驶和高级驾驶辅助系统（ADAS）中具有广泛应用。本文将深入探讨当前主流的车道线检测算法，选择性能最好的算法进行详细介绍，并涵盖数据集、代码实现、优秀论文、具体应用以及未来的研究方向和改进方向。1.当前相关的算法✨✨车道线检测算法
【图像检测】基于霍夫变换 Hough变换实现图片车道线检测matlab代码 Matlab科研辅导帮图像处理 matlab 计算机视觉算法
1简介本文提出了一种新的基于霍夫变换的复杂情况下车道线检测的算法,这个算法能够成功在夜晚,白天,有阴影,车道线磨损不太严重等复杂情况下检测出车道线.传统的车道线检测算法主要为直接在图像中进行霍夫变换,这种算法实时性差,计算量大.本文提出的算法将先对原图像进行处理,设置ROI区域减少计算量,转换颜色空间并且扫描图像灰度值划分出有阴影的区域进行处理,最后判断最有可能出现车道线的区域,进行霍夫变换检测出
代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素 Anjoubecoding c++算法数据结构 leetcode
一、Leetcode704二分查找题目链接：Leetcode704这个题目在之前秋招准备的时候就刷了，好几个月没刷又忘了这个题目的思想，二分法的使用前提是有序数组，这里主要是看查找区间是左闭右闭还是左闭右开，这两种方法都可以，不同方法对应着不同的while循环条件(是left&nums,inttarget){intleft=0,right=nums.size()-1,middle=(left+ri
AI时代的SaaS架构变革 leijiwen 人工智能
自OpenAI发布ChatGPT以来，软件行业面临着前所未有的挑战与机遇。作为SaaS行业的从业者，我们必须反思AI这一强大生产力将如何重塑我们的产品和服务。1.AI对生产力的影响AI代理的引入使得SaaS产品能够替代用户执行多项任务。在内容生成方面，AI可以自动生成文本、图像和视频，极大提高了创作效率。同时，AI在任务规划和编排方面的能力，使得复杂的工作流程得以简化和优化。通过智能算法，系统能够
基于python 利用ERA5 资料绘制水汽剖面图 happycatherin python numpy matplotlib
#-*-coding:utf-8-*-"""CreatedonMonApr309:28:072023@author:PC"""#-*-coding:utf-8-*-"""CreatedonMonJul1116:54:302022@author:PC"""importcartopy.crsasccrsimportcartopy.featureascfeatureimportmatplotlib.py
python,pycharm,pytorch，向量数据库，环境搭建记录 dept123 python pycharm pytorch 向量数据库
修改ubuntu上的pycharm镜像源，详细步骤-腾讯云开发者社区-腾讯云【超详细教程】2024最新Pytorch安装教程（同时讲解安装CPU和GPU版本）-CSDN博客https://zhuanlan.zhihu.com/p/667447891Quickstart|MilvusDocumentation
python如何非阻塞的监听按键（win && linux亲测） __基本操作__ Python python linux 开发语言
pyqt是python的强大扩展，让我们可以方便的操作界面。下面介绍pyqt内容：如何监听单个按键（做非阻塞的获取）以及监听组合按键的方法什么是监听，我们为什么需要监听？我们的程序获得外部输入最简单的方法是input但是这里是显示的获取输入，并且是阻塞性的。当我们不输入完成（按下回车）程序不会进行到下一步。很好用，但是我们并不总是需要这样，比如FPS这样的情景，你哪怕不输入，游戏仍然在进行，只有当
算法面试题深度解析：LeetCode 2012.数组元素的美丽值求和计算与多方案对比数据大包哥数据结构和算法 java
算法面试题深度解析：LeetCode2012.数组元素的美丽值求和计算与多方案对比原题给你一个下标从0开始的整数数组nums。对于每个下标i（1nums[i]；1分：不满足2分条件，但满足nums[i-1]
Python 爬虫实战：时尚网站潮流趋势数据抓取与流行趋势预测西攻城狮北 python 爬虫开发语言时尚网站
作为一名对时尚和编程都充满热情的创作者，我一直在寻找将这两者结合的方式。今天，我将带领大家进行一场独特的Python爬虫实战，通过抓取时尚网站的潮流趋势数据，预测未来的流行趋势。这不仅可以帮助时尚爱好者提前了解潮流走向，还能为时尚从业者提供决策依据。一、项目背景在当今快节奏的社会中，时尚潮流的变化速度越来越快。人们渴望及时了解最新的时尚趋势，以便跟上时代的步伐。时尚网站作为时尚信息的重要传播平台，
大气视热源Q1与视水汽汇Q2的计算利用python以ERA5再分析资料为例 shift0516 python 开发语言
python代码：importosimportnetCDF4asncimportnumpyasnpimportxarrayasxrimportpandasaspdimportmetpy.constantsasconstantsfrommetpy.unitsimportunitsfrommetpy.calcimportmixing_ratio_from_specific_humidity,first
Python学习笔记 Helloooooworldddddd python
eclipse中配置PyDev：Help-->InstallNewSoftware-->Add-->起名如：PyDev，网址：http://www.pydev.org/updates-->选择PyDev-->一路Next安装完之后创建新项目时，如果没有PyDev选项，则是安装的版本跟eclipse、jdk不匹配，需要卸载重新安装。卸载：Help-->AboutEclipse-->Installat
程序化交易的未来趋势：API技术将如何演进？云策量化程序化炒股 Deepseek 量化投资 Python 程序化交易 PTrade QMT 量化交易量化股票 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》程序化交易的未来趋势：API技术将如何演进？引言程序化交易，也称为算法交易，是金融市场中使用计算机算法自动执行交易指令的一种方式。随着技术的不断进步，API（应用程序编程接口）在程序化交易中扮演着越来越重要的角色。本文将探讨API技术在程序化交易中的未来趋势，以及它们将如何演进以适应市场的需求。当前API技术在程序化交易中的应
python 函数详细笔记尘封. #python基础语法 python 开发语言 1024程序员节
文章目录函数定义和调用函数定义函数调用函数参数参数传递参数类型必需参数关键字参数默认参数（缺省参数）不定长参数参数传递的序列解包特殊函数匿名函数递归函数嵌套函数特殊内置函数内置函数简介部分特殊内置函数range()函数type()和isinstance()函数eval()函数map()函数fileter()函数zip()函数枚举函数enumerate()装饰器装饰器的定义和调用带参数的装饰器变量作
非科班通过几个月的培训入行人工智能现实吗？ TsingtaoAI 人工智能机器学习深度学习大数据
首先得看非科班指的是什么。倘若是文科生想入行人工智能，不是我泼冷水，仅凭几个月的培训那我个人感觉是有点悬的，这么短的时间可能只够你知道人工智能是什么；但如果是理工科学生并且对人工智能有初步了解的话，特别是如果再稍微会一点点编程，那就完全别当另论了，找对路子，找对方法，还是有可能的。现在市场上很多培训班挂着羊头卖狗肉，打着人工智能的旗号而实际上教你个Python了事，专门欺负外行人，我当初就曾经亲身
蓝桥杯Python组知识点好好学习、天天向上。 python 蓝桥杯算法
文章目录一、基础知识1.基本输入输出2.字符列表连接3.字母的大小写转换4.匿名函数lambda5.进制转换6.字符与整型之间的转换7.格式化保留小数点后几位小数8.列表排序9.str的内建函数10.list的内建函数二、常用内置模块1.阶乘factorial2.计数器Counter3.默认字典defaultdict4.双端队列deque5.全排列permutations6.组合combinati
算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来
**算力——数字经济的“新石油”在人工智能、大数据、区块链等技术重塑全球经济的今天，算力已成为驱动创新的核心引擎。根据工信部数据，2022年我国算力核心产业规模突破1.8万亿元，算力总规模位居全球第二，而全球算力租赁市场规模已超过千亿美元，并以年复合增长率超过25%的速度扩张。这一背景下，算力租赁作为灵活获取计算资源的新模式，正从边缘走向主流。本文将深入剖析算力租赁的行业新趋势，并揭示如何通过云计
python匿名函数的好处_python 匿名函数与三元运算学习笔记 weixin_39812142 python匿名函数的好处
匿名函数匿名函数就是不需要显示式的指定函数名首先看一行代码：defcalc(x,y):returnx*yprint(calc(2,3))#换成匿名函数calc=lambdax,y:x*yprint(calc(2,3))你也许会说，用上这个东西没感觉有毛方便呀，。。。。呵呵，如果是这么用，确实没毛线改进，不过匿名函数主要是和其它函数搭配使用的呢，如下res=map(lambdax:x**2,[1,2
用Python在Excel工作表中创建数据透视图
数据透视图是基于数据透视表创建的Excel图标，它能够帮助我们从复杂的数据集中提炼出有价值的信息，提供直观且易于理解的数据视图。对于需要频繁更新或处理大量数据集的人员以及任何依赖数据做出决策的人来说，用Python在Excel中创建数据透视图能够根据最新的数据快速调整和生成新的分析图表，从而提高工作效率并增强数据分析的灵活性。本文将介绍如何使用Python在Excel工作表中创建数据透视图。用Py
2.数据结构-栈和队列这一wa是晚安数据结构-考研数据结构
数据结构-栈和队列2.1栈2.1.1栈的表示和实现2.1.2栈的应用举例数制转换括号匹配检验迷宫给求解表达式求值2.1.3链栈的表示和实现2.1.4栈与递归的实现遍历输出链表中各个结点的递归算法*Hanoi塔问题的递归算法2.2队列2.2.1循环队列——队列的顺序表示和实现2.2.2链队——队列的链式表示和实现2.1栈栈是限定仅在表尾进行插入或删除操作的线性表，因此，对栈来说，表尾端有其特殊含义，
用Python设置Excel工作表的页眉和页脚
在处理和分析数据时，Excel作为一款功能强大的工具，被广泛应用于各个领域。当涉及到打印或分享工作表时，为文档添加专业的页眉和页脚不仅能提升文件的视觉效果，还能提供必要的信息，例如公司标识、日期、文件名或是页码等，使得文档更加正式且易于跟踪管理。用Python来设置Excel工作表的页眉和页脚，可以实现自动化这一过程，节省时间并保每次生成的文档格式一致。本文将介绍如何使用Python设置Excel
第十六届蓝桥杯模拟赛（第三期Python）凯强同学蓝桥杯 python 蓝桥杯算法
这跟真题的难度差十万八千里了，只能用来加强一下自信，除了最后一题，其他都比较简单1.最大质数【问题描述】如果一个数p是个质数，同时又是整数a的约数，则p称为a的一个质因数。请问，2024的最大的质因数是多少？【答案提交】这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。【代码】defis_prime(n):foriinra
【蓝桥杯备赛】Day12:贪心算法凯强同学蓝桥杯蓝桥杯贪心算法 python
题目1:题目2518:信息学奥赛一本通T1620-质因数分解原题来自：NOIP2012普及组已知正整数n是两个不同的质数的乘积，试求出较大的那个质数。输入格式输入只有一行，包含一个正整数n输出格式输出只有一行，包含一个正整数p，即较大的那个质数。样例输入21样例输出7python代码importmathn=int(input())j=int(math.sqrt(n))foriinrange(2,j
AI 界的包青天：GaussianNB 智断分类难题星际编程喵人工智能分类数据挖掘
前言在机器学习的江湖中，分类算法纷繁复杂，各具特色。有的深不可测，犹如隐世高人的内功心法，让人望而却步；有的则像街头小贩，简单直接却也能精准解决问题。江湖中高手云集，其中有一位侠客，宛如包青天，正气凛然，以公正无私和高效迅捷著称，擅长快速解决分类难题。此侠客正是GaussianNaïveBayes（高斯朴素贝叶斯，简称GaussianNB）。凭借朴素的假设与强大的数学支撑，GaussianNB在分
Python基础语法笔记熙光i 笔记 python
文章目录前言1、变量、运算符与数据类型1.1注释1.2运算符1.3变量与赋值1.4数据类型与转换1.5print()函数2、位运算2.1原码、反码和补码2.2利用位运算实现快速计算2.3利用位运算实现整数集合3、条件语句3.1if语句3.2if-else语句3.3if-elif-else语句3.4assert关键词4、循环语句4.1while循环4.2while-else循环4.3for循环4.4
2024华为OD机试真题-日志排序(C++)-E卷-100分 2024剑指offer 华为OD机试(C++)2025 华为od c++
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述示例1示例2示例3解题思路代码c++题目描述运维工程师采集到某产品现网运行一天产生的日志N条，现需根据日志时间按时间先后顺序对日志进行排序。日志时间格式为H:M:S.N，其中：H表示小时（0-23）。M表示分钟（0-59）。S表示秒（0-59）。N表示毫秒（0-999）。时间可能没
2024华为OD机试真题-分班(C++/Java/Python)-E卷B卷-100分 2024剑指offer 华为OD机试(C++)2025 华为od c++
2024华为OD机试题库-(E卷+D卷)-(JAVA、Python、C++)目录题目描述输入描述:输出描述:示例1：解题思路考点代码c++题目描述幼儿园两个班的小朋友在排队时混在了一起，每位小朋友都知道自己是否与前面一位小朋友是否同班，请你帮忙把同班的小朋友找出来。小朋友的编号为整数，与前一位小朋友同班用Y表示，不同班用N表示。输入描述:输入为空格分开的小朋友编号和是否同班标志。比如：6/N2/Y
学习笔记《编程不难》（5）——10月 Python 函数：一些应用 MoZ·T 《编程不难》学习笔记学习笔记 python
一、Python函数1、几种函数类型函数类型表达式描述函数作用表达式内置函数函数名(参数)执行Python提供的基础操作（如len(),max()等）len([1,2,3]),max([1,2,3])自定义函数def函数名(参数):函数体用户自定义的函数，封装特定逻辑，便于复用defmy_function(arg1,arg2):returnarg1+arg2匿名函数（lambda）lambda参数
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n