智能推荐系统

预训练技术在美团到店搜索广告中的应用

猜你喜欢
0、2021年轻人性生活调研报告1、如何搭建一套个性化推荐系统？2、从零开始搭建创业公司后台技术栈3、2021年10月份热门报告免费下载4、微博推荐算法实践与机器学习平台演进5、腾讯PCG推荐系统应用实践6、强化学习算法在京东广告序列推荐场景的应用7、飞猪信息流内容推荐探索8、华为项目管理培训教材9、美团大脑系列之商品知识图谱的构建和应用

搜索广告在优化流量变现效率等商业指标之外，也需要重点优化用户体验，降低不相关广告对用户体验的损害，这样才能保证平台生态的健康发展。本文对预训练技术在广告相关性的落地方案进行了介绍，既包括训练样本上的数据增强、预训练及微调阶段的BERT模型优化等算法探索层面的工作，也包括知识蒸馏、相关性服务链路优化等实践经验。

引言
- 问题与挑战
- 业界及美团的解决方案
算法探索
- 数据增强
- 模型优化
应用实践
- 模型压缩
- 相关性服务链路优化
- 线上效果
总结与展望
参考资料
作者简介

引言

美团到店搜索广告负责美团、大众点评双平台站内搜索流量的商业变现，服务于到店餐饮、休娱亲子、丽人医美、酒店旅游等众多本地生活服务商家。在美团搜索场景中广告的展示样式非常原生，用户使用美团服务不会明显区分广告和自然结果，而广告用户体验损失则会显著影响搜索流量。因此，搜索广告除了优化流量变现效率等商业指标外，也需要重点优化用户体验，不断降低不相关广告对用户体验的损害，这样才能保证整个平台生态长期健康地发展。

在优化用户体验的目标下，如何正确的衡量用户体验，定义不相关广告是首要解决的问题。在搜索广告中，受结果列表页广告位置偏差、素材创意等因素影响，我们无法单一使用点击率（CTR）等客观性指标来衡量用户体验，尤其首位、首屏等排序靠前广告的相关性问题被认为是影响用户体验的主要因素。因此，我们首先建立了美团场景下的搜索广告相关性标准和评估体系，主要通过例行采样和人工评估的方式对搜索广告结果进行相关、一般和不相关的分档标注，进而驱动我们的广告相关性模型和策略迭代。然后，使用广告排序前五位的Badcase率（即Badcase@5）作为搜索广告的相关性评估指标。

问题与挑战

在定义出广告相关性问题和评估指标后，使用相关性模型进行搜索关键词（Query）和候选广告（Doc）的相关性打分，类似于NLP文本匹配任务，但实际建模中也发现若干困难。美团搜索结果以商户门店（POI）粒度展示，即Doc除了POI文本外，还包含一系列的团单或商品描述，内容非常丰富但也带来较多冗余或歧义，且不同业务的文本表达差异较大，比如结婚类商品“朱颜【出门出阁红色秀禾】，南国【中式婚礼嫁衣红色秀禾】”，给广告内容编码带来挑战。

其次，美团广告商户大多没有选择竞价关键词，且POI和团单标题并未面向搜索优化，Doc内容与Query可能存在文本表达偏差。比如“满月酒”和“嗨派星球宝宝宴·游轮派对，生日宴个性气球拱门”，需要处理这类信息缺失的问题。我们最初采用ESIM[1]交互式模型，但实践中发现该模型对我们复杂广告内容的表征能力有限，正负样本区分能力不足，在过滤不相关广告的同时对相关广告的误伤率较高。自2018年底以来，以BERT[2]为代表的预训练模型在多项NLP任务上都取得了突破，我们也开始探索预训练技术在搜索广告相关性上的应用。

业界及美团的解决方案

针对搜索语义匹配任务，Google[3]和Bing[4]的搜索团队已经基于BERT来编码Query和候选Doc，进而改善相关性的效果。预训练模型在美团内部的NLP场景中也有不少落地实践，美团搜索已经验证了预训练模型在文本相关性任务上的有效性[5]。

而针对预训练在语义匹配任务中的应用，业界也提出不少的解决方案。中科院计算所郭嘉丰等人提出PROP[6]和B-PROP[7]等针对搜索任务的预训练方法，主要思想是引入文档中代表词预测ROP（Representative wOrds Prediction）任务。纽约大学石溪分校曹庆庆等人提出DeFormer[8]分解预训练语言模型来做问答等语义匹配任务，在BERT的低层分别对问题和文档各自编码，再在高层部分拼接问题和文档的表征进行交互编码，让文档和问题在编码阶段尽可能地独立，从而提升模型的整体效率。百度刘璟等人提出RocketQA[9]和RocketQAv2[10]等面向端到端问答的检索模型训练方法，通过跨批次负采样、去噪的强负例采样以及数据增强技术大幅提升了双塔模型的效果。陈丹琦等人提出SimCSE[11]，采用自监督来提升模型的句子表示能力，从而提升语义匹配的效果。

另一方面，2020年至今，预训练从“大炼模型”迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练超大模型，持续提升模型效果。不论是公开论文结果还是美团内部实践，均已证明：更大规模的预训练模型能带来更好的下游任务效果。因此，美团广告平台与美团搜索与NLP部进行了合作，尝试利用预训练模型来优化搜索关键词和广告结果的相关性，进一步降低首屏广告Badcase，提升用户体验。

本文分为算法探索、应用实践和总结规划三个部分，对预训练技术在搜索广告相关性的落地方案进行介绍。在算法探索部分介绍了我们在训练样本上的数据增强、预训练（Pre-training）和微调（Fine-tuning）阶段的模型结构优化；在应用实践部分，本文介绍了以知识蒸馏为主的模型压缩方法、相关性服务链路优化方案，以及所取得的业务效果；最后，我们总结了相关性方面的优化方法，并对未来技术探索进行了展望。希望这些经验和思考能够给从事相关研究的同学带来一些帮助或启发。

算法探索

在美团搜索广告场景中，相关性计算可以看做用户搜索意图（Query）和广告商户（POI/Doc）之间的匹配问题，实践中我们采用了能够从多角度衡量匹配程度的集成方法，具体方案为分别基于Query和POI的结构化信息匹配、文本匹配和语义匹配等方法进行打分并且进行分数融合。其中，结构化信息匹配主要是对Query分析结果与POI进行类目、属性等信息的匹配；文本匹配方面借鉴了搜索引擎中的传统相关性方法，包括Query和POI的term共现数、Query term覆盖率、TF-IDF、BM25打分等；语义匹配包括传统的隐语义匹配（如基于LDA或者Word2Vec计算相似度）和深度语义匹配方法。在广告相关性服务中，我们采用学习能力更强的深度语义匹配模型。

深度语义匹配通常分为表示型和交互型两类：表示型模型一般基于双塔结构分别得到两段输入文本的向量表示，最后计算两段文本表示的相似度；该方法的优点是Doc向量可提前离线计算缓存，且匹配阶段计算速度很快，适合线上应用；缺点是只在模型最后阶段进行交互，对文本之间匹配关系学习不足。而交互型模型在初期即对两段输入文本进行交互，匹配阶段可以采用更复杂的网络结构，以学习文本间细粒度匹配关系；这种方法往往可以达到更高的精度，主要挑战在于线上应用的性能瓶颈。

美团搜索广告相关性服务的基线模型采用Transformer+ESIM的交互式模型结构，在满足性能的前提下有效解决了部分相关性问题，但是实际应用中仍然存在一些不足，主要包括：

训练数据中存在标签错误、正负样本分布不一致等问题；
Doc除了基础门店信息外还关联了大量商品和团单内容，如果直接将这些信息拼接成长文本作为Doc输入，由于模型结构限制往往需要对Doc文本进行截断，因而导致信息丢失；
基线模型对于长文本的表征能力有限，相关性判别能力不足，很难在控制变现效率影响的同时解决更多的Badcase。

为了解决这些问题，我们基于BERT在训练数据、特征构造和模型方面进行若干探索和实践。下文将逐一展开介绍。

数据增强

由于BERT模型微调阶段所需数据量相比ESIM模型更少，并且对数据覆盖全面度、标签准确度、数据分布合理性等因素更为敏感，在进行模型结构探索前，我们先按照如下思路产出一份可用性较高的数据。搜索广告涉及的业务众多且差异性大，包含的团单和商品种类多元，我们希望BERT的微调数据尽可能覆盖各个场景和主要服务。如果全部人工标注人力和时间成本较高，而用户点击转化行为能一定程度反映出广告是否相关，所以训练数据主要基于曝光点击日志构造，对于部分困难样本加以规则及人工校验。我们根据业务特性对训练数据的主要优化包括以下几点。

正样本置信加权

正样本主要通过点击数据得到，我们对4个月内的Query-POI点击数据进行统计，并且基于曝光频次和CTR进行数据清洗以减少噪声。实际采样流程中，假设对于某个Query需要取N个POI构造N条正样本，采样过程中令POI被采样的概率与其点击数成正比，这样做主要是基于点击越多相关性越高的认知，既可以进一步保证标签置信，又有利于模型学习到POI之间不同的相关程度。

在实验中我们也尝试了另外两个正样本采样方法：1) 对某个Query随机取N个POI，2) 对某个Query取点击最多的N个POI。实践发现方法1会采样到较多的弱相关样本，而方法2得到的大多为强相关样本，这两种方式均不利于模型拟合真实场景的数据分布。

负采样分层

我们按照模型学习的困难程度，从低到高设计了三种负样本采样方式：

全局随机负样本：大多为跨业务的负样本（比如烧烤和密室逃脱），模型学习最容易，可以有效识别跨类目的恶劣Badcase；
一级类目内负样本：Query和POI属于相同一级类目（比如美食、丽人等），但是属于不同细化类目（比如祛痘和医学美容），这部分样本可以为模型学习增加一定难度，提高模型判别能力；
三级类目内负样本：Query和POI属于相同的细化类目，但是POI并不提供Query相关的服务（比如光子嫩肤和水光针商户），这部分属于困难负样本，可以提升模型对语义相近但服务不相关的Badcase的判别能力，更大程度保障用户体验；但是在三级类目下采样可能取到较多相关样本，所以这部分样本还需要经过基于服务核心词的规则过滤以及人工校验。

采样平滑及分布一致性

采样平滑：在正样本构建过程中对Query采样频次做了平滑，避免高频Query采样过多，导致模型忽略对中长尾Query样本的学习。
样本分布一致性：在负样本构建中，对于每种负样本均需要保证各Query出现概率与其在正样本中概率相等，避免样本分布不一致性导致模型学习有偏。

文本关键词提取

美团搜索广告场景下，Query中可能包含地址词、品牌词、服务核心词等多种成分，Query文本一般较短，90%以上的Query长度小于10；POI的主要文本特征包括门店名称和商品信息，而广告主的商品数量普遍较多，直接拼接商品标题会导致POI文本过长，有26%的POI文本长度超过240。

由于相关性模型的主要目标是学习Query和POI之间的服务相关性，大量冗余文本信息会影响模型性能和学习效果，我们对Query和POI文本进行如下处理以提取关键文本信息：

对于Query文本：基于命名实体识别（NER）和词权重结果过滤掉地址词、分店名等成分，保留服务核心词；
对于POI文本：对所有商品标题进行关键词抽取，得到一组能反映商户核心服务的关键词，将其拼接作为POI文本。相比直接拼接原始商品文本，长度大幅下降，仅有5%的POI长度超过240，并且POI文本质量更高，模型学习效果更好。

最终，我们的微调样本包括约50万条数据，涵盖餐饮、休娱、亲子和丽人等20个主要类目，其中正负样本比例为1:5，三种负样本比例为2:2:1。

模型优化

基于多任务学习的多业务模型

由于美团搜索广告涉及餐饮、休娱亲子、丽人医美等大量业务场景，并且不同场景之间差异较大。从过去的实践经验可知，对于某个业务场景下的相关性优化，利用该业务数据训练的子模型相比利用全业务数据训练的通用模型往往效果更佳，但这种方法存在几个问题：1) 多个子模型的维护和迭代成本更高；2) 某些小场景由于训练数据稀疏难以正确学习到文本表示。

受到多业务子模型优缺点的启发，我们尝试了区分业务场景的多任务学习，利用BERT作为共享层学习各个业务的通用特征表达，采用对应不同业务的多个分类器处理BERT输出的中间结果，实际应用中根据多个小场景的业务相似程度划分成N类，亦对应N个分类器，每个样本只经过其对应的分类器。多业务模型的主要优势在于，能够利用所有数据进行全场景联合训练，同时一定程度上保留每个场景的特性，从而解决多业务场景下的相关性问题，模型结构如下图1所示：

图1 多业务模型结构

引入品类信息的预训练

由于美团商户POI和商品标题可能缺乏有效信息表达，有时仅根据Query和POI商品文本很难准确判断两者之间的语义相关性。例如【租车公司，<上水超跑俱乐部；宝马，奥迪>】，Query和POI文本的相关性不高，而该商户的三级品类是“养车-用车租车-租车”，我们认为引入品类信息有助于提高模型效果。

为了更合理的引入品类信息，我们对BERT模型的输入编码部分进行改造，除了与原始BERT一致的Query、Doc两个片段外，还引入了品类文本作为第三个片段，将品类文本作为额外片段的作用是防止品类信息对Query、Doc产生交叉干扰，使模型对于POI文本和品类文本区别学习。

下图2为模型输入示意图，其中红色框内为品类片段的编码情况，Ec为品类片段的片段编码（Segment Embedding）。由于我们改变了BERT输入部分的结构，无法直接基于标准BERT进行相关性微调任务。我们对BERT重新进行预训练，并对预训练方式做了改进，将BERT预训练中用到的NSP（Next Sentence Prediction）任务替换为更适合搜索广告场景的点击预测任务，具体为“给定用户的搜索关键词、商户文本和商户品类信息，判断用户是否点击”。预训练数据采用自然及广告搜索曝光点击数据，大约6千万样本。

图2 BERT输入部分引入POI品类信息

模型优化离线效果

为了清晰准确地反映模型迭代的离线效果，我们通过人工标注的方法构建了一份广告相关性任务Benchmark。基线ESIM模型、BERT模型以及本文提到的优化后BERT模型在Benchmark上的评估指标如下表1所示：

表1 广告相关性任务模型优化迭代指标

我们首先利用上文介绍的数据增强后的训练样本训练了MT-BERT-Base模型（12层768维），与ESIM模型相比，各项指标均显著提升，其中AUC提升6.6PP。在BERT模型优化方面，多任务学习和引入品类信息这两种方式均能进一步提升模型效果，其中引入品类信息的MT-BERT-Base模型效果更佳，相比标准的MT-BERT-Base模型AUC提升1.2PP。

在BERT模型规模方面，实验发现随着其规模增长，模型效果持续提升，但是预训练和部署成本也相应增长，最终我们选取了大约3亿参数量的MT-BERT-Large模型（24层1024维），在同样引入品类信息的条件下，相比MT-BERT-Base模型AUC增长1.21PP，相比ESIM模型AUC增长8.12PP。

应用实践

在模型的实践落地过程中，我们也遇到若干挑战，并且针对性的设计了优化方案。第一个挑战是BERT模型的前向耗时无法满足线上性能要求，我们通过知识蒸馏和低精度量化方法对模型进行压缩，并且采用离线缓存与实时预测结合的方式进一步提升了服务性能。

另一个挑战是，在广告业务场景下，需要综合考虑平台变现效率、用户体验、商户供给及转化等因素，如何使相关性分数在广告整体链路中发挥出更好的作用。我们目前采用了低质量广告过滤、重排阶段考虑相关性因子以及TOP位次广告门槛控制等策略。下文对应用实践方面的具体方案进行介绍。

模型压缩

由于BERT模型的庞大参数量和前向预测耗时，直接部署上线会面临很大的性能挑战，通常需要将训练好的模型压缩为符合一定要求的小模型，业内常用模型压缩方案包括模型裁剪、低精度量化和知识蒸馏等。知识蒸馏[12]旨在有效地从大模型（教师模型）中迁移知识到小模型（学生模型）中，在业内得到了广泛的研究和应用，如HuggingFace提出的DistillBERT[13]和华为提出的TinyBERT[14]等蒸馏方法，均在保证效果的前提下大幅提升了模型性能。

经过在搜索等业务上的探索和迭代，美团NLP团队沉淀了一套基于两阶段知识蒸馏的模型压缩方案，包括通用型知识蒸馏和任务型知识蒸馏，具体过程如下图3所示。在通用型知识蒸馏阶段，使用规模更大的预训练BERT模型作为教师模型，对学生模型在无监督预训练语料上进行通用知识蒸馏，得到通用轻量模型，该模型可用于初始化任务型知识蒸馏里的学生模型或直接对下游任务进行微调。在任务型知识蒸馏阶段，使用在有监督业务语料上微调的BERT模型作为教师模型，对学生模型在业务语料上进行领域知识蒸馏，得到最终的任务轻量模型，用于下游任务。实验证明，这两个阶段对于模型最终效果的提升都至关重要。

图3 两阶段知识蒸馏

在美团搜索广告场景下，首先我们基于MT-BERT-Large（24层1024维）在大规模无监督广告语料上进行第一阶段通用型知识蒸馏，得到MT-BERT-Medium（6层384维）通用轻量模型，在下游的广告相关性任务上进行微调。MT-BERT-Medium属于单塔交互结构，如图4(a)所示。

目前，每个Query请求会召回上百个POI候选，交互模型需要分别对上百个Query-POI对进行实时推理，复杂度较高，很难满足上线条件。常见解决方案是将交互模型改造成如图4(b)所示的双塔结构，即分别对Query和POI编码后计算相似度。由于大量候选POI编码可以离线完成，线上只需对Query短文本实时编码，使用双塔结构后模型效率大幅提升。我们使用通用型蒸馏得到的MT-BERT-Medium模型对双塔模型中Query和POI的编码网络进行初始化，并且在双塔在微调阶段始终共享参数，因此本文将双塔模型记为Siamese-MT-BERT-Medium（每个塔为6层384维）。双塔结构虽然带来效率的提升，但由于Query和POI的编码完全独立，缺少上下文交互，模型效果会有很大损失，如表2所示，Siamese-MT-BERT-Medium双塔模型相比MT-BERT-Medium交互模型在相关性Benchmark上各项指标都明显下降。

图4 相关性模型结构对比

为了充分结合交互结构效果好和双塔结构效率高的优势，Facebook Poly-encoder[15]、斯坦福大学ColBERT[16]等工作在双塔结构的基础上引入不同复杂程度的后交互层（Late Interaction Layer）以提升模型效果，如图4(c)所示。后交互网络能提升双塔模型效果，但也引入了更多的计算量，在高QPS场景仍然很难满足上线要求。针对上述问题，在第二阶段任务型知识蒸馏过程中，我们提出了虚拟交互机制（Virtual InteRacTion mechanism, VIRT），如图4(d)所示，通过在双塔结构中引入虚拟交互信息，将交互模型中的知识迁移到双塔模型中，从而在保持双塔模型性能的同时提升模型效果。

图5 任务型知识蒸馏&虚拟交互

任务型知识蒸馏及虚拟交互的具体过程如上图5所示。在任务型知识蒸馏阶段，我们首先基于MT-BERT-Large交互模型在业务语料上进行微调得到教师模型。由于学生模型Siamese-MT-BERT-Medium缺乏上下文交互，如图5(b)所示，注意力矩阵中的灰色部分代表了2块缺失的交互信息，我们通过虚拟交互机制对缺失部分进行模拟，计算公式如下为：

其中，和分别代表双塔模型中Query和POI表示，和分别是Query和POI进行编码时的模型参数，代表了到的注意力（即图5(b)右上角缺失部分），代表了到的注意力（即图5(b)左下角缺失部分）。而交互模型包含了Query和POI的全交互，计算公式为：

其中，是交互模型中Query和POI的融合表示，可以分解为和，分别代表Query和POI，是模型参数。交互模型的自注意力矩阵可以分解为4个部分，其中和则是Query和POI之间的交互，也即双塔模型的缺失部分。我们对交互模型的交互矩阵和双塔模型的虚拟交互矩阵之间的L2距离进行最小化，从而将交互模型中的核心交互知识迁移到双塔模型中，计算过程为：

我们对蒸馏阶段各个模型进行了Benchmark上的效果评估以及线上QPS=50时的性能测试，结果如表2所示。通过虚拟交互进行任务型知识蒸馏得到的任务轻量模型Siamese-MT-BERT-Medium相较于直接对通用轻量模型进行微调得到的同结构的Siamese-MT-BERT-Medium（W/O任务型知识蒸馏）模型，各项效果指标明显提升，其中Accuracy提升1.18PP，AUC提升1.66PP，F1-Score提升1.54PP。最终我们对任务轻量模型Siamese-MT-BERT-Medium进行上线，相较于最初的MT-BERT-Large模型，线上推理速度提升56倍，完全满足线上服务的性能要求。

表2 模型效果对比

在模型结构优化方面，我们尝试了对不同业务场景做多任务学习，以及在BERT输入中引入品类文本片段这两种方案使模型更好地拟合美团搜索广告业务数据，并利用规模更大的预训练模型进一步提升了模型的表达能力。

在实践应用中，为了同时满足模型效果和线上性能要求，我们对中高频流量进行离线打分和缓存，并且利用MT-BERT-Large蒸馏得到的双塔模型进行线上实时预测以覆盖长尾流量。最终，在保证广告平台收入的前提下，有效降低了搜索广告Badcase率，提升了用户在平台的搜索体验。

目前，广告相关性打分主要应用于阈值门槛，目的是端到端的过滤掉不相关广告，从而快速降低广告Badcase。在此基础上，我们期望相关性模型继续提升区分相关和一般相关广告的能力，从而在重排序中作为排序因子更好的平衡变现效率和用户体验指标，更准确的度量用户体验损失和变现效率提升的兑换关系。此外，在本地搜索类场景下，局部供给经常比较匮乏，实际召回效果对比全局供给的情况更依赖相关性打分的能力，所以我们依然需要在相关性模型上持续深入迭代，并支撑广告召回模型和策略的进一步优化。

在具体技术方向上，相关性门槛阈值设置、广告长文本表达和业务知识融合等方面依然存在优化和提升空间：

阈值搜索：目前的阈值策略需要对每个类目分别调参，缺乏整体性且难以达到全局优化效果。我们正在实验将阈值搜索看作可变现流量上的最优化问题，在限定消耗损失及其他业务约束的条件下，找到一组门槛阈值使得整体Badcase解决最大化，并已经取得初步的效果。
特征表达：目前广告Doc特征主要采用团单商品标题的关键词抽取结果，但是Doc文本仍然较长并且存在一些冗余信息，有必要对Doc信息抽取方法继续探索，比如融合外部知识进行信息抽取，或者通过优化Transformer注意力机制使模型在相关性打分时更加关注某些重要词项或者行业相关的关键词。
联合优化：Query和POI文本中的蕴含的类目信息、实体成分等对于判断相关性很有帮助，我们计划将相关性任务与搜索广告场景下其他任务联合优化，比如命名实体识别、Query类目识别等，期望通过引入辅助任务增强模型的学习能力，更全面准确的学习语义相关性。

参考资料

[1] Chen, Qian, et al. "Enhanced lstm for natural language inference." arXiv preprint arXiv:1609.06038 (2016).

[2] Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv: 1810.04805 (2018).

[3] Pandu Nayak, "Understanding searches better than ever before." Google blog (2019).

[4] Wenhao Lu, et al. "TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for Efficient Retrieval." arXiv preprint arXiv: 2002.06275 (2020).

[5] 李勇, 佳昊, 杨扬等. BERT在美团搜索核心排序的探索和实践.

[6] Ma, Xinyu, et al. "PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval." Proceedings of the 14th ACM International Conference on Web Search and Data Mining (2021).

[7] Ma, Xinyu, et al. "B-PROP: Bootstrapped Pre-training with Representative Words Prediction for Ad-hoc Retrieval." arXiv preprint arXiv: 2104.09791 (2021).

[8] Cao, Qingqing, et al. "DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering." arXiv preprint arXiv:2005.00697 (2020).

[9] Qu, Yingqi, et al. "RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering." arXiv preprint arXiv: 2010.08191 (2021).

[10] Ren, Ruiyang, et al. "RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking." arXiv preprint arXiv: 2110.07367 (2021).

[11] Gao, Tianyu, et al. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv: 2104.08821 (2021).

[12] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).

[13] Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019).

[14] Jiao, Xiaoqi, et al. "Tinybert: Distilling bert for natural language understanding." arXiv preprint arXiv:1909.10351 (2019).

[15] Humeau, Samuel, et al. "Poly-encoders: Transformer architectures and pre-training strategies for fast and accurate multi-sentence scoring." arXiv preprint arXiv:1905.01969 (2019).

[16] Khattab, Omar, and Matei Zaharia. "Colbert: Efficient and effective passage search via contextualized late interaction over bert." Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval. (2020).

作者简介

邵雯、春喜、晓俊、程佳、雷军等，来自美团广告平台技术部。
杨扬、任磊、金刚、武威等，来自美团平台/搜索与NLP部。

「更多干货，更多收获」

【免费下载】2021年10月份热门报告盘点

美团大脑系列之：商品知识图谱的构建及应用

【干货】2021社群运营策划方案.pptx

大数据驱动的因果建模在滴滴的应用实践

联邦学习在腾讯微视广告投放中的实践如何搭建一个好的指标体系？如何打造标准化的数据治理评估体系？

【干货】小米用户画像实践.pdf（附下载链接）

短视频爆粉表现指南手册.pdf（附下载链接）

推荐系统架构与算法流程详解如何搭建一套个性化推荐系统？某视频APP推荐策略详细拆解（万字长文）

【白岩松大学演讲】：为什么读书？强烈建议静下心来认真看完

关注我们

智能推荐

个性化推荐技术与产品社区

长按并识别关注

您的「在看」，我的动力

你可能感兴趣的:(广告,大数据,算法,编程语言,推荐系统)

java 签名 ecdsa_数字签名算法ECDSA 哈全文 java 签名 ecdsa
一介绍ECDSA：EllipticCurvDigstalSignatureAlgorithm椭圆曲线数字签名算法。速度快、强度高、签名短二参数说明三代码实现packagecom.imooc.security.ecdsa;importjava.security.KeyFactory;importjava.security.KeyPair;importjava.security.KeyPairGene
java 签名 ecdsa_Java数字签名——ECDSA算法随缘惜情 java 签名 ecdsa
ECDSA例如微软产品的序列号的验证算法。EllipticCurveDigitalSignatureAlgorithm，椭圆曲线数字签名算法。速度快，强度高，签名短——————————————————————————————————密钥长度112～571默认256——————————————————————————————————NONEwithECDSA签名长度：128实现方：JDK/BCRIP
什么是对称加密和非对称加密 MonkeyKing.sun 网络服务器运维
对称加密和非对称加密是现代密码学中的两大核心技术体系，它们用于保护数据的机密性、完整性和安全性，是构建区块链、电子支付、SSL、VPN、数字签名等系统的基础。一、什么是对称加密（SymmetricEncryption）？定义：加密和解密使用同一把密钥，称为“对称密钥”。工作原理：明文+密钥→加密算法→密文密文+同样密钥→解密算法→明文示例算法：算法简要说明AES（高级加密标准）最常用、快速、安全D
ECDSA数字签名
ECDSA算法（深入浅出密码学笔记）ECDSA标准中的步骤与DSA方案的步骤在概念上紧密相连，但ECDSA中的离散对数问题是在椭圆曲线群中构建起来的。因此，实际计算一个ECDSA签名所执行的算术运算与DSA中的完全不同。ECDSA标准是针对素数域Zp\mathbb{Z}_pZp和有限域GF(2m)GF(2^m)GF(2m)上的椭圆曲线定义的密钥生成使用椭圆曲线EEE，其中：模数为ppp；系数为aa
计算机系统中隐藏的‘时间陷阱’——为什么你的代码总比预期慢10倍？尤物程序猿 java 开发语言
引言大家经常遇到一个诡异现象：明明算法时间复杂度算得好好的，为什么实际运行速度总比预期慢得多？你以为是数据库查询的锅，优化了SQL却收效甚微；你怀疑是网络延迟，但抓包数据又显示一切正常。这背后可能隐藏着计算机系统中鲜为人知的“时间陷阱”——那些未被计入传统性能分析，却真实吞噬效率的底层机制。本文将揭示5个最典型的陷阱，从CPU缓存失效到操作系统调度暗坑，并用真实案例展示如何绕过它们。陷阱1：CPU
【学习】《算法图解》第九章学习笔记：迪杰斯特拉算法程序员
一、迪杰斯特拉算法概述迪杰斯特拉算法（Dijkstra'salgorithm）是一种解决带权有向图上单源最短路径问题的贪心算法，由荷兰计算机科学家艾兹赫尔·迪杰斯特拉（EdsgerW.Dijkstra）于1956年提出。该算法常用于路由协议，也可以用作其他图算法的子程序。（一）算法适用场景迪杰斯特拉算法适用于：带权有向图（每条边都有权重）所有权重都为非负值（不能有负权边）需要找出从一个顶点到图中所
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
选择排序算法详解老一岁排序算法数据结构算法
时间复杂度：O(n²)——无论数据初始排列如何，都需要进行n(n-1)/2次比较空间复杂度：O(1)——原地排序，不需要额外存储空间稳定性：不稳定排序（可能改变相同元素的相对位置）适用场景：小规模数据排序，或对内存使用要求严格的场景前言一、算法概述选择排序（SelectionSort）是一种简单直观的排序算法，其基本思想是：每次从未排序的部分中选择最小（或最大）的元素，放到已排序部分的末尾。这种排
银行家算法后会无期77 算法算法
文章目录银行家算法概述银行贷款案例A再次申请50万，能批准吗？B再次申请40万，能批准吗？或者C申请20万，能批准吗？安全序列和不安全序列多维度资源分配操作系统资源分配银行家算法总结数据结构银行家算法的步骤安全性算法步骤死锁的避免银行家算法概述银行家算法（Banker’sAlgorithm）是一个避免死锁（Deadlock）的著名算法，是由艾兹格·迪杰斯特拉在1965年为T.H.E系统设计的一种避
TVFEMD-CPO-TCN-BiLSTM多输入单输出模型微光-沫年 matlab 回归机器学习
47-TVFEMD-CPO-TCN-BiLSTM多输入单输出模型适合单变量，多变量时间序列预测模型（可改进，加入各种优化算法）时变滤波的经验模态分解TVFEMD时域卷积TCN双向长短期记忆网络BiLSTM时间序列预测模型另外以及有TCN-BILSTMTCN-LSTMTCN-BiLSTM-ATTENTION等！（此不包含在内，另算的！）Matlab代码！
电影院售票 - 策略模式（Strategy Pattern）
策略模式（StrategyPattern）策略模式（StrategyPattern）策略模式概述策略模式结构图策略模式主要包含的角色talkischeap，showyoumycode总结策略模式（StrategyPattern）策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法独立于使用它的客户端而变化，从而
可达性分析算法Test ThetaarSofVenice 算法 java jvm
可达性分析算法相对于引用计数算法而言，可达性分析算法同样具备实现简单和执行高效等特点，更重要的是，该算法可以有效地解决在引用计数算法中循环引用的问题，防止内存泄漏的发生，这个算法目前较为常用。Java语言选择使用可达性分析算法判断对象是否存活。这种类型的垃圾收集通常叫作追踪性垃圾收集(TracingGarbageCollection)，它的基本流程如下。可达性分析算法是以GCRoot（根对象）（见
Kyle的算法记录 Z2475269074 算法
本文将展示一个小白从0->1完成算法的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考LinkedListLinkedList里的add和remove，都是索引/索引+值进行操作//在链表头部插入元素0lst.addFirst(0);//在链表尾部插入元素6lst.addLast(6);队列QueueQueueq=newLinkedList();//向栈顶
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
C++数值算法深度解析：accumulate与max_element 景彡先生 C++进阶 c++算法服务器
在C++标准库中，数值算法（NumericAlgorithms）提供了高效处理数值数据的工具。本文将深入解析两个核心数值算法——accumulate（累加求和）与max_element（最大值查找）的底层原理、核心特性及最佳实践，帮助开发者掌握这些“数据统计利器”的正确使用方式。一、accumulate：通用累加器1.1底层原理与实现迭代累加：对[first,last)区间内的元素执行累积操作，初
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
从用户日志到智能宏：我的BFS寻宝奇遇记（2014. 重复 K 次的最长子序列）满分观察网友z 算法解构与应用算法
从用户日志到智能宏：我的BFS寻宝奇遇记大家好，我是一个在代码世界里摸爬滚打了N年的老兵。今天想和大家聊聊最近在项目中遇到的一个棘手问题，以及我是如何用一个看似“学院派”的算法——广度优先搜索（BFS）——漂亮地解决它的。这趟旅程有“踩坑”的窘迫，也有“恍然大悟”的喜悦，希望能给同在路上的你带来一些启发。一、我遇到了什么问题？一个“善解人意”的功能我所在的团队正在开发一款面向设计师的创意软件。为了
[插电式混合动力车辆][交替方向乘子法（ADMM）结合CVX]插电式混合动力车辆的能源管理：基于凸优化算法用于模型预测控制MPC研究（Matlab代码实现）程序辅导帮算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时
记录一个异常检测库 STO检测王深度学习
https://github.com/openvinotoolkit/anomalib/tree/main关于一个异常检测库，包括最先进的算法和功能，如实验管理，超参数优化和边缘推理。
BP-Tools21.02下载加解密利器金融安全交易算法工具 PCI认证工具金融和智能卡的数据加解密和数据转换工具小黄人软件金融安全
21.02版下载金融领域常用算法如AESRSADES都能计算，还能计算DUKPTAES/DES，以及TR31KBH的格式解析和数据包计算，另外还能提供EMVATRparser（ATR命令解析），HSM加密机指令组包，SimCard文件编辑和解析。
阿里一面凉经一入JAVA毁终身面试记录面试
阿里一面（凉经）先说明我大二开始接触计算机学习总共不到两年，很菜加上我比较容易紧张，所以回答的有些不尽人意，事后反思了一下确实很多地方是有问题的，大家如果看出什么问题请告知我一下，我一定虚心接受。1.主体的流程自我介绍（不过多赘述了）挑选一个项目进行深入探讨八股拷打算法2.项目拷打在自我介绍里我大概介绍了一下我的三个项目，相比字节的面试官明显流程更加固定，而且也更正式，不会会和你多聊一些学习方面的
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
RecycleView实现 viewFlipper 广告条垂直滚动效果（仿叮咚买菜）鸿蒙小林安卓开发 java 技术支持安卓 java android android-studio
demo码云代码仓库实现效果viewFlipper的使用这里就不介绍了，想通过viewFlipper实现广告条滚动效果的可以去看git上的这个案例因为不是什么太难的功能就不对细节做太多的讲解了，代码里有我写好的注释，直接上代码view/***@authorwhl*Createdon:3/1/223:07PM*description*/publicclassUpRollRecyclerFragmen
【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
人脸识别常用数据集和Loss JL_Jessie 人脸识别深度学习
人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文TheDevilofFaceReco
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo