文文学霸

广告深度预估技术在美团到店场景下的突破与畅想

总第473篇

2021年第043篇

后深度学习时代下，技术迭代全面进入深水区，以提升模型复杂度为主体的广告预估模型优化已经不再奏效。美团到店广告质量预估团队紧密结合业务特点，发挥深度模型结构灵活多变的优势，实现了进一步破局。

本文先介绍了美团业务的LBS空间距离约束和长周期性两大挑战，然后介绍了上下文、用户、广告、训练方式四个维度的应对方案，具体如下四个技术突破：a.基于位次组合的上下文偏差感知预估；b.基于时空依赖的超长序列建模；c.广告候选动态化；d.灾难遗忘与持续学习，带动线上指标显著提升的同时，整理为论文发表在SIGIR、CIKM等国际顶级会议。最后，基于新一轮理解，提出推理量级动态化、评估指标差异化等预估技术新趋势。

背景与简介
- 1. 背景
- 2. 业务特点与挑战
- 3. 预估技术简介
预估技术突破
- 1. 上下文：基于位次组合的上下文偏差感知预估
- 2. 用户：基于时空依赖的超长序列建模
- 3. 广告：广告候选动态化
- 4. 训练方式：灾难遗忘与持续学习
预估技术新趋势

背景与简介

1. 背景

点击率/转化率/交易额预估问题，是广告/推荐领域的核心，预估值准确性与广告/推荐平台的营收和发展直接相关。因此，该方向吸引了学术界与工业界的广泛研究，成为机器学习/深度学习技术应用最成功的领域之一。

得益于大规模深度学习框架的推广以及在图像、NLP等方向的成功应用，深度学习技术被引入广告和推荐领域，尤其在点击率/转化率/交易额预估问题上，取得了巨大成功，已经成为业界的主流方法。对比传统的机器学习方法[1][2]，DNN（深度神经网络）[3][4][5]兼具记忆与泛化性[6]，在拟合能力上体现出更大优势。然而，经过几年的发展，深度模型的优化变得越来越困难，既往“拿锤子找钉子”——单方面提升模型复杂度的模式已经不再奏效。在这种大背景下，如何打破新的瓶颈呢？

美团到店广告质量预估团队在过去的两年中不断进行实践和研究：通过与美团业务特点深度结合，发挥DNN结构设计灵活多变的优势，大量新模型新技术喷涌而出，团队探索出了一条破局之路。

2. 业务特点与挑战

模型整体化方案设计同业务特点紧密相关，团队的业务形态，主要场景覆盖美团/大众点评双侧的搜索广告，筛选列表广告，信息流广告三种业务形式（如图1所示），意图依次从强到弱。每一个业务也具体包括餐饮、丽人、休闲娱乐、结婚、酒店等不同品类。丰富的业务特点使得算法需要从多个角度进行结合，为团队不断进行新模型的灵活设计提供了广阔的空间。

图1 美团/大众点评双平台各自三种广告形式

进一步理解业务特点，上述的O2O(Online to Offline)业务类型，将线下的商业机会与互联网结合，同传统的线上业务的核心差异在两方面，一方面是Online to Offline中的“to”，从线上到线下过程中，用户会重点考虑线上线下间的距离因素，因此空间维度的LBS(Location Based Service)距离约束是一个重要特点；另一方面是Online to Offline中的“Offline”，线下门店消费习惯，行为周期具有明显时间维度特点，例如在月级别固定消费的美甲行为，因此长周期性为另一重要特点。

基于以上O2O业务特点，模型整体建模设计有以下空间与时间维度两方面的挑战。

a. LBS空间距离约束：

特点：线上门店/商品需要在有限的距离约束下展示，不同空间位置差异性大。

挑战：带来了候选量差异大，上下文刻画重要等挑战。

b. 长周期性：

特点：门店消费习惯具有周期性强，长期行为影响大等特点。

挑战：用户的长期兴趣建模挑战大，并且因常规模型训练方式较难学习周期性，训练方式存在遗忘历史信息挑战。

3. 预估技术简介

针对LBS距离约束与长周期性两方面挑战，下文将简要介绍CTR(Click-through Rate)预估技术方案。从机器学习分类的角度理解，CTR预估是一个有监督机器学习问题：，最优预测函数被用户()、广告()、上下文()三个维度的函数输入，以及训练过程的函数求解()所决定，其中上下文包括了请求Query、请求列表上下文、请求地理位置等实时信息。

如图2所示，我们结合LBS距离约束和长周期性这两个核心挑战，对CTR预估建模函数（用户、广告、上下文和训练过程）进行优化：

图2 CTR预估建模关系图

a. 函数输入：上下文、用户、广告三方面建模

基于位次组合的上下文偏差感知预估（上下文）：由于LBS距离约束挑战，空间位置差异引起不同展示上下文影响大，因此利用深度位次交叉网络将广告和位次组合建模，并基于位次信息强化不同请求下的上下文偏差感知。

基于时空依赖的超长序列建模（用户）：针对长周期性与LBS距离约束两方面挑战，一方面基于预训练机制实现了超长序列建模，捕获用户周期性行为；另一方面，实现行为序列的时间与空间联合建模，优化LBS距离约束问题。

广告候选动态化（广告）：由于LBS距离约束挑战，空间差异性引起不同位置候选差异大，广告与用户两者表达存在匹配关系（如图2所示），只有保障了广告供给的充足性，才能对用户广告关系进行更好的建模。因此进行广告候选量/候选类型/算力资源三方面动态化，提供用户需求匹配的供给。

b. 函数求解：模型训练方式

灾难遗忘与持续学习（训练方式）：针对长周期性挑战，高维稀疏模型在学习最近数据的同时会遗忘历史数据，形成灾难遗忘。通过具备数据回放能力的记忆结构进行持续学习，实现对周而复始的历史数据有效刻画。

整体网络如图3所示，结合上述User/Ad/Context/Training几方面优化，实现方式通过表示单元(Representation Unit)，记忆单元(Memory Unit)，组合单元(Combination Unit)三个模块构成高精度高量级的预估系统。其中表示单元通过加载流式数据，结合超长序列和实时序列，构建时空依赖激活（图中Representation Unit的User部分）；记忆单元整合历史与当前数据，在数据流控制的基础上，一方面提供历史超长序列的表达学习（图中Memory Unit的User部分），实现序列长度为2000~10000用户全生命周期兴趣建模。另一方面面对灾难遗忘问题[10]，通过具备数据回放能力的记忆结构进行持续学习（图中Training部分），实现高精度的单点预估。组合单元提供组合能力，在广告方面，可以将记忆单元的综合表示与多个泛商品表示进行组合（图中Ad部分），在上下文方面，可以与多个位次表示进行组合，将单门店的预估能力扩展到多位次多商品(图中Context部分)，进而感知展示上下文偏差，从而实现高精度高量级的组合预估系统（精排在线预估量级3000+）。

图3 CTR预估整体网络图

下文，我们会从Context、User、Ad、Training四个方面具体介绍技术突破。

预估技术突破

1. 上下文：基于位次组合的上下文偏差感知预估

由于CTR预估模型的训练通常采用曝光点击数据，该数据是一种隐式反馈数据，所以会不可避免地产生各种偏差问题，例如位次偏差、选择性偏差、流行度偏差等。以位次偏差为例（通常也被称为位置偏差，为与本文LBS的位置区分开，我们称其为位次偏差），由于在搜索列表页场景中，用户存在着从上至下的浏览行为习惯，靠前位次的广告通常会受到更多的关注从而容易有更高的CTR，这种位次倾向会累积到数据中，从而导致数据中存在着偏差问题。此外，受整个列表上下文所产生的点击差异性而导致的偏差也逐渐受到业界关注，在本文该偏差被称之上下文偏差。在LBS空间距离约束挑战下，位次偏差和上下文偏差相较于传统电商场景更突出，下文具体介绍该问题。

展示上下文偏差问题：在O2O场景的LBS距离约束下，不同地理位置相同搜索词所展示的列表差异极大，而传统电商由于不存在LBS约束，对于同一搜索词往往更容易根据热度去排序展示，在此比较下，LBS的展示上下文对于广告有着更大的影响，这就导致了在不同的上下文中数据存在较大不同的偏差。对于位次偏差而言，传统电商的位次偏差更趋向于一个固定偏差，而LBS约束下的位次偏差在不同上下文中是有明显差异的，例如一线城市相较于三线城市而言，由于广告的供给更加充足且质量更高，靠前位次广告容易吸引用户点击，更易形成用户点击靠前位次的行为习惯。同时，一线城市商户质量差异小，三线城市商户质量参差不齐，这就导致广告受其上下文自然的影响呈现差异，进一步而言，相同广告在不同自然上下文中点击率也是有差异的，用户容易受到不同上下文的影响从而有不一样的决策，这种差异同样会累积到数据中导致数据存在上下文偏差。为此，本文将位次偏差及广告受不同上下文自然影响所带来的上下文偏差这两类偏差归纳为展示上下文偏差。在美团业务中，搜索广告场景的用户意图较强，其更关注于靠前广告位，位次偏差较大，而在筛选列表广告场景中，意图不明确的用户偏向于去浏览更多的潜在优质商家，因此上下文偏差较大，团队结合这些业务特点在各个场景上推进了基于位次组合的上下文偏差感知预估技术。

位次组合预估技术框架：基于位次偏差问题，我们首先沉淀出一个深度位次交叉网络（Deep Position-wise Interaction Network，DPIN）模型框架去同时预估多个位次的CTR。如图4所示，DPIN模型由三个模块组成，分别是处理J个（例如200个）候选广告的基础模块（Base Module），处理K个（例如10个）候选广告位次的深度位次交叉模块（Deep Position-wise Interaction Module）以及组合J X K（例如2000个）个交叉候选的位次组合模块（Position-wise Combination Module），不同模块需预估的样本数量不一样，复杂模块预估的样本数量少，简单模块预估的样本数量多，由此来提高模型性能和保障服务性能。通过这三个模块的组合，DPIN模型有能力在服务性能的限制下预估每个广告在每个位次上的CTR，并学习位次信息和其他信息的深度非线性交叉表示[6]。

上下文偏差感知学习：DPIN技术框架具备位次信号的深度交叉能力，从而实现多位次的CTR预估。在此基础上，由于自然广告分别排序及广告插入自然列表的业务特点，我们在广告预估时可以去考虑已排序好的自然列表，而多位次预估的技术框架赋予了广告可以去感知其局部自然上下文的能力。因此，我们在DPIN的基础上考虑每个位次的邻域自然信息，如图4所示，深度位次交叉模块在考虑位次、上下文、用户位次历史行为的基础上通过上下文自然聚合（Position-wise Context Aggregation）模块去感知并聚合局部自然上下文信息，从而更好地缓解上下文偏差。进一步地，相同上下文中的自然和广告具有同质性，我们通过基于异质的Listwise损失函数加强自然广告间的竞争性建模，通过基于同质的自适应采样加强广告间关系建模。

基于位次组合的上下文偏差感知预估在多个主广告位落地，并都在衡量广告营收的RPM(Revenue Per Mille)指标提升2%~3%。

详情，请参考团队的SIGIR 2021论文《Deep Position-wise Interaction Network for CTR Prediction》[6]。

图4 基于位次组合的上下文偏差感知网络

2. 用户：基于时空依赖的超长序列建模

针对长周期性和LBS约束两个挑战，进行用户建模深度优化。一方面针对长周期问题，基于“长短分离”用户行为序列设计原则，通过预训练方式建模长期兴趣；另一方面针对LBS约束问题，通过时空建模进行时间与空间的多重依赖关系学习，有效刻画在不同时空条件的用户表达。

图5 不同类目行为的平均点击间隔天数

用户长期行为复杂性：在美团O2O场景下，用户行为习惯存在明显月级周期性（如图5所示），并且行为间周期性差异较大，例如脱毛/水光针类的周期性大于火锅/烧烤类，用户超长序列建模是捕获周期性行为特点的必要条件。在时空依赖方面，用户点击体现出明显的“长分散、短聚合”特点（如图6所示），即较短时间内用户的地理位置聚集在单点，但拉长来看，用户将漫游到多个地理位置；超长周期内，大部分用户还会有跨省跨城流动。因此时空联合联合建模存在潜能。

图6 用户地理位置漫游“长分散、短聚合”特点示例

综上两方面问题，整体建模如下：

其中包括 1). 超长序列预训练：部分，将其建模为一个仅依赖于历史序列作为输入、用户兴趣向量作为输出的子网络，支撑千级别的超长序列推理性能；2).时空联合建模：部分的建模。下文具体介绍。

超长序列预训练：针对以上超长序列的性能问题，基于“长短分离”设计，将超长序列单独预训练(如图7所示)，同短期表达分离，超长序列模块负责将用户全生命周期序列进行激活和降维，提取用户长期兴趣的表达。主模型负责将用户长期表达与短期表达结合。线上推理时，超长序列可以直接读取天级别缓存的表达向量，通过短期表达部分补充因无法实时更新的效果损失，然后再进行长短期兴趣表达结合，最终线上性能增加由原先30+ms降至1ms以内，实现千级别序列复杂推理。为能捕捉用户周期性行为兴趣，采用Channel-wise Activator Layer结构设计（如图7所示），利用长期行为兴趣漫游的特点将超长序列切分为能表达不同兴趣的时间子序列（Sub Seq），并增加行为动态时间间隔表征后，同差异性属性进行多通道表达激活，实现基于类目周期性差异的兴趣表达。对比业界基于相关检索的超长序列方案 [7]，上述超长序列预训练并没有丢弃不相似的表达，充分建模全部行为。例如烧烤与素食、健身房和快餐之间意图负相关，但互相却又强影响，预训练建模以上负相关等更通用的行为影响，在美团数据集中也取得比检索方法[7]更显著的效果。

时空联合建模：依赖美团O2O的业务特点与挑战，我们充分考量其时间与空间属性，对用户的历史时空信息和当前时空信息进行了充分的建模和交互。我们分辨出用户行为的三重时空信息，即：用户点击发生时的时间、用户请求发出的地理位置、用户所点击的商户的地理位置。基于上述三重时空信息，我们提出Spatio-temporal Activator Layer（如图7所示）：三边时空注意力机制神经网络来对用户历史行为进行建模，通过对请求经纬度信息、商户经纬度信息和请求时间的交互，囊括了同构空间信息深度交叉（用户历史请求位置和用户当前请求位置、用户历史点击商户位置和用户当前目标商户位置等）、异构空间信息深度交叉（用户历史请求位置和用户当前目标POI位置、用户历史点击商户位置和用户当前请求位置）、时间信息深度交叉的三边时空信息交互机制。针对空间信息交叉，我们进一步采用地理位置哈希编码和球面距离相结合的方式，以综合表达绝对空间信息和相对位置信息；针对时间信息交叉，我们也采用绝对与相对时间相结合的方式，有效实现用户行为序列在不同时空条件下的三边表达。从业务角度，针对不同的业务特性，我们进行空间信息表达的动态归一。比如在美食业务中，我们刻画用户搜索地和商户的相对距离信息；而在空间变迁属性更强的酒店业务中，当用户搜索词包含地址词时，我们刻画该地址和目标商户的相对距离信息。最后，经上述网络编码后的时空信息经过注意力机制网络融合，得到LBS场景下用户超长行为序列对不同请求候选的个性化表达。

基于时空依赖的超长序列建模在各个主广告位落地，RPM提升2%~5%。

详情，请参考团队的CIKM 2021论文《Trilateral Spatiotemporal Attention Network for User Behavior Modeling in Location-based Search》[8]。

图7 基于时空依赖的超长序列模型图

3. 广告：广告候选动态化

广告同用户存在着匹配关系，在用户意图精准理解的基础上，充分的广告供给能够进一步释放潜能。而在LBS距离约束挑战下，不同请求的广告候选存在很大差异。

因此如图8所示，我们从候选量、候选类型、候选算力三个维度构造广告候选动态化系统，实现精细化的供给匹配，具体优化如下：

图8 广告候选动态化三维图

候选量动态化：在广告/推荐领域，由于性能和资源限制，召回->粗排->精排->机制，各层之间普遍存在漏斗候选截断，其中的精排候选数一般设置固定值。美团业务的距离约束特点显著，大型城市是小型城市平均候选数的59倍。根据城市、商圈等空间粒度进行候选量动态化后，可以在资源固定下最大限度释放热门地区的排序效果，特别是大型城市效果明显，RPM提升约20%。

由于候选量大幅度提升，精排模型有更严重的选择性偏差问题——线上面对的扩量候选与此前系统的候选不一致，为扩量前系统候选的超集。将候选扩量对应的流量理解为Explore流量，对CTR模型训练进行了多阶段优化，进一步取得效果[13]，整体优化在部分筛选列表广告RPS提升5%~10%。

候选类型动态化：在候选量动态化的基础上，我们进一步进行了候选类型动态化。因不同类型均为广告，我们在此处不采用Ad概念，在某些类目上，受LBS限制门店数较少，而每个门店下的泛商品（门店下更细粒度候选，同门店差异见上图，例如在结婚品类下的某婚纱照为商品）较多，将候选类型从门店扩展到门店+泛商品后，候选供给在部分类目可以扩大约30倍。并且在业务中，用户意图逐渐呈现具体化、明确化与多样化特点，例如“写真”等搜索关键词增多，粗粒度的门店候选已经不足以匹配细粒度用户意图。通过深度个性化的异构候选混排，能够匹配细粒度的用户意图，给用户展示最符合其兴趣偏好的候选类型。如图9所示，我们通过组合预估实现异构混排系统，主网络的高复杂性门店表征通过共有表达的迁移学习，和商品网络的高数量级商品表征进行维度动态转换对齐，实现数千量级的门店/泛商品异构混排系统。在部分筛选列表广告RPM提升10%~15%。

图9 异构混排网络

候选算力动态化：通过动态的候选供给我们发现更多的候选能够带来效果空间，在此基础上我们进一步进行算力动态化，从性能角度进一步提升候选量级。广告系统收到请求后，会经过召回、粗排、精排、机制模块，最终生成广告展现顺序。其中各模块的超时时间和资源是固定的，导致总体算力缺乏弹性，容易因候选过多出现总体请求超时而不出广告的情况，或是候选过少出现多余算力浪费的现象。因此我们进行候选算力动态化，根据流量价值调整每个模块的耗时，通过全局优化实现在有限算力下收益最大化：首先在工程架构上增加各个服务算力弹性变量，如超时时间、模型复杂度和计算并行度等等，实现了效果和算力的灵活兑换。之后在算法上通过流量价值预估模块预估当前请求价值，确定各阶段打分数。在接下来的各服务阶段，结合当前算力消耗与预估价值情况，即时调整后续阶段算力弹性变量，进一步释放了效果空间。在筛选列表广告RPM提升约2%。

候选动态化效果在各个主广告位落地效果差异较大，RPM提升范围在2%~15%。同时广告侧优化我们通过多模态表达学习取得效果，详情后续整理为论文公开。

4. 训练方式：灾难遗忘与持续学习

灾难遗忘(Catastrophic Forgetting)[10]是模型学习同人脑学习的一个重要差异，指的是同一个网络模型，在学习新的任务的时候，因分布变化而导致老任务学习的模型权重损坏。在美团广告业务，无论是用户和商户均存在周期性特点，并且高维稀疏网络特性会放大这个特点，现象是在拟合新数据模式过程中，遗忘具备周期性的老数据，形成了灾难遗忘。下面会介绍长周期性挑战，与高维稀疏网络结构问题，以及对应的持续学习解决方案。

周期性数据模式：不同于传统机器学习数据独立同分布假设(i.i.d.)，CTR预估模型面临着动态非平稳的外部环境。特别地，在我们的O2O业务中，新用户、新商户不停出现，流行元素如小龙虾、烤肉等不时演变，夹杂着周中简餐周末大餐等节日性、季节性、星期级，小时级特征，对CTR预估模型的持续学习提出了挑战，要求我们的模型能够快速拟合新出现的数据模式。针对这类时变数据的学习任务，一种常见选择是流式训练。流式训练将数据按照时间顺序依次喂入模型，以Regret[11]为目标让模型实时动态地调整模型参数，达到拟合最新数据分布的目的。但是，单纯地流式训练有过分强调新数据模式而遗忘过往学习到的老数据模式的危险。特别地，在我们的O2O业务场景下，存在大量周期性数据模式，下面将以星期级周期为例进行介绍。

高维稀疏网络的结构匹配性：不同于NLP/CV领域，广告/推荐领域的DNN模型具有显著的参数不平衡性，即高维度稀疏的Embedding层约有亿级~千亿级别参数量的参数量，而连接Embedding到Output的FC层(Fully Connected Layers)却低维稠密，网络中极度稀疏的Embedding层占据99.99%+的参数量，该不平衡性易于引发老数据模式的遗忘问题。以天级更新模式的星期几特征为例，线上推理的数据是周六(t, w(t) = 6) 数据，训练时在未充分纳t时刻数据时，会更多的拟合在周五(t-1)特征上，而实际上在上一周的周六(t-7)与线上推理数据(t)具有更强的分布一致性。特别地，如果我们使用星期几这一离散特征，在高维稀疏的Embedding层在线上推理的t时刻会直接查询到t-7天的Embedding，而低维稠密的FC层会查询到t-1的FC层，会引起严重的结构不匹配问题，形成星期属性模式的灾难性遗忘。更具一般性地，训练中存在着周中简餐，周末大餐等复杂模式的灾难遗忘，引起效果大幅退化。

面向未来分布的持续学习：为系统性地解决上述问题，我们采用持续学习中的数据回放技术，在流式训练的基础上进一步拟合回放的数据，加强模型在无遗忘约束下的持续学习能力。具体地，为结合流式训练和持续学习的数据回放技术，我们采用FC层分多塔的结构来达成预训练模型可流式更新、持续学习模型可依赖最新预训练模型更好地拟合当前数据的效果。如下图10所示，通过流式训练我们维护一个预训练模型；而为避免模型过分拟合最新数据而导致历史稀疏Embedding层参数和上层FC层参数不匹配的问题，通过数据控制器(Data Controller)维护一份记忆集(Memory Set)，其中的数据为根据未来分布预测，在历史数据中采样得到，并将该份记忆集提供给基础模型用于持续学习，从而在加强对未来分布数据的模型预估能力。

持续学习技术在各个主广告位落地，RPM提升2%~3%。更多详情已整理为论文投稿中，后续会进行公开。

图10 灾难遗忘与持续学习训练模式

预估技术新趋势

上文介绍了基于O2O特点的CTR技术突破，我们将优化方法推广在转化率、交易额预估问题，其中LBS距离约束在转化率中起到更重要的影响，因方法接近，不再进行赘述。

同一技术的点击率预估优化效果在不同业务类型中也存在一定差异，意图强的搜索广告场景，上下文差异性更大，Context相关优化有更明显效果。而在意图弱的信息流广告场景，User建模有更大的空间。

那么预估技术如何持续突破的系统上线？迭代路径从前期通过模型复杂度提升，到现阶段结合问题的模型灵活设计均取得效果，而未来我们认为将越来越剥离模块与目标设置的现状，消除建模中人为的设置假设。

如何抽丝剥茧，回归问题本质？我们认为有如下新趋势。

a. 模型内推理量级动态化

广告系统通常分为召回、粗排、精排（预估）等多个模块，模块漏斗遵循的一个核心设计逻辑是简单模块打分量级大（例如粗排），复杂模块打分量级低（例如精排）。以递归视角进一步理解子模块设计，将设计逻辑泛化到模型内，同样存在简单的网络部分打分量大，复杂的网络部分打分量低，同一个网络打分量差异化的优化方式。例如粗排常用的双塔网络结构(Two-tower Network)在User端打分一次，Ad端打分多次。

更具一般性的形式并不局限在表达能力受限的双塔结构，而在于更充分的应用打分量与复杂度的关系进行灵活设计，例如本文阐述的DPIN(Deep Position-wise Interaction Network)[7]组合网络部分打分量大，基础网络部分打分量小，同在本文阐述的异构混排网络，超长序列预训练优化同样适用于这一趋势。

未来将在更细化的层面进行推理量级动态化，通过每一个局部精度与性能的平衡达到整体的最优平衡。

b. 问题间评估指标差异化

评测指标是一个比优化方式甚至更重要的问题，点击率预估最经典的评测指标为AUC，而随着模型精度的提升，离线AUC提升同线上不一致的情况逐渐增多。回归到预估问题本身，实际排序系统是在固定请求固定位次下的最优排序，等价寻优User × Context × Time限定条件的Ad最优序。

time条件在持续变化难建模，为简化问题，以User/Context维度分组，近似寻优Ad最优序。基于以上假设，User/Context分组的“组间序”同“组内序”并不具备等价的业务意义。例如个性化优化问题，每一个User作为一组进行分组为例，User Group AUC[12]同线上具有更强的一致性；而在Context中的Position Bias问题中，我们发现通过Position Group AUC(PAUC)[7]评估同线上系统具有更强的一致性。在全局AUC增长挑战性变大的背景下，不同问题进行差异性评估指标设计，进而指导模型优化，是取得效果的一个关键趋势。

c. 链路模块间目标多元化

系统整体目标面对排序问题，先是解耦为召回、粗排、精排等多模块独立优化，而后针对整体性排序问题，链路目标一致性优化成为一个明显的演进趋势。在召回->粗排->精排目标一致，取得明显效果的同时，存在着因多模块过于同质化、协同共振引起的马太效应。以召回为例，是否应该由其他路模块，例如探索路召回来解决这个问题？

更具泛化性地，多路召回之间的强互补性，能够提供给下游更优的候选超集，召回各个路之间面向Diversity Loss进行优化是未来的探索性方向之一。随着模块间关系动态变化，广告系统目标设计存在着一致性与差异性的辩证关系。

d. 搜索推荐边界模糊化

从广告视角，团队内的搜索广告、推荐广告间做法呈现逐步边界模糊化特点。传统搜索广告围绕意图明确进行Query理解，进而内容适配。逐渐Query相关的刻画不能完全满足用户意图的细化，搜索问题逐渐转变为在Query约束下的个性化匹配问题。边界模糊化带来的一个技术现象就是全域数据的运用，搜索、推荐间的全方位深度迁移学习是取得效果的一个关键。

e. 模型学习非监督化

如图11所示，整个广告系统中，是在用户交互、数据、模型之间不断产生反馈循环，在这个过程中会有偏差循环放大的问题，例如产生偏差的数据会喂入模型影响展示，数据回溯到模型形成进一步归纳偏差。

传统的建模方式是将整个动态的系统简化为监督问题进行预估建模，优化集合仅为线上集合的子集，效果限制随迭代愈发明显。未来针对监督模型无法充分建模的候选超集依然有较大空间。在实际动态演化的广告系统中，无论是新目标定义、模型优化还是AB Test评测方式都有较大的探索潜能。

Debiasing问题优化详情参照团队的KDD Cup 2020冠军技术分享《KDD Cup 2020 Debiasing比赛冠军技术方案及在美团的实践》。

图11 广告系统中的反馈环路，偏差积累循环

作者简介

胡可、坚强、张博、漆毅、庆涛、曲檀、程佳、雷军等，均来自美团广告平台技术部。

参考文献

[1] Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001, 29(5):1189-1232.

[2] Rendle S. Factorization machines[C]//2010 IEEE International conference on data mining. IEEE, 2010: 995-1000.

[3] HT Cheng, et al. Wide & Deep Learning for Recommender Systems, 2016

[4] Zhou, Guorui, et al. “Deep interest network for click-through rate prediction.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018

[5] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts. ACM, 2018.

[6] Wen, Ling, Chua. A closer look at strategies for memorization.[J]. Clavier Companion, 2014, 6(6):50-52.

[7] Huang J, Hu K, Tang Q, et al. Deep Position-wise Interaction Network for CTR Prediction[J]. arXiv preprint arXiv:2106.05482, 2021.

[8] Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction

[9] Qi, Yi, et al. "Trilateral Spatiotemporal Attention Network for User Behavior Modeling in Location-based Search", CIKM 2021.

[10] Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017.

[11] M. Zinkevich. Online convex programming and generalized infinitesimal gradient ascent. In ICML, 2003.

[12] Optimized Cost per Click in Taobao Display Advertising[C]// the 23rd ACM SIGKDD International Conference. ACM, 2017.

[13] KDD Cup 2020 Debiasing比赛冠军技术方案及在美团的实践

你可能感兴趣的:(大数据,算法,python,机器学习,人工智能)

HarmonyNext 实战：基于 ArkTS 的高性能图像处理与渲染方案 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能图像处理与渲染方案引言在移动应用开发中，图像处理和渲染是一个复杂且资源密集的任务。随着HarmonyNext的推出，开发者可以利用其强大的分布式能力和ArkTS语言的高效性，实现高性能的图像处理与渲染方案。本文将深入探讨如何在HarmonyNext平台上，利用ArkTS编写高效的图像处理算法，并通过分布式渲染技术实现跨设备的图像渲染优化。我们将通过
HarmonyNext 实战：基于 ArkTS 的分布式任务调度与资源优化方案 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式任务调度与资源优化方案引言在现代分布式系统中，任务调度与资源优化是提升系统性能和效率的关键。随着HarmonyNext的推出，开发者可以利用其强大的分布式能力和ArkTS语言的高效性，实现复杂的任务调度与资源优化方案。本文将深入探讨如何在HarmonyNext平台上，利用ArkTS编写高效的分布式任务调度算法，并通过资源优化技术提升系统整体性能。我
智能体群体决策在资产配置优化中的应用：提高组合效率杭州大厂Java程序媛 DeepSeek 人工智能 ai
智能体群体决策在资产配置优化中的应用：提高组合效率关键词：智能体群体决策、资产配置优化、组合效率、优化算法摘要：本文旨在探讨智能体群体决策在资产配置优化中的应用，通过引入智能体群体决策机制，提高资产配置组合的效率。文章首先介绍了资产配置的背景和挑战，随后详细阐述了智能体群体决策的基本概念、核心理论和优化算法。在此基础上，探讨了智能体群体决策系统的设计实现方法，并分析了在实际资产配置中的应用案例。最
初识Python~python基础语法 Cccc吃吃吃 python 开发语言
文章目录前言一、Python基础二、使用步骤（具体实例）1.进行简单的数学运算补充三、基本概念四、举一反三前言初识python。本章内容包含了python基础语法-常量和表达式一、Python基础可以将python作为一个计算器来使用。利用单词print，此单词意思是打印，属于python里的一个内建函数。使用print可以将一些数据打印到我们的控制台里。例如：print（）括号里填写我们要打印的
每天一道算法题【蓝桥杯】【递增的三元子序列】桦0 题解算法蓝桥杯 c++leetcode 贪心算法
思路arr【0】和arr【1】分别用于更新递增序列的前两个数#define_CRT_SECURE_NO_WARNINGS1#includeusingnamespacestd;classSolution{public:boolincreasingTriplet(vector&nums){vectorarr(3);arr[0]=arr[1]=INT_MAX;for(inti=0;i
每天一道算法题【蓝桥杯】【最小路径和】桦0 题解算法蓝桥杯 c++leetcode
思路使用dp表解决问题使用DP表的思路分析在解决最小路径和问题时，动态规划（DP）是一种非常有效的方法。以下是使用DP表的详细思路分析：问题描述给定一个mxn的网格grid，其中每个单元格包含一个非负整数，表示从该单元格出发的路径成本。你需要找到从左上角(0,0)到右下角(m-1,n-1)的路径，使得路径上的成本总和最小。你每次只能向右或向下移动。DP表的定义定义一个二维数组dp，其中dp[i][
论文摘要生成器：用TextRank算法实现文献关键信息提取 Atlas Shepherd python 算法自然语言处理 python 信息可视化
我们基于python代码，使用PyQt5创建图形用户界面（GUI），同时支持中英文两种语言的文本论文文献关键信息提取。PyQt5：用于创建GUI应用程序。jieba：中文分词库，用于中文文本的处理。re：正则表达式模块，用于文本清理和句子分割。numpy：提供数值计算能力，如数组操作、矩阵运算等，主要用于TextRank算法的实现。importsysimportreimportjiebaimpor
效率翻倍！超好用的AI+写作API接口汇总程序员后端
在过去几年里，人工智能（AI）技术经过众多科技公司和科研人员的不懈努力取得了巨大进步，吸引了大众的广泛关注。这些AI技术在应用领域的新闻报道也逐渐走入人们的视野，引发了对其具体应用的浓厚兴趣。今天，我们将聊一聊AI与写作文案的结合。在传统观念中，AI技术通常被限制在有明确定义任务的领域。然而，实际上，AI在创造性任务，如写作方面，也展现出了强大的潜力。人工智能写作软件提供了多种选择，可用于生成长篇
将Labelme标注的数据做成COCO格式的数据集（实例分割的数据集）一直开心深度学习计算机视觉
这里说明一下：Labelme标注数据时候是用的多边形框，关于标注，可以看前面的博客文章下面制作的COCO数据集是用于实例分割的数据集。COCO格式数据集的制作1、labelme标注的数据转coco数据集AnacondaPrompt里F:\rockdata下的目录运行指令：这里需要注意是在activatelabelme后，pythonlabelme2coco.pyNoObejectNoObeject
KMeans实战——聚类和轮廓系数评估啤酒数据集巷955 机器学习人工智能
原理：在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（SilhouetteScore）来评估聚类结果的质量。1.数据准备首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
大数据学习（60）-HDFS文件结构 viperrrrrrr 学习 hdfs hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNod
安当TDE透明加密技术：为Manus大模型构建用户会话数据保护的“安全金库” 安当加密安全
摘要在人工智能技术深度落地的今天，大模型开发者面临的核心挑战已从算法优化转向数据安全。作为垂直领域大模型的代表，Manus凭借其强大的语义理解与个性化交互能力，在金融、医疗、教育等行业获得广泛应用。然而，其海量的用户会话数据存储与调用场景，也面临着数据泄露、非法篡改等安全威胁。上海安当基于TDE（TransparentDataEncryption）透明加密技术，推出了一套针对Manus大模型的用户
K8S Calico网络插件 u012804784 android 网络 flask python 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统目录0.前言1.Calico概述1.1.Calico组件1.2.Calico网络实现1.3.了解Calico对CIDR子网
机器狗监控系统软件工程师面试题道亦无名机器人面试机器狗
大部分企业会使用的面试题一、基础知识编程语言方面请简述C++中多态的实现方式，在机器狗监控系统中，哪里可能会用到多态来提高代码的扩展性？例如不同型号机器狗的运动控制模块。Python作为脚本语言在系统开发中有诸多应用，说说Python的GIL（全局解释锁）对多线程性能的影响，以及在实时数据采集与处理场景下如何规避。数据结构与算法若要实现机器狗的路径规划，你会选择哪种数据结构来存储地图信息，比如栅格
python-uiautomator2 安装教程水w Android python 开发语言测试工具自动化 UI自动化测试工具推荐 UI自动化测试 uiautomator2
目录一、简介二、支持平台及语言三、工作原理四、安装一、简介uiautomator2是一个python库，用于Android的UI自动化测试，其底层基于Googleuiautomator，Google提供的uiautomator库可以获取屏幕上任意一个APP的任意一个控件属性，并对其进行任意操作。GitHub地址：GitHub-openatx/uiautomator2:AndroidUiautoma
完全自主化的AI代理不应被开发无穷之路 AI 人工智能
HuggingFace前不久发布了一篇论文，题目《FullyAutonomousAIAgentsShouldNotbeDeveloped》，论证了完全自主化的AI代理不应被开发。核心观点随着AI代理人的自主性增加，用户放弃的控制权越多，系统带来的风险就越大。认为不应该开发完全自主的人工智能代理，提出了多层次自主性（从低级到高级）的框架。人工智能代理的历史文中首先回顾了人工智能代理的历史和发展现状，
C语言指针 812503533 c语言开发语言
指针是C语言的核心概念之一，C语言是面向过程的语言，允许直接操作内存。指针使得程序能够非常灵活地控制内存、访问和修改数据。这种能力对于低级编程至关重要，尤其在操作系统开发、嵌入式编程、性能优化等领域中，直接操作内存可以带来极大的优势。是C语言与其他许多高级编程语言（例如Python、Java、JavaScript等）之间的一个重要区别之一1.指针的基本概念指针本质上是一个变量，它保存了另一个变量的
Python连接Sql server数据库 Python老炮儿数据库 python
defparse_subjectname(sid):"""根据传入的sid，连接到SQLServer数据库，并获取对应的subjectname。参数:sid:int-要查询的subject的sid返回:subject_name:str或None-查询到的subjectname，如果没有找到则返回None"""#固定的数据库连接信息server='***'database='***'username
顺序结构双语言征服：C++与Python秒杀洛谷三大经典入门题三流搬砖艺术家算法算法 c++数据结构
目录顺序结构核心思想题目一：P1001A+BProblem题目描述解题思路代码实现题目二：P1425小鱼的游泳时间题目描述解题思路代码实现题目三：P1421小玉买文具题目描述解题思路代码实现顺序结构四步心法常见问题与避坑指南实战扩展（LeetCode真题）顺序结构核心思想输入→处理→输出本文精选洛谷顺序结构题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握基础编程技巧！题目一：P
排序算法终极指南：从冒泡到快排，手把手教你玩转所有排序技巧三流搬砖艺术家算法排序算法算法
目录为什么排序如此重要？8大排序算法全家福一、经典排序算法详解1.冒泡排序（BubbleSort）2.插入排序（InsertionSort）二、高效排序算法3.快速排序（QuickSort）4.归并排序（MergeSort）三、进阶排序算法5.堆排序（HeapSort）6.希尔排序（ShellSort）四、特殊场景排序7.计数排序（CountingSort）8.基数排序（RadixSort）六、工
嵌入式FOC无刷电机控制器代码架构及实现详解嵌入式程序员小刘开源物联网单片机嵌入式硬件
非常感谢您提供的嵌入式产品图片和项目背景介绍。我深入理解您对这款小尺寸、高性能FOC无刷电机控制器的需求。这是一个极具挑战且富有价值的项目，它融合了硬件重构、先进控制算法、以及对成本和性能的严格把控。基于您提供的项目描述，并结合我在嵌入式系统开发领域的实践经验，我将为您详细阐述最适合该项目需求的代码设计架构，并提供具体的C代码实现示例，以及项目中采用的各种关键技术和方法。我的目标是为您构建一个可靠
【大模型篇】推理模型大作战（QwQ-32B vs DeepSeek-R1）大F的智能小课大模型资讯速读 DeepSeek技术解析和实战大模型理论和实战人工智能
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！写在前面当我让QwQ-32BvsDeepSeek-R1写一封未来自己的信大家更喜欢哪种风格？QwQ-32B模型介绍及使用指南一、模型简介（一&
如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
使用python进行单因素方差分析（ANOVA）和事后多重比较(LSD) thinkwindows 数据分析 python 算法 excel
#idea来源#在使用spss帮朋友做单因素分析时，发现个别数据需要调整到符合显著性的要求，在spss中修改数据，再在spss中操作步骤太麻烦，于是有了这个想法。程序思路1、将数据放到excel里，确定两列数据，Group（分组数据）和B（对应数据列）2、程序读取excel数据3、整理数据格式，将数据分组，将数据从宽格式转换为长格式，以便于进行ANOVA分析。4、执行单因素方差分析（ANOVA），
linux-Openmanus本地部署-AI-Agent初探世转神风- manus manus
文章目录简介官网指导widows安装linux安装安装依赖项报错配置快速入门别急效果展示简介上来先不说其它的，先给你们稳定军心……要尝试的兄弟，放心尝试，占用空间并不大，部署下来，不超过10G。官网指导网址官网指导，比较全面。我只挑重点。widows安装在B站上，有人用过，我就不细讲了。condacreate-nopen_manuspython=3.12condaactivateopen_manu
从原理和公式出发：python实现One_Way_ANOVA ＾哪来的＆永远～ python 算法概率论
文章目录目的：python实现onewayANOVA单因素方差分析1.代码流程2.python代码实现0主要的函数1加载数据2查看数据统计结果3数据处理及可视化4方差分析4.1模型拟合4.2单因素方差分析5PostHoct-test组间比较分析6根据定义自行分解计算对比调用函数的结果7获取F分布对应的P值3.方差分析公式及原理参考目的：python实现onewayANOVA单因素方差分析方差分析(
每日一练———C语言算法题--平年闰年问题给我高高飞起来啊 C语言算法题 c语言算法
C语言算法题--平年闰年问题概念一、平年、闰年的判断二、给出年、月、日，判断日期是否存在概念平年与闰年！！！（闰年比平年多一天，闰年二月29天，平年28天） 1.普通闰年：能被4整除，且不能被100整除为闰年。 2.世纪闰年：能被400整除为闰年。一、平年、闰年的判断题目：输入一个不大于3000的年份，判断其是否为“闰年”. 程序框图：程序示例：#includeintma
2025年北京市海淀区信息奥赛真题解析（小学组）热爱编程的通信人 c++白名单信息学奥赛
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S