GitChat的博客

AutoML 在推荐系统中的应用

AutoML（Automatic Machine Learning，自动机器学习）旨在研究在没有专业知识的情况下使用的低门槛甚至零门槛的机器学习算法，摆脱对机器学习专家的依赖，该技术正在成为机器学习赋能行业的关键。第四范式的 AutoML 技术已经投入实际工业应用，在金融、医疗等行业有多个实践案例。

第四范式智能推荐系统广泛应用于互联网行业，这次分享将介绍在推荐系统中对 AutoML 技术的应用，内容主要包含 AutoML 的技术思路、框架和要点。

本场 Chat 您将接触如下内容：

数据如何采样；
数据预处理的规则；
特征工程方面的知识；
如何选择或设计算法；
网络结构搜索；
神经网络的自动训练调参；
如何调整算法超参数；
评估模型性能等内容。

作者简介：

王嘉磊，第四范式资深算法科学家、负责设计实现第四范式 AutoML 产品算法。美国康奈尔大学运筹学博士，研究方向为贝叶斯优化及应用于自动化机器学习。曾任职 IBM Chief Analytics Office，任高级数据科学家。

程晓澄，第四范式资深算法科学家、推荐业务算法团队负责人。在第四范式负责推荐业务算法推荐系统的架构设计，负责搭建了唱吧、知乎、罗辑思维等多个互联网推荐系统。曾任职豆瓣算法部门。

大家好，欢迎参加 GitChat 举办的线上分享活动。我是第四范式研究员嘉磊，今天我和同事远飞及负责推荐业务研究同事晓澄，一起给大家分享 AutoML 在推荐系统中的应用。

先介绍一下我们公司——第四范式。

第四范式是国际领先的人工智能技术与服务提供商，致力于降低人工智能应用的门槛，基于机器学习技术研发惠及不同领域的人工智能产品及解决方案，助力企业实现智能变革，提升运营绩效，创造商业价值。目前，已在金融、政府、制造、零售、医疗、文化、教育、互联网等领域有近 2000 个成功落地案例，SaaS 公有云服务客户超过 1000 家，服务金融机构资产总规模超过 50 万亿。

2017 年，第四范式以先荐推荐系统服务的模式赋能媒体，通过 AutoML 与先知机器学习平台等先进技术，提供高效、自助、自动的接入方式，一站式内容分发的解决方案，帮助媒体客户提升业务能力和价值。在众多案例中，先荐推荐系统帮助 CSDN 的内容点击率提升 110%，访问量增长 187%，营收增加 49%。帮助环球网点击率提升 58%，访问步长增长 69%，营收增加 20%。此外，在某客户场景下与对手 PK 竞赛中，先荐系统点击率领先对手 36%。

本次主要给大家带来 AutoML 在推荐系统中的应用分享，希望对大家有所启发和帮助。

今天，推荐系统的模型和应用已经相当成熟，然而部署一套全新的推荐系统，甚至仅在已有系统上添加数据维度和模型优化依然是非常耗时耗力的事情。这是由于不同数据源的分布不尽相同，要达到满意的建模效果，每个建模的环节，包括数据处理、特征工程、模型的选择和超参数选择等都需要随之变动和优化。

以往这些工作都是建模工程师通过 A/B Test 和 Grid Search 等方式来手动调试有限的几种建模组合方式，并挑出最好的配置作为上线用的系统配置。然而要想从少量的尝试中找到优质的模型方案，不仅要求工程师有丰富的建模经验，可能还需要一点点运气，成本和风险都比较高。

近几年在机器学习领域兴起的自动机器学习（AutoML）技术，便是为了解决机器学习模型训练难，落地难这个痛点所做的努力。我们同样可以把 AutoML 技术应用到推荐系统的建模中，这次分享主要介绍用哪些方法来打造一个 AutoML 系统，并用于提升推荐系统的搭建效率。

如果我们看今天的机器学习应用（以监督学习为主），它大致可以分为传统机器学习和深度学习两大类。传统机器学习用的比较多的模型有 LR、Gradient Boosting Machine、Random Forest、KNN 等，模型本身比较简单和成熟，但是由于这些模型无法拟合非常复杂的非线性函数，我们需要通过特征工程把原问题空间转化到一个机器学习模型容易学的表述空间，才能得到好的效果。

相对传统机器学习，近几年兴起的深度学习，由于其强大的模型表达能力，相对弱化了特征工程的重要性，具有端到端学习的能力。尤其在处理图像，文字和语音等非结构化数据时，我们发现深度学习模型具有学习表述空间的能力（representation learning），从一定程度上实现了特征工程的自动化。

由于传统机器学习模型和深度学习模型在建模过程中侧重点不同，AutoML 也大致分为自动传统机器学习和自动深度学习（如图 1）。其中自动传统机器学习关注自动数据预处理，自动特征处理和自动算法选择和配置，而自动深度学习则需要解决神经网络的自动训练和网络结构搜索的问题。我们下面就根据图 1 来逐一探讨 AutoML 的各个技术要点。

图 1：自动机器学习组成部分

1. 自动传统机器学习

当我们有了用户行为数据后，我们通常需要经过数据清洗、数据预处理、特征工程、选择模型、配置模型、融合模型等步骤来构建一整个机器学习管道。自动机器学习需要尽可能的自动化其中每个环节。除了数据清洗环节和数据本身耦合度很高，需要更多的人为操作以外，数据预处理和之后的步骤都已经在自动机器学习领域存在可行的方案。

1.1 数据预处理

由于模型对数据都存在一定假设，我们需要使用一些数据预处理的方法将进入模型的数据处理成适合模型学习的分布。比如神经网络模型需要输入的数据符合正态分布，那么要对原始数据做归一化处理；比如 Gradient Boosting Machine 不适合对类别数量非常高的离散特征建模，所以在前期要考虑删除类别太多的离散特征。

在自动机器学习中，选择哪种数据预处理方式和模型息息相关，根据上面所述的经验构造一个固定模版，比如已知神经网络需要归一化处理，GBM 需要剔除高维离散特征，LR 模型需要线性分形等，把这些知识 hard code 进 AutoML 系统中，可以用一种模型来学习最优组合。

这里介绍两个可行的方向：一是使用贝叶斯优化的方法，通过尝试，反馈，优化这一循环的过程来找到各个模型对应的最佳数据预处理方法，我们会在后面对贝叶斯优化做更详细介绍；另一个方向是元学习，我们在很多数据集上通过实验不同的预处理-模型组合，记录下每个数据集上最优的组合，当在新数据集上开始探索时，会首先计算数据集的元特征，并在元特征空间中找到几个最相似的曾经试验过的数据集，并借用它们的最优预处理方案。这两个方向也可以结合起来，用元学习帮助热启动，再使用贝叶斯优化探索适合新任务的方案。

1.2 自动特征处理

有人说，世界上的数据科学家，平均花 80% 的时间做特征，20% 的时间建模型，我们在工作中也意识到特征工程无比的重要性。因此在自动机器学习系统中，特征也同样是极其重要的环节。在这里讨论一下特征组合，如何处理时序特征，使用变分自编码器构造特征等方法。

1.2.1 多粒度离散化

推荐系统常用的 LR 模型，在处理高维离散特征上非常强大，然而其简单的线性模型本质使它对非线性的连续特征解释效果较差，并且在连续值特征尺度变化较大时效果不稳定。分桶是一种常见的连续特征离散化方法，然而分桶数目对建模结果影响较大。因此我们使用第四范式自研的线性分形分类器（LFC）来解决这个问题。使用 LFC 我们可以让模型从数据中自动选取最合适的分桶方式，同时 LFC 可以实现在特征粒度的离群点检测，使得模型更为鲁棒。通过这种技术，我们在业务数据上都能相比 LR 提升一个百分点。

1.2.2 自动特征组合

原始数据中有的隐藏的关系，机器学习模型并不容易学到，所以需要通过构造特征把这些隐性关系表达出来。针对离散特征和连续特征分别介绍基于启发式算法的自动特征组合方法。

对于离散特征，由于简单的线性模型无法学到多个特征的交互，需要通过笛卡尔积来生成组合特征。举个例子，如果要给决定是否给用户推荐一款很受年轻女性欢迎的化妆品，原始数据里只有年龄段和性别两个字段，可以把年龄段_性别作为一个新的特征，模型便能很容易从历史数据中学出这款化妆品推荐给年轻女性接受度很高。如果把所有组合特征都生成出来，那么组合特征的个数是随着阶数呈指数性增长的（搜索空间大于 AlphaGo），也就是我们很快就会产生出系统无法承受的数据量来。针对这种情况，我们提出了一个自动特征组合算法 FeatureGo，结合集束搜索（Beam Search）和回溯（Backtracking）策略，去逐步搜索特征空间。另外，基于 Boosting 的思想，提出了一系列替换损失函数来高效的评估特征重要性。我们在第四范式的大规模分布式机器学习平台 GDBT 实现了该算法，并依据实际应用场景定制化开发，能够在短时间内快速搜索到有效组合特征。我们发现在实际应用中都可以得到可观的效果提升，在所有实际应用中得到了超过 5 个千分点的提升。

1.2.3 自动时序特征

在业界的实际场景中，数据一般包含时序信息，因此需要考虑如何自动构建时序特征，然而时序特征对系统性能要求较高。为了去的更好的建模效果，也要求时序特征算子尽可能多以覆盖各种情况。基于 GDBT，我们实现了非常高效的自动时序特征生成和选择算子：TemporalGo，它包括时序统计信息、隐式向量等方法，也涵盖如循环神经网络 RNN 等方法，显著提升了建模效果。

1.2.4 变分自编码器 (VAE)

变分自编码器（VAE）是一种基于神经网络的生成模型，其目标是给定原始数据，VAE 经过编码和解码后要尽可能地还原出原始数据。可以把 VAE 用作一个基于模型的特征生成手段，而且经过 VAE 编码后的数值分布会尽可能的接近正态分布，这样的新特征可以直接给很多机器学习模型使用。当然训练 VAE 本身很耗时间，而且需要较大的数据量才可能有效果，在实际应用当中，优先考虑其他特征工程方法。

1.3 模型选择

在拿到一个问题开始建模之前，都会面临一个问题，用什么样的模型？你可以很容易地根据自己的经验，面对分类问题还是回归问题，图像还是表类数据，列出几个候选模型，然后你可能会把候选模型用这个数据都训练一遍，并挑出那个验证效果最好的模型用在生产中。在自动机器学习中，我们也会把模型选择分成两步。

首先，拿到一个新问题时，我们获得这个问题的 meta 信息，比如数据是什么格式，数据量大小，训练指标是什么等，通过查询预先准备的问题映射到模型的查找表，找到适合这个问题的几款候选模型及相关超参数设置（或者超参数的搜索空间）。

接下来便是挑选效果好的模型。最朴素的做法是把所有可能的模型和超参数配置都训练一遍，挑出最好的模型即可，然而现实情况通常都有时间和计算资源的限制，导致我们无法训练所有可能的模型参数组合。我们需要一个更加节省资源的方法，对于一个问题，很多模型不一定需要到训练结束才能做出判断哪个模型效果好或者差，可能在训练过程中我们通过观测验证指标，就能提前剔除一些效果太差的模型。

1.4 模型超参数优化

一个模型在开始训练前，可能需要人设置一些参数，比如 LR 有 L1、L2 正则系数用来控制模型过拟合，GBM 有树棵树，学习率等，这些参数配置的好坏会直接影响最终的模型效果，而且参数配置的好坏又和数据本身有很强的相关性，也就是说，不存在一组黄金配置能在所有数据集上都表现良好。因此建模工作中一个不可或缺的工作便是模型超参数的优化。

如果是我们手动优化参数，一般是选取几组我们认为值得尝试的参数配置，然后训练模型并做交叉验证，最后挑出验证指标最好的模型用作生产。这种做法对一两个超参数做优化还能应付，然而传统机器模型 GBM 就有小十个需要调试的超参数，更不用说深度学习模型会有更多的参数选择，这使得自动优化超参数技术越来越多的应用到实际建模中。最常见的做法是 Grid Search 和 Random Search。Grid Search 是让用户在每个超参数的选择范围里取几个点，然后机器会将所有可能的参数组合都尝试一遍，最后选出最好的模型，这种方法有两个问题，一是需要用户对每个超参数都要取点，二是由于需要尝试所有参数组合，对计算资源的消耗非常高。Random Search 是给定超参数选择的空间范围，然后在这个空间里随机采样N组超参数配置，交给模型做交叉验证，并选出最好的模型。在实际应用中，Random Search 在超参数较多的情况下比 Grid Search 更快而且效果更好。目前提到的两种做法实现起来都很简单，但缺点是它们都是在参数空间里盲目的搜寻，效率较低。

接下来我们介绍几种在提升效率上努力的思路：

1.4.1 贝叶斯优化

贝叶斯优化是一种用于全局优化的搜索策略，早期多用于工业工程方向，来优化工业流程设计的配置。近几年贝叶斯优化开始广泛出现在机器学习领域的研究中，尤其在超参数优化领域。贝叶斯优化的思路是将超参数空间映射到验证指标空间的函数作为优化的目标函数，然而这个函数的形式是未知的，而且要计算一个点的函数值需要消耗很多资源（等同于用一组超参数配置来训练模型并做交叉验证），所以贝叶斯优化会把已经尝试过的超参数配置和对应的交叉验证指标作为历史数据，并用它训练一个机器学习模型。这个模型和通常的机器学习模型略有不同，它不仅需要提供预测值（prediction），还要提供对于这个预测的不确定度（uncertainty）。

这是因为接下来的优化策略会同时根据预测值和不确定度来决定尝试哪组新的超参数。贝叶斯优化中的优化策略往往需要考虑发掘（exploitation）和探索（exploration）两个因素。发掘是指根据目前的模型预测，找到预测效果最好的超参数；探索是指目前的模型也许还没有触及到搜索空间中真正的全局最优，所以需要去探索那些区域，而这些区域一般可以通过不确定度来知晓。为了兼顾这两个因素，优化策略会把预测值和不确定度两个指标融合在一起搜索下一个要尝试的超参数。因为贝叶斯优化很好的平衡了发掘和探索，这类方法在解决全局优化问题中都表现出极高的效率，收敛速度很快，所以在超参数优化问题中也取得了很好的效果。

1.4.2 进化算法

进化算法是一种启发式优化算法，正如其字面意思，这个算法模仿了进化理论，通过优胜劣汰的机制选出好的配置。

1.4.3 强化学习

强化学习中有一类最简单的问题叫做多臂老虎机，这类问题源于赌博，大概是这样的：赌场里有N多台老虎机，每台机器的赢率是固定且未知的，赌徒想要通过实验找到赢率最高的那台机器，这样他的期望回报才是最优的。最傻的办法就是在每台机器上试验 M 次，统计一下每台机器的赢的次数，并选出那台赢率最高的机器。然而这个方法很显然有很多可提高之处，比如有的机器在玩了 K

这里仅粗略介绍了三个优化超参数的方向，其实最近几年涌现了很多优秀的工作，包括使用元学习，对学习曲线建模，或者将上述的几个思路融合等方式，使超参数优化变得愈加高效。

1.5 采样优化

当数据量很大时，用全量数据训练一个模型会花费很长时间，而探索的过程需要训练多次模型，那么总开销就太大了。也许我们在探索时只使用少量的部分数据训练模型，并且得到的关于模型和参数的选择又能帮助到全量数据训练情况下的选择，那我们就有机会节省大量资源。这个设想在几年前就有工作进行了证实，通过观察不同采样率下训练模型的效果和超参数的关系分布，发现低采样率时超参数和效果的分布与全量数据训练下的分布具有很强的相关性。于是我们在实际应用中，可以使用预定的降采样率选择少部分数据，并在这部分数据上进行模型和超参数的优化，然后将找到的最优选择直接放到全量数据上训练生产用模型。我们发现这种方法尽管朴素，实际应用中却能达到很好的效果。学术界也有提出更成熟的做法，比如对采样率建模[2]，以期望通过一个配置使用低采样率训练的模型效果来预测全量数据下的模型效果，并用预测值来指导超参数的搜索。

2. 自动深度学习

深度学习由于具有模型表达能力强，自动学习特征的端到端特性等优点，是今天机器学习领域最受欢迎的模型框架。然而训练深度学习模型并非易事，不仅有大量的模型超参数需要人工调试，而且模型效果对超参数的选择极其敏感，因此需要大量的尝试和行业经验才能得到优质的效果。自动深度学习面临同样的挑战，所以除了会共用前面介绍的自动机器学习的思路和方法，自动深度学习有一些独特的方向值得在这里探讨。下面我们会围绕自动训练和网络结构搜索两个方面展开。

2.1 自动训练

深度学习模型和传统机器学习模型相比，需要配置的超参数会多很多，训练时对资源的消耗也会较大，因此自动训练是一个更有挑战性的工作。朴素的 Grid Search 和 Random Search 基本得不到满意的效果，必须使用更成熟的搜索策略和精心设计的搜索空间才能实现自动化。由于神经网络的训练速度较慢，我们希望能尽可能地从训练过程中得到最多的信息和信息再利用。

我们总结一下目前工作的几个方向，和大家分享。

2.1.1 模型再利用

想象一下一个神经网络模型的训练是一个小人在模型的权重空间（weight space）里漫步，靠着 SGD 指引他一步步接近最优权重，而使用一组好的配置，就是为了使这个路径能够通往最有权重所在的位置，而不是中途就卡在一个局部最优不能动弹，或者来回跳动不能收敛，甚至到了一个过拟合的地方。目前为止我们提到过的搜索模型配置的方法，都是选一组配置，然后让这个小人从一个初始化的位置开始走，如果这个配置让小人走偏了，那我们换一组配置，再让小人从头开始走。但这样每次小人走过的路就都白费了，我们完全可以让小人从一个虽然不是最优的，但还是不错的位置作为起点，继续去寻找那个最优地点。这是 Deepmind 在 2017 年发表的题为 population based training 的论文 [3] 的思想之一，通过再利用已经训练过的模型，来加速训练和调参的过程。此外，南京大学的周志华教授还提出了“学件”的构想，“学件”由模型和用于描述模型的规约两部分构成。当需要构建新的机器学习应用时，不用再从头建模，可以直接需要寻找适合的学件直接使用。

2.1.2 拟合 Learning curve

用 TensorFlow 训练模型的同学可能用过 Tensorboard，这个可视化工具可以展示模型训练过程中各种指标的变化，我们称之为学习曲线（Learning curve）。这个曲线是有规律可循的，比如验证 AUC，随着训练，会不断的上升，到收敛的时候可能开始持平波动，之后也许由于过拟合又会下降。我们可以用一个模型来拟合这条曲线 [4]。这样做的目的是，假如我有一个靠谱的拟合模型，那么试验一组新的配置，我可能只用让模型训练较短的时间，并用前面一小段学习曲线和拟合模型来预测最终这组配置能让模型训练到什么程度，那么我们便可以用少量的资源对模型配置做一个初步的筛选，提升效率。

2.1.3 Meta learning

元学习（Meta Learning）的目标是给一个新的问题，它能生成一个解决这个问题的模型。这一思路也可以用到自动深度学习上，同样是 2.1.1 中小人的例子，我们可以找到一个权重空间里的位置，它对于很多类似的新问题都是一个还不错的位置，只要用对应问题的数据让小人再走两步就能达到最优了。有一篇论文 [5] 便用到了这个思想，它训练一个神经网络模型，但损失函数并不是用某一任务的数据直接计算的，而是让任意一个采样的训练任务的数据再训练一步，之后的损失作为目标函数。也就是说，它要让小人站在一个理想的多岔口，能够离任意一个具体任务的最优位置很近。这和 2.1.1 想要达到的加速训练的目的类似，只不过是用一个元模型显性地去寻找“理想的多岔口”。

2.1.4 模型融合

由于深度学习模型的损失函数平面非常复杂，使训练时找到一个鲁棒的最优点很困难。为解决这个问题，我们可以用不同的初始化，训练多个模型，并将它们融合起来。这是比较标准的做法，最近有两篇论文给出了更有趣的方案：第一篇 [6] 的思想类似于 2.1.1，在小人找到第一个最优点，记录下当前的权重，然后增大学习率，让小人跳出当前的最优点，去寻找附近的另一个最优点，如此反复几次，把记录的权重对应的模型融合起来，会相比标准的融合做法省去从头训练模型的时间。第二篇 [7] 使用类似第一篇的循环学习率设置，但它不再记录多个模型，而是将存下来的权重直接取平均，这样做的好处是在预测阶段，只有一个模型预测，节省了普通模型融合需要多个模型同时预测的耗费。另外论文中也表明直接取平均能得到更鲁棒的模型。感兴趣的话可以去阅读下这两篇论文。

2.2 网络结构搜索

不管是图像，文字还是语音，都有几款大家耳熟能详的神经网络结构，这些网络结构的巨大成功，归功于背后的研究人员的学识，灵感和不懈尝试。随着深度学习应用到越来越多的现实场景，对模型包括网络结构的需求也在变的更多样化。举一个例子，在手机设备上的人脸识别软件，由于硬件设备的差异性，软件供应商需要对每种手机做相应的模型优化，如果全部依靠人力来做调试，很显然对资源的要求和耗费非常巨大。

这使我们不得不思考，是否有可能让机器来取代一部分这样的工作，将人力解放出来。早在 2016 年，Google Brain 就在这方面做了尝试 [8]，通过强化学习的方式训练一个能搭建网络结构的 RNN，并构造出了当时在图像数据集 CIFAR10 和自然语言数据集 Penn Treebank 上效果最好的模型。网络结构搜索（Neural Architecture Search）的名字也是由这篇论文而来。尽管到今天网络结构搜索的历史不长，却已经涌现了很多优秀的工作，这里我们介绍几个思路和方向。

2.2.1 基于强化学习

最早提出 NAS 的方案便是基于强化学习，后来出现的很多结构搜索的论文对这个方法做了改动和优化，沿用至今。这个思路大概是说，我们在构造网络结构时，就好像是在堆乐高积木，从第一层开始，我们有几个基本元件，和几种拼接方法，我们按照一定流程一层一层拼出一个网络结构来。而强化学习就是要学出一套构造优质网络结构的流程。由于这个流程是一个序列，那用 RNN 来建模就再适合不过了，于是我们让这个 RNN 每一步输出一个决策，来决定选择哪个基本元件，或者使用哪种拼接方法。当 RNN 输出足够的决策后，一个网络结构变生成了，我们拿它在一个数据集上训练并测试，得到的验证指标便成为奖励用来训练 RNN。最终，被训练的 RNN 便学会了构造好的网络结构来。听起来非常有道理，但这种做法其实有一个问题，就是训练 RNN 需要很多样本，而这个问题里一个样本便意味着训练一个神经网络模型，因此获取样本是很贵的。事实也是如此，文章 [8] 里动用了 400 个 GPU 同时训练，一个训练了 1 万多个模型后才超越了当时最好的模型。大概只有 Google Brain 这样有巨量计算资源的地方才有可能做这样的尝试。后续有很多工作都尝试减少资源的耗费，使搜索变得更高效，比如使搜索空间变得更小 [9]，模型间共享权重 [10] 等。

2.2.2 共享权重

刚才提到了每个模型都要从头训练是非常低效的，ENAS[10] 提出了模型共享权重的理念。文章作者认为，一个网络结构图是一个更大的图的子图，于是作者索性存下包含整个结构搜索空间的母图的所有权重，并且边训练权重边训练如前所述的 RNN。由于 RNN 构造出来的新结构直接从母图中获取权重，便省去了从头训练模型的过程，使整个搜索比以前的方法快了上百倍。

2.2.3 元学习

由 ENAS 的共享权重受到启发，一篇新的工作 [11] 使用母图作为元模型，通过 dropout 的方式来训练元模型。于是没有了构造结构的 RNN，而是以随机 dropout 的形式来让元模型找出什么样的结构是重要的。作者在文中展示的效果和 ENAS 类似，我觉得两种方法不好说孰好孰坏，都可以拿来尝试下。

2.2.4 贝叶斯优化

最近有一个叫 Auto-Keras 的开源软件受到了一定关注，这个软件包致力于帮助人们自动训练深度学习模型，而软件的“自动”部分基于一篇该作者发表的论文[12]，文中使用贝叶斯优化作为结构搜索策略，并用 Network Morphism 来加速模型的训练。作者定义了不同结构之间的“距离”，也就是不相似度，并基于此来构建贝叶斯优化中所需要的贝叶斯模型。有了贝叶斯优化来指导结构搜索后，对于新结构，作者并非从头开始训练模型，而是使用 Network Morphism，将已经训练过的模型通过变换转变成要训练的新模型，而同时能保留原来模型的功能，如此一来，只需要用比从头训练少得多的资源就能训练出新的模型。

除了以上介绍的几种思路之外，很多其它用于优化的方法也都出现在结构搜索的应用中，比如前面提到过的进化算法 [5]，基于模型的迭代式搜索 [13] 等。

2.3 适用于宽表数据的自动深度学习

目前的自动深度学习训练和网络结构搜索，主要集中在语音、图像和文本等领域，尚未见到针对宽表业务数据的神经网络结构搜索，然而这正是工业界最迫切的需求之一，其对应的自动深度学习价值较大。针对宽表业务数据对应的大规模离散特征数据集，我们研发了深度稀疏网络（Deep Sparse Network，DSN）及其自动版本 Auto-DSN。DSN 采用多层级网络架构，综合利用数据采样、注意力机制和动态维度表达等方法，能够有效的对宽表数据进行建模。Auto-DSN 综合利用上述各种技术，使得用户配置一个和资源相关的参数，即可在合理时间内，搜索到对宽表业务数据最佳的模型结构及超参数。我们在一些实际业务中验证了它的有效性。

3. 模型评估

自动机器学习根据评估指标来优化模型，在这次分享的最后，我们再探讨一下怎样对模型的评估是可靠的。

首先评估指标的选择应该和具体业务相结合，根据业务目标来制定对模型的评估方式，如果不考虑业务相关指标，机器学习中我们常用的指标有 AUC、logloss、MSE、MAE 等，关于其定义和用法网上有很多资料解释，这里就不赘述了。我想主要分享的是关于如何对抗过拟合的一些经验。这里的过拟合是指，在优化模型的配置或者参数的过程中，我们找到一组配置可能在我们的验证集上表现效果很好，然而使用这个模型生产却并未得到最好的效果。原因是多方面的，可能我们使用固定的验证集来优化配置，导致这个配置仅仅在当前验证集上的效果最好，没有普遍性；也可能是训练模型时由于一定的随机性把某个次优的配置当成了最优配置。

为解决以上的问题，我们分别做了些尝试。对于固定验证集导致的过拟合，标准的做法是使用交叉验证来计算指标，然而带来的问题是交叉验证所需的资源是固定验证集的折数倍，比如常用的五折交叉验证就需要五倍于固定验证集的资源来优化。当模型训练时间很长时，我们没有足够的资源计算完整的交叉验证，于是我们会依然按照交叉验证的方式来切分数据，但每次验证时我们只会随机选取其中一份验证集来计算验证指标，这样指标的期望值就是无偏的。

当然这又引入一个新的问题，虽然期望是无偏的，却由于我们的随机选取导致方差变大了，也就是我们把次优选择当成最优选择的风险变大了。这里我们引用 [14] 的“intensification mechanism”来解决这个问题，这个过程是我们将第一组搜索的配置用完整的交叉验证计算出平均指标，并记为“最优配置”，后续搜索到的新配置都会和“最优配置”比较，比的方式是计算新配置在某一折验证集上的指标，如果当前新配置的平均指标低于“最优配置”，则放弃这个新配置并开始新的搜索，反之则再选一折验证集计算指标，如果所有验证集都已经计算完，新配置的平均指标还是更优的，便把这个配置作为新的“最优配置”。这样一来，我们只会把更多的计算量放在有潜力成为最优配置的配置上，总体消耗还是低于标准的交叉验证的。

根据我们目前在推荐业务中的尝试，上述方法中：自动特征离散化会给模型带来最明显的泛化能力提升和 AUC 明显升高、自动特征组合可以最有效地提高模型对物料和人群的精准刻画能力和精准个性化推荐效果、采样优化和模型超参数优化功能对机器资源和训练时间的优化效果最为明显，给业务方留下了深刻的印象，欢迎大家进行尝试。

上述内容便是我们在实际应用 AutoML 中的感想和经验，希望能对大家有用。我们也希望更多的人开始了解和运用这个领域的方法，帮助他们加快机器学习系统的研发和生产。

谢谢观看！

如有兴趣可以访问第四范式和先荐官网了解更多信息。

参考文献

[1] Jamieson, Kevin, and Ameet Talwalkar. "Non-stochastic best arm identification and hyperparameter optimization." Artificial Intelligence and Statistics. 2016.
[2] Klein, Aaron, et al. "Fast Bayesian optimization of machine learning hyperparameters on large datasets." arXiv preprint arXiv:1605.07079 (2016).
[3] Jaderberg, Max, et al. "Population based training of neural networks." arXiv preprint arXiv:1711.09846 (2017).
[4] Klein, Aaron, et al. "Learning curve prediction with Bayesian neural networks." (2016).
[5] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." arXiv preprint arXiv:1703.03400 (2017).
[6] Huang, Gao, et al. "Snapshot ensembles: Train 1, get M for free." arXiv preprint arXiv:1704.00109 (2017).
[7] Izmailov, Pavel, et al. "Averaging Weights Leads to Wider Optima and Better Generalization." arXiv preprint arXiv:1803.05407 (2018).
[8] Zoph, Barret, and Quoc V. Le. "Neural architecture search with reinforcement learning." arXiv preprint arXiv:1611.01578(2016).
[9] Zoph, Barret, et al. "Learning transferable architectures for scalable image recognition." arXiv preprint arXiv:1707.070122.6 (2017).
[10] Pham, Hieu, et al. "Efficient Neural Architecture Search via Parameter Sharing." arXiv preprint arXiv:1802.03268 (2018).
[11] Bender, Gabriel, et al. "Understanding and simplifying one-shot architecture search." International Conference on Machine Learning. 2018.
[12] Jin, Haifeng, Qingquan Song, and Xia Hu. "Efficient Neural Architecture Search with Network Morphism." arXiv preprint arXiv:1806.10282 (2018).
[13] Liu, Chenxi, et al. "Progressive neural architecture search." arXiv preprint arXiv:1712.00559 (2017).
[14] Hutter, Frank, et al. "An experimental investigation of model-based parameter optimisation: SPO and beyond." Proceedings of the 11th Annual conference on Genetic and evolutionary computation. ACM, 2009.

本文首发于GitChat，未经授权不得转载，转载需与GitChat联系。

阅读全文: http://gitbook.cn/gitchat/activity/5b9fd1edf9fa9734fa8b9835

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ，阅读更多 GitChat 专享技术内容哦。

你可能感兴趣的:(AutoML 在推荐系统中的应用)

观察者模式咖啡の猫观察者模式设计模式
在软件开发的广阔领域中，我们常常会遇到这样的场景：一个对象的状态变化需要通知其他多个对象做出相应的反应。例如，在一个股票交易系统中，当某只股票价格发生变动时，需要实时通知关注该股票的所有投资者。观察者模式（ObserverPattern）正是为解决这类问题而诞生的，它提供了一种对象间的一对多依赖关系，当一个对象状态改变时，所有依赖它的对象都会得到通知并自动更新。观察者模式概述观察者模式是一种行为型
PCL 点云随机渲染颜色 MelaCandy PCL点云算法与实战案例 3d 算法计算机视觉人工智能 c++
目录一、概述1.1原理1.2实现步骤1.3应用场景二、代码实现2.1关键函数2.2完整代码三、实现效果PCL点云算法汇总及实战案例汇总的目录地址链接：PCL点云算法与项目实战案例汇总（长期更新）一、概述本文将介绍如何使用PCL库为点云中的每个点随机渲染颜色，并在PCL的可视化窗口中显示。这种方法适用于需要对点云中的不同点进行颜色区分的场景，可以帮助更直观地观察和分析点云数据。1.1原理在点云处理中
设计模式之命令模式：从原理到实战，深入解析及源码应用 coffee_baby 设计模式原理和实战设计模式命令模式 java
命令模式什么是命令模式？命令模式（CommandPattern）是一种行为设计模式，它将一个请求封装为一个对象，从而允许使用不同的请求、队列或者日志来参数化对象，并支持可撤销的操作。命令模式的核心思想是将命令的发起者和执行者解耦，从而使得命令的发起者不必关心命令是如何被执行的。命令模式的关键组成部分：命令（Command）：定义命令的接口，声明执行方法。具体命令（ConcreteCommand）：
pcl系列-添加自定义点云类型不会算法的阿召 c++自动驾驶计算机视觉 3d
pcl库中附带了各种预定义的点类型，这些数据类型足以支持在pcl中所实现的所有算法和方法，但是在某些情况下，在使用pcl点类型时希望定义新的点类型，比如在LIO-SAM中定义的PointXYZIRPYT（包括点云基本的坐标(x,y,z)和强度I，以及三个旋转角RPY和时间T）。因此，pcl提供了创建自定义点云类型的方法。1.pcl常用点云类型pcl中定义了大量的常用点类型，在定义自己的点类型之前，
《电子制作从零开始》第1章：电子制作入门请向我看齐电子电路电子电路
第1章：电子制作入门1.1走进电子制作的世界电子制作的魅力与应用领域创造力的体现：电子制作就像是一场科技与创意的结合。通过自己的双手，将各种电子元件巧妙地组合在一起，创造出具有各种功能的电子设备，从简单的闪烁灯到复杂的智能机器人，这个过程能够充分发挥个人的创造力。技术探索的乐趣：在制作过程中，可以深入了解电子技术的原理。例如，通过制作一个小型的音频放大器，能直观地理解信号放大的过程，以及电容、电阻
PCL 生成空间圆点云【2025最新版】点云侠 PCL学习算法 c++3d 计算机视觉开发语言
目录一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创，原文链接。博客长期更新，最近一次更新时间为：2025年1月17日。代码在PCL1.14.1中测试通过。一、算法原理三维空间圆形式如下：三维空间圆的参数方程：{
Open3D 手动裁剪点云【2025最新版】点云侠 python点云处理几何学 python 3d 计算机视觉算法
目录一、概述1、主要函数2、基础操作二、代码实现三、结果展示四、相关链接博客长期更新，本文最近更新时间为：2025年1月18日。一、概述 Open3d中的VisualizerWithEditing类提供了图形用户交互功能。draw_geometries_with_editing([pcd])函数提供了顶点选择和裁剪功能。1、主要函数defdraw_geometries_with_editing(
C++设计模式---迭代器模式 xinruoqianqiu 设计模式设计模式迭代器模式
1、介绍迭代器模式是⼀种行为型设计模式，是⼀种使⽤频率⾮常⾼的设计模式，在各个语⾔中都有应用，其主要⽬的是提供⼀种统⼀的⽅式来访问⼀个聚合对象中的各个元素，而不需要暴露该对象的内部表示。通过迭代器，客户端可以顺序访问聚合对象的元素，而无需了解底层数据结构。迭代器模式应⽤⼴泛，但是⼤多数语⾔都已经内置了迭代器接⼝，不需要⾃⼰实现。包含一下几个部分：（1）迭代器接口Iterator：定义访问和遍历元素
数据结构---C++版海狸_hlz 数据结构数据结构
第1章数据结构的基本概念1.1数据结构在程序设计中的作用1）程序设计的实质是什么?数据表示：将数据存储在计算机（内存）中数据处理：处理数据，设计方案（算法）1.2计算机求解问题:1）问题→抽象出问题的模型→求模型的解问题——数值问题、非数值问题2）数值问题→数学方程非数值问题→数据结构3）本书讨论非数值问题的数据组织和处理，主要内容如下：（1）数据的逻辑结构：线性表、树、图等数据结构，其核心是如何
数电票介绍及如何由数电票生成OFD文件源之缘-OFD解决方案之道 ofd 数电票
本人用c#、c++、typescript分别开发了数电票生成系统，可以生成ofd、pdf、图格式的数电票。采用微服务部署，方便调用！本文主要介绍一下数电票概念及生成过程。1.数电票的概念与特点数电票，即数字电子发票，是指以电子形式生成、传输和存储的发票。它完全取代了传统的纸质发票，具有与纸质发票同等的法律效力。数电票的推广和应用是税务数字化的重要一步，旨在提高开票效率、降低企业成本、减少资源浪费，
DataGridView列表筛选幽兰的天空前端技术 C#编程前端
以下是实现DataGridView列表筛选的解决方案：解决思路创建一个TextBox控件，用户可以在其中输入筛选条件。为TextBox的TextChanged事件添加处理程序，当用户输入文本时，根据输入的文本对DataGridView中的数据进行筛选。使用DataView作为BindingSource的数据源，通过设置DataView的RowFilter属性实现筛选功能。实现代码usingSyst
Java 基础之泛型：类型安全的保障与灵活运用幽兰的天空 Java 基础启航：从零到小有所成开发语言 java
在Java编程的世界里，泛型是一个至关重要且非常实用的特性。它在Java5中被引入，从根本上改变了我们处理数据类型的方式，提供了更强的类型安全保障，同时也增加了代码的复用性和可读性。一、什么是泛型泛型（Generics）简单来说，就是允许在定义类、接口和方法时使用类型参数。这些类型参数在使用时会被具体的类型所替代。例如，我们常见的集合类ArrayList就是一个泛型类，它的定义形式是ArrayLi
Servlet中配置和使用过滤器幽兰的天空 Java 基础启航：从零到小有所成 Servlet技术 servlet hive hadoop
在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤，以下是具体内容：创建过滤器类过滤器类需要实现javax.servlet.Filter接口，并重写其中的init、doFilter和destroy方法。init方法用于过滤器的初始化，在服务器启动时被调用，通常用于加载配置文件、初始化资源等操作。doFilter方法是过滤器的核心方法，用于实现具体的
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【Python小技巧】使用prettytable格式化显示dataframe数据 IT里的交易员 Python经验池 python
文章目录前言一、安装prettytable二、函数打包三、应用示例总结前言经常我们使用print(df)输出dataframe数据，打印输出的数据没有格式，看起来屏幕一篇乱。有没有一种可以格式化输出的工具？还真有，那就是prettytable。一、安装prettytablePrettyTable是Python中的一个库，用于以美观的表格形式显示数据。要使用PrettyTable，首先需要安装它，可
leetCode热门100题——1.两数之和 Bin二叉算法数据结构 leetcode
题目描述给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素（但原数组中可能有两个相同的元素，这种情况可以使用）。你可以按任意顺序返回答案。示例1：输入：nums=[2,7,11,15],target=9输出：[0,1]解释：因为nums[0]+nums[1
UDP 单播、多播、广播：原理、实践 jiuri_1215 linux udp 网络协议网络 UDP
一、引言在计算机网络通信领域，UDP（UserDatagramProtocol，用户数据报协议）是一种重要的传输层协议。它以无连接、低开销的特点，在众多实时性要求高的应用场景中发挥关键作用。UDP支持单播、多播和广播三种通信模式，每种模式都有其独特的应用场景和工作原理。深入理解这些通信模式，对于开发高效的网络应用程序至关重要。二、UDP基础概述UDP是一种无连接的传输层协议，它在网络层IP协议的基
【MySQL 的 ONLY_FULL_GROUP_BY 模式】 m0_74823336 mysql android 数据库
引言：作为一个菜鸟，当写sql中涉及到groupby这样简单的语句时，也会出现问题，我在牛客网上做sql题时，总报这个错：ONLY_FULL_GROUP_BY到底是什么东西呢？今天写篇文章解释一下。一、GROUPBY使用时的关键要点1.理解GROUPBY的作用GROUPBY用于将数据集分割成多个组，每个组由一组具有相同属性的行组成。这使得聚合函数可以应用于每一组，而不是整个数据集。例如，使用GRO
MySQL—多表查询—自连接岁岁岁平安 MySQL自学 mysql 数据库 DataGrip MySQL 多表查询自连接
一、引言自连接，顾名思义就是自己连接自己。自连接的语法结构：表A别名Ajoin表A别名BON条件...;注意：1、这种语法有一个关键字：join2、自连接查询可以是内连接的语法，可以是外连接的语法（当然包括左外连接和右外连接）接下来去工具DataGrip通过两个需求去演示一下自连接查询的语法。二、实操（0）两张表的结构以及数据展示员工表emp部门表dept（1）查询员工及其所属领导的名字1、分析在
Java虚拟机（JVM）深入解析 I~Lucky jvm
Java虚拟机（JVM）是Java程序运行的核心环境，它负责将Java字节码转换为机器码并执行。本文将深入解析JVM的运行时数据区、类加载机制以及执行引擎，帮助读者更好地理解JVM的工作原理。一、运行时数据区（RuntimeDataArea）运行时数据区是JVM在执行Java程序时分配的内存区域，主要包括以下几个部分：1.方法区（MethodArea）方法区用于存储类信息、常量、静态变量以及即时编
3.6.树状数组赵鑫亿 c++数据结构与算法 c++算法开发语言数据结构
树状数组基本原理树状数组（BinaryIndexedTree，简称BIT）是一种高效的数据结构，它可以在O(logn)的时间复杂度下实现对数组的单点更新和区间求和操作。前置知识lowbit(intx)函数：计算x的最低位的1及其后面的0组成的数，例如lowbit(6)（二进制为110）等于2（二进制为10）。在树状数组中，i元素的右父节点为i+lowbit(i)，左父节点为i-lowbit(i)核
Qt C++设计模式-＞中介者模式多喝热水-多读书 c++设计模式中介者模式 qt
中介者模式（MediatorPattern）是一种行为型设计模式，定义了一个对象用于封装一系列对象之间的交互。中介者使得对象之间不再需要显式地相互引用，减少了对象之间的依赖关系，从而使系统更加松散耦合，并且可以独立地改变对象之间的交互。中介者模式的应用场景中介者模式适用于当多个对象之间存在复杂的通信关系时，通过引入一个中介者对象来管理这些对象之间的交互，避免了对象之间直接相互依赖，降低系统的复杂性
Spring 框架中的 Bean 生命周期全解析码农小灰面试题 Spring java java spring servlet
目录一、Bean生命周期的关键步骤二、使用场景说明在当今的软件开发领域，Spring框架凭借其强大的依赖注入和控制反转特性，已成为Java开发中不可或缺的一部分。而Spring框架的核心组件之一——Bean，其生命周期的管理对于应用程序的稳定运行和资源的有效利用至关重要。本文将深入探讨Spring框架中Bean的生命周期，从实例化到销毁的每一个关键步骤，并结合使用场景进行说明，帮助开发者更好地理解
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
ElasticSearch11-8.x 新特性李宥小哥常用中间件中间件
零、文章目录ElasticSearch11-8.x新特性1、API变更（1）类型（_type）移除在Elasticsearch8.x中，索引中的_type已经被完全移除。这意味着所有文档在同一个索引中将不再区分类型，简化了索引结构，但同时也要求开发者调整应用程序逻辑以适应这一变化。（2）客户端库更新Elasticsearch8.x不再支持rest-high-level-client，而是推荐使用新
Node.js的Express框架入门秋枫ઇଓ node.js express 学习 javascript
Node.js的Express框架入门什么是Node?Node（正式名称Node.js）是一个开源的、跨平台的运行时环境，有了它，开发人员可以使用JavaScript创建各种服务器端工具和应用程序。此运行时主要用于浏览器上下文之外（即可以直接运行于计算机或服务器操作系统上）。据此，该环境省略了一些浏览器专用的JavaScriptAPI，同时添加了对更传统的OSAPI（比如HTTP库和文件系统库）的
【2017-2025】Adobe Premiere Pro（简称PR）专业视频编辑软件下载 iNBySNG adobe 音视频
AdobePremierePro软件简介AdobePremierePro（简称PR）是由Adobe公司开发的一款专业视频编辑软件，广泛应用于电影制作、电视播出和网络视频的制作。该软件以其强大的编辑功能和灵活的工作流程，在业界中享有盛誉。无论是专业影视制作人还是业余爱好者，PremierePro都能满足他们的需求，为各种视频项目提供卓越的解决方案。下载链接https://pan.baidu.com/
conda升级 ihateright conda python 开发语言
要升级conda，可以在终端或AnacondaPrompt中输入以下命令：plaintextCopycodecondaupdateconda如果想要升级所有已安装的包，可以使用以下命令：plaintextCopycodecondaupdate--all注意，在升级过程中可能会出现一些依赖关系的问题，需要跟随提示进行解决。同时，建议在升级前备份重要的工作环境。
推荐开源项目：MySQL Connector for .NET与.NET Core 伏佳励Sibyl
推荐开源项目：MySQLConnectorfor.NET与.NETCoreMySqlConnectorMySqlConnector是一个开源的MySQL数据库连接器，用于在.NET应用程序中与MySQL数据库进行交互。-功能：MySQL数据库连接器；.NET应用程序；MySQL数据库交互。-特点：易于使用；轻量级；支持多种编程语言；高性能。项目地址:https://gitcode.com/gh_m
单例模式智想天开单例模式
公众号地址：单例模式更多内容请关注公众号：智想天开1.什么是单例模式？单例模式是一种创建型设计模式，旨在确保一个类在整个应用程序生命周期中只有一个实例，并提供一个全局访问点。通过单例模式，可以避免多个实例带来的资源浪费和数据不一致问题。关键点：唯一性：确保一个类只有一个实例。全局访问：提供一个全局的访问点来获取该实例。2.单例模式的意图控制实例数量：限制类的实例化数量，通常为一个。全局访问点：提供
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置