Pysamlam

推荐收藏 | AutoML 在表数据中的研究与应用

分享嘉宾：罗远飞第四范式

编辑整理：王帅

内容来源：2019 DataFun Live 06

出品社区：DataFun

导读：大家好，今天分享的题目是 AutoML 在表数据中的研究与应用。对于 AutoML，大家听到比较多的可能是神经网络结构搜索 ( NAS，Neural Architecture Search )，NAS 主要应用于图像，而我们的工作主要应用于解决表数据 ( Tabular Data ) 中的建模问题。目前 NAS 在表数据中的研究较少，有兴趣的小伙伴可以尝试。

第四范式 AutoML Tables 的效果

我们选取了10个 Kaggle 比赛数据，分别通过第四范式 AutoML Tables 和 Google Cloud AutoML Tables 产生结果并提交，然后分别计算每种方法的在整个排行榜中的相对排名，如图所示，第四范式的 AutoML 在表数据上的效果大部分要优于 Google Cloud AutoML，其中图中青色代表第四范式，蓝色代表 Google，柱状图越高表示效果越好。

下面我主要从五个方面进行介绍：

AutoML Tables 的背景
AutoML Tables 的自动特征工程
AutoML Tables 的自动参数寻优
第四范式 AutoML Tables 的落地案例
对未来工作的展望

▌AutoML Tables 的背景

1. 什么是机器学习？

Tom Mitchell 在1997年《机器学习》的教材中讲到，定义如下：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

2. 什么是 AutoML？

机器学习步骤

以现实中的场景“反欺诈”为例，介绍下机器学习的步骤。

① 形式化的定义问题

② 收集数据

③ 特征工程

④ 模型的训练

⑤ 模型的评估

⑥ 部署和应用（如果效果达到目标）

上述所有的工作基本都是由机器学习的专家来完成的。该过程可能是一个迭代的过程，需要根据模型的效果，多次选择数据、特征和调整模型等。

AutoML 做什么？

AutoML ( Automated Machine Learning ) 是利用机器来完成机器学习步骤中的某部分工作，而不是全部由专家来完成。目前，在相当多的领域缺乏有机器学习背景的开发人员。因此，利用 AutoML 可以使得机器学习更好的应用到更多的行业、更快地造福于社会。

现在 AutoML 主要侧重于特征工程、模型训练和模型评估，对于问题的形式化研究较少。

3. 什么是 AutoML for Tables？

通常大家对于 AutoML 的印象更多来自于 Google 的 NAS 方面的文章，例如自动在 CIFAR10 或者 ImageNet 上搜索网络结构。这些通常是应用于图像数据的。

AutoML for tables 的工作主要是面对通过业务逻辑拼接成的宽表，不涉及图像数据或者 NLP。图中示例的数据集是来自 UCI 的数据，主要预测是否给客户贷款，是否有风险，用到的特征有年龄、工作、教育、资产等。

▌AutoML Tables 自动特征工程

根据前面提到的机器学习的 pipeline，我们先介绍 AutoML Tables 的自动特征工程。在参加竞赛中，大家会提到一个说法“特征决定了效果的上限，模型只是决定趋近于这个上限的程度”。在我们的实际工作中，特征也是一个提升空间更大的地方。

自动特征工程主要是由下面几个模块组成：

自动拼表
自动特征生成
自动特征选择
自动特征增强

1. 自动拼表

现实中完成一个业务场景的任务，是需要很多张表的。例如一张表描述用户信息，一张表描述商品信息，还有一张表描述其他的补充信息（例如上下文，浏览记录等）。

2. 自动特征生成

在自动特征生成中，我们主要是有下面四类的算子：

① 一元算子

基于特征做线性和非线性的变换，例如归一化、log 变换等。n 个特征，复杂度是 O(n)。

② 二元操作算子

例如加减乘除，笛卡尔积等。n 个特征，进行二元操作，则复杂度为 O(n²)。

③ group-by 算子

Group-by operator 是比较特殊的一种算子，它需要先做 partition，然后做 aggregation。此外，如果牵扯到时序性 ( 时序可能放在 group by，或者放在 window function )，算子的复杂度会比较高，同时需要小心穿越。

④ 高阶的算子 ( high-order )

例如有 k 阶，则从 n 个特征中选择 k 个进行操作，数量为 C_n^k，再从这些特征中进行选择的话，就是指数的指数级，指数空间的搜索问题很难。

3. 自动特征选择

特征是不是越多越好？答案是否定的。一方面有的特征是有害的，另一方面特征较多对于系统性能都会增加要求。所以，在自动生成了很多特征后，我们需要考虑如何从自动生成的特征中选取有效的特征。

首先，最直观的做法是将特征放入模型中，如果模型效果好就保留，效果不好就舍弃。这个方法有两个问题，一是如果应用到全量数据，进行计算会比较贵；另一个是一个特征本身没有用，和其他的特征组合有用。

经典的特征选择主要有 Filter、Wrapper、Embedded 三种方式，可以去查看相关的资料。我们做的工作的目标是快速地，低代价的进行特征选择。这次主要介绍一个 PFI ( permutation feature importance ) 特征重要性的方法和 ( field-wise logistic regression ) 的方法。

PFI ( permutation feature importance ) 方法

下面举例来介绍 PFI 方法，假设我们有10个特征待评估，首先进行一个模型训练，得到了模型的效果评估值 ( performance ) AUC 为0.8。然后，固定9个特征不变， shuffle 第一个特征，再次进行模型训练，得到新的评估值 AUC 为0.7。判定特征的重要性为两次的差值0.8-0.7，为0.1。重复上面的过程，如针对第二个特征，固定除这个特征外的9个特征，只是对第二个特征进行 shuffle，这个时候模型为0.75，则第二个特征的重要性为0.8-0.75，为0.05。该方法既可以做特征重要性，亦可做特征可解释性。该方法的动机是，特征越重要，对其扰动后，模型的效果抖动越大。

逐域对数几率回归 ( field-wise logistic regression，FLR ) 方法

当我们有10个特征，可分别用每个特征单独训练 LR 模型，但是这样代价比较高。我们主要进行了两方面的改进。

① 并行化改进

我们的改进之一是借鉴 boosting 的思想，并行来完成对于特征的建模。部分特征建模后，固定其权重，再进行剩余部分特征的建模。例如，当原始表有100个特征，又增加10个特征时，我们先利用100个特征训练的模型得到的特征权重，固定好这100个特征权重后，也即让 LR 有一个起始点，然后在这个起始点再去训练其他10个特征的权重。请注意：这10个特征的学习过程互相独立，即权重互不影响。

② 工程化改进

如果每次读取数据，只针对一个特征训练相应的 LR 模型，频繁 IO 导致性能下降。所以，我们结合参数服务器，实现扫描一次数据，训练出所有特征对应的 LR 模型，也即扫描一次数据，得到所有的特征重要性。

我们采用这两种方法得到特征重要性，然后进行迭代，最后得到有效的特征组合。

4. 自动特征增强

我们做的另一个工作是自动特征增强，由于里面仍然有很多问题较为困难，仍需要进一步研究。表数据中可能有各种数据，如 NLP 类型 ( 一个 user 的 profile 为文本 )，image 类型 ( user 的头像 )，audio 类型。另外还有 graph 类型 ( 例如考察团伙作案 )，以及 user 的住址等 Knowledge graph 的信息等。处理的方法一方面是进行直接处理 ( nlp 直接分词 )，另一种是 embedding 的方法，可以进行微调 ( fine tune )，也可以不做。

我们最后将其应用到不同的数据集中，如下图。有的数据集上的效果很好，有的数据集上的提升效果较小，但也可以提升建模效果。

5. AutoCross 介绍

下面介绍下我们在 KDD 2019 上面的一个工作：自动特征组合 ( AutoCross )，详细可以参看文献 AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications，地址：

https://arxiv.org/abs/1904.12857

5.1 AutoCross 的系统设计

该系统包含从右到左三个部分：

① 基础设施

我们基于已有的大规模分布式的机器学习平台，搭建了一个并行处理机器学习算法。主要有参数服务器，cache 的优化， feature 的优化管理等。

② 算法集合

Beam Search 方法

基于 Beam search 解决了如何从原始特征选出2阶、5阶乃至10阶的高阶特征生成与选择方法。主要是采用贪婪算法，首先进行2阶选择，然后将重要的特征放入下一步，逐次迭代生成多阶特征组合。形象地解释，beam 就是一束光，光照到的就会进行特征验证，没有照到的就不会被衍生下去。

逐域对数几率回归方法 ( field-wise logistic regression，FLR )

如前文所述，它可以快速地选择特征。

连续批训练梯度下降 ( successive mini-batch gradient descent )

即使有50个原始特征 ( 现实较为常见 ) 两两组合后特征就上千，在全部数据上扫一遍会代价很高。为了加速迭代，我们借用调参算法的思想，将评估特征逐步砍半，降低评估代价。

多粒度离散化 ( multi-granularity discretization ) 方法

当组合离散特征和连续特征进行建模的时候，需要进行连续特征变换。传统的方法是 log，或者分桶。我们在实际过程中发现，在一些数据集合上，连续特征离散化对于桶的个数很敏感 ( 效果有5%的差异 )。为此，我们采用多粒度的离散化方法，对数值特征，根据不同粒度做离散化，同时生成多个不同粒度离散化对应的离散特征，然后采用逐域对数几率回归挑选出最优的离散特征。多个划分粒度既可以由用户指定，也可以由 AutoCross 根据数据大小和计算环境来自适应地选择，使得用户不需要反复调整离散化的粒度。

③ 工作流实现

对数据进行基本的预处理后，我们将特征组合和特征选择迭代，最终选出来 Top-K 个的特征。

5.2 AutoCross 的效果

基于5个公开的数据集和5个实际业务数据集，我们验证 AutoCross 的效果。数据集范围从几万到几千万。

① 线性模型

首先对比利用生成特征和无该特征的建模效果的差异性，具体如下面的 LR ( base ) 和 AC+LR 的对比，可知 AutoCross 可以提升线性模型的建模效果。

② 非线性模型

此外，可以发现 AC+W&D 结合后，模型效果不比 xDeepFM，因此 AutoCross 对非线性模型 ( DNN ) 也可以提升效果。

▌AutoML Tables 自动参数寻优

关于超参数优化，常用方法有 Random search ( 方法较为简单，而且效果够好 )，论文中常用的 Grid search 方法，以及贝叶斯优化方法。我们这次不再讲解，主要介绍随机坐标收缩、连续减半算法、基于种群的优化和双层优化四种方法。

超参数寻优过程主要面临下面两个问题：

用什么样的模型刻画超参数空间和效果，例如贝叶斯模型为高斯过程的，random search 是 Model free 的。
当有了模型效果评估后，如何选取采样策略，生成下一个组采样点和下一组超参数配置。

1. 优化算法

① 随机坐标收缩 ( RAndom COordinate Shrinking, RACOS )

该方法基于分类的思想，利用分类器将一个较大的超参数空间分成好坏两部分。其将一个超参数的组合定为一个坐标，操作过程中，每一维是独立的，操作显示为图中的矩形方式。其中，离散值是要或者不要该点，连续值为左移或者右移。在划分为好的超参数区间以一定的概率进行采样，同时兼顾探索和开发，随后逐渐将这些坐标收缩到某一点。具体为，在最小化的过程中，逐渐缩小分类器的阈值，逐渐缩小好的参数空间的范围。

② 连续减半算法 ( SHA )

该方法思想朴素，然而非常有效。例如有30组参数，先在十分之一的数据上运行，选择出最好的十组，相当于砍掉了三分之二。然后利用这十组的数据，再跑一定的数据。如图，后面的数据只跑了一轮，所以它的代价一般较小。

③ 基于种群的优化

PBT 主要有提前停止、热启动和分支限界三个特征。右边的图中，红色的点为起始点，组成了初始的种群，好的点会进行交叉变异等操作，进行生长直到生成下面蓝色的点 ( 效果比较好 )。

④ 双层优化

该方法属于层次优化的范畴。具体来说，机器学习会在训练集 ( training set ) 求得模型的参数，在验证集 ( validation set ) 上优化超参数。可以将训练集中对模型本身参数的选取作为一层，超参数在验证集上的优化作为一层，两层可以进行交互迭代。但该方法一个问题显著问题是：两层优化需要求二阶导数，会使得计算代价较高，对此也有些近似的方法可以替代。

2. 算法实例-AutoDSN

我们针对推荐等大规模稀疏数据，构建深度稀疏神经网络 ( DSN，Deep Sparse Network ) 方法。由于神经网络对于参数敏感，我们针对深度稀疏网络利用前面提到的方法进行自动超参数寻优。自动调整神经网络 ( AutoDSN ) 在五个数据集上面的效果都较好。在3-9倍代价内，可以达到专家调参效果的99%以上。

▌AutoML Tables 落地案例

1. 学习圈理论

公司基于库伯经典学习圈提炼了机器学习的闭环流程。库伯的学习圈指的是人有理论后可以指导行动，行动有反馈，也即生成了经验，不断反思可以补充完善理论。这个对应机器学习就是收集行为数据，得到反馈数据，不断进行模型训练，然后进行模型的应用，模型应用后又可以收集数据。

我们基于学习圈理论做了一个 AutoML 产品，如左边为一个学习圈的全流程闭环设计图。它可以支持一键建模，也支持 AI 模型的可解释和特征可解释性，并可以进行数据自动回流和指标自动计算等。

2. 实际应用场景

我们利用闭环的机器学习的产品给一个大型的互联网公司做了一个项目，目前看项目的效果不错，具体见图中描述。

▌AutoML Tables 展望

下面主要考虑未来我们还可以做什么，主要包括效率、效果和交互式三个方面。

1. 效果和效率

AutoML 是需要同时追求效果和效率的，一要降低成本，二要提高效果。如果不达到一定建模效果，那就不可以用。但如果为了达到一定的效果代价太高，也是不可行的。效果方面，从问题定义到模型上线都有可以优化的点。效率方面，一是可以应用更好的硬件，软硬一体，另一方面可以优化算法，例如通过特征空间划分等提高效率。

2. 可交互

当前的 AutoML 比较封闭，人的参与度不高。我们希望可以达到人需要的时候 AutoML 帮助我们，不需要 AutoML 时用户自定义，来提高建模效率。当人在建模流程中，不想要做某方面的选择，可以给定目标函数、输入，让机器来优化 ( 机器较为擅长 )。在优化的过程中，人可以随时介入到学习过程中，提前终止或修改搜索空间和方向。

浏览器解码过程分析
浏览器解码过程分析前言在学习xss漏洞的过程中我发现一个问题，当我想绕过过滤机制时，可以采用编码的方式进行绕过这种方法，但是并不是每一种编码格式都能绕过，需要不停的尝试才行，这样过于浪费时间。后来我发现浏览器与服务器数据传输过程中有好几种编码格式，不同的编码格式有着不同的解析引擎，作为一个浏览器，在解析一篇HTML文档时主要有三个处理过程：HTML解析，URL解析和JavaScript解析。每个解
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
2023-04-17 你永远是傍晚中最亮的玫瑰
今天是我们穿越的第四天，为何会这样呢？那就从四天前说起吧！在那天课上，老师说她给我们讲一个故事，在一个月黑风高的夜晚，有一群，十一二岁的，小孩在篮球场上玩，之后让我们自己想象，接下来会发生什么事情。结果就在晚上，我们一起在操场上玩时，天上的那轮明月在微风的吹拂下被乌云遮住了，就在月亮被乌云全部遮住的那个瞬间，世界都变得昏暗起来，但是我们并没有注意到这些，因为我们完全沉浸在了玩耍之中，而在三分钟之后
定位体系第5话《实践篇-上：小品牌和新品牌，差异化塑造如何落地？》范红运的营销讲义
幻灯片53.jpg幻灯片54.jpg幻灯片55.jpg幻灯片56.jpg1、选择特性，创造差异化概念每个产品根据其所属品类，都具有一系列不同的特性。对顾客而言，有的特性比其他更加重要，所以必须想方设法占有最重要的特性。A、“对立面”特性：与市场领导者“相反”的特性。B、“最重要”特性：防蛀，是牙膏品类最重要的一个特性。C、“单一利益”特性：聚焦优质的“单一特性+单一利益”，会带来光环效应。D、“品
也许，又或许是注定二维蚂蚁
也许，我注定该是独自一人。日下黄昏，独步堤岸。小径阴柳，情侣络绎。微纹湖面，鸳鸯成双。却泛不起一丝波澜，于我沉寂的孤独之上。也许，我注定该是流浪远方。聆听黑夜，羌笛悠扬。丝丝纤细，婉转悲凉。似轻还沉，幽怨断肠。那是美丽的姑娘，正在倾诉离别后的忧伤。于是，我注定该是沉默寡言，冲动狂乱，早已湮灭。情话无声，情愫深藏。残月为伴，对饮成双。一切无端腾起的爱与恋，皆是基于我对夜空的幻想。于是，我的远方注定寂
php中的hmac,JavaScript通过CryptoJS等效实现php中hash_hmac函数加密raw_output配置好想不取名 php中的hmac
在一个项目中，客户需要从前端签名，加密插件使用的cryptoJS，使用与后端一样的签名流程(HmacSHA1后Base64.encode)发现并不能通过签名认证，签名校验方后端php代码中使用hash_hmac函数，先来看一下则会个函数的官网说明：说明hash_hmac(string$algo,string$data,string$key[,bool$raw_output=FALSE]):stri
Promise入门 m0dw javascript 前端开发语言
文章目录为什么使用PromisePromise介绍为什么使用Promise在ES5中使用回调函数来处理异步任务，当多个异步任务有依赖关系时(如下定时器的层层嵌套)，就需要回调函数互相嵌套，当嵌套结构多了后，就出现了回调地狱的问题，难以维护setTimeout(function(){console.log('a1');setTimeout(function(){console.log('a2');s
数字孪生工厂 Frontop_2002
一、前言近几年“数字孪生”“三维可视化”等新一代技术热词频发，以及结合近期的“元宇宙”概念的大火，各巨头纷纷入局元宇宙，也顺道带火了一波数字孪生。再加之《“十四五”数字经济发展规划》再次重点提及“数字孪生”这一技术，也使得更多的个人以及企业开始关注到这一项技术。另外在规划中也提到重点发展的就是智能制造。其实现在很多智能制造行业的巨头在早些年就已经开始重视以及布局数字孪生工厂的建设。相信有很多制造类
Unity UI架构的道与术：从“一团乱麻”到“井然有序”（7）
第六章：架构的回归——在理论的优雅与现实的代价之间，寻找你的最优解穿越了UI技术演进的漫漫长路，我们从一个新手的“一团乱麻”，到用MVC、MVP、MVVM这些“手术刀”，一步步地为代码建立秩序。然而，在这场对“终极优雅”的漫长求索中，我们必须在旅程的终点，停下脚步，回归到所有软件工程最朴素的本质——权衡。架构设计的真谛，不在于找到一个完美的“黄金标准”，而在于清醒地认识到每一种选择背后的代价，并为
Unity UI的未来之路：从UGUI到UI Toolkit的架构演进与特性剖析(1) 伽蓝_游戏 unity ui 架构游戏引擎游戏 c#.net
第一章：全面的特性对决——一份来自官方的详细评测报告在Unity引擎的UI开发领域，开发者主要面对两种核心技术选型：成熟且深度集成的UGUI(UnityUI)系统，以及代表未来方向、以性能和现代工作流为设计目标的UIToolkit。两者在底层架构、工作流程、性能模型和功能覆盖上存在本质差异。本章将基于详细的功能特性对比，对二者进行深入的技术分析，为开发者在项目初期做出合理的技术选型提供依据。核心差
Unity UI的未来之路：从UGUI到UI Toolkit的架构演进与特性剖析(2) 伽蓝_游戏 unity ui 架构游戏引擎游戏 c#.net
第二章：初识新王——UIToolkit的核心理念与架构剖析在第一章中，我们通过详尽的特性对比，清晰地看到了UIToolkit作为“新王”所展现出的、在性能和现代化工作流上的巨大潜力。然而，要真正理解并驾驭这把未来的“神兵利器”，我们必须更进一步，深入其内部，系统性地剖析它的核心设计理念、底层架构和关键技术特性。这一章，我们将正式踏上对UIToolkit的探索之旅，揭示其“Web技术启发”背后的真正
微服务架构监控：四大黄金指标解析 AI云原生与云计算技术学院架构微服务云原生 ai
微服务架构监控：四大黄金指标解析关键词：微服务架构、监控体系、四大黄金指标、SRE、延迟、流量、错误、饱和度摘要：本文深入解析微服务架构监控的核心方法论——四大黄金指标（延迟、流量、错误、饱和度），基于GoogleSRE最佳实践，结合具体技术实现与数学模型，阐述指标设计原理、数据采集方法、可视化实践及异常诊断逻辑。通过完整的项目实战案例，演示如何构建端到端监控体系，帮助技术团队建立可观测性基线，提
【Web APIs】JavaScript 节点操作 ③ ( 子节点操作 | firstChild 属性 | firstElementChild 属性 | children[0] 属性 ) 韩曙亮 JavaScript 前端 javascript 开发语言 Web APIs 节点操作子节点操作 js
文章目录一、JavaScript子节点操作1、获取子节点需求2、firstChild和lastChild属性(不推荐-基于所有类型节点)3、firstElementChild和lastElementChild属性(不推荐-兼容性问题)4、children[0]和children[element.children.length-1]属性(推荐-实际用法)5、完整代码示例在【WebAPIs】JavaS
2022-03-19 做自己喜欢的事
时间过得真快，一天又过去了。今天没有赚到什么钱，只赚了300多，在这种情况下能保住性命就不错了，何谈赚钱。反正比厂里上班还是要自由一点。虽然辛苦，但是我一直在坚持，有付出就有收获。我打心眼里高兴。财富是慢慢开始积累的，也许这就是我的开始……
油猴正确开启方法Please enable developer mode to allow userscript injection.
以下步骤缺一不可步骤扩展程序管理扩展程序启用开发者模式启用油猴油猴详情（能打开的全部打开）允许运行用户脚本在无痕模式下启用允许访问文件网址建议不用的时候都关闭结果之后就可以打开油猴插件发现最上面的蓝色提示不见了“Pleaseenabledevelopermodetoallowuserscriptinjection.”可以正常使用安装的插件了
「Chrome 开发环境快速屏蔽 CORS 跨域限制详细教程」*
Chrome开发环境快速屏蔽CORS跨域限制【超详细教程】为什么需要临时屏蔽CORS？在日常前后端开发中，我们经常会遇到这样的报错：Accesstofetchat'https://api.example.com'fromorigin'http://localhost:3000'hasbeenblockedbyCORSpolicy.或者类似：AccesstoXMLHttpRequestat'http
281129-李晏林-2022/10/6【day2】尘心_aa8c
总目标是什么？总目标是什么最近3年的成为销售高手要具备的能务：销售主手的标准：1、超强的执行力，2、见客户的胆量3、口才4、分析问题的能务5、推荐产品的话术、6做增值服务的能务7、谈判的能务8、解决客种宊发问题的能力9、控制心态的能力、10、送小礼物的能务关键词：胆量、口才、分析问题、产品话术、小礼物、增值服务、谈判、突发问题、控制心态执行力。以上是成为销售高手的关键能力。汇总分类：心态：目标细分
假期第二天：逛超市+游泳剪烛西窗_d70d
2020年5月2日星期日晴亲爱的毛毛，今天你说要去要想游乐园玩，我想了想还是决定去商业大厦购物。带着你俩太忙，你爸年底发的百大卡都没用，结果最后被疯抢一空。家里洗发水没了，我想我的商业大厦卡也不保险，抓紧去消费。我们带上你爷爷一起帮忙拿东西，开车去了西城。一上午各种买买买，超市里买了东西后，我在美都汇给你和果果买了衣服，你买了个书包，果果买了个平衡车。总之我们上午买得很开心。中午妈妈实在累了，看着
从XSS Payload学习浏览器解码 caker丶 XSS-labs XSS xss 学习 javascript
从XSSPayload学习浏览器解码HTML解析URL解析JavaScript解析案例解析总结作为一个浏览器在解析一篇HTML文档时主要有三个处理过程，每个解析器负责解码和解析HTML文档中它所对应的部分，下面我将按照解码顺序依次讲解。HTMl解析URL解析JavaScript解析HTML解析一个HTML解析器作为一个状态机，它从输入流中获取字符并按照转换规则转换到另一种状态。在解析过程中，任何时
SAP Word 模板与 XML 数据流合并过程深度剖析——以表格结构为例汪子熙 ABAP 百科全书 word xml CRM ABAP NetWeaver SAP
在CRMWebClientUI的Office集成功能里，Word模板与XML数据流的动态合并，是合同、报价单等文档自动生成的技术核心。本文结合SAP官方示例代码与OpenXML规范，从模板绑定、数据预处理、运行时递归填充到实际排错技巧，全景展示表格结构合并的幕后细节，并给出一段源自真实项目的实战案例，帮助读者迅速掌握这一看似神秘的“魔术”。(document567.rssing.com,docum
关于avif和heic图片格式的对比 huluang 视频编解码
前言：avif最新的图片格式，基于av1heic苹果独家格式，基于H.265由于特殊原因需要对两种格式进行选优，现阶段通过特定软件发现heic比avif在最终体积和转换速度上拥有不可比拟的优势，具体如下：raw原图：无损转换速度对比可以看到heic速度快，当转换图片数量多时，这个差距就非常明显了。avif格式444，10速度转换如下图：heic格式100%转换如下图：体积对比经过对比avif比he
你还记得最初的梦想吗？安安kelly
今年的你还记得自己最初的梦想吗？图片发自App小时候，我的梦想是当一名警察，每次看到港片里面女警察抓匪徒的时候那股劲，特别羡慕，想着什么时候自己和她一样，英姿飒爽，走路都带风的感觉是倍爽！等上初中的时候，每天想着怎么考上一所好高中。上高中那会，就希望自己能考一所重点大学，可是这个梦想还是没实现，只考了一个二本。到了大学，梦想着出去能找个好工作，嫁个好老公，就这样平凡的过一生，这个还是没实现。到了现
熬北明王风无影
如果一个人赶上了困顿、迷茫、看不清未来的时候，可以用一个词来形容：至暗时刻。很多人的生命中，都会经历这个至暗时刻。有的人是失业、失意、失财，有的人则是山穷水尽、性命攸关。但经历这些时人们的心境，大概是相通的。如果能在困顿中再撑一撑，在无望中再熬一熬，命运就会截然不同。知乎上有个话题：你最难的时候是怎么熬过来的？有人说疯狂健身，有人说世界各地旅游，有人说强迫自己去干自己干不了的事，但更多的，并没有给
2023-11-01 倪俊卿
侯庄的传说（故事连载）且说那年外地有个江洋大盗听说张员外家很是有钱，便来到阳翟县城，预谋对张员外家进行偷窃。有天夜里，月黑星稀，乌云密布，淅淅沥沥的濛濛雨下个不停，这大盗趁此月黑雨夜，在三更时分拨门潜入张员外宅院，摸入员外女儿房中，把屋中的珍珠玛瑙、金银首饰和银两物件等尽数打成包裹，正准备离开时，张小姐梦中惊醒，点亮灯查看。盗贼一见张员外的女儿长得如花似玉，便心生歹意，图谋不轨。如饿虎一般扑向张小
关于ios点击分享自动复制到粘贴板的问题
前言Android系统没有什么特别的要求，实现这个也比较容易。但ios在某些情况下就会出现问题。如果ios是点击之后，请求接口，再把接口的内容赋值给粘贴板肯定行不通，会被ios系统拦截，导致赋值失败或者赋值为空。建议使用第三方库clipboard.js来实现粘贴板赋值将点击的dom设置为一个button最好实现。CopytoclipboardimportClipboardJSfrom'clipbo
遗憾随风起苏小薇慕司南苏珍珍免费阅读_热门小说阅读遗憾随风起苏小薇慕司南苏珍珍绾绾呐
小说：《遗憾随风起》主角：苏小薇慕司南苏珍珍简介：相爱十年的男友终于向我求婚了。我一时高兴，在订婚派对上多喝了两杯酒。向来彬彬有礼的他却突然像是变了一个人一样。呵斥我不懂规矩，把醉酒的我赶下车。我忍着头疼，一个人在深夜的街头走了三个小时。回到家又看到他在我们的婚房里抱着白月光倾诉。“我后悔了，只要你肯回头，我愿意为你悔婚。”看着他对白月光温柔耐心的模样，我突然也觉得后悔了。为了不让他悔婚，婚礼当天
每日一省206 常燕美
昨天带女儿去吃德克士，在点餐的过程中先生不会操作，几次自助点餐都出现了意外，女儿有点急，帮忙弄好，先生两次该点击付款时又不小心返回了，因为会员日是买一送一，操作流程跟平时不一样，所以先生频频弄错，眼看着越来越多的人加到我们前面去了，本来就很长的队伍让我也很着急，于是有点嫌先生笨，这时候女儿冲着先生发脾气：“爸，你会不会弄呀，你怎么又返回了，真是的，你看看人都加我们前面了，我还要回家写作业呢！”看见
【记录幸福】毕业季，那些幸福的留言——卞欣悦篇吴老师教语文
致吴老师的一封信亲爱的吴老师：时光荏苒，一年也不过弹指一挥间。再回想语文课上的点点滴滴，心里满是欢喜。回想这一年，甜蜜也好，悲伤也罢，但只要有你们一路同行，有您陪伴左右，就不觉得孤单。从七年级到九年级，语文老师不知换了多少个，但，大多数讲课都是死板又无趣，总是让人觉得昏昏欲睡，但是，上您的课总能让我在“死”的文字中找到许多“活”的趣味儿，我很开心，也很感激能有一位像您这样的语文老师。有时候也经常会
verilator如何实现RTL的仿真(腾讯混元)
Verilator是一个用于将Verilog或SystemVerilogRTL（寄存器传输级）代码转换为C++或SystemC模型的工具，主要用于高性能的功能仿真和验证。它不是像ModelSim或VCS那样的传统事件驱动仿真器，而是通过静态编译的方式将RTL转换为可执行的C++代码，从而实现高效仿真。下面详细介绍Verilator实现RTL仿真的流程与实现细节。一、Verilator的基本工作流程
WebSocket断链排查与重连实战：7种实时检测与自动恢复技巧 Clownseven websocket 网络协议网络
更多云服务器知识，尽在hsotol.com前一秒用户还在聊着天，后一秒界面突然“连接已断开，请重试”，你赶忙看日志，发现服务并没崩，CPU正常、内存平稳，也没报错。可用户就是断了，而且还不是一个两个。这种时候你才想起来：这货不是HTTP，是WebSocket。它不是请求-响应那种你来我往，它像一根细长的管子，连上之后就一直开着，谁主动断谁才结束。可问题是——它，突然就没了。WebSocket长连接
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

推荐收藏 | AutoML 在表数据中的研究与应用

你可能感兴趣的:(推荐收藏 | AutoML 在表数据中的研究与应用)