阿默mini

自动机器学习AutoML

【研究背景】随着深度神经网络的不断发展，各种模型和新颖模块的不断发明利用，人们逐渐意识到开发一种新的神经网络结构越来越费时费力，为什么不让机器自己在不断的学习过程中创造出新的神经网络呢？
正是出于这个构思，2017年Google推出了AutoML，一个能自主设计深度神经网络的AI网络。自此，人工智能又有了更进一步的发展，人们开始探索如何利用已有的机器学习知识和神经网络框架来让人工智能自主搭建适合业务场景的网络，从而减少人工的参与，让机器完成更复杂的工作，人工智能的另一扇大门被打开。

而该技术的发布主要依赖以下两个技术：

迁移学习（transfer learning）——运用一种神经网络，处理其他相似任务，比如一个训练的差不多的CNN，可以识别猫也可以稍加再次训练识别红绿灯，这个对模型和数据的要求都较高。
神经架构搜索——之前的AutoML用的是增强学习（迭代）+RNN生成的方法，实际上针对的是CNN的网络结构，用深度学习调参来训练确定网络构架。
(1)使用循环神经网络生成模型描述：用控制器生成神经网络架构的超参数，为了灵活性，控制器选择为循环神经网络。
下图为预测只具有卷积层的前馈神经网络，控制器将生成的超参数看作一系列符号，在实验中，如果网络的层数超过一定值，则生成架构会停止，该值遵循一定的策略，并随着训练过程增加。一旦控制器RNN完成了架构的生成，就开始构建并训练具有该架构的神经网络。在网络收敛之后，记录网络在验证集中的准确率，并对控制器RNN的参数进行优化，以使控制器所提出的架构的预期验证准确率最大化。

(2)使用强化学习进行训练：控制器预测的模型描述可以被看作设计子网络的一系列action。在训练子网络收敛之后，该子网络会在保留数据集上得到一个准确度R，使用该准确度R作为reward信号，并使用强化学习训练控制器。

【实现原理】
AutoML用的是神经网络搜索，（该论文也是出自李飞飞老师学生之手），有点类似于决策树，从简单单元开始，逐步堆叠网络结构——实际上用的是蒙特卡洛树搜索的思想，我们的方法类似于 A* 算法（也被称为分支限界法）。
步骤：从简单到复杂搜索模型空间，并在前进过程中剪枝处理掉没有前途的模型。这些模型（单元）按照它们所包含的模块的数量进行排序。我们从考量带有一个模块的单元开始，评估这些单元（通过训练它们并在一个验证集上计算它们的损失），然后使用观察得到的奖励来训练一个基于 RNN 的启发式函数（也被称为代理函数），可以预测任何模型的奖励。最后可以使用这个学习到的启发式函数来决定应该评估哪些带有 2 个模块的单元，在对它们进行了评估之后，再对这个启发式函数进行更新。重复这一过程，直到我们找到带有所想要的模块数量的优良单元。

用户只要提供数据，自动机器学习系统将自动的决定最佳的方案，领域专家不再需要苦恼于学习各种机器学习的算法。自动机器学习不光包括大家熟知的算法选择，超参数优化，和神经网络架构搜索，还覆盖机器学习工作流的每一步：

Machine learning (ML) has achieved considerable successes in recent years and an ever-growing number of disciplines rely on it. However, this success crucially relies on human machine learning experts to perform the following tasks:

Preprocess and clean the data.
Select and construct appropriate features.
Select an appropriate model family.
Optimize model hyperparameters.
Postprocess machine learning models.
Critically analyze the results obtained.

【技术亮点】

自动化程度
Jeff Dean在ICML 2019上进行了有关AutoML的演讲，并将自动化分为4个级别：
(1)手动构造预测变量，不引入学习的步骤；
(2)手工选择特征，学习预测。引入自动化超参数调优（HPO）工具，例如Hyperopt，Optuna，SMAC3，scikit-optimize等；
(3)手工构造算法，端到端学习特征和预测。除了HPO外，还有其他一些工具，例如featuretools，tsfresh，boruta等；
(4)完全自动化。端到端学习算法，特征和预测。自动化算法（模型）选择工具，例如Auto-sklearn，TPOT，H2O，auto_ml，MLBox等。
深度学习vs自动化深度学习
随着深度神经网络的广泛应用和不断发展，越来越强大的网络模型被构建，从AlexNet，到VGGNet，GoogleNet以及ResNet。这些模型足够灵活，但人工神经网络结构仍然需要大量的专业知识并且需要充足的时间，而且调参对于深度模型来说也是一项非常痛苦的事情，众多的超参数和网络结构参数会产生爆炸性的组合。
是否有可能使这一过程自动化，让每一个人，甚至是不了解机器学习的人可以轻松地将机器学习应用于所面临的问题，自动化深度学习（AutoDL）就是答案，AutoDL的目标是通过超参数优化的方法让机器学会自动设计网络及调参优化。
超参数优化（HPO，Hyper-parameter Optimization）
学习器模型中一般有两类参数，一类是可以从数据中学习估计得到，还有一类参数无法从数据中估计，只能靠人的经验进行设计指定，后者成为超参数（在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果）。比如，支持向量机里面的C、 Kernal、game，朴素贝叶斯里面的alpha等。
最常见的超参数优化方法是黑盒优化 （black-box function optimization），所谓黑盒优化，就是将决策网络当作是一个黑盒来进行优化，仅关心输入和输出，而忽略其内部机制，决策网络通常是可以参数化的，这时候我们进行优化首先要考虑收敛性。此类算法通过采样和对采样的评价进行搜索，往往需要大量对采样的评价才能获得比较好的结果。
- 网格搜索（grid search）——一种通过遍历给定的参数组合来优化模型表现的方法，缺点是很容易发生维度灾难，优点是很容易并行；
- 随机搜索（random search）——利用随机数求极小点而求得函数近似的最优解的方法；
- 贝叶斯优化（Bayesian Optimization）——一种迭代的优化算法，被认为是较好的超参数调优算法，相对于其它的黑盒优化算法，激活函数的计算量要少很多，包含两个主要的元素，输入数据假设的模型和一个采集函数，用来决定下一步要评估哪一个点。每一步迭代，都使用所有的观测数据fit模型，然后利用激活函数预测模型的概率分布，决定如何利用参数点，权衡是Explaoration还是Exploitation。
  Sequential model-based optimization (SMBO) 是贝叶斯优化的最简形式，其算法思路如下：
  
  Input:
  f: 就是所谓的黑盒子，即输入一组超参数，得到一个输出值。
  X:是超参数搜索空间等。
  D:表示一个由若干对数据组成的数据集，每一对数组表示为(x,y)，x是一组超参数,y表示该组超参数对应的结果。
  S:是Acquisition Function(采集函数)，这个函数的作用是用来选择公式(1)中的x。
  M:是对数据集D进行拟合得到的模型，可以用来假设的模型有很多种，例如随机森林，Tree Parzen Estimators等。
- 常用工具
  (1)hyperopt：是一个Python库，可以用来寻找实数,离散值,条件维度等搜索空间的最佳值，几乎可以稳定的获取比手工更加合理的调参结果
  (2)Google Vizier：Google的内部机器学习系统，一款谷歌内部用于黑箱优化的服务，已经成为谷歌在调整引擎时默认使用的服务，能够利用迁移学习等技术自动优化其他机器学习系统的超参数
  (3)advisor：是用于黑盒优化的超参数调整系统，Google Vizier的开源实现
  (4)katib ：也是对 Google Vizier 的开源实现，基于Kubernetes的超参数优化工具，Kubern，etes native 的超参数训练系统，旨在实现一个云原生的超参数搜索与模型结构搜索系统，复用 Kubernetes 对 GPU 等资源的管理能力，同时保证系统的可扩展性，云原生的实现使得维护这一系统的工作对运维工程师更加友好。
- 所面临的挑战：
  (1) 对于大规模的模型或者复杂的机器学习流水线而言，需要评估的空间规模非常大
  (2) 配置空间很复杂
  (3) 无法或者很难利用损失函数的梯度变化
  (4) 训练集合的规模太小
  (5) 很容易过拟合
元学习（Meta Learning）
元学习也就是‘ 学习如何学习 ’，通过对现有的学习任务之间的性能差异进行系统的观测，然后学习已有的经验和元数据，用于更好的执行新的学习任务，这样做可以极大的改进机器学习流水线或者神经网络架构的设计，也可以用数据驱动的方式取代手工作坊似的算法工程工作。从某种意义上来说，元学习覆盖了超参数优化，因为元数据的学习包含了：超参数，流水线的构成，神经网络架构，模型构成，元特征等等。
元学习的一个很大的挑战就是如果通过很少的训练数据来学习一个复杂的模型，这就是one-shot或者few-shot的问题。像人类的学习一样，每次学习无论成功失败，我们都收获一定的经验，人类很少从头学习。在构建自动学习的时候，我们也应该充分利用已有的每一次的学习经验，逐步的改进，使得新的学习更加有效。
机器学习的算法我们又称为‘学习器’，学习器就是假定一个模型，该模型拥有很多未知参数，利用训练数据和优化算法来找到最适合这些训练数据的参数，生成一个新的算法，或者参数已知的模型，并利用该模型/算法来预测新的未知数据。如果说世界上只有一个模型，那么问题就简单了，问题是模型有很多，不同的模型拥有不同的超参数，我们往往还会把模型和算法组装在一起构成复合模型和机器学习的流水线，这个时候，我就需要知道解决不同的问题要构建那些不同的模型。元学习就在这个时候，我们可以把超参数，流水线，神经网络架构这些都看成是一个新的模型的未知参数，把不同学习任务的性能指标看成是输入数据，这样我们就可以利用优化算法来找到性能最好的那组参数。这个模式可以一直嵌套，也就是说，你可以有‘元元元学习‘。
【常用方法】
(1)通过模型评估来学习；
(2)通过任务的属性、元特征来学习；

(3)从现有的模型中学习，包括：迁移学习、利用RNN在学习过程中修改自己的权重。
神经架构搜索（NAS,Neural Architecture Search）
是一种针对特定数据集从头开始自动设计性能良好的模型的技术，NAS技术与超参数优化所解决的问题相同：在搜索空间中找到对目标任务表现良好的网络结构，由于神经网络的结构和连接通常可以由可变长度的字符串指定，在实际问题中，根据特定数据集生成指定的“子网络”，通过训练得到验证集的准确性。
NAS主要由三个基本问题组成，分别是搜索空间、优化方法、评估方法。

（1）搜索空间针对目标任务定义了一组可能的神经网络结构。就是可供搜索的一个网络结构集合，它的数字表示为：网络的结构（如：神经网络的深度，即隐藏层个数，和特定的隐藏层宽度）、配置（如：操作/网络间的链接类型，核的大小，过滤器的数量。

（2）优化方法确定如何探索搜索空间以找到好的架构。搜索算法是一个迭代过程，用于确定以何种规则来探索搜索空间。在搜索过程的每个步骤或迭代中，一个来自于搜索空间的样本会被生成，即子网络（child network），所有的子网络在训练集上被训练，在验证集上的准确率作为目标被优化（或者是强化学习中的奖励。
搜索算法的目的是找到最佳子网络，例如最小化验证集损失或最大化奖励。主流的NAS搜索策略大致可以分为强化学习、进化算法和可微分的梯度下降算法。
- 基于强化学习的方法——强化学习有三个基本要素：智能体（Agent）、环境（Environment）和奖励（Reward），智能体以 “试错”的方式进行学习，通过与环境交互获得奖励来指导行为。智能体和环境之间的交互可以被视为顺序决策过程：在每个时间t，Agent在动作集合中选择动作与环境交互并接收奖励。
  
  神经架构自动搜索中，强化学习把架构的生成看成一个智能体（agent）在选择动作（action）的过程，通过在测试集上测试网络性能来获取奖励值（reward），从而指导架构的生成。与传统的强化学习问题略有不同的是构建了一个RNN控制器，通过迭代的方式来更新控制器从而生成合适的架构。
- 基于进化算法的方法——基于进化算法的神经网络结构搜索，在演化步骤中，把子模型作为种群来进化。群体中的每个模型都是训练过的网络，并被视为个体，模型在验证集上的表现（例如，准确度）作为每个个体的质量好坏。基于进化算法神经架构搜索的通用流程如下：
  1、初始化操作，对现有的各个个体进行编码，把这些个体编码成种群。
  2、选择操作，从种群中根据适应度挑选出优秀的个体。
  3、繁殖操作，分为两种：有性繁殖操作和无性繁殖操作，无性繁殖的操作包括变异操作，有性繁殖包括交叉操作或者组合操作。
  4、网络训练操作，对上一步繁殖操作得到的所有个体神经网络进行训练，训练到收敛为止。
  5、适应度计算操作，使用指定的验证集对每个已训练的网络计算验证准确率，把验证准确率作为适应度。
- 基于可微分架构搜索的方法——可微分架构搜索方法很多种，其中比较出名的是卡内基梅隆大学提出的DARTS（Differentiable Architecture Search）。该方法是最早实现端到端训练的网络架构搜索方法，网络架构搜索根据搜索空间的不同可以分为离散搜索空间和连续搜索空间。
  基于离散搜索空间的网络架构搜索方法常用的搜索策略有进化搜索策略的强化学习搜索策略，这类方法都是对搜索空间中的网络进行随机采样训练，缺点是内存和运算消耗十分大，很难应用。DARTS则提出了一种将离散网络搜索空间连续松弛的方法，使NAS能够在连续的空间中进行，并且能够使用基于梯度优化的搜索策略，大大减少了不必要的网络训练过程，加速了网络架构搜索的过程，效率可以比之前不可微的方法快几个数量级。
（3）评估方法评估通过优化方法考虑的每种网络结构的性能。无论是基于强化学习还是进化算法的搜索，子网络都要被训练和评估，以指导搜索过程，但是从头开始训练每个自网络需要超大的资源和时间，所以NAS的加速方案被提出，主要代表方案是改进代理模型和权值共享。
- 改进代理（Improve proxy）
  代理模型的引入会带有误差，研究证明子网络的FLOPs（每秒计算的浮点数）和模型大小与最终准确度呈负相关，因此引入了一种应用于奖励计算的校正函数，通过早期停止获得子网络的精度，弥合代理与真实准确性之间的差距。
  根据这一想法，研究者们提出了几种通过“预测”神经架构的精度来改进代理度量的方法，预计精确度较差的子网络将被暂停训练或直接放弃。以下是三种预测神经架构搜索的方法：
  (1)根据子网络的学习曲线预测神经架构的精度。
  (2)回归模型，使用基于网络设置和验证曲线的特征来预测部分训练模型的最终性能。
  (3)训练代理模型，基于progressively architectural properties预测子网络的准确性。
- 权值共享（Weight sharing）
  在神经网络的搜索和训练过程中，涉及到很多权值和超参数，权值共享可以实现加速，在这里列举几个权值共享的经典方法：
  (1)在进化过程中，允许子网络继承父本的权重，而不是从头训练每个子模型，使用One shot 模型实现共享。
  (2)设计带有辅助超网络的“主”模型，生成以模型架构为条件的主模型的权重，从超网络代表的分布中采样的权重。
  (3)通过网络转换/态射来探索搜索空间，它使用诸如插入层或添加跳过连接之类的操作将训练好的神经网络修改为新的结构。由于网络转换/态射从现有的训练网络开始，因此重用权重并且仅需为数不多的训练迭代来完成新的结构的训练。
自动化特征工程（Auto FE，Automated Feature Engineering）
自动化特征工程旨在从数据集中自动创建候选特征，且从中选择若干最佳特征进行训练，可以帮助数据科学家基于数据集自动创建能够最好的用于训练的特征。
- Featuretools——是一个开源库，用来实现自动化特征工程，是一个很好的工具，旨在加快特征生成的过程，从而有更多的时间专注于构建机器学习模型的其他方面。Featuretools使用一种称为深度特征合成（Deep Feature Synthesis，DFS）的算法，该算法会遍历关系数据库模式描述的关系路径，当DFS遍历这些路径时，它通过应用于数据的操作（包括和、平均值和计数）生成综合特征。
  
  三个主要组件：
  (1)实体（Entities）:一个Entity可以视作是一个Pandas的数据框的表示，多个实体的集合称为Entityset
  (2)深度特征综合（Deep Feature Synthesis ，DFS）:DFS是一种特征工程方法，是Featuretools的主干，支持从单个或者多个数据框中构造新特征
  (3)特征基元（Feature primitives）:DFS通过将特征基元应用于Entityset的实体关系来构造新特征，这些特征基元是手动生成特征时常用的方法
- Boruta——Boruta主要是用来进行特征选择，严格意义上，Boruta并不是我们所需要的自动化特征工程包。Boruta-py是Brouta特征约简策略的一种实现，在该策略中，问题以一种完全相关的方式构建，算法保留对模型有显著贡献的所有特征，这与许多特征约简算法所应用的最小最优特征集相反。
  Boruta方法通过创建由目标特征的随机重排序值组成的合成特征来确定特征的重要性，然后在原始特征集的基础上训练一个简单的基于树的分类器，在这个分类器中，目标特征被合成特征所替代。
  Boruta函数通过循环的方式评价各变量的重要性，在每一轮迭代中，对原始变量和影子变量进行重要性比较。如果原始变量的重要性显著高于影子变量的重要性，则认为该原始变量是重要的；如果原始变量的重要性明显低于影子变量的重要性，则认为该原始变量是不重要的。其中，原始变量就是我们输入的要进行特征选择的变量；影子变量就是根据原始变量生成的变量。
  生成规则：
  先向原始变量中加入随机干扰项，这样得到的是扩展后的变量，从扩展后的变量中进行抽样，得到影子变量。
  步骤：
  (1)首先，它通过创建混合数据的所有特征（即影子特征）为给定的数据集增加了随机性。
  (2)然后，它训练一个随机森林分类的扩展数据集，并采用一个特征重要性措施（默认设定为平均减少精度），以评估每个特征的重要性，越高则意味着越重要。
  (3)在每次迭代中，它检查一个真实特征是否比最好的影子特征具有更高的重要性（即该特征是否比最大的影子特征得分更高）并且不断删除它视为非常不重要的特征。
  (4)最后，当所有特征得到确认或拒绝，或算法达到随机森林运行的一个规定的限制时，算法停止。
- tsfresh——基于可伸缩假设检验的时间序列特征提取工具，该包包含多种特征提取方法和鲁棒特征选择算法。tsfresh可以自动地从时间序列中提取100多个特征，这些特征描述了时间序列的基本特征，如峰值数量、平均值或最大值，或更复杂的特征，如时间反转对称性统计量等。
  这组特征可以用来在时间序列上构建统计或机器学习模型，例如在回归或分类任务中使用，时间序列通常包含噪声、冗余或无关信息，因此大部分提取出来的特征对当前的机器学习任务没有用处。为了避免提取不相关的特性，tsfresh包有一个内置的过滤过程，这个过滤过程评估每个特征对于手头的回归或分类任务的解释能力和重要性。它建立在完善的假设检验理论的基础上，采用了多种检验方法。

【经典框架】

MLBox(Machine learning Box)：是一个强大的自动机器学习python库，提供了以下几个功能：
(1) Fast reading and distributed data preprocessing/cleaning/formatting 快速读取和分布式数据预处理/清洗/格式化
(2) Highly robust feature selection and leak detection高鲁棒性选择和遗漏检测
(3) Accurate hyper-parameter optimization in high-dimensional space高维空间中精确的超参数优化
(4) State-of-the art predictive models for classification and regression (Deep Learning, Stacking, LightGBM,…)最先进的分类和回归预测模型
(5) Prediction with models interpretation模型解释预测
Auto Sklearn：建立在流行的scikit-learn机器学习库之上，在处理小数据集方面做得很好，使机器学习用户从算法选择和超参数调整中解放出来，它利用了贝叶斯优化，元学习和集合构造的最新优势，可以做到：特征描述(框架的一个显著特性)、机器学习模型选型、超参数设定；
TPOT：其中机器学习管道是完全自动化的，为了找到最佳模型，它使用了遗传算法。像Auto Sklearn一样，此框架是scikit-learn的附加组件，但是TPOT有其自己的回归和分类算法，缺点是无法与自然语言交互等；
H2O：一个开源的、内存、分布式、快速和可扩展的机器学习和预测分析平台，允许在大数据上构建机器学习模型，并在企业环境中轻松实现这些模型的搭建，支持传统的机器学习模型和神经网络，特别适合那些正在寻找一种自动化深度学习方法的人；
(1) H2O的核心代码是用Java编写的。在H2O中，使用分布式的Key/Value存储来访问和引用所有节点和机器上的数据、模型、对象等。这些算法是在H2O的分布式Map / Reduce框架之上实现的，并且利用Java Fork / Join框架来实现多线程。数据是并行读取的，并分布在整个集群中，并以压缩的方式以列状格式存储在内存中。
(2) H2O的数据解析器具有内置的智能功能，可以猜测传入数据集的模式，并支持以多种格式从多个源获取数据。H2O的REST API允许外部程序或脚本通过HTTP上的JSON访问H2O的所有功能。 Rest API使用H2O的Web界面（Flow UI），R binding（H2O-R）和Python binding（H2O-Python）；
Auto Keras：遵循经典scikit-learn API的设计，但是使用了功能强大的神经网络用Keras来搜索模型参数，主要围绕Keras和PyTorch而构建，利用NAS神经架构搜索，并应用“网络态射”（在更改架构时保持网络功能）以及贝叶斯优化，以指导网络态射实现更高效的神经网络搜索；
Cloud AutoML：使用神经网络架构，具有用于学习和部署模型的简单用户界面，系统是基于监督学习创建，开发者只需要通过鼠标拖拽的方式上传一组图片、导入标签，随后谷歌系统就会自动生成一个定制化的机器学习模型，几乎不需要任何人为的干预。长远来看，在商业项目中使用是非常有意义的，另一方面，出于研究目的，全年都可以免费使用有限制的Cloud AutoML；
Uber Ludwig：是一个基于TensorFlow的工具箱，可以训练和测试深度学习模型，无需编写代码，目标是用最少的代码实现深度学习过程的自动化，该框架仅适用于深度学习模型。
主要创新是基于数据类型的特定编码器和解码器的理念。Ludwig对支持的任何给定数据类型使用特定的编码器和解码器。与其他深度学习架构一样，编码器负责将原始数据映射到张量，而解码器则将张量映射到输出。Ludwig的架构还包括组合器的概念，它是组合来自所有输入编码器的张量，处理它们并返回用于输出解码器的张量的组件。

【论文精析】

[1]Xin He, Kaiyong Zhao, Xiaowen Chu∗: A Survey of the State-of-the-Art论文链接
[2]Jason Liang, Elliot Meyerson, et al. Evolutionary neural AutoML for deep learning论文链接
[3]Chengrun Yang, Jicong Fan,et al.Efficient AutoML Pipeline Search with Matrix and Tensor Factorization论文链接
[4]Chenxi Liu, Barret Zoph, Maxim Neumann,et al.Progressive Neural Architecture Search论文链接
[5]Matthias Feurer, Aaron Klein,et al.Efficient and Robust Automated Machine Learning论文链接

【技术展望】

从原理上来说，AutoML仍然需重度依赖人类先验知识，在处理复杂的原始数据和优化构造新特征（特征工程）的过程中仍然存在困难，暂时还必须由人类指定某类任务，进行特定结构的网络优化，离那种天马行空变出一个Dota机器人的程度尚有一定距离。
从商业模式来说，泛用性更强。可以根据企业需求定制模型，比如钻石分拣，特定标识及行为识别相对百度AI、腾讯AI之类的现有AI平台，实际上提供的是一个API接口，功能局限大（比如识别身份证和识别车牌就是两套服务）。Google搞定模型之后，对于有特别需求的行业客户吸引力更大。至于只需要做做数字识别，人脸辨认，语音识别等共性大，针对性低任务的中小型企业，用成本较低的接口式平台足够。
从发展角度来说，传统的人工智能旨在使用机器帮助人类完成特定的任务，随着人工智能的发展，在计算机领域衍生出了机器学习，机器学习旨在通过计算机程序完成对数据的分析，从而得到对世界上某件事情的预测并做出决定。当机器学习不断发展，其复杂程度也不断增加，完全依靠人为对计算机进行规定，使其按照人为设定的规则运行时，耗费了大量的人力资源。自动机器学习的出现让计算机自己去学习和训练规则，从而达到更好的效果，让AI去学习AI，减少人工的参与，让机器完成更复杂的工作，掀起下一代人工智能的浪潮。

【扩展知识】

迁移学习——是一种机器学习方法，把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中，通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源，迁移学习可以将已习得的强大技能迁移到相关的的问题上。
RNN（Recurrent Neural Network）——是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理（Natural Language Processing, NLP），例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
CNN（Convoutional Neural Network）——是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习的代表算法之一，卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类。
强化学习（Reinforcement Learning）——又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数，强化学习问题在信息论、博弈论、自动控制等领域有一定应用，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。
蒙特卡洛树搜索——又称随机抽样或统计试验方法，属于计算数学的一个分支，它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程，很难得到满意的结果，而蒙特卡洛树搜索方法由于能够真实地模拟实际物理过程，故解决问题与实际非常符合，可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法，是使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系，用电子计算机实现统计模拟或抽样，以获得问题的近似解。
A*算法——是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效启发式算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。
公式表示为： f(n)=g(n)+h(n)，其中， f(n) 是从初始状态经由状态n到目标状态的代价估计，g(n) 是在状态空间中从初始状态到状态n的实际代价，h(n) 是从状态n到目标状态的最佳路径的估计代价。（对于路径搜索问题，状态就是图中的节点，代价就是距离）
One/zero-shot learning——Zero-shot learning 指的是我们之前没有这个类别的训练样本，但是我们可以学习到一个映射X->Y，如果这个映射足够好的话，我们就可以处理没有看到的类了。比如，我们在训练时没有看见过狮子的图像，但是我们可以用这个映射得到狮子的特征。一个好的狮子特征，可能就和猫，老虎等等比较接近，和汽车，飞机比较远离。One-shot learning 指的是我们在训练样本很少，甚至只有一个的情况下，依旧能做预测，可以在一个大数据集上学到general knowledge（具体的说，也可以是X->Y的映射），然后再到小数据上有技巧的update。
Scikit-learn（以前称为scikits.learn，也称为sklearn）——是针对Python 编程语言的免费软件机器学习库。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度提升，k均值和DBSCAN，并且旨在与Python数值科学图书馆NumPy和SciPy。
k 折交叉验证——将数据集等比例划分成k份，以其中的一份作为测试数据，其他的k-1份数据作为训练数据。然后，这样算是一次实验，而k折交叉验证只有实验k次才算完成完整的一次，也就是说交叉验证实际是把实验重复做了k次，每次实验都是从k个部分选取一份不同的数据部分作为测试数据（保证k个部分的数据都分别做过测试数据），剩下的k-1个当作训练数据，最后把得到的k个实验结果进行平分。
SOTA(state-of-the-art)——通常来说state-of-the-art指的就是某一种技术、研究或者产品已经达到了这个领域的顶级，再也无法被超越，这个通常情况下是比较难的，因此现在很多时候说state-of-the-art的话，都是指在现在这个技术发展的阶段达到领域最优。SOTA model：state-of-the-art model，并不是特指某个具体的模型，而是指在该项研究任务中，目前最好/最先进的模型；SOTA result：state-of-the-art result，指的是在该项研究任务中，目前最好的模型的结果/性能/表现。

来源:
[1] 如何评价谷歌刚推出的Cloud AutoML？作者:cat cynthia
[2] 微信公众号 Datawhale : 一文讲解自动机器学习（AutoML）！你已经是个成熟的模型了，该学会自己训练了
[3] Awesome-AutoML-Papers
[4] 贝叶斯优化(Bayesian Optimization)深入理解
[5] AUTOML

你可能感兴趣的:(#,读研之路,算法,机器学习,python)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class