imalg图像算法

Python机器学习：数据科学，机器学习和人工智能的主要发展技术趋势概述

1.介绍

Python因易于学习而广为人知，并且它仍然是数据科学，机器学习和科学计算中使用最广泛的语言。根据最近的一项民意的调查，该调查对1,800多名研究人员分析，数据科学和机器学习偏好的参与者进行了调查，Python在2019 保持其依然使用最广泛的编程语言。

然而，Python编译器和解释器使用最广泛的实现CPython在单个线程中执行CPU绑定代码，并且其多处理程序包还伴随着其他重大的性能折衷。

PyPy 是Python语言的CPython实现的替代方法。与CPython的解释器不同，PyPy是即时（JIT）编译器，能够使Python代码的某些部分运行得更快。根据PyPy自己的基准测试，在平均pypy2020上，它运行代码的速度是CPython的四倍。不幸的是，PyPy不支持Python的最新版本（与最新的3.8稳定版本相比，截至本文撰写时支持3.6）。由于PyPy仅与选定的Python库库兼容1http://packages.pypy.org，它通常被认为对数据科学，机器学习和深度学习没有吸引力。

现在收集和生成的数据量非常庞大，而且数量还在以创纪录的速度增长，这导致人们需要使用性能出色且易于使用的工具。充分利用Python的优势（例如在确保计算效率的同时易于使用）的最常见方法是开发高效的Python库，以实现用静态类型的语言（如Fortran，C / C ++和CUDA）编写的低级代码。近年来，在用于科学计算和机器学习的高性能但用户友好的库的开发上花费了大量的精力。

本文的目的是通过向读者简要介绍当前在Python机器学习领域中最相关的主题和趋势来丰富读者。我们对该领域的调查，总结了一些重大挑战，分类法和方法。在本文中，我们旨在在学术研究和行业主题之间找到平衡，同时重点介绍最相关的工具和软件库。但是，这既不是全面的说明，也不是方法，研究或可用库的详尽列表。假定不具备Python知识，但是对计算，统计和机器学习有所了解将是有益的。

本文旨在提供涵盖该领域广度的主要主题的概述。尽管可以单独阅读每个主题，但是鼓励感兴趣的读者按顺序进行阅读，因为它可以提供将技术挑战的演变与其最终解决方案联系在一起的附加好处，以及隐含的趋势的历史和计划背景。叙事。

1.1PYTHON中的科学计算和机器学习

机器学习和科学计算应用通常使用多维数组上的线性代数运算表示，多维数组是用于表示矢量，矩阵和高阶张量的计算数据结构。由于这些操作通常可以在许多处理核心上并行化，因此诸如NumPy之类的库

Oliphant2007和SciPy 2020SciPy-NMeth利用C / C ++，Fortran和第三方BLAS实现在可能的情况下绕过线程和其他Python限制。NumPy是具有基本线性代数例程的多维数组库，SciPy库将NumPy数组装饰有许多重要的原语，从数值优化器和信号处理到统计和稀疏线性代数。截至2019年，发现GitHub virtanen2020scipy上几乎所有机器学习项目中都使用了SciPy。

图1：用于机器学习，数据科学和科学计算的标准Python生态系统。

虽然NumPy和Pandas mckinny（图 1）都提供了对数据点集合的抽象，并且其操作对整个数据集都有效，但Pandas通过提供支持异类列类型以及行和列元数据的类数据框对象扩展了NumPy。近年来，Pandas库已成为事实上的格式，用于表示Python中的表格数据以进行提取，转换和加载。

（ETL）上下文和数据分析。自2008年首次发布12年后，又是25个版本之后，熊猫的第一个1.0版本于2020年发布。语义版本控制标准 preston2013semantic（1.0版）表明，库已达到成熟度的主要水平，并具有稳定的API。

尽管NumPy的第一个版本已于25年前发布（以其先前的名称为Numeric），但与Pandas相似，它仍在积极地开发和维护。2017年，NumPy开发团队从摩尔基金会获得了645,000美元的赠款，以帮助进一步开发和维护numfocus2017numpy库。在撰写本文时，Pandas，NumPy和SciPy仍然是许多数据科学和计算项目中最人性化和推荐的选择。

1.2优化PYTHON在数值计算和数据处理方面的性能

除了其线程限制外，CPython解释器还没有充分利用现代处理器硬件，因为它需要与fedotov2016speeding的大量计算平台兼容。针对CPU的特殊优化指令集（例如Intel的Streaming SIMD扩展（SSE）和IBM的AltiVec）在许多低级库规范下使用，例如二进制线性代数子例程（BLAS） blackford2002 updated和线性代数包（LAPACK） angerson1990 lapack库，用于有效的矩阵和向量运算。

OpenBLAS的开发上投入了大量心血，OpenBLAS是BLAS API的开源实现，它支持多种不同的处理器类型。尽管所有主要的科学库都可以通过OpenBLAS集成openblas2020进行编译，但是不同CPU指令集的制造商通常还会提供自己的BLAS和LAPACK子例程的硬件优化实现。例如，英特尔的数学内核库（Intel MKL） intel2020mkl和IBM的Power ESSL diefendorff2000altivec为科学计算应用程序提供可插拔的效率。这种标准化的API设计提供了可移植性，这意味着通过针对不同的实现构建，相同的代码可以在具有不同指令集的不同体系结构上运行。

当数字库（例如NumPy和SciPy）通过硬件优化的子例程获得显着的性能提升时，性能提升会自动扩展到更高级别的机器学习库（例如Scikit-lear），后者主要使用NumPy和SciPy Pedregosa FABIANPEDREGOSA 2011；buitinck2013api。英特尔还提供了一个面向高性能科学计算的Python发行版，其中包括MKL加速 intel2020 python较早前提过。该Python发行版背后的吸引力在于它是免费使用的，可以直接使用，可以加速Python本身，而不是挑选大量的库，并且可以代替标准CPython发行版而无需任何代码需要更改。但是，主要缺点之一是仅限于Intel处理器。

一次操作一组值（而不是单个值）的机器学习算法的开发通常也称为向量化。前述的CPU指令集通过使处理器有可能在多个数据点上并行调度单个指令，而不必为每个数据点调度不同的指令，从而实现矢量化。将单个指令应用于多个数据点的向量运算也称为单指令多数据（SIMD），自1960年代以来，它已存在于并行和高性能计算领域。SIMD范式在库中进一步通用化，用于扩展数据处理工作负载，例如MapReduce dean2008 mapreduce，Spark Zaharia和Dask Rocklin2015，其中将相同的数据处理任务应用于数据点的集合，以便可以并行处理它们。一旦组成，数据处理任务可以在线程或进程级别执行，从而使并行性能够跨越多个物理机。

Pandas的数据框格式使用列来分隔数据集中的不同字段，并允许每一列具有不同的数据类型（在NumPy的ndarray容器中，所有项目都具有相同的类型）。与其连续地将每个记录的字段（例如，在逗号分隔值（CSV）文件中）存储在一起，它不连续地存储列。通过按列连续布置数据，可以通过允许处理器对行级处理的内存访问进行分组或合并来启用SIMD，从而有效利用缓存，同时减少了对主内存的访问次数。

用于内存中数据的Apache Arrow跨语言开发平台 apache2020 arrow对列格式进行了标准化，以便可以在不同的库之间共享数据，而无需花费一定的成本来复制和重新格式化数据。另一个利用列格式的库是Apache Parquet apache2020 parquet。诸如Pandas和Apache Arrow之类的库在设计时考虑到了内存使用，而Parquet则主要是为数据序列化和存储在磁盘上而设计的。Arrow和Parquet彼此兼容，现代高效的工作流程涉及Parquet，用于将磁盘上的数据文件加载到Arrow的列式数据结构中进行内存计算。

类似地，NumPy支持基于行和列的布局，其n维数组（ndarray）格式也将下面的数据与对其进行操作的操作分开。这使NumPy中的大多数基本操作都可以使用SIMD处理。

Dask和Apache Spark zaharia2016 apache为可扩展到多个节点的数据帧和多维数组提供了抽象。与Pandas和NumPy相似，这些抽象也将数据表示与处理操作的执行分开。通过将数据集视为可以在可用硬件上安排的数据转换任务的有向无环图（DAG），可以实现这种分离。Dask之所以吸引许多数据科学家，是因为其API受到Pandas的极大启发，因此很容易集成到现有的工作流程中。但是，喜欢对现有代码进行最少更改的数据科学家也可以考虑使用Modin(https://github.com/modin-project/modin)它可以直接替换Pandas DataFrame对象，即modin.pandas.DataFrame。Modin的DataFrame具有与Pandas相同的API，但是它可以利用外部框架在后台进行分布式数据处理，例如Ray 2020或Dask。开发人员的基准显示，与Pandas相比，在具有四个物理内核modin2020modin的笔记本电脑上，数据处理速度最高可提高四倍。

本文的其余部分安排如下。在讨论使它既简单又高效的优化方法之前，下一节将介绍Python作为科学计算和机器学习的工具。第2节介绍了如何将Python用于常规机器学习。第3节介绍了通过AutoML自动化机器学习管道构建和实验的最新进展。在第4节，我们将讨论GPU加速的科学计算和机器学习的发展，以提高计算性能以及由此带来的新挑战。专注于专注于GPU加速的深度神经网络（DNN）训练的机器学习子领域，我们将在第5节中讨论深度学习。近年来，机器学习和深度学习技术在许多领域都达到了最先进的水平，但是与传统方法相比，这些技术经常被引用的缺点是缺乏可解释性和可解释性。在第6节中，我们重点介绍一些使机器学习模型及其预测更可解释的新颖方法和工具。最后，第7节简要概述了对抗性学习领域的最新发展，旨在使机器学习和深度学习变得更加健壮，其中健壮性是许多与安全相关的实际应用程序中的重要属性。

2.经典机器学习

深度学习代表机器学习的一个子类别，该子类别专注于DNN的参数化。为了提高清晰度，我们将基于非深度学习的机器学习称为经典机器学习（经典ML），而机器学习是一个概括性术语，包括深度学习和经典ML。

尽管在过去几年中深度学习已迅速普及，但是经典ML（包括决策树，随机森林，支持向量机等）在不同的研究领域和行业中仍然非常流行。在大多数应用中，从业人员使用的数据集不适用于当代深度学习方法和体系结构。深度学习对于处理大型非结构化数据集（例如文本和图像）特别有吸引力。相反，大多数经典机器学习技术是在头脑中的结构化数据；也就是说，以表格形式的数据，其中训练示例存储为行，而随附的观察值（特征）存储为列。

在本节中，我们将回顾Scikit-learn的最新发展，Scikit-learn仍然是经典ML最受欢迎的开源库之一。在简短介绍了Scikit-learn核心库之后，我们讨论了开源社区开发的几个扩展库，重点是用于处理类不平衡，集成学习和可扩展的分布式机器学习的库。

2.1SCIKIT-LEARN，经典机器学习的行业标准

Scikit-learn Pedregosa FABIANPEDREGOSA 2011（图 1）已成为行业标准Python库，用于对中小型数据集进行特征工程和经典ML建模,
在此情况下，根据经验，我们认为训练少于1000的数据集小型示例，

而数据集包含中等规模的1000到100,000个示例

因为它具有干净，一致且直观的API，因此在很多方面都是如此。此外，在开源社区的帮助下，Scikit学习团队仍将重点放在代码质量和综合文档上。开拓简单的“ fit（） / 预测（）API模型，其设计成为许多库的灵感和蓝图，因为它呈现出熟悉的面孔并在用户探索不同的建模选项时减少了代码更改。

除了用于数据处理和建模的众多类（称为估计器）外，Scikit-learn还包括一流的API，用于统一机器学习管道的构建和执行：管道API（图 2）。

它使一组估计器可以包括数据处理，特征工程和建模估计器，这些估计器可以组合起来以端到端的方式执行。此外，Scikit-learn提供了一个API，用于使用诸如交叉验证之类的通用技术评估经过训练的模型。

图2： Scikit学习管道的图示。一个代码示例，展示了如何从Iris数据集中拟合线性支持向量机特征，这些特征已通过z-score归一化进行了归一化，然后使用管道对象通过主成分分析压缩到了两个新的特征轴上。

b）说明了对训练数据执行拟合方法和对测试数据执行预测方法时管道内部的各个步骤。

为了在提供有用的功能和维护高质量代码的能力之间找到适当的平衡，Scikit-learn开发团队仅考虑将完善的算法纳入库中。然而，过去十年来机器学习和人工智能研究的爆炸式增长创造了许多算法，最好将其作为扩展而不是集成到核心中。更新的和通常为人所知的算法是作为Scikit-learn兼容库或所谓的“ Scikit-contrib”包提供的，后者由Scikit-learn社区在共享的GitHub组织Scikit-learn-contrib下(https://github.com/scikit-learn-contrib)当这些单独的软件包遵循Scikit-learn API时，它们可以从Scikit-learn生态系统中受益，使用户能够免费继承Scikit-learn的某些高级功能，例如流水线和交叉验证。

在以下各节中，我们重点介绍其中一些最著名的，与Scikit-learn兼容的库。

2.2解决班级失衡

当使用真实数据集Lematre 2016时，倾斜的类标签分布是最重大的挑战之一。这样的标签分布偏斜或类别失衡会导致强烈的预测偏差，因为模型可以通过学习大多数时间来预测多数标签来优化训练目标。为防止此问题，通常手动实施重采样技术以平衡标签。修改数据还需要验证哪种重采样策略对结果模型产生最积极的影响，同时确保不会由于重采样而引入其他偏差。

不平衡学习Lematre2016 是Scikit-contrib库，用于通过四种用于平衡偏斜数据集中的类的技术来解决上述问题。前两种技术通过减少造成过分代表类的数据样本的实例数（欠采样）或生成代表不足类的新数据样本（过采样）来对数据进行重新采样。由于过采样往往会训练过拟合数据的模型，因此第三种技术将过采样与清除欠采样技术结合在一起，从而消除了大多数分类中的极端离群值。不平衡学习为平衡类提供的最终技术是将袋装与AdaBoost相结合

Galar2011，其中模型集合是由多数类的不同欠采样集合构成的，而少数类的整个数据集则用于训练每个学习者。此技术允许将来自过多代表的类的更多数据用作单独重采样的替代方法。尽管研究人员在此方法中使用AdaBoost，但此方法的潜在增强可能涉及其他集成技术。在下一节中，我们将讨论最近开发的集成方法的实现。

2.3集成学习：梯度提升机和模型组合

被称为集成技术的多种机器学习算法或模型的组合被广泛用于提供稳定性，提高模型性能以及控制偏差-方差折衷

raschka 2018 model。众所周知，高度可并行化的引导聚合元算法（也称为装袋） breiman1996 bagging的集成技术传统上已用于诸如随机森林 breiman2001 random之类的算法中

对单个决策树的预测取平均，同时成功减少过度拟合。与装袋相反，增强型元算法本质上是迭代的，可以逐步拟合弱学习者，例如预修剪的决策树，其中模型会根据先前迭代的较差预测（叶节点）相继进行改进。梯度增强对早期的自适应增强算法（例如AdaBoost）进行了改进

freund1995年的决定，通过添加梯度下降的元素来逐步建立新的模型，该模型优化了与以前的迭代 Friedman2001中的误差有区别的成本函数。

最近，在许多Kaggler的工具带中，梯度提升机（GBM）已成为瑞士军刀；陈2016。梯度提升的一个主要性能挑战是它是一种迭代而不是并行算法，例如装袋。梯度提升算法中另一个耗时的计算是在构造决策树Ke时评估用于分割节点的不同特征阈值。Scikit-learn的原始梯度提升算法特别低效，因为它会枚举每个功能的所有可能分割点。这种方法被称为精确贪婪

该算法昂贵，浪费内存，无法很好地扩展到较大的数据集。由于Scikit-learn的实现存在明显的性能缺陷，因此出现了XGBoost和LightGBM之类的库，它们提供了更有效的替代方法。当前，这是用于梯度提升机的两个最广泛使用的库，并且它们都与Scikit-learn很大程度上兼容。

XGBoost于2014年Chen2016引入开源社区，并为精确的贪婪拆分查找算法提供了有效的近似值，该算法仅在每个节点上使用一部分可用的训练示例将特征分类为直方图。LightGBM被介绍给开源社区在2017年，并在深度优先的方式建立的树木，而不是使用广度优先的方法，因为它在许多其他GBM库进行柯。LightGBM还实施了升级的拆分策略，以使其与XGBoost竞争，XGBoost是当时使用最广泛的GBM库。LightGBM拆分策略的主要思想是仅保留具有较大渐变的实例，因为它们对信息增益的贡献最大，而对较低渐变的实例进行了欠采样。这种更有效的采样方法有可能显着加快训练过程。

XGBoost和LightGBM都支持分类功能。虽然LightGBM可以直接解析它们，但是XGBoost要求类别必须是一键编码的，因为其列必须是数字。这两个库均包含可有效利用稀疏特征（例如已进行一次热编码的稀疏特征）的算法，从而可以更有效地利用基础特征空间。Scikit-learn（v0.21.0）最近还添加了新的梯度提升算法受LightGBM启发的HistGradientBoosing具有与LightGBM相似的性能，但唯一的缺点是它不能直接处理分类数据类型，并且需要类似于XGBoost的一键编码。

已经证明将多个模型组合到集合中可以提高泛化精度，并且如上所述，通过结合重采样方法/ citeraschka2019python可以改善类不平衡。模型组合是集成学习的一个子领域，它允许不同的模型为共享的目标做出贡献，而与构成它们的算法无关。例如，在模型组合算法中，逻辑回归模型可以与k最近邻分类器和随机森林组合。

堆叠算法是组合模型的一种较常用的方法，它在一组单个模型的预测上训练聚合器模型，以便学习如何将单个预测组合为一个最终预测 Wolpert1992。常见的堆叠变体还包括sill2009 feature元特性或实现多层的lorbieski2018 impact堆叠，这也称为多层堆叠。自2016年以来，Mlxtend中已提供Scikit-learn兼容的堆栈分类器和回归器 raschka2018 mlxtend并且最近也在v0.22中添加到了Scikit-learn中。叠加的另一种选择是动态选择算法，该算法仅使用最胜任的分类器或整体来预测样本的类别，而不是组合预测 Cruz2018。

Combo是一个相对较新的专门用于集成学习的库，它在统一的Scikit-learn-compatible API下提供了几种常用算法，因此它与Scikit-learn生态系统zhao2019cominging的许多估计器都兼容。

Combo库提供了能够组合用于分类，聚类和异常检测任务的模型的算法，并且在Kaggle预测建模社区中已得到广泛采用。使用单个库（例如Combo）的好处是可以为方便的实验和模型比较提供便利，该库可以为不同的集成方法提供统一的方法，同时仍与Scikit-learn兼容。

2.4可扩展的分布式机器学习

尽管Scikit学习针对中小型数据集，但现代问题通常需要可以扩展到更大数据量的库。使用Joblib https://github.com/joblib/joblib ，可以通过Python的多处理并行化Scikit-learn中的一些算法。不幸的是，这些算法的潜在规模受限于一台机器上的内存和物理处理核心的数量。

Dask-ML通过Scikit-learn兼容的API提供了Scikit-learn的经典ML算法的子集的分布式版本。这些包括监督学习算法，如线性模型，无监督学习算法，如k均值，和降维算法，如主成分分析和截断奇异向量分解。Dask-ML使用多重处理，其附加好处是算法的计算可以分布在计算集群中的多个节点上。

许多经典的ML算法都与拟合一组参数有关，这些参数通常假定小于训练数据集中的数据样本数量。在分布式环境中，这是一个重要的考虑因素，因为模型训练通常需要各个工人共享本地状态时进行交流，以便收敛于一组全局学习参数。训练后，模型推理通常可以以令人尴尬的并行方式执行。

超参数调整是机器学习中非常重要的用例，需要在许多不同的配置上对模型进行训练和测试，以找到具有最佳预测性能的模型。如第2.3节所述，当组合多个模型时，并行训练多个较小模型的能力变得尤为重要，尤其是在分布式环境中。

Dask-ML还提供了支持任何Scikit-learn兼容API的超参数优化（HPO）库。Dask-ML的HPO在Dask工人集群上分配针对不同参数配置的模型训练，以加快模型选择过程。第3节“自动机器学习” 中讨论了它使用的确切算法以及其他用于HPO的方法。

PySpark将Apache Spark的MLLib的功能与Python的简单性结合在一起。尽管API的某些部分与Scikit-learn函数的命名约定有点相似，但该API与Scikit-learn不兼容 Meng1980。尽管如此，由于这种相似性，Spark MLLib的API仍然非常直观，使用户能够在分布式环境中轻松训练高级机器学习模型，例如推荐器和文本分类器。用Scala编写的Spark引擎在每个工作者上使用C ++ BLAS实现来加速线性代数运算。

与Dask和Spark这样的系统形成对比的是消息传递接口（MPI）。MPI提供了一个经过时间测试的标准API，可用于编写分布式算法，在该算法中，可以实时在工作线程（称为等级）之间传递内存位置，就好像它们是共享相同内存空间的所有本地进程一样 barker2015message。LightGBM利用MPI进行分布式训练，而XGBoost可以在Dask和Spark环境中进行训练。H2O机器学习库能够使用MPI在分布式环境中执行机器学习算法。通过名为Sparkling Water https://github.com/h2oai/sparkling-water的适配器，H2O算法也可以与Spark一起使用。

虽然深度学习在机器学习的当前研究中占主导地位，但它远未使经典的ML算法变得无用。尽管确实存在用于表格数据的深度学习方法，但CNN和LSTM始终在从图像分类到语言翻译的任务中始终展示出一流的性能。但是，经典的ML模型往往更易于分析和反思，通常用于深度学习模型的分析中。在第6节中，经典ML与深度学习之间的共生关系将变得尤为明显。

3.自动机器学习（AUTOML）

诸如Pandas，NumPy，Scikit-learn，PyTorch和TensorFlow之类的库以及具有Scikit-learn兼容API的各种库集合，为用户提供了手动执行端到端机器学习管道的工具。自动机器学习（AutoML）工具旨在自动化这些机器学习管道的一个或多个阶段（图 3），使非专家更容易构建机器学习模型，同时消除重复的任务，并使经验丰富的机器学习工程师能够更快地构建更好的模型。

自2013年首次引入Auto-Weka thornton2013auto以来，几个主要的AutoML库已经变得非常流行。目前，Auto-sklearn feurer2019auto， TPOT olson2019tpot，H2O-AutoML h2o2020h2o，Microsoft的NNI

https://github.com/microsoft/nni，而AutoKeras jin2019auto是从业者中最受欢迎的，本节将对此进行进一步讨论。

虽然AutoKeras提供Scikit学习般的类似于自动sklearn API，它的重点是AutoML与训练有素的DNNs Keras以及神经结构的搜索，这是第单独讨论。Microsoft的神经网络智能（NNI）AutoML库除了提供经典ML之外，还提供神经体系结构搜索，支持Scikit-learn兼容模型和自动化特征工程。

Auto-sklearn的API与Scikit-learn直接兼容，而H2O-AutoML，TPOT和auto-keras提供类似于Scikit-learn的API。这三种工具中的每一种在提供的机器学习模型的集合方面有所不同，这些模型可以通过AutoML搜索策略进行探索。尽管所有这些工具都提供了受监督的方法，并且某些工具（例如H20-AutoML）将堆叠或集成最佳性能的模型，但是开源社区目前缺乏自动进行无监督模型调整和选择的库。

随着对AutoML的研究和创新方法的数量不断增加，它遍及不同的学习目标，并且社区开发用于比较这些目标的标准化方法非常重要。这是在2019年完成的，开源基准的贡献是在39个分类任务gijsbers2019open的数据集上比较AutoML算法。

以下各节涵盖了可以自动化的机器学习管道的三个主要组成部分：

（1）初始数据准备和特征工程

（2）超参数优化和模型评估以及

（3）神经体系结构搜索。

3.1数据准备和特征工程

机器学习管道通常从数据准备步骤开始，该步骤通常包括数据清理，将各个字段映射到数据类型以进行特征工程准备以及估算缺失值

费勒 ; He2019automl。一些库（例如H2O-AutoML）试图通过自动推断不同的数据类型来自动化数据准备过程的数据类型映射阶段。其他工具，例如Auto-Weka和Auto-sklearn，要求用户手动指定数据类型。

图3：（a）AutoML过程的不同阶段，用于选择和调整经典ML模型。（b）使用神经体系结构搜索生成和调整模型的AutoML阶段。

一旦知道了数据类型，特征工程过程就会开始。在特征提取阶段，通常会转换这些字段以创建具有改进的信噪比的新特征，或者对特征进行缩放以帮助优化算法。常见的特征提取方法包括特征归一化和缩放，将特征编码为一种或另一种格式以及生成多项式特征组合。特征提取也可以用于降维，例如，使用类似主成分分析，随机投影，线性判别分析和决策树的算法对特征进行去相关和减少。这些技术可能会增加功能的判别能力，同时减少来自维数的诅咒。

上面提到的许多工具都试图使要素工程过程的至少一部分自动化。像TPOT这样的库直接在端到端机器学习管道中建模，因此除了通过预测性能选择模型外，他们还可以评估功能工程技术的变化。但是，尽管在建模管道中包含要素工程非常引人注目，但这种设计选择还大大增加了要搜索的超参数的空间，这在计算上可能会被禁止。

对于需要大量数据的模型（例如DNN），AutoML的范围有时可能包括数据合成和扩充的自动化He2019 automl。数据扩充和合成在计算机视觉中尤其常见，在计算机视觉中，通过翻转，裁剪或对图像数据集的各个部分进行过采样而引入了干扰。最近，这还包括使用生成对抗网络根据训练数据分布生成全新的图像 antoniou2017 data。

3.2超参数优化和模型评估

超参数优化（HPO）算法构成了AutoML的核心。最幼稚的寻找最佳性能模型的方法将详尽地选择和评估所有可能的配置，以最终选择最佳性能模型。HPO的目标是通过优化对超参数配置的搜索或对所得模型的评估来改进这种详尽的方法。网格搜索是一种基于蛮力的搜索方法，可探索用户指定参数范围内的所有配置。通常，搜索空间用固定的端点均匀地划分。尽管可以从粗到精的方式对网格进行量化和搜索，但是网格搜索已显示出对不重要的超参数bergstra2012random进行了过多的试验。

与网格搜索有关，随机搜索是一种蛮力方法。但是，与其完全穷尽用户指定参数范围内的所有配置，不如从总搜索空间的边界区域中随机选择配置。在这些选定配置上评估模型的结果将用于迭代地改进将来的配置选择并进一步限制搜索空间。理论和经验分析表明，随机搜索比网格搜索更有效 bergstra2012random ; 也就是说，在短短的计算时间内就可以找到具有相似或更好的预测性能的模型。

一些算法（例如，Dask-ML，Auto-sklearn和H2O-AutoML中使用的超带算法）求助于随机搜索，并专注于优化模型评估阶段以获得良好的结果。Hyperband使用一种称为早期停止的评估策略，其中针对多个配置的多轮交叉验证并行启动 Li2018a。在交叉验证分析完成之前，将终止具有较差的初始交叉验证准确性的模型，从而释放资源以探索其他配置。从本质上讲，超带宽可以概括为一种方法，该方法首先随机运行超参数配置，然后为更长的运行选择候选配置。与纯随机搜索He2019automl相比，Hyberband是优化资源利用以更快地获得更好结果的理想选择。与随机搜索相反，贝叶斯优化（BO）等方法着重于使用概率模型选择更好的配置。正如Hyperband的开发者所描述的那样，贝叶斯优化技术始终优于随机搜索策略。但是，他们只做少量 Li2018a。实验结果表明，与贝叶斯优化方法（ snoek2015scalable）相比，进行随机搜索的时间长两倍是更好的结果。

几个库使用BO的形式主义，即基于顺序模型的优化（SMBO），通过反复试验来建立概率模型。该Hyperopt库带来SMBO星火ML，使用被称为一种算法概率密度函数估计的树 NIPS2011_4443。该贝叶斯优化的超频（BOHB）falkner2018 bohb库将BO和超频带，同时提供其自身的内置分布式优化能力。Auto-sklearn使用一种称为顺序模型算法配置（SMAC） Feurer的SMBO方法。与提前停止类似，SMAC使用一种称为自适应赛车的技术仅在需要与其他竞争模型进行比较时评估模型https://github.com/automl/SMAC3

BO和Hyperband随机搜索是广义HPO中用于配置选择的最广泛使用的优化技术。作为一种选择，TPOT已被证明是一种非常有效的方法，它利用进化计算来随机搜索合理参数的空间。由于其固有的并行性，TPOT算法也可以在Dask中执行 https://examples.dask.org/machine-learning/tpot.html 可以在分布式计算群集中的其他资源可用时缩短总运行时间。

3.3神经架构搜索

先前讨论的HPO方法由通用HPO算法组成，这些算法与基础机器学习模型完全无关。这些算法的基本假设是，如果要考虑一个超参数配置的子集，则可以客观地验证该模型。

最近的AutoML深度学习研究不是从一组经典的ML算法或著名的DNN架构中进行选择，而是专注于从一组预定义的低层构建块组成主题或整个DNN架构的方法。这种类型的模型生成称为神经架构搜索（NAS） Zoph2017，它是real2019regularized的架构搜索的子字段；Negrinho2019。

架构搜索算法开发的总体主题是定义搜索空间，该搜索空间是指可以组成的所有可能的网络结构或超参数。搜索策略是搜索空间上的HPO，用于定义NAS算法如何生成模型结构。与经典ML模型的HPO一样，神经体系结构搜索策略也需要一种模型评估策略，当给定要评估的数据集时，该模型可以产生模型的客观得分。

根据事先提供的神经网络结构多少，神经搜索空间可以分为四类之一：

整个结构：通过选择并将一系列原语（例如卷积，串联或池化）链接在一起，从头开始生成整个网络。这称为宏搜索。
基于单元的：搜索固定数量的手工构建块（称为单元）的组合。这称为微搜索。
层次结构：通过引入多个级别并链接固定数目的单元格来扩展基于单元格的方法，迭代地使用较低层中定义的基元来构造较高层。这结合了宏搜索和微搜索。
基于形态的结构：将知识从现有性能良好的网络转移到新的体系结构。

与上面所述的传统HPO相似，NAS算法可以利用各种通用优化和模型评估策略从神经搜索空间中选择性能最佳的体系结构。

Google已参与NAS的大部分开创性工作。2016年，来自Google Brain项目的研究人员发布了一篇论文，描述了如何将强化学习用作整个结构搜索空间的优化器，能够构建递归和卷积神经网络（CNN）

zoph2016neural。一年后，同一位作者发表了一篇论文，介绍了基于细胞的NASNet搜索空间，该研究使用卷积层作为主题并进行了强化学习，以寻找可对其进行配置和堆叠的最佳方式 Zoph2017。

进化计算是在AmoebaNet-A的NASNet搜索空间中进行的，Google Brain的研究人员在其中提出了一种新颖的比赛选择 Goldberg方法。分层搜索空间由Google的DeepMind团队 Liuc提出。这种方法使用进化计算来导航搜索空间，而斯坦福大学的Melody Guan和GoogleBrain团队的成员一起使用强化学习以一种称为ENAS Pham2018的方法来导航分层搜索空间。

由于所有生成的网络都用于同一任务，因此ENAS使用转移学习来减少训练所花费的时间，从而研究了不同生成模型之间权重共享的影响。

渐进式神经体系结构搜索（PNAS）研究了贝叶斯优化策略SMBO的使用，它通过在确定是否搜索更复杂的单元Liub之前探索更简单的单元来使CNN体系结构的搜索效率更高。同样，NASBOT为生成的体系结构定义了距离函数，该函数用于构建内核以将高斯过程用于BO Liu。AutoKeras引入了基于形态学的搜索空间，从而可以修改而不是重新生成高性能模型。与NASBOT一样，AutoKeras为NAS体系结构定义了一个内核，以便对BO jin2019auto使用高斯过程。

谷歌DeepMind团队在2018年发表的另一篇论文中提出了DARTS，它允许使用基于梯度的优化方法（例如梯度下降）直接优化神经架构空间 Liua。在2019年提出了SNAS，它对DARTS进行了改进，使用采样来实现梯度Xie的更平滑近似。

4.GPU加速的数据科学和机器学习

有一个连接硬件，软件及其市场状态的反馈环。构建软件体系结构以利用可用的硬件，而构建硬件以启用新的软件功能。当性能至关重要时，将对软件进行优化，以最低的成本使用最有效的硬件选件。2003年，当硬盘存储商品化时，谷歌GFS ghemawat2003 google和MapReduce dean2004 mapreduce之类的软件系统利用快速顺序的读写操作，利用服务器集群（每个服务器都有多个硬盘）来实现规模化。2011年，磁盘性能成为瓶颈，内存商品化，Apache Spark Zaharia等库优先考虑在内存中缓存数据，以尽可能减少磁盘的使用。

从1999年首次引入GPU时起，计算机科学家就开始利用其潜力来加速高度可并行化的计算。但是，直到2007年CUDA发行，通用GPU计算（GPGPU）才开始普及。上述示例来自推动更快地支持更多数据，同时提供了扩展和扩展的能力，从而使硬件投资可以随着用户的个人需求而增长。以下各节介绍在Python环境中使用GPU计算。在简要概述GPGPU之后，我们讨论了GPU在端到端加速数据科学工作流中的使用。我们还将讨论GPU如何在Python中加速数组处理以及各种可用工具如何协同工作。

4.1机器学习的通用GPU计算

即使使用高效的库和优化，通过CPU绑定计算可以实现的并行性数量也受到物理内核数量和内存带宽的限制。此外，很大程度上受CPU限制的应用程序也可能与操作系统争用。

在GPU上使用机器学习的研究早于深度学习的兴起。CUDA的创建者伊恩·巴克（Ian Buck）曾在2005年尝试2层全连接神经网络，然后在2006年以steinkraus2005的身份加入NVIDIA 。此后不久，在GPU之上实现了卷积神经网络，与高度优化的CPU实现相比，观察到了惊人的端到端加速。。此时，在存在专用的GPU加速的BLAS库之前就已经获得了性能优势。第一个CUDA工具包的发布赋予了GPU通用并行计算的生命力。最初，只能通过C，C ++和Fortran接口访问CUDA，但是在2010年，PyCUDA库开始使CUDA可以通过Python和klockner2010pycuda进行访问。

GPU改变了传统机器学习和深度学习的格局。从1990年代末到2000年代末，支持向量机一直保持着大量的研究兴趣 lloyd2010svm，并被认为是最新技术。在2010年，GPU为claudiu2010深度学习领域注入了新的活力，推动了大量研究和开发。

与SIMD相比，GPU支持单指令多线程（SIMT）编程范例，更高的吞吐量和更多的并行模型，并且高速内存跨越多个多处理器（块），每个多处理器包含多个并行内核（线程）。内核还具有与同一多处理器中其他内核共享内存的能力。与CPU领域中一些经过硬件优化的BLAS和LAPACK实现所使用的基于CPU的SIMD指令集一样，SIMT架构可以很好地并行化机器学习算法（例如BLAS子例程）所需的许多基本操作，从而加速GPU天生的合身。

4.2端到端数据科学：RAPIDS

GPU加速数据科学工作流的能力所占空间比机器学习任务大得多。通常由高度可并行化的转换组成，这些转换可以充分利用SIMT处理的优势，已证明数据科学流水线的整个输入/输出和ETL阶段在性能上均取得了巨大的进步。通过针对不同的实现进行设置。

RAPIDS https://rapids.ai于2018年引入，是一项开源工作，旨在支持和发展用于数据科学，机器学习和科学计算的GPU加速Python工具生态系统。RAPIDS支持现有的库，通过为开源库提供Python社区所缺少的关键组件来填补空白，并通过支持跨库的互操作性来促进整个生态系统的凝聚力。

受到Scikit-learn统一的API外观及其启用的功能强大的API的多样化集合的积极影响，RAPIDS建立在一组行业标准Python库的核心之上，将基于CPU的实现交换为GPU加速的变体。通过使用Apache Arrow的列格式，它使多个库能够利用此功能并完全在GPU上构成端到端的工作流。结果是，主机内存和GPU内存之间的传输和转换被最小化，并且很多时候被完全消除了，如图4所示。

RAPIDS核心库包括分别替换为cuDF，cuML和cuGraph的Pandas，Scikit-learn和Network-X库的直接替代品。其他组件填补了更集中的空白，同时在适用的情况下仍然可以替代行业标准的Python API。cuIO提供许多流行数据格式的存储和检索，例如CSV和Parquet。cuStrings使在GPU上表示，搜索和处理字符串成为可能。cuSpatial提供了用于构建和查询空间数据结构的算法，而cuSignal提供了对SciPy信令子模块scipy.signal的近乎替代。

图4： RAPIDS是开源工作，旨在支持和发展用于数据科学，机器学习和科学计算的GPU加速Python工具生态系统。RAPIDS支持现有的库，通过为开源库提供Python社区所缺少的关键组件来填补空白，并通过支持跨库的互操作性来促进整个生态系统的凝聚力。

4.3NDARRAY和向量化运算

虽然NumPy可以调用BLAS实现来优化SIMD操作，但其矢量化功能的能力有限，几乎没有提供性能优势。Numba库提供即时（JIT）编译 lam2015numba，使矢量化函数能够利用SSE和AltiVec等技术。将计算与数据分开描述的这种分离还使Numba能够在GPU上编译和执行这些功能。除了JIT之外，Numba还定义了DeviceNDArray，在NumPy的NDArray中提供GPU加速的许多常用功能的实现。

CuPy定义了GPU加速的NDArray，其作用域与Numba nishino 2017 cupy略有不同。CuPy是为GPU专门构建的，遵循NumPy的相同API，并包括SciPy API的许多功能，例如scipy.stats和scipy.sparse，它们会尽可能使用相应的CUDA工具包库。CuPy还包装了NVRTC https://docs.nvidia.com/cuda/nvrtc/index.html，以提供能够在运行时编译和执行CUDA内核的Python API。CuPy的开发旨在为深度学习库Chainer tokui2015chainer提供多维数组支持，此后已被许多库用作NumPy和SciPy的GPU加速直接替换。

TensorFlow和PyTorch库定义Tensor对象，它们是多维数组。这些库与Chainer一起提供类似于NumPy的API，但构建计算图以允许将张量上的操作序列与其执行分开定义。这是由于它们在深度学习中的使用而引起的，在深度学习中，跟踪操作之间的依赖性使他们能够提供自动区分等功能，而在一般的数组库（如Numba或CuPy）中则不需要。深度学习和自动分化的更详细讨论可以在第5节中找到。

Google的加速线性代数（XLA）库 google 2017 xla提供了自己的特定于域的格式，用于表示和JIT编译计算图；还为优化器提供了了解操作之间的依赖关系的好处。TensorFlow和Google的JAX库frostig2018compiling都使用XLA ，该库使用NumPy填充程序为Python提供自动区分和XLA，该NumPy填充程序根据连续的转换构建计算图，类似于TensorFlow，但直接使用NumPy API。

4.4互操作性

像Pandas和Scikit-learn这样的库都建立在NumPy的NDArray之上，继承了在高性能核心之上构建NumPy的统一性和性能优势。NumPy和SciPy的GPU加速版本多种多样，为用户提供了许多选择。最广泛使用的选项是CuDF，CuPy，Numba，PyTorch和TensorFlow库。正如本文简介中所讨论的那样，过去每次使用不同的库时都需要复制数据集或显着更改其格式，这已阻碍了互操作性。对于GPU库而言尤其如此，因为这些库的复制和翻译需要CPU与GPU之间的通信，这常常会抵消GPU中高速内存的优势。

最近发现有两个标准可以在这些库之间交换指向设备内存的指针-__cuda_array_interface__

https://numba.pydata.org/numba-doc/latest/cuda/cuda_array_interface.html和DLPack

https://github.com/dmlc/dlpack。这些标准使设备内存可以轻松表示并在不同库之间传递，而无需复制或转换基础数据。这些序列化格式的灵感来自于NumPy的适当名称__array_interface__，该名称自2005年以来一直存在。有关Numba，CuPy和PyTorch库之间的互操作性的Python示例，请参见图 5。

图5：不同GPU加速的Python库之间的零复制互操作性示例。

4.5GPU上的经典机器学习

矩阵乘法在计算机科学领域中，矩阵乘法扩展到矩阵-矩阵和矩阵-矢量乘法

从凸优化到特征值分解，线性模型，贝叶斯统计到基于距离的算法，这是机器学习操作的重要部分。因此，机器学习算法需要高性能的BLAS实现。GPU加速的库需要以与NumPy和SciPy在下面使用C / C ++和Fortran代码的方式相同的方式使用有效的低级线性代数基元，主要区别在于调用的库需要GPU加速。其中包括CUDA Toolkit中包含的选项，例如cuBLAS，cuSparse和cuSolver库。

适用于Python的GPU加速的机器学习库的空间分散了不同类别的专用算法。在GBM 类别中，XGBoost Chen2016和LightGBM Zhang都提供了GPU加速的实现。IBM的SnapML和H2O为线性模型Dunner2018提供了高度优化的GPU加速实现。ThunderSVM具有支持向量机的GPU加速实现，以及用于分类和回归任务的标准内核集。它还包含一类SVM，这是一种用于检测离群值的无监督方法。SnapML和ThunderSVM都具有与Scikit-learn兼容的Python API。

Facebook的FAISS库加速了最近邻居的搜索，提供了近似和精确的实现以及K-Means Johnson2019的高效版本。CannyLabs提供了非线性降维算法T-SNE maaten2008visualizing的有效实现，该算法已被证明对于可视化和学习任务都是有效的。T-SNE通常禁止在CPU上使用，即使对于百万个数据样本Chan2019的中型数据集也是如此。

cuML被设计为用于机器学习的通用库，其主要目标是填补Python社区中缺少的空白。除了用于构建机器学习模型的算法之外，它还在Scikit-learn中提供了GPU加速的其他软件包的版本，例如preprocessing，feature_extraction和model_selection蜜蜂。通过关注GPU加速工具生态系统中缺少的重要功能，cuML还提供了Scikit学习中未包含的一些算法，例如时间序列算法。尽管仍保持类似于Scikit-learn的界面，但仍使用某些更特定算法的其他行业标准API来捕获可提高可用性的细微差异，例如Statsmodels seabold 2010 。

4.6GPU上的分布式数据科学和机器学习

GPU已成为高性能和灵活的通用科学计算中的关键组件。尽管GPU提供了诸如高速内存带宽，共享内存，极端并行性以及对其全局内存进行合并的读写等功能，但单个设备上可用的内存量小于主机（CPU）内存中可用的容量。此外，即使CUDA流允许并行执行不同的CUDA内核，在具有大量数据工作负载的环境中，高度可并行化的应用程序也可能会受到单个设备上可用内核数量的限制。

可以组合使用多个GPU来克服此限制，从而为更大的数据集上的计算提供总体上更多的内存。例如，可以通过在单个计算机上安装多个GPU来扩展单个计算机。使用这项技术，重要的是这些GPU能够直接访问彼此的内存，而不会因通过诸如PCI-express这样的慢速传输而造成性能负担。但是向上扩展可能还不够，因为可以在一台计算机上安装的设备数量有限。为了保持较高的横向扩展性能，GPU能够跨物理机器边界共享其内存也很重要，例如通过NIC（如以太网）和高性能互连（如Infiniband）。

Nvidia在2010年推出了GPUDirect Shared Access shainer2011development，这是一组硬件优化和低级驱动程序，用于加速GPU和同一PCI Express桥上的第三方设备之间的通信。在2011年，引入了GPUDirect对等技术，从而可以通过高速DMA传输在多个GPU之间移动内存。CUDA进程间通信（CUDA IPC）使用此功能，因此同一物理节点中的GPU可以访问彼此的内存，从而提供了扩展能力。在2013年，启用GPUDirect RDMA的网卡绕过CPU并直接在GPU上访问内存。这消除了多余的副本，并在不同的物理机器上创建的GPU之间的直线 potluri2013efficient，正式为横向扩展提供支持。

尽管自1999年SETI @ home发明并于2002年成立之初就存在使用GPU进行分布式计算的幼稚策略，但是通过让多个工作人员运行本地CUDA内核，GPUDirect提供的优化使包含多个GPU的分布式系统具有更加全面的编写方式可扩展算法。

可以在CUDA支持下构建第2.4节中介绍的MPI库

https://www.open-mpi.org/faq/?category=runcuda，从而可以在多个GPU设备之间传递CUDA指针。例如，LightGBM（第2.3节）使用OpenCL支持AMD和NVIDIA设备，对具有MPI的GPU进行分布式训练。Snap ML还可以通过MPI Dunner2018执行分布式GPU训练。通过将CUDA支持添加到OpenMPI康达包装中，Mpi4py库

https://github.com/mpi4py/mpi4py现在向Python公开了支持CUDA的MPI ，从而减轻了科学家在Python数据生态系统中构建分布式算法的障碍。

但是，即使使用支持CUDA的MPI，也可以在主机上执行诸如减少和广播之类的集体通信操作，这些操作允许一组等级共同参与数据操作。NVIDIA集体通信库（NCCL）提供了类似于MPI的API，可完全在GPU上执行这些简化操作。这使得NCCL在诸如PyTorch，Chainer，Horovod和TensorFlow之类的分布式深度学习库中非常受欢迎。它也用在许多具有分布式算法的经典ML库中，例如XGBoost，H2OGPU和cuML。

MPI和NCCL均假设等级可用于实时同步通信。用于通用可伸缩分布式计算的异步（延迟）任务计划系统（例如Dask和Apache Spark）与该设计形成了鲜明的对比，方法是构建有向非循环计算图（DAG），该图表示任意任务之间的依赖关系并执行它们懒惰或异步。在执行图形之前，这些任务的返回类型以及由此产生的尺寸是未知的。PyTorch和TensorFlow也构建DAG，并且由于假定张量用于输入和输出，因此通常在执行图形之前就知道尺寸。

端到端数据科学需要ETL作为开发流程的主要阶段。这个事实与PyTorch和TensorFlow等张量处理库的范围背道而驰。RAPIDS通过为Dask和Spark等系统中的GPU提供更好的支持来填补这一空白，同时促进使用互操作性在这些系统之间移动，如第4.4节所述。

每个GPU的单进程（OPG）范例是使用GPU进行多处理的一种流行布局，因为它允许在单节点多GPU和多节点多GPU环境中使用相同的代码。RAPIDS提供了一个名为Dask-CUDA的库，该库可以轻松初始化OPG工人群集，自动检测每台物理计算机上的可用GPU，并且仅将一个GPU映射到每个工人。

RAPIDS提供了由cuDF支持的Dask DataFrame。通过在其分布式数组而不是NumPy 下支持CuPy ，Dask可以立即使用GPU进行多维数组的分布式处理。Dask支持使用Unified Communications-X（UCX） shamis2015ucx传输抽象层，允许工作人员使用最快的机制传递CUDA支持的对象，例如cuDF DataFrame，CuPy NDArray和Numba DeviceNDArrays。Dask中的UCX支持由RAPIDS UCX-py项目提供，该项目使用干净简洁的界面将UCX中的低级C代码包装起来，因此可以轻松地与其他基于Python的分布式系统集成。在同一物理机（节点内）的不同GPU之间传递GPU内存时，UCX将使用CUDA IPC。如果已安装GPUDirect RDMA，则将用于跨物理机（节点间）的通信，但是，由于它需要在操作系统中安装兼容的网络设备和内核模块，因此内存将转储到主机上。

通过结合Dask对通用分布式GPU计算的全面支持以及第2.4节中概述的分布式机器学习的通用方法，RAPIDS cuML能够端到端分布和加速机器学习流程。图 6示出了DASK系统在训练阶段的状态下，通过对包含从训练数据集的数据分区的DASK工人执行训练任务。训练后的DASK系统的状态在图中示出 6湾在此阶段，参数仅保留在单个工作程序的GPU上，直到在模型上调用预测为止。图 6c显示了预测过程中的系统状态，其中，训练后的参数会广播给所有拥有预测数据集分区的工作人员。通常，只有fit（）任务或一组任务才需要与其他工作人员共享数据。同样，预测阶段通常不需要工人之间的任何通信，从而使每个工人都可以独立运行其本地预测。该设计涵盖了大多数经典的ML模型算法，只有少数例外。

图6：使用Dask的通用分布式GPU计算。（a）分布式cuML训练。该拟合（）函数是在包含在训练数据集数据的所有工人执行。（b）训练后的分布式cuML模型参数。将训练后的参数带给一个工人。（c）分布式cuML模型用于预测。训练后的参数会广播到预测数据集中包含分区的所有工作人员。预测以一种令人尴尬的并行方式进行。

Apache Spark的MLLib支持GPU，尽管集成不如Dask全面，缺少对本机序列化或GPU内存传输的支持，因此每个功能都需要从主机到GPU再到主机的不必要副本。Ray Project

https://github.com/ray-project/ray是相似的–尽管TensorFlow间接支持GPU计算，但集成不再进行。2016年，Spark引入了与Ray类似的概念，他们将其命名为TensorFrame。此功能已被弃用。RAPIDS当前正在Spark 3.0中增加对分布式GPU计算的更全面的支持

https://medium.com/rapids-ai/nvidia-gpus-and-apache-spark-one-step-closer-2d99e37ac8fd，内置对GPU的感知调度以及对端到端列式布局的支持，从而在整个处理阶段将数据保留在GPU上。

XGBoost（第2.3节）支持在GPU上进行分布式训练，并且可以与Dask和Spark一起使用。除了MPI，Snap ML库还为Spark提供了一个后端。如2.4节所述，使用Sparkling库使H2O能够在Spark上运行，并且GPU支持自动继承。Dask可以使用通用库cuML中的分布式算法，其中也包括数据准备和特征工程。

5.深度学习

使用经典ML，预测性能在很大程度上取决于数据处理和用于构建将用于训练模型的数据集的特征工程。第2节中提到的经典ML方法在处理高维数据集时通常会出现问题-该算法对于从原始数据（例如文本和图像lecun2015 deep）中提取知识而言不是最理想的。另外，将训练数据集转换为合适的表格（结构化）格式通常需要人工特征工程。例如，为了构建表格数据集，我们可以将文档表示为单词频率的向量 raschka2014 naive，或者我们可以通过制表叶子尺寸的表格来表示（虹膜）花，而不是使用照片中的像素作为输入 fisher1936use。

对于大多数基于表格数据集的建模任务，经典ML仍然是推荐的选择。但是，除了上面第3节中提到的AutoML工具外，它还取决于仔细的功能工程，这需要大量的领域专业知识。数据预处理和特征工程可以被视为一门艺术，其目的是从收集的原始数据中提取有用且重要的信息，从而保留与进行预测有关的大多数信息。粗心或无效的特征工程可能会导致删除重要信息，并严重阻碍预测模型的性能。

虽然某些深度学习算法能够接受表格数据作为输入，但是大多数发现最佳预测性能的最新方法都是通用的，并且能够以某种自动化的方式从原始数据中提取重要信息。这种自动特征提取是其优化任务和建模体系结构的固有组成部分。因此，深度学习通常被描述为一种表示或特征学习方法。但是，深度学习的一个主要缺点是它不适用于较小的表格数据集，而参数化DNN可能需要较大的数据集，而有效训练需要5万至1500万个训练示例。

以下各节回顾了基于GPU和Python的深度学习库的早期开发，这些库着重于通过静态图的计算性能，向动态图的融合以提高用户友好性，以及当前为提高计算效率和可伸缩性而做出的努力，以应对不断增长的数据集和架构大小。

5.1静态数据流图

Caffe深度学习框架于2014年首次发布，旨在提高计算效率，同时提供易于使用的API来实现常见的CNN架构。

Caffe在计算机视觉社区中非常受欢迎。除了专注于CNN之外，它还支持循环神经网络和长短期记忆单元。尽管Caffe的核心部分是用C ++实现的，但它通过使用配置文件作为实现深度学习架构的接口来实现用户友好。这种方法的一个缺点是很难开发和实现自定义计算。

Theano最初于2007年发布，是另一个学术深度学习框架，在2010年代获得了发展 team 2016 theano。与Caffe相比，Theano允许用户直接在Python运行时中定义DNN。但是，为了提高效率，Theano将深度学习算法和架构的定义与执行分开了。Theano和Caffe都将计算表示为静态计算图或数据流图，在执行之前先对其进行编译和优化。在Theano中，此编译可能需要花费几秒钟到几分钟的时间，并且在调试深度学习算法或体系结构时可能会成为主要的摩擦点。此外，将图形表示与执行分离开来，很难与代码进行实时交互。

在2016 abadi2016tensorflow中，谷歌发布了TensorFlow，它采用了与Theano类似的方法，即使用了静态图形模型。虽然图形定义与执行之间的这种分离仍然不允许实时交互，但TensorFlow减少了编译时间，使用户可以更快地迭代不同的想法。TensorFlow还专注于分布式计算，当时很少有DNN库提供。这种支持使深度学习模型可以一次定义并部署在不同的计算环境中，例如服务器和移动设备，这一功能使其对行业特别有吸引力。TensorFlow还被学术界广泛采用，变得如此受欢迎，以至于Theano的开发在2017年停止了发展。

在2016年至2019年之间的几年中，发布了其他几个带有静态图范式的开源深度学习库，包括微软的CNTK seide2016cntk，索尼的Nnabla :

https://github.com/sony/nnabla，

Neon :https://github.com/NervanaSystems/neon、

Facebook的Caffe2 markham2017 caffe2和百度的PaddlePaddle ma2019 paddle。与其他深度学习库不同，Nervana Neon（后来被英特尔收购，现已停产）没有使用cuDNN来实现神经网络组件。相反，它具有通过英特尔MKL（第1.2节）优化的CPU后端。MXNet chen2015mxnet受Amazon，Baidu和Microsoft的支持，它是Apache Software Foundation的一部分，并且仍然是唯一一家主要由主要的营利性技术公司开发的，主动开发的，主要的开源深度学习库。

虽然静态计算图对于在生产环境中应用代码优化，模型导出和可移植性很有吸引力，但是缺乏实时交互性仍然使它们在研究环境中难以使用。下一节重点介绍了一些主要的深度学习框架，这些框架正在拥抱一种称为动态计算图的替代方法，该方法允许用户直接实时地与计算交互。

5.2具有急切执行的动态图库

Torch在将近二十年前的2002年首次发布，是一个非常有影响力的开源机器学习和深度学习库。在像其他深度学习框架一样使用C / C ++和CUDA的同时，Torch基于脚本语言Lua，并利用即时编译器LuaJIT

collobert 2011 torch7。与Python相似，Lua是一种易于学习和使用的解释型语言。使用自定义C / C ++代码进行扩展也很容易，以提高科学计算环境中的效率。使Lua特别吸引人的是它可以被嵌入到不同的计算环境中，例如移动设备和Web服务器-使用Python不太容易实现的功能。

Torch 7（于2011年发布）由于对计算图collobert 2011 torch7的动态处理，因此在很大一部分深度学习研究社区中特别有吸引力。与上一节（第5.1节）中提到的深度学习框架相反，Torch 7允许用户直接与计算交互，而不是定义在执行之前需要显式编译的静态图（图 7）。随着Python在整个2010年代逐渐发展成为用于科学计算，机器学习和深度学习的通用语言，尽管其用户友好的静态图方法不那么受欢迎，但许多研究人员似乎仍然更喜欢Theano而不是Torch等基于Python的环境。

图7：（a）TensorFlow 1.15中的静态计算图与（b）由PyTorch 1.4中的动态图启用的命令式编程范例之间的比较。

Torch 7最终在2017 paszke2017automatic中被PyTorch取代，它最初是围绕Torch 7的较低级C / C ++代码的用户友好的Python包装器。受动态和基于Python的深度学习框架（例如 Chainer tokui2015chainer和DyNet neubig2017dynet）的先驱启发，PyTorch采用命令式编程风格，而不是使用图元编程.

在图元编程中，图的部分或全部结构是在编译时提供，并且在运行时仅生成或添加最少的代码。。这对研究人员特别有吸引力，因为它为Python用户提供了熟悉的界面，简化了实验和调试，并且与其他基于Python的工具直接兼容。DyNet，Chainer和PyTorch之类的库与常规的GPU加速的数组库（如CuPy）的区别在于，它们包括用于计算标量值函数梯度的反向模式自动微分（autodiff）

标量值函数接收一个或更多输入值，但返回单个值关于多元输入。自2017年以来，PyTorch已被广泛采用，现在被认为是最受欢迎的深度学习研究库。在2019年，PyTorch是在所有主要的深度学习会议中最常用的深度学习库 he2019stateofml。

动态计算图允许用户实时与计算交互，这在实现或开发新的深度学习算法和体系结构时是一个优势。尽管此特定功能可增强功能，但像这样的急切执行却需要很高的计算成本。此外，执行需要使用Python运行时，这使得在移动设备和其他未配备最新Python版本的环境中部署DNN变得很困难。尽管独立基准测试表明，与静态图形库（如TensorFlow coleman2017dawnbench）相比，PyTorch在GPU上进行DNN训练的速度已经更快，但Facebook在过去几年中做出了许多显着的性能提升

由于Python代码仅用于通过对较低级CUDA和cuDNN库的回调将操作排队在GPU上以异步执行，因此所有主要深度学习框架的计算性能差异都将大致相似。。例如，原始的Torch 7核心张量库在很大程度上是从头开始重写的，而PyTorch最终与Caffe2的代码库合并在一起。

至此，Caffe2变得专注于计算性能和移动部署。这种合并允许PyTorch自动继承这些功能。在2019年，PyTorch除了其他功能外还添加了JIT（即时）编译功能，进一步增强了其计算性能 paszke2019 pytorch。

此后，一些最初使用静态数据流图的现有深度学习库（例如TensorFlow，MXNet和PaddlePaddle）增加了对动态图的支持。用户的要求和PyTorch越来越受欢迎的原因促成了这一变化。动态计算图非常有效，现在它已成为TensorFlow 2.0中的默认行为。

5.3 JIT与计算效率

尽管由于其易用性而受到研究的青睐，但上述所有动态图库都通过为特定的神经网络组件和深度学习算法提供固定的构建块来达到所需的计算效率水平。虽然可以从较低级别的构建模块开发自定义功能（例如，使用库的数组子模块公开的线性代数运算来实现自定义神经网络层），但是这种方法的缺点是它很容易引入计算瓶颈。但是，在一行代码中，通过启用JIT编译（通过Torch脚本），可以在PyTorch中避免这些瓶颈。

可定制性和计算效率的另一种体现是Google最近发布的开源库JAX frostig2018compiling。如第4.5节中所述，JAX向以自动微分（正向和反向模式自动diff），XLA（加速线性代数；线性代数的特定领域编译器）为中心的常规Python和NumPy代码中添加了可组合元素作为GPU和TPU计算

TPU是Google定制开发的用于机器学习和深度学习的芯片。。JAX能够区分朴素的Python和NumPy函数，包括循环，闭包，分支和递归函数。除了反向模式微分外，autodiff模块还支持正向模式微分这样可以高效地计算高阶导数，例如Hessian；其他主要的深度学习库尚不支持此功能，但它是一项受到高度要求的功能，目前正在PyTorch中实现

（https://github.com/pytorch/pytorch/issues/10223）。

前向模式autodiff可以自动区分具有多个输出的功能，这在当前利用反向传播的深度学习研究中并不常用 rumelhart 1986学习。

JAX是一个相对较新的库，尚未得到广泛采用。但是，JAX的设计选择是完全采用NumPy的API，而不是开发像PyTorch这样的类似NumPy的API，这可能会降低熟悉NumPy生态系统的用户的进入门槛。JAX面向具有自动diff支持的数组计算，与PyTorch不同，因为它不依赖于Flax专注于提供全套深度学习功能，因此https://github.com/google-research/flax/tree/预发这样做。

例如卷积层，批处理规范

ioffe2015batch，attention vaswani2017attention等，它实现了常用的优化算法，包括具有动量 qian1999动量的 SGD，Lars efron2004least和ADAM kingma2014adam。重要的是，本节的结尾必须指出所有主要的深度学习框架现在都基于Python。另一个值得注意的趋势是，学术界使用的所有深度学习库现在都由大型科技公司提供支持。学术界和行业的不同需求可能导致开发此类设计模式所需的复杂性和工程工作。根据对主要发布场所，社交媒体和搜索结果的详尽分析，许多研究人员正在放弃TensorFlow，转而使用PyTorch he2019stateofml。Horace He进一步建议，尽管PyTorch目前在深度学习研究中占据主导地位-在主要的计算机视觉和自然语言处理会议上超过TensorFlow 2：1和3：1 -TensorFlow仍然是业界最受欢迎的框架

he2019stateofml。TensorFlow和PyTorch似乎相互启发，并在各自的长处和短处交汇。PyTorch添加了用于生产和移动部署的静态图功能（最近由TorchScript启用），而TensorFlow添加了动态图，以便于研究。预计在未来几年中，这两个库仍将是最受欢迎的选择。

5.4深度学习API

位于5.1 和 5.2节中讨论的深度学习库的顶部是几个不同的包装器库，这些库使从业者更易于使用深度学习。这些API的主要设计目标之一是在代码详细程度和可定制性之间提供更好的折衷。现有的深度学习框架可能非常强大且可自定义，但也会使新手感到困惑。Lasagne是Theano

https://github.com/Lasagne/Lasagne的“轻量级”包装器，是一种抽象的方法，用于提取看似复杂的代码。在Lasagne首次发布后的2015年，Keras库

https://github.com/keras-team/keras引入了另一种方法，使Theano更易于为广大用户所使用，其API设计使人联想到Scikit-learn的面向对象方法。在首次发布后的几年中，Keras API确立了自己作为最受欢迎的Theano包装器的地位。在2016年初，即TensorFlow发布后不久，Keras还开始支持它作为另一个可选的后端。在第二年的2017年，微软的CNTK seide2016cntk被添加为第三个后端选择。在这段时间里，TensorFlow开发人员正在尝试抽象库，希望简化模型的构建和训练，并使非专家更容易访问它们。经过多次尝试和废弃的设计后，TensorFlow 2.0在2019年加强了与Keras的集成，最终公开了一个子模块（tensorflow.keras），并制作了面向用户的官方API tensorflow2019tf2。因此，不再积极开发Keras的独立版本。

由于PyTorch首先非常注重用户友好性，这是由于Chainer采用动态方法tokui2015chainer的简洁方法所激发的，因此研究社区没有强烈的动机来拥抱扩展API。尽管如此，这些年来出现了几个基于PyTorch的项目，这些项目有助于在不同用例下实现神经网络，从而使代码更紧凑，同时简化了模型训练。此类库的著名示例是Skorch

https://github.com/skorch-dev/skorch，它在PyTorch，Ignite之上提供了Scikit-learn兼容的API

https://github.com/pytorch/ignite

https://github.com/pytorchbearer/torchbearer harris2018torchbearer，Catalyst33

https://github.com/catalyst-team/catalyst和PyTorch Lightning

https://github.com/PyTorchLightning/pytorch-lightning。

2020年，软件公司Explosion发布了其开源深度学习库Thinc的主要版本。版本8.0 35

https://github.com/explosion/thinc/releases/tag/v8.0.0a0承诺使用支持PyTorch，MXNet和TensorFlow代码的轻量级API进行深度学习的全新功能。该版本还通过Mypy 36

https://github.com/python/mypy包含了静态类型检查。

，使深度学习代码更易于调试。与独立版本的Keras相似，Thinc支持多个深度学习库。与Keras相比，Thinc强调定义模型的功能性而非面向对象的方法。Thinc进一步提供了对底层反向传播组件的访问，并且能够同时组合不同的框架，而不是提供像Keras这样的可插拔外观，一次只能利用单个深度学习库的功能。

Fastai库将用户友好的API与模型训练的最新改进和最佳实践相结合。初始版本基于Keras，尽管2018年它在1.0版本中进行了重大改进，现在在PyTorch之上提供了直观的API。Fastai还提供允许用户轻松可视化DNN模型以进行发布和调试的功能。此外，它通过提供有用的训练功能（如自动学习率调度程序）提高了DNN的预测性能，这些训练功能配备了最佳实践，可缩短训练时间并加速融合。Fastai的路线图包括深度学习算法，这些算法可以在不进行大量调整和实验的情况下即开即用地工作，从而通过减少对昂贵的计算资源的需求，使深度学习更加容易实现。

DAWNbench coleman2017dawnbench是一个基准套件，它不仅考虑了预测性能，还考虑了深度学习模型的速度和训练成本。

5.5加速大规模深度学习的新算法

利用Transformer架构的最新研究进展，例如BERT devlin2018bert和GPT-2 radford2019语言

，已经表明，对于某些架构，预测性DNN模型的性能可以与模型大小高度相关。在短短三年（从2014年到2017年）的过程中，ImageNet视觉识别挑战的模型规模russakovsky2015 imagenet赢家来自大约。400万 szegedy2015达到1.46亿 hu2018的挤压参数，大约是增加了36倍。同时，GPU内存仅增长了约一个倍。3x并提出了单GPU深度学习研究 google2020 gpipe的瓶颈。

大规模模型训练的一种方法是数据并行性，其中在不同批次的数据集上并行使用多个设备。尽管这可以加快模型收敛速度，但该方法仍然无法训练大型模型，因为只有数据集在设备之间划分，并且模型参数仍需要适合每个设备的内存 hegde2016parallel。模型的并行性，而另一方面，涂在不同的设备模型，使模型与大量的参数以适合单个GPU的存储器 ben2019 demystifying。

Google在2019年3月发布了GPipe huang2019gpipe开源社区，使训练大型神经网络模型的效率更高。GPipe超越了数据和模型并行性，实现了基于同步随机梯度下降的流水线并行技术 huang2019gpipe。在GPipe中，模型分布在不同的硬件加速器上，并且训练数据集的微型批次进一步细分为微型批次，并且梯度在这些微型批次上始终保持累积（同步数据并行性）。在一项令人印象深刻的案例研究中，研究人员能够在23万多个云TPU上训练具有超过十亿个参数的AmoebaNet-B real2019正规化模型。在AmoebaNet-D real2019规范化基准上，研究人员观察到使用GPipe将模式划分为8个分区，而使用朴素的模型并行方法将模型 huang2019gpipe拆分，则计算性能提高了3倍。

改善DNN预测性能的传统方法是增加最新架构的层数。例如，将Res2016的heNet架构从ResNet-18扩展到ResNet-200（通过添加更多的层），导致ImageNet deng2009 imagenet的 top-1精度提高了4倍 https://github.com/tensorflow/privacy。

改进预测性能的更原则的方法是使用所谓的复合系数以Tan和Le在EfficientNet神经体系结构搜索方法tan2019ficientnet中提出的结构化方式缩放CNN 。复合缩放方法不是使用任意缩放CNN的输入分辨率，深度和宽度，而是首先使用网格搜索来确定这些不同架构参数之间的关系。从此初始搜索中，可以基于用户指定的计算预算或模型大小tan2019efficiency来导出复合缩放系数以调整基线体系结构。据说EfficientNets模型产生的性能要优于当前的最新方法，通过缩小参数大小并增加整个tan2019efficiencynet的计算，可以将效率提高10倍。Google工程团队进一步推动了实施，开发了一个EfficientNet变体，可以更好地利用其所谓的Edge TPU硬件加速器 google2020efficiencyedge –边缘计算是分布式系统的一种范式，其重点是使计算和数据存储与实际操作所在的位置紧密相邻。

量化通常用于加速训练并降低模型的内存占用量，该方法描述了将连续信号或数据转换为具有固定大小或精度的离散数的过程。

量化的典型示例是将数据表示为将64位浮点数转换为8位整数格式。这个概念已经存在了数十年，但最近对深度学习的兴趣不断增加。虽然通常与精度的损失相关，花样繁多已经发展到这种损耗降至最低 choi2018pact ; jacob2018量化 ; rastegari2016xnor ; zhang2018lq ; zhou2017增量 ;周2016dorefa。大多数深度学习库的最新版本（例如TensorFlow v2.0和PyTorch 1.4）都支持Int8（8位）量化，与Float32（32位）模型相比，它们可以将内存带宽需求降低4倍。。

除了通过改进的软件实现来提高深度学习的可扩展性和速度之外，算法改进最近还集中在优化算法的近似方法等方面。其中包括新概念，例如SignSGD bernstein2018signsgd，它是SGD的改进版本，用于分布式培训，工人仅可以传达坡度的符号。研究人员发现，SignSGD每次迭代的通信量要比分布式SGD的完全精确度低32倍，而其收敛速度却可以与SGD竞争。

6.机器学习模型的可解释性，可解释性和公平性

简单来说，可解释性是指对模型在幕后的工作方式的理解，而可解释性是指观察输入或参数变化对预测输出的影响的能力。尽管相互关联，但每个人都假定对模型有不同的知识-可解释性使我们能够理解模型的机制，而可解释性使我们能够交流如何从一组学习的参数中生成模型的输出。可解释性意味着可解释性，但反面不一定总是正确的。除了理解决策过程之外，可解释性还需要识别偏见。透明度要求规则用于生成预测的模型是完整且易于理解的 nguyen2019mononet。

6.1功能重要性

线性模型背后的主要吸引力在于输入，学习重量参数和输出之间线性关系的简单性。这些模型通常隐含可解释的，因为它们可以自然加权每个特征的影响，并干扰该输入或学习参数对输出规定的（线性）效应 ribeiro2016should。但是，多个特征之间的不同相关性可能使得难以分析每个特征对结果预测的独立归属。特征重要性的形式有很多种，但是一般的概念是使参数和特征更容易解释。根据此定义，所产生的功能重要性的确切特征可能会根据目标而有所不同。

在可解释性领域，本地模型和全局模型之间存在区别。尽管局部模型仅提供对特定数据点的解释（通常更容易理解），但全局模型通过概述决策过程nguyen2019mononet来提供透明度。

LIME ribeiro2016应该是解释非线性模型（已经过事后）后解释非线性模型的最简单算法之一。该算法根据特定数据实例周围的扰动预测训练线性模型（称为替代模型），以了解该实例周围的非线性决策函数的形状。通过学习单个点附近的局部决策函数，我们可以更好地解释原始模型中的参数如何将输入与输出相关联。

与LIME相比，SHAP lundberg2017unified是一种事后算法，可通过提供所有数据点的平均值来全局解释 NIPS2017-7062。SHAP不是单一算法，而是多种算法。结合SHAP变体的方法是使用Shapley值shapley1953值，通过计算模型在不同预测中每个特征的平均贡献来确定特征重要性或归因。SHAP Python库

https://github.com/slundberg/shap提供了不同的变体，它建立在其他功能归因方法（例如LIME，Integrated Gradients sundararajan2017 axiomatic和DeepLift ShrikumarGK17）的基础上用于模型不可知论。

特定于多类别分类问题，模型不可知线性竞争者（MALC） Rafique算法训练一个单独的线性分类器，以学习每个类别的决策边界，并且仅当线性竞争者的预测为足够自信。这项技术类似于“一对多”分类-这些线性模型将在推理过程中使用，从而将可解释性集成到了机器学习管道中，从而为那些可以使用竞争对手进行分类的预测提供了透明度和特征归因。

Captum

https://captum.ai是一个Python库，用于解释PyTorch中的模型，其中包含大量受支持的算法，包括但不限于LIME，SHAP，DeepLift和Integrated Gradients。

6.2约束非线性模型

在线性模型中对目标函数施加约束是提高学习参数之间的可分辨性（从而提高可解释性）的常用方法。例如，套索和脊等算法使用正则化来使所得的权重向量保持接近零，从而使彼此之间的特征重要性更加直接可辨。

尽管正则化可以增加线性模型中的可分辨性，但是非线性模型可以在输入变量之间引入相关性，这可能使得很难预测输入和输出之间的因果关系。MonoNet nguyen2019mononet在非线性分类器中对特征和输出之间的单调性施加约束，目的是在特征与其输出之间建立更独立的可分辨关系。MonoNet是此约束的神经网络实现，使用作者称为单调网络。

上下文分解解释罚分（CDEP）rieger2019解释为优化目标添加了一个术语，该术语对神经网络的参数施加了约束，因此除预测正确的值外，他们还学会了如何产生良好的解释。而不是仅仅捕捉个人特征归因，这种方法还采用分数称为上下文分解分数 murdoch2018beyond学习功能是如何结合在一起，使每一个预测。CDEP的魅力在于可以将约束项添加到任何可微分的目标中。

将神经网络分类器约束为可逆的可以实现可解释性和可解释性。可逆神经网络由堆叠的可逆块组成，并在每一层保留足够的信息以从输出重构输入。通过将线性层附加到神经网络的输出层，可逆性约束可用于近似局部决策边界并构造特征重要性 zhuang2019decision。

6.3逻辑与推理

特征重要性分数通常是根据决策树中的信息增益和基尼杂质准则构建的，因此，对预测影响最大的拆分将更靠近树的根。因此，决策树被称为白盒模型，因为它们已经包含了解释所需的信息。Silas 新娘2019silas ; 新娘2018在此概念的基础上，通过将沿从根到叶子的预测的路径上的学习拆分谓词组合为逻辑连接，并将一类的所有路径组合为逻辑分叉，从树的集合中提取逻辑公式。可以使用逻辑推理技术来分析这些逻辑公式，以提供有关决策过程的信息，从而可以对模型进行微调，以消除不一致之处并执行某些用户提供的要求。这种方法属于被称为知识级学习Dietterich1986learning的类别，因为经过训练的模型的内部结构已经模仿了逻辑表达。

虽然深度学习方法主导着图像分类的最新技术，但仅通过视觉反馈来解释模型，方法是突出显示导致分类的图像区域，这给人类带来了繁琐的解释任务。结合视觉解释和口头解释，例如，通过在图像中纳入导致预测的不同对象之间的关系，已被证明对人类层面的解释非常有效。LIME算法能够生成可突出显示图像中像素块（称为超像素）的特征重要性。可以从归纳逻辑编程中提取超像素之间的空间关系像Aleph这样的系统，目的是构建一组简单的逻辑表达式来口头解释预测 rabold2018 ; rabold2019丰富。

6.4使用交互式可视化进行解释

可视化模型的学习参数的特征以及对模型与一组数据的交互的解释通常很有用。以视觉形式进行分析时，特征重要性和归因分数可以提供更有用的见解，从而暴露出原本很难辨认的模式。在Python机器学习社区，Matplotlib Hunter2007，Seaborn

https://github.com/seaborn/seaborn，

散景https://github.com/bokeh/bokeh，和 Altair2018被广泛用于可视化数据中绘图和图表。

尽管来自图像分类器的视觉解释可能会提示为什么进行单个预测，以便人们可以更好地理解决策边界，但交互式可视化可以实现对模型学习参数的实时探索。对于黑盒模型（例如神经网络），这对于钻研和了解所学内容尤其重要。

交互式可视化工具，例如Graphistry

https://graphistry.com和RAPIDS的cuDataShader库，可以在GPU上进行通用数据浏览。钻取一组数据对于可视化黑匣子模型的不同部分特别有用。例如，神经网络中每一层的激活向量可以针对不同的输入进行可视化布局，从而使用户能够探索它们之间的关系，从而洞悉神经网络正在学习什么。

作为通用数据可视化的替代方法，特定于模型的工具灵活性较差，但提供了更具针对性的见解。首脑

hohman2019s通过交互式和针对性的可视化揭示了CNN分类器中有影响力的特征的关联。它基于功能可视化的常规技术

https://distill.pub/2017/feature-visualization/和激活地图集

https://ai.googleblog.com/2019/03/exploring-neural-networks。html

，以不同的粒度提供视图，以汇总和总结有关每个类别标签的最具影响力的神经元的信息。细粒度的可视化总结了网络各层中最有影响力的神经元的连接，而粗粒度的可视化则通过汇总神经元信息并使用UMAP突出显示了各个类别中这些有影响力的神经元的相似性。

McInnes2018是非线性降维技术中的最新技术，可嵌入适合可视化的空间。

变形金刚模型（BERT）的双向编码器表示法是语言表示学习模型devlin2018bert的最新技术，该模型旨在学习可用于其他任务的单词的上下文表示法。它来自使用称为vaswani2017attention的策略的基于LSTM网络（称为Transformers）的模型模型。通过将输入序列中的不同标记置于序列中的其他标记上来改善学习效果。像其他黑盒深度学习模型一样，模型在给定的测试集上可能具有高性能，但在部分学习的参数空间中仍然存在明显的偏差。从这种方法学到的语言特性还不是很容易理解。exBERT hoover2019exbert提供了有针对性的交互式可视化功能，以与前面提到的Summit相似的方式总结了学习到的参数。exBERT通过对不同输入序列的不同层中的注意力机制进行交互探索，并提供对所学习嵌入的最近邻搜索，来帮助做出解释。

6.5隐私

机器学习使我们能够在许多领域推动最先进的技术，例如自然语言处理 vaswani2017的关注度；howard2018universal ; radford2019语言 ; 对adiwardana2020和计算机视觉的理解 ; huang2017密集 ; joo2018total ; huang2019神经，某些应用程序涉及需要负责任处理的敏感数据。除了存储整个训练集的基于最近邻居的方法之外，DNN尤其容易记忆有关特定训练示例的信息（而不是提取或学习一般模式）。此类信息的隐式存在问题，因为它可能侵犯用户的隐私并可能被用于恶意目的。为了在技术基于潜在敏感培训数据的基础上提供强大的隐私保证，Google最近发布了TensorFlow Privacy

https://github.com/tensorflow/privacy mcmahan2018general，这是用于TensorFlow的工具箱，该工具箱实现了基于差异隐私的技术。差异隐私框架提供了强有力的数学保证，以确保模型不会记住或了解有关任何特定用户的详细信息 mcmahan2018general。

6.6公平

尽管机器学习推动了惊人技术的发展，但最近受到越来越多关注的一个主要问题是训练数据集可以加强或反映不公平的（人为）偏见。例如，最近的一项研究表明，人脸识别方法会根据种族和性别属性进行区分。

buolamwini2018gender。Google最近发布了一套名为“公平指标”的工具

https://github.com/tensorflow/fairness-indicators

帮助实现公平性指标和分类模型的可视化。例如，“公平指标”实施了相当普遍的指标来检测公平偏差，例如误报率和误报率（包括置信区间），并将其应用于数据集的不同部分（例如，具有敏感特征的组，例如性别，国籍和收入）

google2020 fairness-b。

随着机器学习在行业中的发现越来越广泛，可解释性和可解释性这一主题变得越来越重要。具体来说，随着深度学习在不断增长的不同任务列表上继续超越人类水平的表现，因此对它们的需求也可以得到解释。该分析中还非常普遍的是经典ML与深度学习之间的共生关系，因为前者仍然对特征重要性的计算，替代建模以及支持DNN的可视化提出了很高的要求。

7.对抗学习

尽管对抗性学习是一个通用概念，但通常会在计算机视觉和深度学习的背景下最直观地解释和展示对抗性学习。例如，在给定输入图像的情况下，对抗性攻击可以描述为增加了一些小的扰动，这些扰动通常对人类来说是微不足道的或无法察觉的，它们会使愚弄机器学习模型做出某些（通常是不正确的）预测。在欺骗DNN模型的情况下，“对抗性示例”一词由Szegedy 等人提出。2013年 szegedy 2013引人入胜。在安全性的上下文中，对抗性学习与可解释性紧密相关，需要对训练后的模型的学习参数进行分析，以便更好地理解特征映射和决策边界对模型安全性的影响。

对抗性攻击可能对许多与安全性相关的应用程序以及物理世界产生严重影响。例如，2018年，Eykholt等人。结果表明，在交通标志上贴上小贴纸（此处为停车标志）会在实验室环境中引起100％的误分类率，而在从移动车辆eykholt2018捕获的视频帧健壮的现场测试中会导致85％的误分类率。

对抗攻击可以在训练（中毒攻击）过程中或训练后的预测（测试）阶段（逃避攻击）发生。规避攻击可以进一步分为白盒和黑盒攻击。白盒攻击假定对方法和DNN体系结构有全面的了解。在黑盒攻击中，攻击者除了了解机器学习系统的工作方式外，不知道它所输入的数据类型。

基于Python的对抗性学习库包括Cleverhans papernot2016cleverhans，FoolBox rauber2017foolbox，ART nicolae2018adversarial，DEEPSEC ling2019deepsec和AdvBox goodman2020advbox。除了Cleverhans和FoolBox之外，所有库都支持对抗攻击和对抗防御机制。根据Cleverhans的代码文档，开发人员的目标是将来增加常见防御机制的实现。尽管Cleverhans's与TensorFlow和PyTorch兼容，而DEEPSEC仅支持MXNet，但FoolBox和ART支持上述所有三个主要的深度学习框架。此外，最新发布的库AdvBox还增加了对百度PaddlePaddle深度学习库的支持。

尽管对这些框架中实现的各种对抗性攻击和防御方法的详尽列表的详细讨论超出了本文的讨论范围，但表 1总结了受支持的方法以及对研究论文的引用，以供进一步研究。

表1.在对抗学习中实现的规避攻击和防御机制的选择工具包。

8.结论

本文回顾了机器学习，数据科学和科学计算方面的一些最著名的进展。它提供了主要主题的简要背景，同时调查了各种挑战以及每种挑战的解决方案现状。在本文的范围之外，还有其他一些更专业的应用和研究领域。例如，基于注意力的Transformer架构以及专用工具

https://github.com/huggingface/transformers

最近已经开始在深度学习vaswani 2017 attention的自然语言处理子领域中占主导地位；radford2019语言。

图形数据的深度学习已成为人们关注的一个增长领域，图卷积神经网络目前正积极地用于计算生物学中，用于对raschka2020 machine分子结构进行建模。该领域的热门库包括基于TensorFlow的Graph Nets battaglia2018关系库和PyTorch Geometric fey2019fast。时间序列分析在Python中被众所周知地忽略了，它以可扩展的StumPy库law2019stumpy的形式重新引起了人们的兴趣。另一个被忽略的领域，即频繁的模式挖掘，在MLxtend raschka2018 mlxtend中与Pandas兼容的Python实现受到了一些关注。UMAP McInnes2018，新的Scikit-learn兼容特征提取库已被广泛用于可视化二维流形上的高维数据集。为了提高大型数据集的计算效率，RAPIDS

https://github.com/rapidsai/cuml中包含了基于GPU的UMAP版本。

近年来，人们对Python 中的概率编程，贝叶斯推理和统计建模也越来越感兴趣。该领域的著名软件包括PyStan

STAN Carpenter2016的https://github.com/stan-dev/pystan，基于Theano的PyMC3 Salvatier2016库，基于TensorFlow的Edward tran2016edward库和Pomegranate schreiber2017 pomegranate，它具有用户友好的Scikit-learn-像API。作为用于在深度学习和AI研究中实现概率模型的下层库，Pyro Bingham2019提供了一个基于PyTorch的概率编程API。NumPyro phan2019composable为Pyro提供了一个NumPy后端，它使用JAX进行JIT编译并优化了CPU和GPU上NumPy操作的执行。

强化学习（RL）是一个研究领域，可以训练代理解决复杂而具有挑战性的问题。由于RL算法基于反复试验的方法以最大化长期奖励，因此RL是机器学习中特别耗费资源的领域。此外，由于RL旨在解决的任务特别具有挑战性，因此RL难以扩展-学习一系列的步骤来玩棋盘或视频游戏，或训练机器人在复杂的环境中导航，这比识别固有的任务要复杂得多。图像中的对象。深度Q网络是Q学习算法和深度学习的结合，一直处于RL最新进展的最前沿，其中包括击败世界冠军玩棋盘游戏Go silver2017 mastering并与排名最高的《星际争霸II》玩家 vinyals2019 grand master竞争。由于现代RL主要基于深度学习，因此大多数实现都利用第5节中讨论的流行的深度学习库之一，例如PyTorch或TensorFlow。

我们希望在未来几年内，RL能够实现更多惊人的突破。此外，我们希望用于训练代理人玩棋盘或视频游戏的算法可以用于重要的研究领域，例如蛋白质折叠，这是DeepMind quach2018deepmind当前探索的一种可能性。作为一种易于学习和使用的语言，Python在许多研究和应用领域中已发展成为通用语言，我们在本文中着重介绍了该语言。随着CPU和GPU计算的进步以及不断增长的用户社区和库生态系统的推动，我们期望Python在未来多年内仍将是科学计算机的主要语言。

更多论文地址源码地址：关注“图像算法”微信公众号

你可能感兴趣的:(图像算法)

图像处理算法研究的程序框架 mickey0380 系统调用图像处理算法程序框架 Windows
目录1程序框架简介2C#图像读取、显示、保存模块3C动态库图像算法模块4C#调用C动态库5演示Demo5.1开发环境5.2功能介绍5.3下载地址参考1程序框架简介一个图像处理算法研究的常用程序逻辑框架，如下图所示在该框架中，将图像处理算法产品分为上层模块和底层模块两个部分。底层模块使用C/C++实现算法API，提供给上层模块调用；上层模块执行调用API和一些界面功能的实现，最后得到不同平台的软件产
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
非科班转码第5年零241天 Dontla 程序员总结
文章目录非科班转码第5年零241天第一份工作鸭梨山大同事的帮助第二份工作新公司学到很多出海计划非科班转码第5年零241天第一份工作2019年5月24日，我从机械工程转码后找到第一份工作——图像算法工程师，能得到这份工作纯属偶然，当时公司的图像算法工程师刚好要离职，小城市没什么人，我那会学了一个月Java，又学了一个星期的Python，正愁没有回应，这家公司给了我面试机会，面试前的一个星期，我又恶补
深度学习图像算法中的网络架构：Backbone、Neck 和 Head 详解肥猪猪爸 #深度学习深度学习算法人工智能数据结构神经网络计算机视觉机器学习
深度学习已经成为图像识别领域的核心技术，特别是在目标检测、图像分割等任务中，深度神经网络的应用取得了显著进展。在这些任务的网络架构中，通常可以分为三个主要部分：Backbone、Neck和Head。这些部分在整个网络中扮演着至关重要的角色，它们各自处理不同的任务，从特征提取到最终的预测输出，形成了一个完整的图像处理流程。本文将详细介绍这三部分的作用以及它们在目标检测和图像分割中的应用，帮助大家更好
机器学习面试题目分享面试经验分享机器学习算法工程师深度学习经典问题好家伙VCC 面试机器学习面试经验分享 stm32 嵌入式硬件单片机 fpga开发
标题机器学习面经总结的常见面试题目等作业帮实习视觉算法一面凉凉经3.16号投递图像算法实习生，昨天hr打电话约了今早上牛客面试面试官还是很和蔼的，问了很多基础和细节，平时我都没有注意到的，肯定凉了，在这里记录一下，分享给大家由于我本科研究生都是计算机的，因此问了一些计算机基础的东西，但是由于年代久远，我都不记得了机器学习方面知识因为缺少一些动手实践，因此很多细节都不了解感谢面试官让我了解到这么多不
图像算法实习生--面经1 小豆包的小朋友0217 算法
系列文章目录文章目录系列文章目录前言一、为什么torch里面要用optimizer.zero_grad()进行梯度置0二、Unet神经网络为什么会在医学图像分割表现好？三、transformer相关问题四、介绍一下胶囊网络的动态路由五、yolo系列出到v9了，介绍一下你最熟悉的yolo算法六、一阶段目标检测算法和二阶段目标检测算法有什么区别？七、讲一下剪枝八、讲一下PTQandQAT量化的区别九、
深度学习图像算法工程师--面试准备（1）小豆包的小朋友0217 深度学习算法人工智能
1请问人工神经网络中为什么ReLU要好过于tanh和Sigmoidfunction？采⽤Sigmoid等函数，算激活函数时（指数运算），计算量⼤，反向传播求误差梯度时，求导涉及除法和指数运算，计算量相对⼤，⽽采⽤ReLU激活函数，整个过程的计算量节省很多。对于深层⽹络，Sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在Sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信
FPGA图像算法实现——Canny边缘检测 MmikerR #图像处理 fpga
1Canny边缘检测原理概述相关博文：https://www.cnblogs.com/techyan1990/p/7291771.htmlhttps://www.cnblogs.com/mmmmc/p/10524640.htmlhttps://www.cnblogs.com/sdu20112013/p/11614059.htmlhttps://blog.csdn.net/weixin_406478
FPGA图像算法实现——卷积、窗口运算之滑动窗口模块设计 MmikerR #图像处理 fpga 图像处理 fpga图像处理机器视觉滑动窗口
1概述在图像处理中，卷积、窗口运算是非常基础且常用的操作。这些基于图像滑动窗口的运算非常适合在FPGA中进行流水线实时高效处理，也是FPGA图像算法实现的一个热点。其中，最基础的工作就是在FPGA中设计一个滑动窗口模块。设计一个完备的滑动窗口模块首先要解决以下3个问题：图像行缓存机制行、场等同步信号的延迟图像边界的扩展2图像行缓存机制有2种实现方案：（1）使用FIFO或RAM按行缓存图像。网上很多
每日优鲜 TonyLan
职位亮点：推荐算法、图像算法（1）策略算法工程师岗位职责:1、利用机器学习和推荐算法，从大量仓库商品中为便利柜自动挑选适合的商品和相应的货品数量，开发迭代智能补货的算法策略2、从海量用户行为数据和便利柜周边物理数据，分析用户的偏好、行为规律3、不断通过智能策略算法来解放人力，提升整体运营效率4、擅长端到端搭建算法服务的pipeline,较强的ETL能力""任职资格：1.深入掌握机器学习,深度学习的
上位机图像处理和嵌入式模块部署（linux开发板的选择）嵌入式-老费上位机图像处理和嵌入式模块部署 linux 运维服务器
【声明：版权所有，欢迎转载，请勿用于商业用途。联系信箱：[email protected]】很多图像算法是通过上位机来完成的，比如说工业视觉当中的halcon，一般都是要运行在windows平台上面，并且需要高性能pc的支持。但是，还有一部分软件，他们的功能往往比较单一，客户场景也比较纯粹，这个时候使用高性能的arm开发板可能更为合适，成本也低很多。这主要是，因为相关的功能很有可能是货物的检测
[图像算法]-(yolov5.train)-GPU架构中的半精度fp16与单精度fp32计算蒸饺与白茶
GPU架构中的半精度与单精度计算由于项目原因，我们需要对darknet中卷积层进行优化，然而对于像caffe或者darknet这类深度学习框架来说，都已经将卷积运算转换成了矩阵乘法，从而可以方便调用cublas库函数和cudnn里tiling过的矩阵乘。 CUDA在推出7.5的时候提出了可以计算16位浮点数据的新特性。定义了两种新的数据类型half和half2.之前有师弟已经DEMO过半精度
选型之工业相机篇 Σίσυφος1900 面试指南_算法_选项人工智能
一、概述23年24年行情不会好，公司各种想办法裁员，在大陆这个大熔炉中只能不断地提炼。我个人主要是在工业领域做2D图像算法和3D算法，但是现在出去都需要全能人才方案、算法、运动控制等，我目前最大的短板就是方案，在去年的几个面试中方案是我的最大减分项，下面我就整理去年的面试经验方案已经我收集到的网上的资料做个整理学习。需求分析二、工业相机介绍0、相机结构1、芯片尺寸（靶面尺寸）芯片尺寸(Sensor
AI虚拟女友一个月能赚3万美金，引发关注和疑惑；最新 Hugging Face 强化学习课程（中文版）来啦 go2coding AI日报人工智能
AI新闻AI虚拟女友一个月能赚3万美金，引发关注和疑惑摘要：一家英国的AI公司公布了他们的虚拟女友带来的实际产出数字：一个月能赚取3万美金（约合人民币21.4万元）。这引起了网友的惊叹和疑惑，因为AI女友只是微调一个图像算法，但却能每月赚取半年工资。据说除了赚钱，AI女友每月还收到多达20个求婚。这款AI女友被称为LexiLove，由FoxyAI公司创建，能够24小时全天候提供陪伴和聊天，甚至以超
OpenCV-计算机视觉开发温轻舟计算机视觉 opencv 人工智能 python
一：计算机视觉概述1.基本概念如今，计算机视觉算法的应用已经渗透到我们生活的方方面面。机器人；无人机；虚拟现实；医学影像分析等无不涉及到计算机视觉算法OpenCV是计算机视觉领域的一个图形与图像算法库，它由一系列的C函数和少量C++类构成，同时提供了Python；Ruby；MATLAB；C#；Ch等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法计算机视觉是一门研究如何使机器看的科学，就是
故事开始了，Python 图像算法取经之旅 365 天的第 1 天梦想橡皮擦
如果你有想要交流的想法、技术，欢迎在评论区留言。图像算法这个系列橡皮擦一直不太想写，因为太难了，对技术栈体系是一无所知的。而且橡皮擦数学目前估计就剩下初二的水平了，承担这样一个系列博客，想想自己就挺害怕的。不过人想要进步，就要跳出自己的舒适圈，挑战一下有难度的事情。这个系列会写一年之久，希望有能和橡皮擦坚持到最后一天的朋友。学习者背景描述对橡皮擦自己画个画像，如果你比我强，你也可以坚持到最后一步。
【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署基于Real-ESRGAN的TPU超分模型部署算能开发者社区大数据超分辨率重建人工智能
2023CCF大数据与计算智能大赛《基于TPU平台实现超分辨率重建模型部署》洋洋很棒李鹏飞算法工程师中国-烟台[email protected]团队简介本人从事工业、互联网场景传统图像算法及深度学习算法开发、部署工作。其中端侧算法开发及部署工作5年时间。摘要本文是《基于TPU平台实现超分辨率重建模型部署》方案中算法方案的说明。本作品算法模型选用的是Real-ESRGAN。Real-ESRGAN是基
项目前置知识整理（1）：图像增强技术之多曝光融合 NoNoUnknow 图像处理人工智能
声明：理论和思想来自大磊哥，请先阅读他的文章和观看视频。本人仅是根据自己的理解参考复现作为锻炼。目的：输出高质量图像；理论参考：采集曝光程度不同的图像后，通过图像算法实现融合；实际实现：采集单张图片，通过算法生成曝光度（亮度不同）的两张图像，进行融合；参考视频：22_基于图像金字塔的曝光融合（第一讲）_大磊FPGA图像处理_哔哩哔哩_bilibili知识点：（0）双线性插值法本质上是一个FPGA的
QT5使用opencv库--Apple的学习笔记 applecai
不能跑偏了，虽然unity3d，blender还有刚了解的vulKan(下一代openGL)我还是很好奇的。偶尔可以随意玩玩，大好时光还是以图像算法及数学学习为主。所以先回到opencv。之前python及VS2017都已经玩过opencv了。QTCreator也是一样的。一，QT使用opencv库打开Qt，新建一个项目，打开.pro文件，在里面添加：INCLUDEPATH+=D:\opencv3
04. 基于MFC的数字图像处理基础框架 richfu72 MFC数字图像处理 mfc c++
本文搭建一个基于MFC的图像显示平台，供同学们在学习数字图像处理的时候应用纯C++编写代码验证各类图像处理算法，以区别于其他使用高层图像处理库的平台。博文03.用C++类和对象封装BMP显示的相关代码介绍了如何利用MFC框架读取和显示BMP图像的问题，在此基础上，本文用一个图像取反算法来演示如何编写C++代码编写数字图像算法并立即展示效果。首先，我们新建一个名为mfc_dsp_base的MFC单文
opencv图像算法迷茫的程序员. python opencv 图像处理
图像的对比度增强一：绘制直方图就是把各个像素值所含有的个数统计出来，然后画图表示。可以看到在当前图像中，哪个像素值的个数最多。同时，可以看当前图像总体的像素值大小在哪些范围。。靠近0的话，说明图像偏暗。靠近255，说明图像偏亮importcv2importnumpyasnpimportmatplotlib.pyplotaspltimportmath##绘制灰度直方图defcalcGrayHist(
13G深度学习垃圾分类数据分享，技术学习交流群行路南数据集深度学习人工智能垃圾分类图像分类数据集
各位同学、朋友我是某985院校的计算机硕士，也是一名图像算法工程师。之前在工作中接触过垃圾分类场景的项目，收集了图像8万多张、总数据量13G+的数据。我经常看到有的同学想入门而没有数据，有的同学身边是没有讨论问题的同学。这里我和我的朋友，一起发起了一个以垃圾分类为主题，涉及图像分类、目标检测、边缘硬件设备（英达伟、树莓派）的技术学习交流群。目前已经有80多个不同高校的小伙伴加入，有多名工训赛比赛的
QT插件平台之象棋插件（含象棋引擎） stonewu qt c++象棋引擎
《QT插件化图像算法研究平台》是一个通用的插件平台。不仅可以用来编写与运行图像算法程序，还可以做象棋插件，用来研究象棋引擎算法。在网上搜了一些开源象棋代码，取了界面和引擎，做成了插件。已完成功能：界面、一般引擎。待完成功能：1、使用象棋巫师的开局库。2、调用“中国象棋云库”API。象棋引擎功能演示：选择人机对战。引擎棋力（四核机器下）1秒可上9层，3秒上10层，10秒可到11层目前足以应对一般的纯
解析紫光展锐T820 5G芯片——让照片接近原色紫光展锐官方 5G
紫光展锐系统级安全的高性能5GSoC芯片平台T820，采用八核CPU架构，6nmEUV先进工艺，金融级全内置安全方案，在性能、功耗与5G通信体验等方面，较上一代产品更为出色。此前，已经为大家讲解过T820的拍照、安全性能、音频特色。今天，小展将带你一同探索T820采用的图像算法是如何让手机拍照接近原色的。人类视觉系统具有不受光源影响的颜色恒常性特点，即在不同色温光源下，人眼对相同颜色物体的感觉基本
度小满2024秋招算法专场，免笔试提前面快人一步拿offer 2301_79125431 java
tplink8.15座谈会深圳软开终于等到座谈会了，不知道是按什么顺序开的呀鼠鼠我鸭，终于有座谈了刚收到座谈会短信岗位：tplink普联图像算法-深圳timeline：0606一面，0612二面，0629三面，0815座谈题解|#更新记录（二）#updateexam_recordsetsubmit_time='2099-01-0100:00:00',score=0wheredate(start_题
《机器视觉编程应用入门到精通》课程录制计划龙熙机器视觉培训班人工智能计算机视觉 c++软件工程师编程语言
第一章《入门课程》1.11）机器视觉概述与应用场景11）机器视觉概述与应用场景1.22）课程大纲介绍与Halcon安装12）课程大纲介绍与Halcon、opencv安装1.33）Halcon界面介绍与图形处理知识体系13）Halcon、opencv界面介绍与图形处理知识体系1.44）Halcon文件读取、显示、写入14）Halcon、opencv文件读取、显示、写入1.61）图像算法数据结构、像素
“深度学习+图像算法”组合出击，看智能工业机器人如何击破3C电子产品检测难点深眸科技机器学习深度学习视觉检测人工智能算法
小到LED灯、手机，大到高速铁路动车组列车，宇宙飞船都离不开3C电子制造，新时代下3C电子产品已经成为人们生活中必不可少的一部分。3C产业分为传统3C产业与新兴产业，涵盖多种电脑硬件周边设备以及各类通讯设备，近年来和我们的生活息息相关，以移动电话及电信产业等消费性电子为主的各种数字化商品在3C产业中发展迅猛，市场庞大。在3C电子产品的生产中，对零部件的加工质量、加工技术、工艺要求以及成品的质量要求
halcon图片上传到mysql_C# 10个线程并发执行Halcon图像算法报“尝试读取或写入受保护的内存。这通常指示其他内存已损坏。”... 舒明月
如题，这个问题本人已经纠结了快三个工作日了。本人不同WinFrom程序一起动就会开启10个线程，并发对10张图片进行算法处理，问题是只要程序一起动就会报“尝试读取或写入受保护的内存。这通常指示其他内存已损坏。”异常。本人试过将8个线程停掉，只开两个，发现没有问题，开三个四个偶尔会出问题….反正10个一个开是一定会报异常的。开起来好像是线程开太多CPU反应不过来导致的问题，可是CPU反应不过来就会报
基于FPGA的CLAHE图像增强算法设计战斗的青春岁月 FPGA学习 fpga开发算法 matlab
参考文献《基于FPGA的自适应直方图均衡算法的研究与实现》最近终于有时间可以写点东西了，跟网友聊天，希望我能把FPGA实现CLAHE算法写点东西，我简单的写了些，希望能给大家学习提供点思路。CLAHE图像算法原理CLAHE图像增强算法又称为对比度有限的自适应直方图均衡算法，其算法原理是通过有限的调整图像局部对比度来增强有效信号和抑制噪声信号。CLAHE算法首先求解各个区域的直方图；然后基于期望阈值
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs