机器学习那些事儿

原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”，虽然发表于2012年，但是作者提出的观点对于今天仍有很多借鉴意义。

作者：佩德罗·多明戈斯（Pedro Domingos）
译者：刘知远

机器学习系统自动地从数据中学习程序。与手工编程相比，这非常吸引人。在过去的 20 年中，机器学习已经迅速地在计算机科学等领域普及。机器学习被用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和药物设计等应用。麦肯锡全球研究院（ the McKinsey Global Institute）最近一份报告指出，机器学习（又称数据挖掘或者预测分析）将驱动下一轮创新 [15]。现在已经有几本优秀的机器学习教材书可以供感兴趣的研究者和实践者使用（例如米切尔（ Mitchell ）和维滕（ Witten ）等人的教材 [16,24]）。但是，成功使用机器学习所应掌握的大量“民间知识”并没有出现在这些教材中。因此，很多机器学习项目浪费了大量时间，甚至最终也没有得到理想的结果。其实这些“民间知识”非常容易理解。本文的目的就是介绍这些知识。

机器学习有许多不同的类型，但为了展示方便，本文将主要介绍其中最常用的类型：分类。但是，本文所探讨的问题适用于所有的机器学习类型。一个分类器（classifier）是一个系统，系统输入是一个包括若干离散或连续的特征值（feature values）的向量，系统输出是一个离散值，代表分类的类别（class）。例如，一个垃圾邮件过滤器会将邮件信息分类到“是垃圾邮件”和“不是垃圾邮件”两个类别中。它的输入可以是一个布尔向量x = (x₁…,x_j,…,x_d)，其中如果词典中的第j个词出现在该邮件中，则x_j=1，否则x_j=0。一个学习器将一个训练集（training set）样例（x_i,y_i）作为输入，其中x_i = (x_i,1,…,x_i,d)是观察到的输入，y_i是相应的输出，学习器的输出是一个分类器。对学习器的检验就是判断它输出的分类器是否能够对将来的输入样例x_t输出正确的y_t（例如，垃圾邮件过滤器是否能够将训练时没有见过的邮件信息正确分类）。

学习=表示+评价+优化

假设有一个应用，你认为机器学习有可能在其中发挥作用。那么，你面临的第一个问题是各种机器学习算法令人眼花缭乱。应挑选使用哪一个？现在有成千上万的机器学习算法，每年还有成百上千的新算法发表出来。避免迷失在这么多算法中的关键是，要认识到这些算法都是由三个部分组成的，分别是：

表示（Representation）一个分类器必须用计算机可以处理的某种形式语言来表示。反过来讲，为学习器选择一种表示，就意味选择一个特定的分类器集合。学习器可能学出的分类器只能在这个集合中。这个集合被称为学习器的假设空间（hypothesisspace）。如果某个分类器不在该空间中，它就不可能被该学习器学到。与此相关的一个问题是如何表示输入，即使用哪些特征，本文稍后介绍。

评价（Evaluation） 我们需要一个评价函数（亦称为目标函数或打分函数）来判断分类器的优劣。机器学习算法内部使用的评价函数和我们希望分类器进行优化的外部评价函数有所不同。这是为了便于优化，接下来会讨论。

优化（Optimization）最后，我们需要一个搜索方法，能够在假设空间中找到评价函数得分最高的那个分类器。优化技术的选择对学习器效率至关重要；而当
评价函数有多个最优结果时，优化技术也有助于从中选择。初学者通常会采用现成的优化方法，之后再用定制专门的优化方法来替代。

表1展示了三个组成部分常见的例子。例如，对一个测试样例，k-近邻方法会寻找它的k个最相似的训练样例，并将这些样例中出现最多的类别作为该测试样例的类别。超平面方法会为每一个类别构造一个特征的线性组合，并将得分最高的组合所对应的类别作为预测结果。决策树方法会在树上的每个内部节点测试一个特征，每个特征值会对应一个分支，而不同的叶子节点会对应不同的类别。算法1展示了一个极简单的二分类决策树学习器，其中使用了信息增益（information gain）和贪心搜索（greedy search）[20]。InfoGain(x_j, y)表示特征x_j与类别y之间的互信息（mutual information）。MakeNode(x,c₀, c₁)会返回一个测试特征x的节点，该节点以c₀作为x=0时的孩子节点，以c₁作为x=1时的孩子节点。

当然，并不是表1中从各列选出元素的相互组合都同样有意义。例如，离散表示很自然地与组合优化相结合；而连续表示则与连续优化相结合。然而，很多学习器同时包含离散和连续的部分。实际上，所有可能的组合也都快被实现过了。

大部分教科书是以表示为视角组织内容的。这通常会让人忽略掉一个事实，即其他部分也同样重要。虽然对如何在每个部分做出选择并没有简单的秘诀，但本文将涉及其中几个重要的问题。正如我们以后会看到的那样，机器学习项目中的某些选择甚至比学习器的选择更加重要。

泛化（Generalization）很重要

机器学习的基本目标是对训练集合中样例的泛化。这是因为，不管我们有多少训练数据，在测试阶段这些数据都不太可能会重复出现。（注意，如果在词典中有100000个词，前述垃圾邮件过滤器将会有种2¹⁰⁰⁰⁰⁰种可能的不同输入）。在训练集上表现出色其实很简单（只要记住这些训练样例即可）。机器学习初学者最常犯的错误是在训练数据上做测试，从而产生胜利的错觉。如果这时将选中的分类器在新数据上测试，它往往还不如随机猜测准确。因此，如果你雇人来训练分类器，一定要自己保存一些数据，来测试他们给你的分类器的性能。相反，如果你被人雇来训练分类器，一开始就应该将一部分数据取出来，只用它们来测试你选择的分类器性能，接下来再在整个数据上学习你最终的分类器。

你的分类器可能会在不知不觉中受到测试数据的影响，例如你可能会使用测试数据来调节参数并做了很多调节（机器学习算法有很多参数，算法成功往往源自对这些参数的精细调节，因此这是非常值得关注的问题）。当然，保留一部分数据用于测试会减少训练数据的数量。这个问题可以通过交叉验证（cross-validation）来解决：将训练数据随机地等分为若干份（如10份），其中的每一份均可用作测试，而剩下的数据用作训练，然后将每个学习的分类器在它没见过的样例上进行测试，将测试结果取平均后，就可用来评价不同参数设置的性能。

在机器学习研究早期，划分训练和测试数据的必要性没有受到广泛重视。部分的原因是，如果学习器的表示很有限（比如超平面表示），则训练误差和测试误差差别不大。但是对于比较灵活的分类器（比如决策树），甚至拥有大量特征的线性分类器，则训练和测试数据严格分开是非常必要的。

需要注意的是，将泛化作为目标给机器学习带来一个有趣的结果。与其他大部分优化问题不同，机器学习无法获得希望优化的那个函数！我们不得不用训练误差来代替测试误差（作为目标函数），而这非常危险（如何处理这个问题稍后会介绍）。从积极的角度讲，由于这个目标函数不过是真实目标的替身，我们也许没有必要完全优化它；而实际上，通过简单的贪心搜索返回的局部最优也许比全局最优更好。

仅有数据还不够

将泛化作为目标带来的另外一个重要结果是，仅有数据还不够，无论你有多少。考虑要从100万样例中学习一个包含100个变量的布尔函数。此时将有2¹⁰⁰
-10⁶ 个样例的类别是不知道的¹。你如何确定那些样例的类别呢？在没有更进一步信息的情况下，除了抛硬币随机猜之外将束手无策。哲学家大卫·休谟（David Hume）在200多年前首次指出这一问题（以某种不同的形式），但直到今天机器学习中的很多错误仍是由于没有意识到这一问题造成的。每个学习器都必须包含一些数据之外的知识或假设（assumption），才能够将数据泛化。这一概念被沃尔伯特（Wolpert）形式化为“没有免费的午餐”定理。根据该定理，没有学习器能够比在所有可能的布尔函数中随机猜测的结果更优[25]。

这似乎是一个非常让人失望的消息。那我们还能指望能学到什么东西吗？幸运的是，在真实世界中，我们要学习的函数并非均匀地来自所有可能的函数！实际上，一些非常泛泛的假设——比如平滑（smoothness），相似的样例有相似的类别，有限依赖，或者有限复杂度——通常足够起很大作用，这也是机器学习能够如此成功的重要原因。如同演绎（deduction）一样，归纳（induction，正是学习器所做的）起到知识杠杆的作用——它将少量的输入知识转化成为大量的输出知识。归纳是比演绎强大得多的杠杆，只要求很少的输入知识就可以产生有用的结果，但是它终归不能在没有知识的情况下工作。而且就像任何杠杆一样，输入越多，我们得到的输出就越多。

从中可以得到的一个推论是，选择表示的关键标准之一是，它比较易于表达什么类型的知识。例如，如果我们拥有大量关于在我们的领域是什么造成样例相似的知识，基于实例的方法也许就是合适的选择。如果我们拥有概率依赖的知识，图模型则比较适合。如果我们拥有每个类别要求的先决条件的知识，“If…Then…（如果…那么…）”规则的表示也许是最好的选择。在这一点上，最有用的学习器是那些并非将假设固化在其中，而是允许我们用显式规定假设，在大范围改变假设，并自动将其体现在学习中（例如采用一阶逻辑[21]或者语法[6]）的学习器。

说到这里，学习需要知识，这并不让人惊讶。机器学习不是魔术, 它无法凭空变出东西。它所做的是由少变多。编程就像所有的工程技术那样，意味着大量的工作，必须从头开始建造一切。而机器学习更像是种田，它让大自然做大部分工作。农夫将种子与肥料混合种出庄稼。学习器将知识和数据结合“种出”程序。

过拟合（Overfitting）有多张面孔

如果我们拥有的知识和数据并不足以学习出正确的分类器，将会怎样呢？我们就得冒风险构建一个分类器（或者其中一部分），这个分类器并非建立在现实基础上，而是将数据随机表现加以解读。这个问题称为过拟合，它是机器学习中的棘手问题。当你的学习器输出的分类器在训练数据上准确率为100%，而在测试数据上仅有50%的时候（而本来可以学到一个分类器能够在两个数据上均达到75%的准确率），说明这个分类器发生过拟了。

机器学习领域的每个人都了解过拟合，但过拟合会以多种并不明显的形式出现。一种理解过拟合的方式是将泛化误差（generalization error）分解为偏置（bias）和方差（variance）[9]。偏置度量了学习器倾向于一直学习相同错误的程度。方差则度量了学习器倾向于忽略真实信号、学习随机事物的程度。图1用朝板子扔飞镖作为类比进行了直观说明。一个线性学习器有较高的偏置，因为当两个类别的交界不是超平面的时候，这个学习器就无法进行归纳。决策树就不会有这个问题，因为它可以表示任意的布尔函数，但在另一方面，策树会面临高方差的问题：在同一现象所产生的不同训练数据上学习的决策树往往差异巨大，而实际上它们应当是相同的。类似道理也适用于优化方法的选择上：与贪心搜索相比，柱搜索的偏置较低，但方差较高，原因是柱搜索会尝试搜索更多的假设。因此，与直觉相反，一个学习能力更强的学习器并不见得比学习能力弱的效果更好。

图2示例说明了这一点²。即使真正的分类器是一个规则集合，但根据1000个样例学习的朴素贝叶斯学习器仍比一个规则学习器的准确率更高。甚至当朴素贝叶斯错误地假设分类面是线性的，也依然如此。这种情形在机器学习领域很常见：一个强错误假设比那些弱正确假设更好，这是因为后者需要更多的数据才能避免过拟合。

交叉验证可以帮助避免过拟合，例如通过交叉验证来选择决策树的最佳大小。但这不能彻底解决问题，因为假如我们利用交叉验证做太多的参数选择，它本身就会开始过拟合[17]。

除了交叉验证以外，还有很多方法可以避免过拟合。最常用的方法是对评价函数增加一个正则项（regularization term）。这样做可以惩罚那些包含更多结构的分类器，偏好更小的分类器，从而降低过拟合的可能性。另一个方案是在决定是否增加新的结构时进行诸如卡方测试（chi-squre）等统计显著性检验（statistical significance test），用来决定类别分布是否会因为增加这个结构而不同。当数据非常缺乏时，这些技术非常有用。然而，你应该对那些宣称某项技术“解决”了过拟合问题的说法持怀疑态度。我们会很容易在避免过拟合（或者说“方差”）时，造成另外一个相反的错误——欠拟合（underfitting，或者说“偏置”）。要学习一个完美的分类器来同时避免过拟合和欠拟合，事先又没有足够知识，这种情形下没有任何单一技术能够总是表现最好（没有免费的午餐）。

对过拟合的一个常见误解是认为它是由噪音造成的，例如有些训练样例的标注类别是错误的。这的确会加剧过拟合，因为分类器会调整分类面让那些样例保持在分类器认为正确的一侧。但是即使没有噪音依然会发生严重的过拟合。例如，假如我们学习一个布尔类型分类器，它是训练数据中所有标为“true”的样例的析取（disjunction）。（换句话说，这个分类器是一个析取范式（disjunctive normal form）的布尔类型公式，其中每一项是某个特定训练样例的所有特征值的合取（conjunction）。）这个分类器对所有的训练样例都分类正确，但对测试样例中的每个正例都分类错误，不管训练数据是否有噪音。

多重检验（multiple testing）[13]问题与过拟合密切相关。标准的统计检验中只有一个假设被检验，而现代学习器在结束学习前会轻易地检验上百万个假设。因此，那些看上去很显著的结论实际并不如此。例如，一个连续十年跑赢市场的共同基金（mutualfund）看上去很引人注目。但当你发现，如果有1000家基金，每家都有50%的概率在某年跑赢市场，在这种情况下，极有可能会有一家基金能够凭侥幸而连续10次都跑赢市场。这个问题可以通过在显著性检验中将假设的个数考虑进去来解决，但这样也会导致欠拟合。更好的途径是控制错误接受的非零假设（non-nullhypotheses）的比率，该方法通常被称为错误发现率（false discoveryrate）方法[3]。

直觉不适用于高维空间

机器学习中紧接过拟合之后的最大问题就是维度灾难（curse of dimensionality）。这一概念是由贝尔曼（Bellman）在1961年首先提出的，用来描述以下事实：许多在低维空间表现很好的算法，当输入是高维度的时候，就变得计算不可行（intractable）了。但在机器学习领域，这有更多的意义。随着样例维度（即特征数目）的增长，正确泛化的难度会以指数级增加，原因是同等规模的训练集只能覆盖越来越少的输入空间比例。即使对于中等大小的100维布尔空间，一个包含1万亿样例的大型数据集合也只能覆盖输入空间的10^-18左右³。这体现了机器学习存在的必要性，也是它的难点所在。

更严格地讲，机器学习算法所（显式或隐式）依赖的基于相似度的推理在高维空间不再有效。现在考虑一个采用汉明距（hamming distance）作为相似度度量的最近邻分类器，并设定样例的分类类别是x₁∧x₂。如果没有其他特征，这是一个很容易的问题。但是当增加98个不相关的特征x₃,…,x₁₀₀的时候，来自这些特征的噪音会淹没来自x₁和x₂的信号，导致所找到的最近邻相当于做出随机预测。

更多的困扰是，即使所有的100个特征都是相关的，最近邻方法依然会有问题。这是因为在高维空间所有的样例都变得很相似。例如，假设所有样例分布在规则的网格上，现在考虑一个测试样例x_t。如果网格是d-维的，会有个2d个x_t最近邻样例与x_t的距离相等。因此，随着维数的增加，越来越多的样例会变成x_t的最近邻，以致最后最近邻的选择实际上变成随机的（类别选择也因此变成随机的）。

这只是高维空间上更广泛问题的一个实例。我们的来自三维世界的直觉在高维空间通常并不奏效。在高维空间，多元高斯分布（multivariate Gaussian distribution）的大部分质量（mass）并不分布在均值附近，而是在逐渐远离均值的一层“壳”上；打个比方，一个高维的橘子的大部分质量不在瓤上，而是在皮上。如果数量一定的样例均匀分布在一个（维数不断增加的）高维的超立方体中，那么超出某个维数后，大部分样例与超立方体的某一面的距离要小于与它们最近邻的距离。如果我们在超立方体中内接一个超球面，那么超立方体的几乎所有质量都会分布在超球面之外。这对机器学习是一个坏消息，因为机器学习常常用一种类型的形状来近似另一种类型的形状。

在二维或三维空间构建分类器很简单，我们可以仅通过肉眼观察发现不同类别样例的分界线（甚至可以说，假如人们有在高维空间中观察的能力，机器学习就没有存在的必要了）。但是在高维空间中很难理解正在发生什么。因此也就很难设计一个好的分类器。人们也许会天真地认为收集更多的特征永远不会有什么坏处，因为最坏的情况也不过是没有提供关于类别的新信息而已。但实际上这样做的好处可能要远小于维度灾难带来的问题。

幸运的是，有一个效应可以在一定程度上抵消维度灾难，那就是所谓的“非均匀性的祝福”（blessing of nonuniformity）。在大多数应用中，样例在空间中并非均匀分布，而是集中在一个低维流形（manifold）上面或附近。例如在手写体数字识别任务中，即使数字图片的每个像素都单独作为一个特征，近邻方法在该任务上表现依然良好，这是因为数字图片的空间要远小于整个可能的空间。学习器可以隐式地充分利用这个有效的更低维空间，也可以显式地进行降维（例如特南鲍姆（Tenenbaum）的工作[22]）。

理论保证（Theoretical Guarantees）与看上去的不一样

机器学习论文充满了理论保证。最常见的类型是能保证泛化所需样例数目的边界（bound）。你应当如何理解这些保证呢？首先，需要注意的是它们是否可行。归纳与演绎相反：在演绎中你可以保证结论是对的；在归纳中就难说了。这是很多世纪以来的普遍共识。最近几十年的一个重要进展是我们认识到可以有归纳结果正确性的保证，特别是如果我们愿意接受概率保证。

基本论证非常简单[5]。如果一个分类器的真实错误率（true error rate）大于ε，我们称该分类器是坏的。那么一个坏分类器在n 个随机独立训练样例上都保持正确的概率小于。设b是学习器的假设空间H中坏分类器的个数，其中至少有一个分类器能保持正确的概率小于b ( 1-ε) ⁿ，即谓“一致限（union bound ）”。假设学习器返回的都是保持正确的分类器，那么这个分类器是坏的概率小于|H |( 1 -ε)ⁿ，这里我们利用了b ≤|H |这个实。所以，如果我们希望这个概率小于δ的充分条件是使n >1/ε(l n|H |+l n1/δ)≥ln(δ/|H |)/ln(1-ε)⁴。

不幸的是，对这类保证得十分小心。这是因为通过这种方式获得的边界往往非常松散（loose）。这种边界的突出优点是所要求的样例数目只随|H |和1/δ 呈对数增长。但遗憾的是，大多数假设空间是随着特征数目呈双指数级增长的，这就要求我们提供的样例数目d 也随着呈指数增长。例如，考虑包含d 个布尔变量的布尔类型函数空间。如果有e 个可能不同的样例，就会有2^e个可能不同的函数。因此，由于有2^d个可能的样例，函数总数达到个。即使对“仅仅”为指数级的假设空间，这个边界仍然很松，因为一致限非常保守。例如，如果有100个布尔特征，假设空间是层数最多为10的决策树，为了保证δ=ε=1%，我们需要50万个样例。但实际上，只需要其中的一小部分数据就足以精确学习了。

而且，我们必须留意边界所包含的意义。例如，边界并不意味着，假如你的学习器返回了一个在某个特定训练集上保持正确的假设，这个假设就可能实现了泛化。边界的意思是，给定一个足够大的训练集，告诉你在很大的概率上你的学习器会返回一个成功泛化的假设，还是无法找到一个保持正确的假设。这个边界也无法告诉我们如何选择好的假设空间。它只能告诉我们，如果这个假设空间包含真实分类器，那么学习器输出一个坏分类器的概率随着训练数据规模的增长而降低。如果我们缩小假设空间，边界就会得到改善，但是空间包含真实分类器的几率也降低了（在真实分类器不在假设空间中的情况下也会有边界，以上讨论同样适用）。

另一类常用理论保证是渐进（asymptotic）：给定无穷据，学习器将保证输出正确的分类器。这个保证让人欣慰，但如果只是因为有渐进保证而选择一个分类器则是非常草率的。在实践中，我们很少处于渐进状态（或称为渐进态（asymptopia））。而且，由于我们前面探讨过的偏置-方差的权衡（trade-off），如果对无穷数据，学习器A比学习器B好，那么在有限数据的情况下B通常比A好。

机器学习中理论保证的主要作用并不是在实践中作为决策的标准，而是在算法设计中作为理解和驱动的来源。在这方面，它们作用巨大；实际上，理论与实践的紧密结合是机器学习在过去几年中取得重大进展的重要原因。但是使用者需要谨慎：学习是一个复杂现象，因为一个学习器既有理论证明又有实际应用，而前者并未成为后者的依据。

特征工程（Feature Engineering）是关键

在考虑所有情况之后，有的机器学习项目成功了而有的则失败了。这是什么原因造成的呢？无疑最重要的因素是所利用的特征。如果你有很多与类别非常相关的独立特征，学习起来很容易。但另一方面，如果特征与类别的关系非常复杂，你就不一定能够学到它了。通常原始数据不能直接拿来学习，你需要从中构建特征。这是机器学习项目的主要工作。这通常也是最有趣的部分，在这里直觉、创造性和魔法与技术一样都很重要。

初学者往往惊讶于机器学习项目中真正用于机器学习的时间是如此之少。但假如你考虑到对数据的收集、整合、清理和预处理是多么费时，以及特征设计需要经历多少试验和错误，就会理解这个过程了。还有，机器学习无法做到一次性就能完成构建数据集合和运行学习器，它是一个反复迭代的过程，包括运行学习器，分析结果，修改数据和/或学习器等，不断重复。学习往往是这其中最快完成的部分，原因在于我们已经非常精通它了！特征工程更加困难，原因是它是领域相关（domain-specific）的，而学习器则很大程度是通用的。不过，两者并没有明确界限，这也是最有用的学习器往往是那些有助于融入领域知识的学习器的原因之一。

当然，机器学习的一个终极目标就是将特征工程过程越来越多地自动化。现在经常采用的一种方式是先自动产生大量的候选特征，然后根据它们与分类类别的信息增益等方法来选取最好的特征。但需要牢记在心的是，特征独立地看也许与分类无关，但组合起来也许就相关了。例如，如果分类类别是取个输入k 个特征的“XOR（异或）”，那么每个特征单独看都与分类没有关系（如果你想给机器学习找点乱子，就祭出XOR来吧）。但是，运行包含大量特征的学习器来寻找有用的特征组合太耗时，也容易导致过拟合。因此，归根到底你仍需责无旁贷地介入特征工程的工作。

更多的数据胜过更聪明的算法

假设你已经尽你所能构建了最好的特征集合，但分类器的效果仍不够好，这时候应该怎么办呢？有两个主要选择：设计更好的学习算法，或者收集更多数据（包括更多的样例和不致造成维度灾难的更多可能的原始特征）。机器学习研究者更关注前者，但从实用角度来看，最快捷的方法是收集更多数据。作为一条经验，有大量数据的笨算法要胜过数据量较少的聪明算法。（毕竟，机器学习就是研究如何让数据发挥作用的。）

然而这带来了另外一个问题：可扩展性（scalability）。在绝大多数计算机科学问题中，两个主要资源是有限的——时间和内存。而在机器学习中，还有第三个：训练数据。其中哪一个资源会成为瓶颈是随着时间变化而不断变化的。在20世纪80年代，瓶颈是数据。现在的瓶颈则是时间。我们有海量数据，但没有足够的时间处理它们，只能弃之不用。这就造成一个悖论：即使理论上说，更多数据意味着我们可以学习更复杂的分类器，但在实践中由于复杂分类器需要更多的学习时间，我们只能选用更简单的分类器。一个解决方案是对复杂分类器提出快速学习算法，在这个方向上已经有了一些引人注目的进展（例如赫尔滕（Hulten）和多明戈斯（Domingos）的工作[11]）。

采用更聪明的算法得到的回报比预期要少，一部分原因是，机器学习的工作机制基本上是相同的。这个论断也许让你吃惊，特别是当你想到诸如规则集与神经网络之间差异巨大的表示方法的时候。但实际上，命题规则的确可以轻易地表示成神经网络，其他表示之间也有类似的关系。本质上所有的学习器都是将临近的样例归类到同一个类别中；关键的不同之处在于“临近”的意义。对于非均匀分布的数据，不同的学习器可以产生迥乎不同的分类边界，同时仍能在关心的领域（即那些有大量训练样例、测试样例也会有很大概率出现的领域）保证得到相同的预测结果。这也有助于解释为什么能力强的学习器虽然不稳定却仍然很精确。图3在二维空间展示了这一点，在高维空间这个效应会更强。

作为一条规则，首先尝试最简单的学习器总是有好处的（例如应该在逻辑斯蒂回归之前先尝试朴素贝叶斯，在支持向量机之前先尝试近邻）。更复杂的分类器固然诱人，但它们通常比较难驾驭，原因包括我们需要调节更多的参数才能得到好的结果，以及它们的内部机制更不透明。

学习器可以分为两大类：一类的表示是大小不变的，比如线性分类器；另一类的表示会随着数据而增长，比如决策树。（后者有时候会被称为非参数化学习器（nonparametric learners），但不幸的是，它们通常需要比参数化学习器学习更多的参数。）数据超过一定数量后，大小不变的学习器就不能再从中获益。（注意图2中朴素贝叶斯的准确率是如何逼近大约70%的。）而如果有足够的数据，大小可变的学习器理论上可以学习任何函数，但实际上却无法做到。这主要是受到算法（例如贪心搜索会陷入局部最优）和计算复杂度的限制。而且，由于维度灾难，再多的数据也不会够。正是由于这些原因，只要你努力，聪明的算法——那些充分利用已有数据和计算资源的算法——最后总能取得成功。在设计学习器和学习分类器之间并没有明显的界限；因为任何知识要么可以被编码进学习器，要么可以从数据中学到。所以，机器学习项目通常会有学习器设计这一重要部分，机器学习实践者应当在这方面积累一些专门知识[12]。

终极而言，最大的瓶颈既不是数据，也不是CPU速度，而是人力。在研究论文中，学习器一般都在准确率和计算复杂度方面进行比较。但更重要的是节省的人力和得到的知识，虽然这些更难度量。这使那些产生人类可理解的输出的学习器（比如规则集合）更为受到青睐。机器学习成果最丰硕的，是那些建立了机器学习的基本条件，能够便捷地在多个学习器、数据来源和学习问题上方便有效地开展实验，并实现机器学习专家与领域专家的密切合作的组织。

要学习很多模型，而不仅仅是一个

在机器学习早期，每个人都有一个最喜欢的学习器，并由于一些先入为主的原因坚信它的优越性。人们花费大部分精力来尝试它的各种变种，从中选择最好的那个。后来，系统的实验比较表明在不同应用上的最佳学习器并不相同，因此开始出现包含多种学习器的系统。这时，人们尝试不同学习器的各种变种，仍然只是找出其中表现最好的那个。后来研究者注意到，如果不是只选最好的那个，而是将多个学习器结合，结果会更好——通常是好得多——而这只需要花费人们很少的精力。

现在建立模型集成（model ensembles）已经实现标准化[1]。最简单的集成技术是bagging（装袋）方法，该方法通过重采样（resampling）随机产生若干个不同的训练集，在每个集合上训练一个分类器，然后用投票（voting）的方式将结果合并。该方法比较有效，原因是它在轻度增加偏置的同时，极大地降低了方差。在boosting（强化提升）方法中，每个训练样例都有权重，权重会不断变化，每次训练新分类器的时候都集中在那些分类器之前倾向于分错的样例上。在stacking（堆叠）方法中，每个单独分类器的输出会作为更高层分类器的输入，更高层分类器可以判断如何更好地合并这些来自低层的输出。

此外，还有很多其他技术，现在的趋势是越来越大型的集成。在Netflix大奖赛中，来自世界各地的团队竞争建立最好的视频推荐（http://netflixprize.com）。随着竞赛的开展，团队们开始发现与其他团队合并学习器会取得最好的结果，因此团队开始合并，越来越大。竞赛的第一名和第二名团队都合并了超过100个学习器，将这两者集成后又进一步提升了效果。毫无疑问，未来我们会看到更大的集成学习器。

模型集成不应与贝叶斯模型平均（bayesian model averaging，BMA）混淆，后者是学习的一种理论最优化方法[4]。在贝叶斯模型平均方法中，对新样例的预测是对假设空间中的所有分类器的预测取平均得到的，每个分类器会根据它解释训练数据的能力和我们对它的先验信任度而有不同的权重。虽然模型集成与贝叶斯模型平均方法表面上很相似，它们其实非常不同。集成方法改变了假设空间（例如从单独的决策树变成了决策树的线性组合），而且可以采用多种多样的形式。贝叶斯模型平均方法只是根据某个准则对原始空间的假设赋予不同的权重。贝叶斯模型平均方法的权重与bagging或者boosting等集成方法产生的权重非常不同。后者很平均，而前者波动很大，甚至出现某个权重最大的分类器占据统治地位的情况，导致贝叶斯模型平均方法实际上等同于直接选择这个权重最大的分类器[8]。一个实际的后果是，模型集成已经成为机器学习工具的重要组成部分，而贝叶斯模型平均方法则少有人问津。

简单并不意味着准确

著名的奥坎姆剃刀（occam’srazor）原理称：若无必要，勿增实体（entities should not be multiplied beyond necessity）。在机器学习中，这经常被用来表示成：对于有相同训练误差的两个分类器，比较简单的那个更可能有较低的测试误差。关于这个断言的证明经常出现在文献中，但实际上对此有很多反例，而且“没有免费的午餐”定理也暗示了这个断言并不正确。

我们前面已经看到了一个反例：模型集成。集成模型的泛化误差会一直随着增加新的分类器而改进，甚至可以优于训练误差。另一个反例是支持向量机，它实际上可以有无限个参数而不至于过拟合。而与之相反，函数可以将轴上任意数量、任意分类的数据点划分开，即使它只有1个参数[23]。因此，与直觉相反，在模型参数的数量和过拟合之间并无直接联系。

一个更成熟的认识是将复杂度等同于假设空间的大小。这是基于以下事实：更小的假设空间允许用更短的代码表示假设。那么“理论保证”一节中的边界就暗示了，更短的假设可以泛化得更好。这还可以进一步改善为，为有先验偏好的空间中的假设分配更短的代码。但如果将此看作是准（accuracy）和简单（simplicity）之间权衡的“证明”，那就变成循环论证了——我们将所偏好的假设设计得更加简单，而如果结果是准确的是因为我们的偏好是准确的，而不是因为这些假设在我们选择的表示方法中是“简单的”。

问题的复杂性还来自这样一个因素：几乎没有学习器能穷尽搜索整个假设空间。一个在较大的假设空间搜索较少假设的学习器，比一个在较小空间中搜索较多假设的学习器更不容易过拟合。正如珀尔（Pearl）[18]指出的，假设空间的大小只是对对确定影响训练误差和测试误差的关键因素有初步的指导意义。

多明戈斯[7]调研了机器学习中奥坎姆剃刀原理问题的主要论证和论据。结论是，应当先选择简单假设，这是因为简单本身就是一个优点，而不是因为所假设的与准确率有什么联系。这也许正是奥坎姆最初想表达的意思。

可表示并不意味着可学习

从本质上讲，用于大小可变的学习器的所有表示都有其形式为“每个函数都可以表达为或以无限接近的方式近似表达为××表示”的定理与之伴随。正因为如此，某种表示方法的拥趸往往会忽略其他方法。但是，仅仅因为一个函数可以被表示，并不意味着它是可被学习的。例如，标准的决策树学习器无法学习出比训练样例更多的叶子节点。在连续空间中，用一个固定的基元（primitives）族来表示哪怕很简单的函数，也常常要由无限多项组成。更进一步，如果假设空间有许多评价函数的局部最优点，正如经常发生的那样，学习器可能根本无法找到这个真正的函数，即使它是可表示的。给定有限数据、时间和内存，标准学习器只能学到所有可能函数中很有限的子集。这个子集会随着表示方法的不同而不同。因此，关键问题不是“它是否可表示？”（这个问题的答案通常无关紧要），而是“它是否可以被学习？”这值得我们尝试不同的学习器（或者它们的组合）来寻找答案。

对某些函数来讲，一些表示方法会比其他方法更加精简，从而只需要更少的数据来学习那些函数。很多学习器的工作机制是将简单的基函数（basis function）进行线性组合。例如，支持向量机就形成了集中在某些训练样例（也就是那些支持向量）上的核（kernels）的组合。如果用这种组合方法来表示n个比特的奇偶性（parity），将需要2n个基函数。但如果采用多层表示（也就是说在输入和输出之间存在多步），奇偶性就可以用一个线性规模的分类器表示。探索这种深层表示的学习方法是机器学习的主要研究前沿之一[2]。

你可能感兴趣的:(机器学习)

星河飞雪网络安全-安全见闻总篇小陈在努力ii 安全 python java 1024程序员节
声明学习视频笔记均来自B站UP主"泷羽sec",如涉及侵权马上删除文章笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负安全见闻01-09已全部更新，后续将会持续更新的章节，感谢各位师傅的点赞关注，冲！目录声明1.常见编程语言（安全见闻01）1.1函数式编程语言1.2数据科学和机器学习领域1.3Web全栈开发1.4移动开发1.5嵌入式系统开发
向量数据库的新浪潮：支持向量及标量查询的解决方案一休哥助手数据库数据库向量数据库
向量数据库的新浪潮：支持向量及标量查询的解决方案在数据密集型的应用场景中，向量数据库已经成为了一种不可或缺的技术。尤其是在机器学习和人工智能领域，向量数据库能够高效地处理高维数据，为相似性搜索、推荐系统等提供强大支持。然而，随着数据的多样化，单纯的向量搜索已经不能满足所有的需求。因此，支持向量查询同时也支持标量查询（固定条件过滤）的向量数据库成为了新的焦点。本文将探讨几种这样的数据库，并进行比较。
关于强化学习小记文弱_书生乱七八糟神经网络人工智能强化学习马尔科夫决策
强化学习（ReinforcementLearning,RL）详解1.什么是强化学习？强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过**智能体（Agent）在环境（Environment）中不断尝试不同的动作（Action），并根据环境给予的奖励（Reward）**来学习最优策略（Policy），从而最大化长期回报（Return）。强化学习的核心思想：试错学习（
什么是 Embedding？——从直觉到应用的全面解读忍者算法人工智能深度学习神经网络机器学习
什么是Embedding？——从直觉到应用的全面解读在机器学习和深度学习的世界里，我们经常会听到“Embedding”这个词。它是深度学习中最核心的概念之一，尤其在自然语言处理（NLP）和推荐系统中应用广泛。但很多初学者对Embedding的理解可能只是：“它是把一个东西转换成数字的方式。”这种解释虽然没错，但过于简略，难以真正理解Embedding的作用。这篇文章将用最直观的方式，带你深入理解E
python train 函数_Python之并行--基于joblib weixin_39786850 python train 函数
Python的并行远不如Matlab好用。比如Matlab里面并行就直接把for改成parfor就行（当然还要注意迭代时下标的格式），而Python查一查并行，各种乱七八糟的方法一大堆，而且最不爽的一点就是只能对函数进行并行。当然，这点困难也肯定不能就难倒我们，该克服也得克服，毕竟从本质上讲，也就只是实现的方式换一换而已。大名鼎鼎的sklearn里面集成了很方便的并行计算，这在之前的机器学习教程里
分布式训练：（Pytorch）达柳斯·绍达华·宁分布式 pytorch 人工智能
分布式训练是将机器学习模型的训练过程分散到多个计算节点或设备上，以提高训练速度和效率，尤其是在处理大规模数据和模型时。分布式训练主要分为数据并行和模型并行两种主要策略：1.数据并行(DataParallelism)数据并行是最常见的分布式训练方式。在这种方法中，模型副本会被复制到多个计算设备上，每个设备处理不同的批次（batch）数据。工作流程：每个设备上都有一个完整的模型副本。数据集被分割成多个
Python Joblib 使用详解：缓存与并行加速技术 egzosn python 缓存开发语言
Joblib简介Joblib是一个轻量级的Python工具集，主要用于两个方面：结果缓存(Memoization)利用Memory类，可以将函数的输出结果存储到磁盘上，避免多次重复计算。特别适合于数据处理和机器学习中一些耗时计算的场景。并行计算利用Parallel和delayed，可以方便地将循环中的任务分发到多个CPU核心上运行，从而加速计算过程。这些功能使得Joblib成为数据科学、机器学习和
机器学习经典算法——决策树算法详解与实现 SVIPCODE 机器学习算法决策树编程
机器学习经典算法——决策树算法详解与实现决策树（DecisionTree）是一种常用的机器学习算法，它是基于树形结构的有监督学习方法之一。在本文中，我们将详细介绍决策树算法的原理，并使用Python代码进行实现。1.决策树算法原理决策树算法通过对数据集进行划分来构建一棵树，每个节点表示一个特征属性，每个分支代表一个属性取值，叶子节点表示分类结果。根据不同的分裂准则，决策树可以采用多种算法进行构建，
机器学习模型的保存与加载：使用pickle和joblib FdmPatch 机器学习人工智能 scikit-learn
在机器学习中，模型的保存和加载是非常重要的步骤。一旦我们训练好了一个模型，我们希望能够将其保存到磁盘上，以便以后使用。Python中有几个常用的库可以实现这个功能，包括pickle和Scikit-learn的joblib。本文将介绍如何使用这两个库来保存和加载机器学习模型。使用pickle保存和加载模型Pickle是Python的标准库，可以将Python对象序列化为字节流，然后将其保存到文件中。
机器学习经典算法：决策树原理详解 xiaoyu❅ 机器学习算法决策树
决策树（DecisionTree）是一种直观且强大的机器学习算法，被广泛用于分类与回归任务。本文从核心原理（信息熵、基尼系数）、构建过程（ID3/C4.5/CART）、剪枝优化到Python代码实战，全方位解析决策树，并教你如何用Graphviz可视化树结构！目录一、什么是决策树？二、决策树的核心原理1.特征划分标准2.关键公式推导3.决策树构建流程三、Python代码实战1.数据集准备2.模型训
机器学习入门第三集——如何完整实现一次模型训练梯度寻优者_超机器学习人工智能 python 算法大数据回归数据分析
提示：如何完整的从数据导入到最后模型训练以及模型保存，本集进行介绍。文章目录上集回顾一、数据集是什么？二、完整训练过程1.导入数据2.数据集划分3.模型训练4.模型保存以及加载总结下集预告上集回顾提示：上集已经对机器学习基础知识分类常用算法等进行了描述，这集开始是如何完整训练模型，前两集已经介绍了机器学习的通俗解释，已经常见分类，还有机器学习深度学习强化学习的关系和区别。有想看的小伙伴可以翻我主页
【人工智能】图文详解深度学习中的卷积神经网络（CNN） AI天才研究院深度学习实战 DeepSeek R1 &大数据AI人工智能大模型深度学习人工智能 cnn 神经网络计算机视觉
【人工智能】图文详解深度学习中的卷积神经网络（CNN）概念和原理为什么要使用卷积神经网络？卷积神经网络简介卷积神经网络的数学公式池化操作：全连接层：激活函数卷积神经网络的C++实现示例代码应用场景自动驾驶影像物体识别医疗影像诊断附：计算机视觉中几种经典的网络结构概念和原理为什么要使用卷积神经网络？在讲述原理之前，我们先来解释为什么我们在图像及视频等等领域的机器学习中要使用CNN。我们都知道，使用多
【数据分析】二八模型：基于Pandas的二八模型实战：精准识别高价值客户云天徽上数据挖掘分析数据分析 pandas 数据挖掘机器学习人工智能数据可视化
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
**深度剖析与体验：钓鱼网站URL检测神器** 平奇群Derek
深度剖析与体验：钓鱼网站URL检测神器去发现同类优质开源项目:https://gitcode.com/互联网早已融入我们生活的每一个角落，然而随之而来的网络威胁也日渐增多，尤其是那些试图通过伪装网站进行信息盗取的钓鱼行为。在这个背景下，PhishingURLDetection——一个集数据科学与机器学习之力打造的反钓鱼利器应运而生。项目介绍：守护网络安全的第一道防线在当今数字化时代，个人信息安全成
ipython和conda python版本不一致的解决方案爱编程的喵喵 Python基础课程 python ipython conda
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ipython和condapytho
2024年令人兴奋的10篇大模型研究和论文福福很能吃人工智能自然语言处理语言模型 transformer 开发语言
后台回复"资料"，即可获取整理好的算法面试题(大模型、深度学习、机器学习)2024年对于人工智能来说是一个绝对精彩的年份。每次我觉得我们已经达到了创新的极限时，总有人会突破它，然后又有人将其碎片整合成一个更好的版本。从复杂的推理语言模型到VLMs和视频模型，进步是可以看得到的。VisionMamba:EfficientVisualRepresentationLearningwithBidirect
《Python机器学习基础教程》第3讲：回归算法与模型优化 earthzhang2021 2025讲书课专栏机器学习 python 回归开发语言人工智能 1024程序员节 numpy
上一讲我们聊了分类算法，学会了怎么用机器学习把东西分门别类。今天，我们来聊聊回归算法，这是一种用来预测连续数值的算法。比如，你想知道明天的气温是多少，或者一套房子能卖多少钱，这时候就需要回归算法来帮忙啦。我们还会学习怎么优化模型，让模型变得更厉害。1.回归问题：预测连续的数值想象一下，你手里有一堆房子的信息，包括房子的面积、房间数量、位置等等，你想知道这些房子大概能卖多少钱。这时候，回归算法就能派
《Python机器学习基础教程》第2讲：监督学习与分类算法 earthzhang2021 2025讲书课专栏机器学习 python 深度学习开发语言人工智能 1024程序员节
大家好！上一讲我们聊了机器学习的基础，也动手处理了数据。今天，我们来深入了解一下监督学习，特别是分类算法。监督学习就像是给计算机一个“答案册”，让它学会怎么根据输入预测输出。分类算法就是其中的一种，它能帮我们把东西分门别类。比如，判断一封邮件是不是垃圾邮件，或者一张照片里是不是有猫。听起来是不是很神奇？1.监督学习：让计算机学会“看图说话”想象一下，你手里有一堆照片，有的是猫，有的是狗。你想让计算
《Python机器学习基础教程》第1讲：机器学习入门与Python基础 earthzhang2021 2025讲书课专栏 python 机器学习开发语言人工智能 1024程序员节
欢迎来到机器学习的世界！今天我们要开启一段精彩的旅程，一起探索机器学习的奥秘。你可能听说过这个词，但它到底是什么？又能做什么呢？别急，我们慢慢来。1.机器学习是什么？想象一下，你每天早上都会根据天气预报决定穿什么衣服。如果天气预报说今天很冷，你就会穿厚外套；如果预报说很热，你可能会穿短袖。这个过程其实就是一个简单的“决策系统”——你根据输入（天气预报）做出输出（穿什么衣服）。机器学习也是一样，它是
贪心算法：K次取反与买卖时机的奥秘（1005，122） rain雨雨编程算法刷题记录贪心算法算法数据结构力扣 leetcode
‍♂️个人主页：@rain雨雨编程微信公众号：rain雨雨编程✍作者简介：持续分享机器学习，爬虫，数据分析希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1005.K次取反后最大化的数组和题目描述思路步骤代码实现时间复杂度空间复杂度122.买卖股票的最佳时机II题目描述思路步骤代码实现时间复杂度空间复杂度力扣难度1005.K次取反后最大化的数组和122.买卖股票
初识TensorFlow：机器学习与深度学习的探索韩锋裂变营销 TensorFlow 机器学习深度学习传统编程数据标记
初识TensorFlow：机器学习与深度学习的探索背景简介当我们谈论创建人工智能（AI）时，机器学习（ML）和深度学习是重要的起点。面对众多的选择和术语，新手很容易感到不知所措。这本书旨在通过编写代码来实现机器学习和深度学习的概念，构建模型使其行为更接近人类。从计算机视觉到自然语言处理（NLP），这些模型成为了合成的，或者说人造的智能。本篇博客将基于第一章的内容，探讨什么是机器学习，以及如何使用T
初识TensorFlow Lite 这次选左边 androidui 机器学习 tensorflow android ios
1.摘要近年来，随着移动设备和应用的普及，及其软硬件的提升。另一方面，机器学习在近些年来也取得了不小成果。机器学习需要大量数据，而移动设备存在也产生大量数据，移动设备也需要机器学习的成果。由此出现了机器学习与移动设备的碰撞，在移动设备上使用、应用机器学习的成果是很有必要的。2.应用背景视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计
基于Azure云平台整合Delta Lake、Databricks和Azure Machine Learning的MLOps架构 weixin_30777913 azure microsoft 云计算架构
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks的机器学习工程（MLOps），提供可靠数据集使得训练数据版本化，确保模型复现性，并集成AzureMachineLearning，以便通过DeltaSharing共享数据集，支持多人协作。以下是基于Azure云平台整合DeltaLake、Databricks和AzureMachineLearning的MLOps架
大模型时代，新手和程序员如何转型入局AI行业？七七Seven～人工智能数据库学习 agi 前端语言模型
在当今大模型迅猛发展的环境下，人工智能的应用越来越广泛。然而，这些大模型的背后隐藏着更为深厚的基础技术——传统机器学习和神经网络。理解这些基础技术，不仅能够帮助我更好地使用大模型，还能为我提供创新和解决实际问题的能力。因此，在这个AI迅猛发展的时代，掌握传统机器学习和神经网络显得尤为重要。在近期的全国两会上，“人工智能”再次被提及，并成为国家战略的焦点。这一举措预示着在接下来的十年到十五年里，人工
技术解构麦萌短剧《命运旋涡》：从「时间序列的因果重构」到「对抗性干预的强化学习」短剧萌重构 python 机器学习
《命运旋涡》以「时间回溯」为技术内核，揭示了高维因果推理与对抗性干预的算法博弈。本文将通过机器学习视角，拆解这场时空防御战的底层逻辑。1.时间序列重构：循环神经网络中的记忆觉醒许晴（Agent_Xu）的重生可建模为时间序列的对抗性重采样：pythonclassTimeLoop(nn.Module):def__init__(self,init_step=24):#初始化至求婚前24小时的关键时间窗s
从小白到大神，有这些python库就够了，盘点python18个顶级第三方库。欧子有话说 Python python 人工智能开发语言 Python基础
前言作为一名Python开发者，你是否曾被庞大的项目需求压得喘不过气？亦或是需要解决一些高难度问题，却不知道该如何下手？不用担心，Python生态中琳琅满目的第三方库正是你的救星！Python的强大之处在于其生态系统——成千上万的库覆盖了Web开发、数据分析、图像处理、机器学习等各个领域。作为新入行的你，哪些库最值得使用呢？本文将详细介绍各领域的顶级库，并结合实际示例，帮助你快速上手。包含编程资料
通过git文件查看大模型下载链接的解决方案爱编程的喵喵 Python基础课程 python git 大模型下载链接
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了通过git文件查看大模型下载链接的解
大粤国际期货ML量化系统实战：用LSTM模型构建纳指期货策略 11435-62125 Q#1143562125 lstm 人工智能 rnn
#大粤国际期货ML量化系统实战（大粤袋里Q,1143+562+125）：用LSTM模型构建纳指期货策略【2025代码解析】==‌**发布日期**‌==：2025-02-27==‌**技术标签**‌==：#LSTM预测#量化系统#TensorFlow---##一、机器学习交易系统架构###1.策略核心组件（微服务架构）```mermaidgraphTDA[行情
Python机器学习：基础、算法与实战大梦想程序商店 python 机器学习算法开发语言人工智能
1:《Python机器学习：基础算法与实战》内容简介本书基于Python语言，结合实际的数据集，介绍了机器学习算法以及数据分析方法的应用。本书主要包含两部分内容，第一部分为Python机器学习入门知识：主要介绍了Python基础内容、Numpy与Pandas库数据操作、Matplotlib与Seaborn库数据可视化、Sklearn库机器学习，以及与机器学习相关的基础知识；第二部分为Python机
AI人工智能原理与Python实战：Python机器学习库介绍 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍人工智能（ArtificialIntelligence,AI）和机器学习（MachineLearning,ML）是当今最热门的技术领域之一。随着数据量的增加，以及计算能力的提升，人工智能技术的发展得到了巨大的推动。机器学习是人工智能的一个子领域，它旨在让计算机自动学习和理解数据，从而进行决策和预测。Python是一种高级编程语言，拥有简单易学的语法和强大的库支持。因此，Python成为
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置