人工智能学家

吴恩达：机器学习的六个核心算法

来源：前沿科技

编译：黄楠

编辑：陈彩娴

最近，吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文，总结了机器学习领域多个基础算法的历史溯源。

文章开头，吴恩达回忆他的研究历程中曾有一次抉择：

多年前，在一次项目中，选择算法时，他不得不在神经网络与决策树学习算法之间做选择。考虑到计算预算，他最终选择了神经网络，在很长的一段时间内弃用增强决策树。

这是一个错误的决定，「幸好我的团队很快修改了我的选择，项目才成功。」吴恩达谈道。

他由此感叹，不断学习与更新基础知识是十分重要的。与其他技术领域一样，随着研究人员的增加、研究成果数量的增长，机器学习领域也在不断发展。但有些基础算法与核心思想的贡献是经得起时间考验的：

算法：线性和逻辑回归、决策树等
概念：正则化、优化损失函数、偏差/方差等

在吴恩达看来，这些算法与概念是许多机器学习模型的核心思想，包括房价预测器、文本-图像生成器（如DALL·E）等。

在最新的这篇文章中，吴恩达与团队调研了六种基础算法的来源、用途、演变等，并提供了较为详细的讲解。

这六种算法分别是：线性回归、逻辑回归、梯度下降、神经网络、决策树与k均值聚类算法。

线性回归：直的&窄的

线性回归是机器学习中的一个关键的统计方法，但它并非不战而胜。它由两位杰出的数学家提出，但200 年过去了，这个问题仍未解决。长期存在的争议不仅证明了该算法具有出色的实用性，还证明了它的本质十分简单。

那么线性回归到底是谁的算法呢？

1805 年，法国数学家 Adrien-Marie Legendre 发表了将一条线拟合到一组点的方法，同时试图预测彗星的位置（天体导航是当时全球商业中最有价值的科学方向，就像今天的人工智能一样）。

图注：Adrien-Marie Legendre 的素描画像

四年后，24 岁的德国神童 Carl Friedrich Gauss （高斯）坚称他自 1795 年以来一直在使用它，但认为它太琐碎了，无法写。高斯的主张促使Legendre匿名发表了一份文章，称“一位非常著名的几何学家毫不犹豫地采用了这种方法。”

图注：Carl Friedrich Gauss

斜率和偏差：当结果与影响它的变量之间的关系遵循直线时，线性回归很有用。例如，汽车的油耗与其重量成线性关系。

汽车的油耗 y 与其重量 x 之间的关系取决于直线的斜率 w（油耗随重量上升的幅度）和偏置项 b（零重量时的油耗）：y=w*x+b。

在训练期间，给定汽车的重量，算法会预测预期的油耗。它比较了预期和实际的油耗。然后，它将平方差最小化，通常通过普通最小二乘技术，磨练 w 和 b 的值。

考虑汽车的阻力可以生成更精确的预测。附加变量将线延伸到平面。通过这种方式，线性回归可以容纳任意数量的变量/维度。

普及的两个步骤：该算法立即帮助航海者追踪星星，以及帮助后来的生物学家（尤其是查尔斯·达尔文的堂兄Francis Galton）识别植物和动物的可遗传特征。这两项深入发展释放了线性回归的广泛潜力。1922 年，英国统计学家 Ronald Fisher 和 Karl Pearson 展示了线性回归如何适应相关性和分布的一般统计框架，使其在所有科学中都有用。而且，近一个世纪后，计算机的出现提供了数据和处理能力，可以更大程度地利用它。

应对歧义：当然，数据永远不会被完美地衡量，有些变量比其他变量更重要。这些生活事实激发了更复杂的变体。例如，带有正则化的线性回归（也称为「岭回归」，ridge regression）鼓励线性回归模型不要过多地依赖于任何一个变量，或者更确切地说，均匀地依赖于最重要的变量。如果为了简单起见，另一种形式的正则化（L1 而不是 L2）会产生 lasso（压缩估计），鼓励尽可能多的系数为零。换句话说，它学会选择具有高预测能力的变量并忽略其余的。弹性网络结合了这两种类型的正则化。当数据稀疏或特征看起来相关时，它很有用。

在每个神经元中：现在，简单的版本仍然非常有用。神经网络中最常见的神经元类型是线性回归模型，随后是非线性激活函数，使线性回归成为深度学习的基本组成部分。

逻辑回归：跟随曲线

曾经有一段时间，逻辑回归只用于对一件事进行分类：如果你喝了一瓶毒药，你可能会被贴上的标签是“活着”还是“死去”呢？时代变了，今天，不仅呼叫紧急服务为这个问题提供了更好的答案，而且逻辑回归也成为了深度学习的核心。

毒物控制：

逻辑函数可以追溯到 1830 年代，当时比利时统计学家 P.F. Verhulst 发明它来描述人口动态：随着时间的推移，指数增长的初始爆炸随着它消耗可用资源而趋于平缓，从而产生特征逻辑曲线。一个多世纪过去后，美国统计学家 E. B. Wilson 和他的学生 Jane Worcester 又设计了逻辑回归来计算给定有害物质有多少是致命的。

图注：P.F. Verhulst

拟合函数：逻辑回归将逻辑函数拟合到数据集，以便预测给定事件（例如，摄入士的宁）发生特定结果（例如，过早死亡）的概率。

训练水平调整曲线的中心位置，垂直调整曲线的中间位置，以最大限度地减少函数输出与数据之间的误差。

将中心调整到右侧或左侧意味着杀死普通人需要或多或少的毒药。陡峭的坡度意味着确定性：在中途点之前，大多数人幸存下来；超过一半，「就只能说再见了」（死亡的意思）。缓坡更宽容：低于曲线中部，一半以上幸存；再往上，只有不到一半的人会幸存。

在一个结果和另一个结果之间设置一个阈值，比如 0.5，曲线就变成了一个分类器。只需在模型中输入剂量，您就会知道您应该计划聚会还是葬礼。

更多结果：Verhulst 的工作发现了二元结果的概率，忽略了进一步的可能性，例如中毒受害者可能会进入来世的哪一边。他的继任者扩展了算法：

在 1960 年代后期，英国统计学家 David Cox 和荷兰统计学家 Henri Theil 独立工作，对具有两种以上可能结果的情况进行了逻辑回归。

进一步的工作产生了有序逻辑回归，其中结果是有序值。

为了处理稀疏或高维数据，逻辑回归可以利用与线性回归相同的正则化技术。

图注：David Cox

多功能曲线：逻辑函数以相当准确的方式描述了广泛的现象，因此逻辑回归在许多情况下提供了有用的基线预测。在医学上，它可以估计死亡率和疾病风险。在政治学中，它预测选举的赢家和输家。在经济学中，它预测商业前景。更重要的是，它在各种各样的神经网络中驱动一部分神经元（其中非线性是 Sigmoid 函数）。

梯度下降：一切都在下坡

想象一下黄昏后在山上徒步旅行，发现脚下什么都看不到。而且您的手机电池没电了，因此您无法使用 GPS 应用程序找到回家的路。您可能会通过梯度下降找到最快的路径。小心不要从悬崖上走。

太阳和地毯：梯度下降比通过陡峭的地形下降更有利。1847年，法国数学家Augustin-Louis Cauchy发明了近似恒星轨道的算法。60 年后，他的同胞 Jacques Hadamard 独立开发了它来描述薄而灵活的物体（如地毯）的变形，这可能会使膝盖向下徒步更容易。然而，在机器学习中，它最常见的用途是找到学习算法损失函数的最低点。

图注：Augustin-Louis Cauchy

向下爬：经过训练的神经网络提供了一个函数，该函数在给定输入的情况下计算所需的输出。训练网络的一种方法是通过迭代计算实际输出与期望输出之间的差异，然后更改网络的参数值以缩小差异，从而将输出中的损失或误差最小化。梯度下降缩小了差异，将计算损失的函数最小化。网络的参数值相当于地形上的一个位置，损失的是当前高度。随着你的下降，你可以提高网络计算接近所需输出的能力。可见性是有限的，因为在典型的监督学习情况下，该算法仅依赖于网络的参数值和损失函数的梯度或斜率——即你在山上的位置和你脚下的斜率。

基本方法是向地形下降最陡的方向移动。诀窍是校准你的步幅。步幅太小，就需要很长时间才能取得进展；步幅太大，你就会跳入未知的领域，可能是上坡而不是下坡。

给定当前位置，算法通过计算损失函数的梯度来估计最快下降的方向。梯度指向上坡，那么该算法就是通过减去梯度的一小部分来以相反的方向前进。称为学习率的分数 α 决定了再次测量梯度之前的步长。

反复做这几个步骤，希望你能到达一个山谷。恭喜！

卡在山谷里：太糟糕了，你的手机没电了，因为算法可能没有把你推到凸山的底部。你可能会陷入由多个山谷（局部最小值）、山峰（局部最大值）、鞍点（鞍点）和高原组成的非凸面景观中。事实上，图像识别、文本生成和语音识别等任务都是非凸的，并且已经出现了梯度下降的许多变体来处理这种情况。例如，该算法可能具有帮助它放大小幅上涨和下跌的动量，从而使其更有可能到达底部。研究人员设计了如此多的变体，以至于看起来优化器的数量与局部最小值一样多。幸运的是，局部最小值和全局最小值往往大致相等。

最优优化器：梯度下降是寻找任一函数的最小值的明确选择。在可以直接计算精确解的情况下——例如，具有大量变量的线性回归任务中——它可以逼近一个值，而且通常速度更快、成本更低。但它确实在复杂的非线性任务中发挥了作用。凭借梯度下降和冒险精神，你可能可以及时赶出山区吃晚饭。

神经网络：寻找函数

让我们先把这个问题弄清楚：大脑不是一个图形处理单元集，如果它是的话，那它运行的软件要比典型的人工神经网络复杂得多。而神经网络的灵感来自大脑的结构：一层层相互连接的神经元，每个神经元根据其相邻状态来计算自己的输出，由此产生的一连串活动形成了一个想法——或识别出一张猫的照片。

从生物到人工：大脑通过神经元之间相互作用来学习的想法可以追溯到 1873 年，但直到 1943 年，美国神经科学家 Warren McCulloch 和 Walter Pitts 才利用简单的数学规则建立了生物神经网络模型。1958 年，美国心理学家Frank Rosenblatt开发出感测器——这是一种在打卡机上实现的单层视觉网络，旨在为美国海军建立一个硬件版本。

图注：Frank Rosenblatt

越大越好：Rosenblatt 的发明只能识别单线分类。之后，乌克兰数学家 Alexey Ivakhnenko 和 Valentin Lapa 通过在任意层数中堆叠神经元网络，克服了这一限制。1985 年，独立工作的法国计算机科学家 Yann LeCun、David Parker 和美国心理学家 David Rumelhart 及其同事，描述了使用反向传播来有效训练此类网络。在新千年的第一个十年中，包括 Kumar Chellapilla、Dave Steinkraus 和 Rajat Raina（与吴恩达合作）在内的研究人员通过使用图形处理单元进一步推动了神经网络的发展，这使得越来越大的神经网络能从互联网生成的海量数据中得到学习。

适合每项任务：神经网络背后的原理很简单：对于任何任务，都有一个可执行它的函数。一个神经网络通过组合多个简单函数构成可训练函数，每个函数由单个神经元执行。一个神经元的功能由称为「权重」的可调参数决定。给定这些权重和输入示例及其所需输出的随机值，就可以反复更改权重，直到可训练的函数能完成手头的任务。

一个神经元可接受各种输入（例如，代表像素或单词的数字，或前一层的输出），将它们与权重相乘，乘积相加，并得出由开发人员选择的非线性函数或激活函数的总和。期间要考虑到它是线性回归、加上一个激活函数。

训练修改权重。对于每个示例输入，网络会计算一个输出并将其与预期输出进行比较。反向传播可通过梯度下降来改变权重，以减少实际输出和预期输出间的差异。当有足够多（好的）例子重复这个过程足够多次，网络就能学会执行这个任务。

黑匣子：虽然运气好的话，一个训练有素的网络可以完成它的任务，但最终你要阅读一个函数，往往会非常复杂——包含数千个变量和嵌套的激活函数——以至于解释网络是如何成功完成其任务也是非常困难的。此外，一个训练有素的网络只和它所学的数据一样好。例如，如果数据集有偏差，那么网络的输出也会出现偏差。如果它只包含猫的高分辨率图片，那它对低分辨率图片的反应就不得而知了。

一个常识：在报道 Rosenblatt 于1958年发明的感测器时，《纽约时报》开辟了人工智能炒作的道路，报道中提到“美国海军期望拥有一台会走路、说话、看、写、自我复制和意识到自己存在的电子计算机雏形。” 虽然当时的感测器没有达到这个要求，但它产生了许多令人印象深刻的模型：用于图像的卷积神经网络；文本的循环神经网络；以及用于图像、文本、语音、视频、蛋白质结构等的transformers。它们已经做出了令人惊叹的事情，像下围棋时的表现超过了人类水平，在诊断X射线图像等实际任务中也接近人类水平。然而，它们在常识和逻辑推理方面的问题仍然较难应对。

决策树：从根到叶

亚里士多德是一个什么样的「野兽」？这位哲学家的追随者、第三世纪期间生活在叙利亚的 Porphyry 想出了一个合乎逻辑的方法来回答这个问题。他将亚里士多德提出的“存在类别”从一般到具体组合起来，将亚里士多德依次归入到每个分类中：亚里士多德的存在是物质的而不是概念或精神；他的身体是有生命的而不是无生命的；他的思想是理性的而不是非理性的。因此，他的分类是人类。中世纪的逻辑教师将这个序列绘制为垂直流程图：一个早期的决策树。

数字差异：快进到 1963 年，密歇根大学社会学家John Sonquist和经济学家James Morgan在将调查的受访者分组时，首次在计算机中实行了决策树。随着自动训练算法软件的出现，这种工作变得很普遍，如今包括 scikit-learn 等在内的各种机器学习库也已经使用决策树。这套代码是由斯坦福大学和加州大学伯克利分校的四位统计学家花费了10 年时间开发的。到今天，从头开始编写决策树已经成为了《机器学习 101》中的一项家庭作业。

空中的根：决策树可以执行分类或回归。它向下生长，从根部到树冠，将一个决策层次结构的输入示例分类为两个（或更多）。想到德国医学家和人类学家Johann Blumenbach的课题：大约在 1776 年，他首先将猴子与猿（撇开人类除外）区分开来，在此之前，猴子和猿是被归为一类的。这种分类取决于各种标准，例如是否有尾巴、胸部狭窄或宽阔、是直立还是蹲伏、还有智力的高低。使用经训练的决策树来为这类动物贴上标签，逐一考虑每个标准，最终将这两组动物分开。

这棵树从一个可视为包含了所有案例的生物数据库的根节点出发——黑猩猩、大猩猩和红毛猩猩，以及卷尾猴、狒狒和狨猴。根会在两个子节点间提供选择，是否表现出某种特定特征，导致两个子节点包含具有和不具有该特征的示例。以此类推，这个过程中以任意数量的叶节点结束，每个叶节点都包含大部分或全部属于一个类别。

为了成长，树必须找到根决策。要做选择，则得考虑所有的特征及其价值——后附肢、桶状胸等——并选择能够最大限度提高分割纯度的那个特征。「最佳纯度」被定义为一个类别示例会 100% 进入一个特定的子节点、而不进入另一个节点。分叉很少在只做了一个决定之后就百分之百纯粹、且很可能永远也达不到。随着这个过程继续进行，产生一个又一个层次的子节点，直至纯度不会因为考虑更多的特征而增加多少。此时，这棵树树已经完全训练好了。

在推理时，一个新的示例从上到下经历过决策树，完成每个级别不同决策的评估。它会得到它所在叶节点所包含的数据标签。

进入前 10 名：鉴于 Blumenbach 的结论（后来被Charles Darwin推翻），即人类与猿的区别在于宽阔的骨盆、手和紧牙的牙齿，如果我们想扩展决策树以不仅分类猿和猴子，而是对人类进行分类，那会怎么样呢？澳大利亚计算机科学家 John Ross Quinlan 在 1986 年通过 ID3 实现了这一可能，它扩展了决策树，以支持非二元结果。2008 年，在IEEE国际数据挖掘会议策划的数据挖掘十大算法名单中，一项命名为 C4.5 的扩展细化算法名列前茅。在一个创新猖獗的世界里，这就是持久力。

扒开树叶：决策树确实有一些缺点。它们很容易通过增加多级别层次来过度拟合数据，以至于叶节点只包括一个例子。更糟糕的是，它们很容易出现蝴蝶效应：更换一个例子，长出来的树就大不相同。

走进森林：美国统计学家 Leo Breiman 和新西兰统计学家 Adele Cutler 将这一特征转化为优势，于 2001 年开发了随机森林（random forest）——这是一个决策树的集合，每个决策树会处理不同的、重叠的示例选择，并对最终结果进行投票。随机森林和它的表亲XGBoost不太容易过度拟合，这有助于使它们成为最受欢迎的机器学习算法之一。这就像让亚里士多德、Porphyry、Blumenbach、Darwin、 Jane Goodall、Dian Fossey和其他 1000 位动物学家一起在房间里，确保你的分类是最好的。

K均值聚类：群体思维

如果你在聚会上与其他人站得很近，那么你们很可能有一些共同点。这就是使用 k 均值聚类将数据点分组的想法。无论是通过人类机构还是其他力量形成的群体，这个算法都会找到它们。

从爆炸到拨号音：美国物理学家 Stuart Lloyd 是贝尔实验室标志性创新工厂和发明原子弹的曼哈顿计划的校友，他于 1957 年首次提出 k-means 聚类，以在数字信号中分配信息，但直到 1982 年才发表这个工作：

论文地址：https://cs.nyu.edu/~roweis/csc2515-2006/readings/lloyd57.pdf

与此同时，美国统计学家 Edward Forgy 在 1965 年描述了一种类似的方法，导致了它的替代名称为「Lloyd-Forgy 算法」。

寻找中心：考虑将聚类分成志同道合的工作组。给定房间中参与者的位置和要形成的组数，k-means 聚类可以将参与者分成大小大致相等的组，每个组都聚集在一个中心点或质心周围。

在训练期间，算法最初通过随机选择 k 人来指定 k 个质心。（K 必须手动选择，找到一个最优值有时非常重要。）然后它通过将每个人与最近的质心相关联来增长 k 个集群。

对于每个集群，它计算分配到该组的所有人的平均位置，并将该平均位置指定为新的质心。每个新的质心可能都没有被一个人占据，但那又如何呢？人们倾向于聚集在巧克力和火锅周围。

计算出新的质心后，算法将个体重新分配到离他们最近的质心。然后它计算新的质心，调整集群，等等，直到质心（以及它们周围的组）不再移动。之后，将新成员分配到正确的集群就很容易。让他们在房间里就位并寻找最近的质心。

预先警告：鉴于最初的随机质心分配，你可能最终不会与你希望与之相处的以数据为中心的可爱 AI 专家在同一组中。该算法做得很好，但不能保证找到最佳解决方案。

不同的距离：当然，聚类对象之间的距离不需要很大。两个向量之间的任何度量都可以。例如，k-means 聚类可以根据他们的服装、职业或其他属性来划分他们，而不是根据物理距离对参加派对的人进行分组。在线商店使用它根据客户的喜好或行为来划分客户，天文学家也可以将相同类型的星星分在一组。

数据点的力量：这个想法产生了一些显着的变化：

K-medoids 使用实际数据点作为质心，而不是给定集群中的平均位置。中心点是可以将到集群中所有点的距离最小化的点。这种变化更容易解释，因为质心始终是数据点。

Fuzzy C-Means Clustering 使数据点能够不同程度地参与多个集群。它根据与质心的距离，用集群的度来代替硬簇分配。

n 维狂欢：尽管如此，原始形式的算法仍然广泛有用——特别是因为作为一种无监督算法，它不需要收集昂贵的标记数据。它的使用速度也越来越快。例如，包括 scikit-learn 在内的机器学习库受益于 2002 年添加的 kd-trees，这些 kd-trees 可以非常快速地划分高维数据。

原文链接：

https://read.deeplearning.ai/the-batch/issue-146/

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

吴恩达：机器学习的六个核心算法

你可能感兴趣的:(算法,神经网络,决策树,大数据,编程语言)