BigDataDigest

关于机器学习实战，那些教科书里学不到的12个“民间智慧”

大数据文摘出品

来源：towardsml

编译：刘佳玮、王缘缘、Walker

机器学习算法被认为能够通过学习数据来弄清楚如何执行重要任务。

这意味着数据量越大，这些算法就可以解决更加复杂的问题。然而，开发成功的机器学习应用程序需要一定的“民间技巧”，这在教科书或机器学习入门课程中很难找到。

Pedro Domingos教授的一篇很好的研究论文，该论文汇集了机器学习研究人员和从业者的经验教训。

https://homes.cs.washington.edu/~pedrod/

要避免的陷阱，要关注的重要问题以及一些常见问题的答案。准备好去了解了吗？

1.学习=表示+评估+优化

你有一个应用程序，你认为机器学习可能是一个很好的选择。现在，在机器学习领域，每年都会有大量的机器学习算法可供选择，有数百种机器学习算法问世。应该使用哪一个？

在这个巨大的空间中不迷失的关键是要明白所有机器学习算法的都由三个核心要素组成：

表示：输入数据，即要使用的特征，学习器和分类器必须以计算机可以理解的语言表示。学习器可以学习的分类器集称为学习器的假设空间。如果分类器不在假设空间中，则无法进行学习。

澄清说明：分类器与学习器的含义是什么？假设你有训练数据，并使用你构建另一个程序（模型）的程序处理这些数据，例如决策树。学习器是从输入数据构建决策树模型的程序，而决策树模型是分类器（能够为每个输入数据实例提供预测输出的东西）。

评估：需要评估函数来区分好的分类和坏的分类。算法内部使用的评估函数可能与我们希望分类器优化的外部评估度量不同（为了便于优化，并且与后面讨论的问题有关）

优化：最后，我们需要一种方法来在分类器中进行搜索，以便我们可以选择最佳的分类器。学习器效率的关键是选择优化技术。通常从使用现成的优化器开始。如果需要，以后你可以用自己的设计替换它们。

下表显示了这三个组件中每个组件的一些常见示例。

表示

评估

优化

实例：K近邻、支持向量机

超平面：朴素贝叶斯、Logistic回归

决策树

规则集：命题规则、逻辑程序

图模型：贝叶斯网、条件随机场

准确/错误率

精准率/召回率

方差

似然函数

后验概率

信息增益

KL散度

成本-效用

差额

组合优化：贪心搜索、集束搜索、分支定界法

持续优化：无约束（梯度下降、共轭梯度、拟牛顿法）、有约束（线性规划、二次规划）

2.泛化才有用

机器学习的基本目标是概括超出训练集中的例子。因为，无论我们拥有多少数据，我们都不太可能在测试时再次看到这些确切的示例。在训练集上做得很好很容易。初学者中最常见的错误是测试训练数据并得到成功的假象。如果所选分类器随后在新数据上进行测试，则通常不会比随机猜测更好。因此，从一开始就设置一些数据，并且仅使用它来测试最终选择的分类器，然后在整个数据上学习最终分类器。

当然，保留数据会减少可用于训练的样本数。这可以通过交叉验证来缓解：比如，将你的训练数据随机分成十个子集，在训练其余部分时保持每个子集，在其未使用的示例上测试每个学习的分类器，并对结果求平均值，来看特定参数设置的效果如何。

3.只有数据还不够

当泛化是目标时，我们会遇到另一个主要后果：仅凭数据是不够的，无论你拥有多少数据。假设我们想学习一百万个例子中100个变量的布尔函数（0/1分类）。这意味着2 ^100-10^6个例子，你不知道它们的类。如果手头没有更多信息，这怎么能优于随机猜测呢？

似乎我们陷入了困境。幸运的是，我们想要在现实世界中学习的特性并不是从所有数学上可能的函数集中统一绘制的！实际上，非常一般的假设——就像具有相似类的类似示例——是机器学习如此成功的一个重要原因。

这意味着专业知识和对数据的理解对于做出正确的假设非常重要。对学习知识的需求应该不足为奇。机器学习并不神奇，它无法从无到有。它的作用是从更少的东西中获得更多。与所有工程一样，编程需要做很多工作：我们必须从头开始构建所有东西。学习更像是农业，让大自然完成大部分工作。农民将种子与营养物质结合起来种植农作物。学习者将知识与数据相结合以优化程序。

4.过拟合的多面性

过度拟合的问题是机器学习的问题。当你的学习器输出一个对训练数据100％准确但对测试数据只有50％准确的分类器时，实际上它可以输出一个对两者都准确度为75％的分类器，它已经过拟合。

机器学习中的每个人都知道过拟合，但它有多种形式，并不是很明显。理解过拟合的方法之一是将泛化误差分解为偏差和方差。

偏差是学习者一直学习同样错误的倾向。与真实信号无关，方差是学习随机事物的倾向。飞镖图比可以更好地理解这一点，如下图所示：

例如，线性学习器具有较高的偏差，因为当两个类之间的划分不是明确的超平面时，学习器无法正确地判别关系。决策树没有这个问题，因为它们的学习方法很灵活。但另一方面，它们可能有高度差异——在同一任务的不同训练数据集上学习的决策树通常是非常不同的，而实际上它们应该是相同的。

现在，如何处理过拟合？

可以在此处使用交叉验证，例如通过使用它来选择要学习的决策树的最佳大小。但请注意，这里还有一个问题：如果我们使用它来选择太多参数，它本身就会开始过拟合，我们又回到了同样的陷阱。

除了交叉验证之外，还有许多方法可以处理过拟合。最受欢迎的是在评估函数中添加正则化项。另一个选择是执行卡方等统计显著性检验，以分析添加更多复杂性是否会对类分布产生任何影响。这里的一个重点是没有特定的技术“解决”过拟合问题。例如，我们可以通过陷入欠拟合（偏差）的相反误差来避免过度拟合（方差）。同时避免两者都需要学习一个完美的分类器，并没有一种技术总能做到最好（没有免费的午餐）。

5.高维中的直觉失效

过拟合后，机器学习中最大的问题是维数的诅咒。这个表达式意味着当输入是高维的时，许多在低维度下工作正常的算法变得难以处理。

由于固定大小的训练集覆盖了输入空间的一小部分（可能的组合变得巨大），因此随着示例的维度（即特征的数量）的增长，正确泛化的难度呈指数级增加。但这就是为什么机器学习既有必要又有难度。正如你在下图所示，即使我们从1维过渡到3维，能够分辨出不同示例的工作似乎开始变得越来越难——在高维度上，所有示例都开始相似。

这里的一般问题是，我们来自三维世界的直觉使我们在高维度上失败。例如，高维度橙色的大部分体积都在外部，而不是内部！

令人难以置信的是：如果恒定数量的示例在高维超立方体中均匀分布，并且如果我们通过将其刻在超立方体中来近似超球面，则在高维度中，超立方体的几乎所有体积都在超球面之外。这是个坏消息。因为在机器学习中，一种类型的形状通常由另一种形状近似。

澄清注意：如果你对所有“夸大其词”感到困惑，超立方体内部的超球面看起来像是这样的二维和三维：

因此，你现在可以理解，构建2维或3维分类器很容易，但在高维度上，很难理解发生了什么。反过来，这使得设计好的分类器变得困难。事实上，我们经常陷入这样的陷阱：认为获取更多特征不会带来负面影响，因为在最坏的情况下，它们不会提供关于类的新信息。但事实上，维度的诅咒可能会超过它们的好处。

启示：下次当你考虑添加更多特征时，请考虑当你的维度变得太大时可能出现的潜在问题。

6.特征工程是关键

当一天结束时，所有机器学习项目中有成功的，也有失败的。它们之间有区别呢？这个不难想到，最重要的因素就是使用的特征。如果有许多独立的特征，并且每个特征都与类的相关性很好，那么机器学习就很容易。相反，如果类是需要通过复杂方式处理特征后才能被使用，那么事情就变难了，这也就是特征工程——根据现在输入的特征创建新的特征。

通常原始数据格式基本不能为建模所用。但你可以从中构建可用于学习的特征。事实上，这是机器学习项目中的最花精力的部分。但这也是最有趣的部分之一，在这里直觉、创造力和“小技巧”与技术是同样重要的东西。

经常会有初学者惊讶一个机器学习项目中花费在训练上的时间竟如此之少。但是，如果考虑收集数据，整合数据，清理数据并对其进行预处理的时间以及在特征选择上的试错次数，这个时间就相对合理。

更何况，机器学习在构建数据集和运行学习样例上不是一次性的过程，而是一个迭代的过程，需要运行学习样例，分析结果，修改数据或学习样例，以及重复上述过程。训练往往是最快的部分，但那是因为我们对这部分相当熟练！特征工程很难，因为它是专业领域的，不过学习器在很大程度上是通用的。当然，机器学习界的梦想之一就是提高特征工程的自动化程度。

7.丰富的数据胜过聪明的算法

假设你已经构建了一组最好的特征，但是你得到的分类器仍然不够准确。你现在还可以做什么？有两个主流的办法：

设计更好的机器学习算法或者是收集更多数据（更多样例，可能还有更多原始特征）。机器学习研究人员会去改进算法，但在现实中，通往成功的最快途径往往是获取更多数据。

根据经验，具有大量数据的傻瓜算法胜过一个具有适度数量的聪明算法。

在计算机科学中，通常情况下，两个主要的资源限制是时间和内存。但在机器学习中，还有第三个约束：训练数据。在这三个中，今天的主要瓶颈是时间，因为有大量的可用数据，但没有足够的时间来处理它们，所以数据被闲置了。这意味着在实践中，更简单的分类器会胜出，因为复杂的分类器需要很长的学习时间。

使用更聪明的算法并不会给出更好的结果，部分原因是在一天中它们都在做同样的事情，将所有学习样例基本上都是通过将相邻的样例分组到同一个类来工作的。关键的区别在于对“相邻”的定义。

当我们有非均匀分布的数据时，即使复杂的学习样例也可以产生非常不同的边界来对结果进行分类，最终它们仍然在重要区域做出相同的预测（具有大量训练样例的区域，因此也可能出现大多数文本样例）。正如下图所示，无论是花式曲线，直线还是逐步边界，我们都可以得到相同的预测：

通常，首先尝试最简单的学习器（例如，逻辑回归前的朴素贝叶斯，支持向量机之前的邻近算法）。复杂的学习器很吸引人，但它们通常很难使用，因为它们需要控制更多的旋钮以获得好的结果，并且因为它们的内部更像是黑箱。

8.组合多个模型，而非只用一个

在机器学习的早期阶段，努力尝试使用多种学习器的各种变形，并选择最好的那个。但是研究人员发现，如果不是选择其中最好的单一模型，而是结合各种变形会得到更好的结果，建模者只需稍加努力就可以获得显著提升的效果。现在建这种模型融合非常普遍：

在最简单的技术称为bagging算法，我们使用相同的算法，但在原始数据的不同子集上进行训练。最后，我们取均值或通过某种投票机制将它们组合起来。

Boosting算法中学习器按顺序逐一训练。随后的每一个都将其大部分注意力集中在前一个错误预测的数据点上。我们会一直训练到对结果感到满意为止。

Stacking算法中，不同独立分类器的输出成为新分类器的输入，该分类器给出最终预测。

在Netflix算法大赛中，来自世界各地的团队竞相建立最佳的视频推荐系统。随着比赛的进行，发现将学习器与其他团队相结合可以获得了最佳成绩，并且合并为越来越大的团队。获胜者和亚军都是超过100个学习器的叠加集成，两个集成的结合进一步改善了结果。算法组合将更好！

9.理论保证和实际具有差异

机器学习论文充满理论保证。我们应该对这些保证做些什么？归纳法传统上与演绎法形成对比：在演绎法中，你可以保证结论是正确的，在归纳法中就很难说。最近几十年的一个重要进展是我们认识到可以做归纳结果正确性的保证，前提是如果我们愿意接受概率保证。

例如，我们可以保证，给定一个足够大的训练集，在很大的概率上，学习器会返回一个成功泛化的假设或无法找到一个保持正确的假设。

另一种常见的理论保证是给定无穷的数据，学习器可以保证输出正确的分类器。在实践中，由于我们之前讨论过的偏置-方差的权衡，如果在无穷数据情况下，学习器A比学习器B好，那么在有限数据的情况下B通常比A好。

理论保证在机器学习中的主要作用不是作为实际决策的标准，而是作为理解算法设计的起点。

10.简单并不意味着准确

在机器学习中，奥卡姆剃刀原理通常被认为是给定两个具有相同训练误差的分类器，两者中较简单的可能具有较低的测试误差。

但事实并非如此，我们之前看到了一个反例：即使在训练误差达到零之后，通过添加分类器，一个boosted ensemble的泛化误差也会继续改善。与直觉相反，模型的参数数量与过拟合之间没有必要的联系。也就是说在机器学习中，一个更简单的假设仍然应该是首选，因为简单本身就是一种优势，而不是因为它意味着准确性。

11.可表示不等于可学习

仅仅因为可以表示函数并不意味着可以学习它。例如，标准决策树学习器无法学习叶子多于训练样例的树木。

给定有限的数据、时间和内存，标准学习器只能学习所有可能功能的一小部分，并且这些子集对于不同表示的学习器是不同的。因此，这里的关键是尝试不同的学习器（并可能将它们结合起来）是值得的。

12.相关性不意味着因果性

我们都听说过相关性并不意味着因果性，但仍然有人常常倾向于认为相关性意味着因果关系。

通常，学习预测模型的目标是将它们用作行动指南。如果我们发现用户在超市经常买了啤酒就会买尿不湿，那么也许把啤酒放在尿不湿部分旁边会增加销量。但除非我们进行真实的实验，否则很难判断这是否属实。相关性标志着一个潜在的因果关系，我们可以将其作为进一步研究的方向，而非我们的最终结论。

结论

跟其他学科一样，机器学习有很多“民间智慧”，很难获得但对成功至关重要。感谢Domingos教授今天给我们传授了一些智慧。希望这个攻略对你有帮助。可以在下面评论区留言，说出你的想法哦～

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

关于机器学习实战，那些教科书里学不到的12个“民间智慧”

你可能感兴趣的:(人工智能)