喜欢打酱油的老鸟

PyTorch攻势凶猛，程序员正在抛弃TensorFlow？

2019-11-11 19:42:09

来源 | The Gradient

译者 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

自 2012 年深度学习重新获得重视以来，许多机器学习框架便争相成为研究人员和行业从业人员的新宠。从早期的学术成果 Caffe 和 Theano ，到背靠庞大工业支持的 PyTorch 和 TensorFlow，大量的选择让我们很难跟踪最流行的框架到底是哪个。

如果你平常只看 Reddit，可能会认为每个人都在切换到 PyTorch。如果根据 Francois Chollet 的Twitter来判断，TensorFlow / Keras 则可能是最受欢迎的，而 PyTorch 的发展势头却停滞不前。

在 2019 年，机器学习框架之战仍然由两个主要竞争者主导：PyTorch 和 TensorFlow。我的分析表明，研究人员正在放弃 TensorFlow 并大量涌向 PyTorch。同时，在行业中，Tensorflow 当前是首选平台，但从长久来看可能并非如此。

首先，我们先对这两者的特性和有点进行简单的比较：

TF是目前深度学习的主流框架，Tensorflow主要特性：

TensorFlow支持python、JavaScript、C ++、Java和Go，C＃和Julia等多种编程语言。
TF不仅拥有强大的计算集群，还可以在iOS和Android等移动平台上运行模型。
TF编程入门难度较大。初学者需要仔细考虑神经网络的架构，正确评估输入和输出数据的维度和数量。
TF使用静态计算图进行操作。也就是说我们需要先定义图形，然后运行计算，如果我们需要对架构进行更改，我们会重新训练模型。选择这样的方法是为了提高效率，但是许多现代神经网络工具能够在学习过程中考虑改进而不会显着降低学习速度。在这方面，TensorFlow的主要竞争对手是PyTorch 。

TensorFlow优点：

它非常适合创建和试验深度学习架构，便于数据集成，如输入图形，SQL表和图像。
它得到谷歌的支持，这就说明该模型短期内不会被抛弃，因此值得投入时间来学习它。

PyTorch基本特性：

与TensorFlow不同，PyTorch库使用动态更新的图形进行操作。这意味着它可以在流程中更改体系结构。
在PyTorch中，您可以使用标准调试器，例如pdb或PyCharm。

PyTorch优点：

训练神经网络的过程简单明了。同时，PyTorch支持数据并行和分布式学习模型，并且还包含许多预先训练的模型。
PyTorch更适合小型项目和原型设计。

再来看看 PyTorch 是如何渐渐缩小与 TensorFlow 之间的差距的。

PyTorch在研究领域的主导地位不断提高

让我们看数据说话。下图显示了在每个顶级研究会议上，使用 PyTorch 的论文与使用 Tensorflow 或 PyTorch 的论文之间的比率。所有的直线都在向上倾斜，2019 年的每个主要会议的论文都用 PyTorch 实现。

会议说明：

CVPR, ICCV, ECCV - 计算机视觉会议

NAACL, ACL, EMNLP - NLP 会议

ICML, ICLR, NeurIPS - 综合 ML 会议

有关数据收集过程的详细信息

该图根据过去几年在大型 ML 会议上发表的所有论文生成。根据论文是否提及 PyTorch 或TensorFlow 进行分类，但不包括与 Google 或 Facebook 关联的作者以及同时提及 Tensorflow和 PyTorch 的论文。这些去处的因素可以在附录中找到 https://thegradient.pub/p/cef6dd26-f952-4265-a2bc-f8bfb9eb1efb/

图的交互式版本：https://chillee.github.io/pytorch-vs-tensorflow/

如果你需要更多证据证明 PyTorch 在研究界的发展速度，下面是 PyTorch 与 TensorFlow 原始统计表。

2018 年，PyTorch 是少数派。现在，它却已经占据绝对优势，使用 PyTorch 的 CVPR 占比 69％，NAACL 和 ACL 的占比在 75％以上，而 ICLR 和 ICML 的占比在 50％以上。PyTorch 不仅在视觉和语言会议上的统治地位最强（分别是 TensorFlow 的 2 倍和 3 倍），在诸如 ICLR 和 ICML 之类的综合机器学习会议上也比 TensorFlow 受欢迎。

尽管有些人认为 PyTorch 仍然是一个新贵框架，试图在 TensorFlow 主导的世界中开拓一席之地，但数据却揭示了另一个真相。除了 ICML 之外，TensorFlow 的增长速度甚至无法与论文增长速度保持同步。在 NAACL、ICLR 和 ACL 上，今年 TensorFlow 实现的论文实际上少于去年。

不是 PyTorch 需要担心它的未来，而是 TensorFlow。

为什么研究人员喜欢 PyTorch？

简单。它与 numpy 类似，非常具有 python 风格，并且可以轻松地与其他 Python 生态系统集成。例如，你可以在 PyTorch 模型中的任何地方简单地插入一个 pdb 断点就能用了。在TensorFlow 中，调试模型需要有效时间，且复杂得多。
很棒的 API。与 TensorFlow 的 API 相比，大多数研究人员更喜欢 PyTorch 的 API。一方面是因为 PyTorch 的设计更好，另一方面是 TensorFlow 多次切换 API（例如“图层”->“超薄”->“估算器”->“ tf.keras”）的操作相比之下“智障”的多。
性能。尽管事实上 PyTorch 的动态图进行优化机会更少，但有许多传闻称 PyTorch 的速度甚至快于 TensorFlow。目前尚不清楚这是否真的成立，但至少，TensorFlow 在这一领域还没有获得决定性的优势。

TensorFlow在研究领域的前景如何？

即使 TensorFlow 在功能方面与 PyTorch 达到了同等水平，PyTorch 也已经覆盖了大多数社区。这意味着 PyTorch 的实现将更容易找到，作者也将受到激励，更多地使用 PyTorch 发布代码（方便人们使用），随之你的合作者很可能会更喜欢 PyTorch。因此，回迁到 TensorFlow 2.0可能很慢。

TensorFlow 在 Google / DeepMind 中将始终拥有一定的受众群体，但是我不确定 Google 是否最终会缓下来。即使是现在，Google 计划招募的许多研究人员已经在不同程度上偏爱 PyTorch，而且我听到有人抱怨说 Google 内部的许多研究人员都希望使用 TensorFlow 以外的框架。

此外，PyTorch 的统治地位可能会开始切断 Google 研究人员与其他研究社区的联系。他们不仅很难在外部研究的基础上进行构建，而且外部研究人员也不太可能在 Google 发布的代码基础上进行构建。

TensorFlow 2.0 是否将获得新的 TensorFlow 用户还有待观察。尽管 eager 模式一定会很吸引人，但对于 Keras API 就不一定了。

PyTorch和TensorFlow用于生产

尽管 PyTorch 现在在研究领域中处于主导地位，但快速过一下产业界就会发现，TensorFlow 仍然是主导框架。例如，基于 2018 年至 2019年的数据，在公共招聘平台上，TensorFlow 的招聘岗位有 1541个，而 PyTorch 为 1437 个，Medium 文章中 TensorFlow 相关文章有 3230 篇，PyTorch 为 1200 篇，GitHub 上 TensorFlow 和 PyTorch 的 Star 数分别为 1.37 万个和 7.2k。

因此，如果 PyTorch 在研究人员中变得如此受欢迎，为什么它在工业上没有获得同样的成功呢？很明显，第一个答案就是惯性。TensorFlow 早于 PyTorch 出现，而且行业采用新技术的速度比研究人员要慢。另一个原因是 TensorFlow 在生产方面比 PyTorch 更好。但是，这是什么意思？

要回答这个问题，我们需要知道研究人员和行业的需求有何不同。

研究人员关心他们能够以多快的速度进行研究，这类研究通常是在相对较小的数据集（可以容纳在一台计算机上的数据集）上运行的，并且运行在 <8 个 GPU 上。通常，主要决定因素不在于性能方面，而在于快速实现他们的新想法的能力。另一方面，产业界认为性能是重中之重。尽管将运行时间提高 10％对研究人员而言毫无意义，但这可以直接为公司节省数百万美元的费用。

另一个区别是部署。研究人员将在自己的计算机或专用于运行研究工作的服务器集群上进行实验。另一方面，行业有很多限制/要求。

没有 Python。一些公司使用的服务器在运行 Python 时开销太大。
移动。你无法在移动二进制文件中嵌入 Python 解释器。
服务。功能全面，例如无停机更新模型，在模型之间无缝切换，在预测时进行批处理等。

TensorFlow 是专门针对这些要求而构建的，并为所有这些问题提供了解决方案：图形格式和执行引擎本来就不需要 Python，TensorFlow Lite 和 TensorFlow Serving 分别解决了移动和服务上的顾虑。

从历史上看，PyTorch 未能满足这些考虑，因此大多数公司目前在生产中使用 TensorFlow。

框架“融合”

2018 年底，两个重大事件让事情变得棘手：

PyTorch 引入了 JIT 编译器和“ TorchScript”，从而引入了基于图形的功能。
TensorFlow 宣布默认情况下它们将转为 eager 模式。

显然，这些都是试图解决各自弱点的举动。那么这些功能到底是什么？它们提供了什么？

PyTorch Torch脚本

PyTorch JIT 是 PyTorch 的中间表示（IR），称为 TorchScript。TorchScript 是 PyTorch 的“图形”表示。你可以使用跟踪或脚本模式将常规 PyTorch 模型转换为 TorchScript。跟踪采用一个函数和一个输入，记录使用该输入执行的操作，并构造 IR。跟踪虽然简单明了，但也有其缺点。例如，它无法捕获未执行的控制流。再如，如果执行条件块，则无法捕获条件块的错误块。

脚本模式采用一个函数/类，重新解释Python 代码并直接输出 TorchScript IR。这允许它支持任意代码，但是实际上它需要重新解释 Python。

一旦你的 PyTorch 模型进入此 IR，我们将获得图形模式的所有好处。我们可以在不依赖 Python的情况下以 C ++ 部署 PyTorch 模型，或对其进行优化。

Tensorflow Eager

在 API 层面，TensorFlow Eager 模式与 PyTorch 的Eager 模式基本相同，该模式最初因为 Chainer 流行起来。这为 TensorFlow 提供了 PyTorch Eager 模式的大多数优势（易于使用，可调试性等）。

但是，这也给 TensorFlow 带来了同样的缺点。TensorFlow Eager 模式无法导出到非 Python 环境，无法优化，无法在移动设备上运行等。

这使 TensorFlow 与 PyTorch 都面临着各自的问题，并且它们以基本相同的方式来解决——你可以跟踪代码（tf.function）或重新解释 Python 代码（Autograph）。

（图12-4 TensorFlow 如何使用 autograph 和跟踪生成图像）

因此，TensorFlow 的 Eager 模式并不能真正为你提供“两全其美”的体验。虽然确实可以使用tf.function 批注将 eager 代码转换成静态图形，但这绝不是一个无缝的过程（PyTorch 的TorchScript 也存在类似的问题）。跟踪从根本上受到限制，并且重新解释 Python 代码本质上需要重写许多 Python 编译器。当然，通过限制深度学习中使用的 Python 子集，可以大大缩小范围。

默认情况下，在启用 Eager 模式时，TensorFlow 会强制用户进行选择——使用 eager execution 以简化使用并需要重写以进行部署，或者完全不使用 eager execution。这一点TensorFlow 与 PyTorch 相同，但 PyTorch 的 TorchScript 可供选择，这可能比 TensorFlow 的“默认 eager”更让人愉快。

机器学习框架现状

因此，我们得出了 ML 框架的当前状态。PyTorch 拥有研究领域市场，并且正在尝试将这一成功扩展到工业领域。TensorFlow 试图在不牺牲太多生产能力的情况下，在研究界中尽其所能。

PyTorch 对行业产生有意义的影响肯定需要很长时间，因为 TensorFlow 根深蒂固且行业发展缓慢。但是，TensorFlow 1.0 到 2.0 的过渡将很困难，这给了公司评估 PyTorch 的机会。

未来将取决于谁能最好地回答以下问题：

研究人员的偏好会在多大程度上影响产业界？当前的博士们开始毕业时，他们将把 PyTorch 带入行业。这种偏好是否足够强大，以至于公司会出于招聘目的选择 PyTorch？毕业生会创办基于 PyTorch 的创业公司吗？
TensorFlow 的 eager 模式能否赶上 PyTorch 的可用性？问题跟踪器和在线社区给我的印象是 TensorFlow Eager 严重遭受性能/内存问题的困扰，而 Autograph 拥也有自己的问题。谷歌将花费大量的工程精力，但是 TensorFlow 背负着沉重的历史包袱。
PyTorch可以多快达到生产状态？PyTorch 有许多基本问题尚未解决——没有良好的量化指标、移动性、服务性等。在这些问题解决之前，PyTorch 甚至不会成为许多公司的选择。PyTorch 能否具有足够的吸引力促使公司做出改变？注意：PyTorch 已支持量化和移动技术，但两者都仍处于试验阶段，但代表了 PyTorch 在这方面的重大进展。
Google 在产业界的孤立会伤害到它吗？Google 推动 TensorFlow 的主要原因之一是帮助其迅速发展的云服务。由于 Google 试图占整个 ML 框架垂直市场，这激励了 Google 的竞争对手（微软、亚马逊、英伟达）支持这个唯一可与之抗衡的机器学习框架。

下一步是什么？

机器学习框架对机器学习研究的影响也许被低估了。它们不仅支持机器学习研究，它们还促进或限制了研究人员轻松探索的想法。单是因为没有简单的方法可以在框架中表达，多少新生的想法被扼杀在摇篮之中？PyTorch 可能已经达到了本地研究的最低要求，但是继续挖掘其他框架能够提供的能力，以及它们可能带来的研究机会也是值得探索的。

高阶微分：

PyTorch 和 Tensorflow 的核心是自动分化框架。也就是说，它们允许人们采用某些函数的导数。但是，有许多方法可以实现自动分化，而大多数现代 ML 框架选择的特定实现为“反向模式自动分化”，通常称为“反向传播”。事实证明，此实现对于采用神经网络极为有效。

但是，计算高阶导数（Hessian / Hessian 矢量乘积）时情况发生了改变。有效地计算这些值需要所谓的“前向模式自动分化”。如果没有此功能，则计算 Hessian Vector Products 的速度可能会慢几个数量级。

输入 Jax。Jax 和 Autograd 的发明者是同一拨人，并具有正向和反向模式自动分化功能。这使得高阶导数的计算速度比 PyTorch / TensorFlow 快。

但是，Jax 不仅提供高阶导数。Jax 开发人员将 Jax 视为组成任意功能转换的框架，包括vmap（用于自动批处理）或 pmap（用于自动并行化）。

最初的 autograd 拥有忠实的粉丝（尽管没有 GPU 支持，ICML 上仍有 11 篇论文使用了它），而且 Jax 可能很快就会形成一个忠实社区，将其用于各种 n 阶导数。

代码生成

当你运行 PyTorch / TensorFlow 模型时，大多数工作实际上不是在框架本身中完成的，而是由第三方内核完成的。这些内核通常由硬件供应商提供，并且由高级框架可以利用的 operator libraries 组成。这些就是 MKLDNN（用于CPU）或 cuDNN（用于Nvidia GPU）之类的东西。更高级别的框架将其计算图分成多个块，然后可以调用这些计算库。这些库代表数千个小时的人工，并且经常针对体系结构和应用程序进行优化，以产生最佳性能。

但是，最近对非标准硬件、稀疏/量化张量和新 operators 的兴趣暴露了依赖这些 operators libraries 的主要缺陷：它们不灵活。如果你想在研究中使用像胶囊网络这样的新operator 怎么办？如果要在 ML 框架没有很好支持的新硬件加速器上运行模型怎么办？现有的解决方案经常达不到要求，比如在 GPU 上实现胶囊网络比最佳实现要慢 2 个数量级。

每个新的硬件体系结构、张量类别或运算符，都会大大增加此问题的难度。有许多工具可以解决不同方面的问题（Halide、TVM、PlaidML、Tensor Comprehensions、XLA、Taco等），但是扔不清楚正确的方法到底是什么。

如果没有更多的工作来解决这个问题，我们就有将 ML 研究过度适合于我们拥有的工具的风险。

ML框架的未来

TensorFlow 和 PyTorch 的设计已经趋于一致，以至于任何一个框架都不会凭借其设计获得决定性的胜利。双方各占一方领土——一个拥有研究界，另一方拥有产业界。

在我个人看来，在 PyTorch 和 TensorFlow 之间，我认为 PyTorch 更有优势。机器学习仍然是研究驱动的领域。产业界不能忽视研究成果，只要 PyTorch 主导研究，这将迫使公司做出选择。

但是，正在快速发展的不仅是框架。机器学习研究本身也处于不断变化的状态。框架不仅会发生变化，而且 5 年内使用的模型/硬件/范例可能与我们今天使用的模型/外观大不相同。随着另一种计算模型的普及，也许 PyTorch 和 TensorFlow 之间的斗争将变得无关紧要。

在所有这些利益冲突以及机器学习带来的利益中，退一步海阔天空。我们大多数人都不是为了赚钱或为了协助公司的战略计划而开发机器学习软件。我们从事机器学习的原因是，我们关心、关注推进机器学习研究，使 AI 民主化，或者只是关注创造有趣的东西。无论你是喜欢 TensorFlow还是 PyTorch，我们都只是为了机器学习软件达到最佳状态。

最后补充一下，在机器学习框架之争中，除了 TensorFlow 和 PyTorch 之外，还有其他一些用户也很广泛的框架，比如 DeepMind 用于创建具有复杂架构的神经网络，建立在 TensorFlow 基础之上的 Sonnet，适合初学者快速入门机器学习的 Keras，高度可扩展的深度学习工具 MXNet，可以用来创建复杂的模型的 Gluon，通过直接与通用编程语言集成，可以表达更强大的算法的 Swift for TensorFlow，动态计算图或网络神经网络框架的“大前辈”Chainer，Java 深度学习框架 DL4J，集成各种深度学习框架优点的 ONNX 等，都是具有各自特点的机器学习框架，虽然不如 TensorFlow 和 PyTorch 的受众广，但是用于不同类型的任务还是显示出各自的优势。

原文链接：

https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/

H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）吨吨不打野动手学深度学习pytorch pytorch 深度学习机器学习
文章目录1.感知机2.多层感知机2.1异或问题2.2单隐藏层2.3激活函数2.3.1logistics函数/sigmoid激活函数2.3.2tanh函数2.3.3sigmoid函数和tanh函数的异同/优缺点2.3.4relu2.4多类分类2.5多隐藏层3Q&A3.1神经网络中一层的定义是什么3.2感知机无法解决XOR问题，多层感知机虽然可以解决，但是还是被SVM替代是为什么?3.3不同任务的激活
探索IT世界的宝藏：优质资源推荐与深度解析点我头像干啥 Ai 分类人工智能数据挖掘 python 深度学习
引言在当今数字化时代，信息技术（IT）已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析，还是人工智能、云计算等领域，IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说，掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源，并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera
DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
H100架构解析与性能优化策略智能计算研究中心其他
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品，其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解；最
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总
正月初三，年味正浓。新春的喜庆氛围不仅弥漫在大街小巷，也在人工智能领域引发了诸多创新应用。从AI生成春联，到春运交通标志的智能识别，再到生肖文化的深度挖掘，AI工具正赋能传统民俗，让年味更浓！在这阖家团圆，喜庆祥和的日子里，HyperAI超神经为大家整理了8个春节相关的数据集，涵盖对联、十二生肖、民族文化等热门主题，助力开发者在AI赋能春节的道路上大展拳脚！快来领取你的「新春大礼包」吧~点击查看更
空间智能数据集（不定期更新）数据集
在人工智能领域的顶级会议NeurIPS上，斯坦福大学的杰出教授李飞飞发表了题为《FromSeeingtoDoing:AscendingtheLadderofVisualIntelligence》的主题演讲。在这次演讲中，李飞飞教授探讨了机器视觉的未来以及人工智能如何塑造我们的现实世界。她强调了空间智能的重要性，并将其视为全面智能的基石。李飞飞教授指出，解决空间智能问题是迈向全面智能的基础性、关键性
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
清华DeepSeek以手札为剑，破AI迷津雾霭，开启荣耀进阶征途 2501_91080610 pdf
清华DeepSeek：以手札为剑，破AI迷津雾霭，开启荣耀进阶征途在当下这个科技浪潮奔涌不息的时代，人工智能领域成为了无数科研人员竞逐的“战场”。在这片充满无限可能却又迷雾重重的天地中，清华DeepSeek宛如一位英勇无畏的剑客，紧握“手札”这把利剑，奋力劈开迷津雾霭，大步踏上荣耀进阶的征途。溯源：手札中的智慧传承与沉淀清华DeepSeek背后，是一群怀揣着对AI炽热梦想的清华学子与科研精英。手札
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习 python 机器学习
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播仅仅使用pytorch来手撕transfor
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
PyTorch实现CNN：CIFAR-10图像分类实战教程吴师兄大模型 PyTorch pytorch cnn CIFAR-10图像分类人工智能 python 卷积神经网络开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Manus演示案例：英伟达财务估值建模解锁投资洞察的深度剖析 ylfhpy Manus 深度学习人工智能机器学习机器翻译 Manus
在当今瞬息万变的金融投资领域，精准剖析企业价值是投资者决胜市场的关键。英伟达（NVIDIA），作为科技行业的耀眼明星，其在人工智能和半导体领域的卓越表现备受瞩目。Manus凭借专业的财务估值建模能力，深入挖掘英伟达的潜在价值，为投资者提供了一份极具价值的分析报告。Manus在接到为英伟达进行详细财务估值建模的任务后，迅速且有条不紊地开展工作。数据收集是建模的基石，其重要性不言而喻。在收集英伟达公司
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的