OneFlow深度学习框架

关于大型语言模型的争论和局限

以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法，以及在语言理解方面的立场。（以下内容经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。原文：https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8a9）

作者 | Yoav Goldberg

OneFlow编译
翻译 | 杨婷、徐佳渝、贾川

引言

2014-2017年左右，基于神经网络的NLP方法兴起，围绕完美语言建模可以达到人类智能程度这一主题，我做了一个半学术半科普讲座。同一时间，在一个学术小组中，有人问：如果有无限算力，且无需担心劳动力成本，你会做什么？当时，我的回答是“我会训练一个超大型语言模型，目的是证明算力并不能解决所有问题”。当然，我知道这种说法已经老掉牙了，但事情真是如此吗？它该如何与我前面提到的“完美语言建模即智能”的故事共存？

完美语言建模就是AI完备

我的那场讲座主题“教计算机理解语言”主要围绕Claude Shannon的“猜谜游戏”和语言建模展开。演讲先从AI游戏开始，之后迅速转向Shannon在1951年发明的“另一种游戏（a different kind of game）”，即“猜下一个字母”。游戏操作员在文本中选择一些文本，给出填空处，并隐藏结尾，玩家需要在最少的猜测次数中猜出第一个隐藏字母。

为了更好地进行游戏，我举了几个例子，这些例子来自不同的语言知识，处于不同的语言理解水平（从形态学到不同层次的语法、语义、语用学以及社会语言学）。结果是，在游戏中，人们无需刻意练习就能表现得相当出色，从而导致他们无法再取得任何进步，所以说玩家们认为这个游戏并没有什么了不起。

之后我提到，相较于人类，计算机在游戏中的表现要糟糕得多，但在训练计算机玩游戏的过程中，我们获得了很多隐含的语言知识。虽然在语言建模方面还有很长的路要走，但我们一直在稳步前进，这也是目前机器翻译的工作模式！

我也说过计算机在这方面还不是非常擅长，这是可以理解的。原因在于这个游戏是“人工智能完备（AI-complete）”，真正“以人类水平”玩这个游戏意味着要解决AI面临的全部问题，并展现出类人智能。

为什么这么说？因为游戏涉及完成任意文本前缀，包括很长的前缀、对话，以及每一个可能的对话前缀，可以用人类语言表达的每一种经验描述，还包括任意主题或情况下的每一个问题的每个回答，还包括高数、哲学问题等等。

总之，想要玩好这个游戏，我们需要理解文本，理解文本中描述的情景，要能够设身处地将自己代入到情景之中，并做出回应。这确实就是在模仿人类的经验和思想。（有人可能并不赞同这一说法，认为人类也需要询问有关图像、场景或模型看不到的感知输入问题，但我想你应该明白我的意思。）

这就是Shannon的猜谜游戏（又名“语言建模”），以及为什么在人类智力水平上玩这个游戏需要人类级别的智能。

构建大型语言模型并不能解决所有问题

如果获得完美的语言建模能力需要智能（“人工智能完备”），那为何我还坚持认为构建尽可能大的语言模型并不能“解决所有问题”？我是否想错了？

答案是，我不认为基于当时的技术（RNNs / LSTM或Transformer）构建一个超大型语言模型会让我们接近拥有“完美语言建模”能力。

那么我是否想错了？确实有可能。大型语言模型展现出的能力让我很震惊。事实证明，60B参数和175B参数之间发生了“相变”，这让模型展现出了惊人实力。相比基于文本上训练的RNN / LSTM / Transformers语言模型，大型语言模型能做的事情要多得多，我曾说过“它们不能解决所有问题”，但现在它们已经做到了我当时脑海中所能想到的全部事情。

当前的语言模型（ChatGPT的第一个版本）确实“解决”了当时我所担忧的有关语言理解的所有问题，从这个意义上说，我错了。但从另一种意义上说，我没有错，因为它没有解决全部问题，至少现在还没有。此外，当今语言模型的性能不仅仅是通过我当时所想到的语言建模能力获得的，这一点非常重要，稍后我会加以详细说明。

接下来，我将简要介绍当前语言模型（current-day-LMs）与之前人们理解的语言模型（LM）之间的区别，以及一些在我看来大型语言模型尚未“解决”的问题，我还会提及一些正确但无关紧要、无趣的论点。

自然语言建模 vs 精心策划的语言建模

“当前语言模型的性能不是通过语言建模获得的”是什么意思？据我所知，大型语言模型（170B参数级别，GPT-3）的首次版本演示是在自然的文本数据上进行训练的，也就是说，训练数据来源于书籍、互联网、社交网络等，后来的系列模型（BLOOM、OPT）也使用了类似数据。这与Shannon的游戏非常接近，同时也是过去几十年大多数人眼中的“语言建模”，这些模型拥有卓越的性能。但ChatGPT与此不同。

ChatGPT有何不同？GPT-3和ChatGPT之间有三个概念步骤：指令、代码、RLHF。在我看来，三个步骤都很有意思。相比起来RLHF要稍显逊色，尽管它受到的关注最多。该解释可能比较随意，也许将来有一天我会把它变成一个更为正式的论点，希望读者能从中获得一些启发。

像“传统语言模型”这样在“纯文本”数据上对模型进行训练，确实有一些明显的理论局限，其中最明显的问题是：这种训练方式无法与“文本外部”的内容产生联系，因此无法获得“意义（meaning）”或“交际意图（communicative intent）”，也就是说这样的模型“不接地（not grounded）”。它们操作的符号就只是符号，虽然可以彼此交互，但它们难以“立足”于现实世界，以“蓝色”这个符号为例，虽然模型知道这个符号，但它们却并不知道与之对应的现实世界中的“蓝色”。

以前，模型只会在“发现的（found）”数据上训练，但在指令精调中，模型训练者（trainers）开始同时在“发现的”数据以及人类创建的特定数据上对模型进行训练（这在机器学习中被称为“监督学习”，例如从注释的例子中进行学习）。比如，人类注释者会写一些类似于“请总结此文本”等内容，后面会附上文本和文本的总结，或者，他们会写“将此文本转换成正式语言”，然后会附上文本，以及文本转换后的正式语言。他们会创建许多类似的指令（比如摘要、翻译等等），随后，这些指令会被添加到模型的训练数据中。

为什么这很重要？本质上，模型仍然在进行语言建模，仅基于文本学习预测下一个单词，但人类注释员向文本里注入了一定程度的接地（grounding）信息。将一些符号（如“总结”“翻译”“正式”）与它们所表示的概念/任务一起使用。

由于总是出现在文本开头，这使得这些符号（或“指令”）在某种意义上独立于其余数据，使得模型能够将人类“摘要（summary）”的概念与产生摘要的行为相关联。换言之，这有助于模型去学习用户在其“指令”中要求“摘要”的交际意图。

有人可能会认为，这样的案例已经自然而然出现在大规模文本集合中，模型已经从中学习了，还能有什么新花样？然而我认为，从直接指令中学习可能比从非指令数据中学习要容易得多（比如直接陈述“这是一条狗”vs 从人们谈论狗的内容中进行推断）。此外，将训练数据的分布转向这些注释用例，可以从根本上改变模型的行为和其所具备的“接地（grounding）”程度。相比之下，使用显式指令数据需要的训练文本要少得多。

另外，最新一代模型还使用编程语言代码数据进行训练，包括自然语言指令（以代码注释的形式）和相应的编程语言代码。这为何重要？这种方式产生了一种非常直接的“接地”形式。

我们在文本流中有两个独立的系统：一个是人类语言，另一个是编程语言。

我们观察这两个系统之间的直接互动：人类语言描述概念（或意图），然后以相应程序的形式实现。这两个系统之间的直接交互其实就是“形式到意义的配对”，相比于“仅从形式中学习”，我们能从这种交互中学到更多东西。（此外，我猜测最新的模型也是通过执行（execution）进行了训练：即程序对和它们的输出。这是一种更强有力的“接地”形式：指称（denotations）。这不“仅仅”是语言建模了。

最后是RLHF（人类反馈的强化学习）。RLHF指模型观察两个人的对话，一个人扮演用户，另一个扮演“AI”，演示AI在不同情境下应该如何回应。这种方法可以帮助模型学习如何进行对话，以及如何跟踪对话状态中的信息（仅从“发现的”数据中学习这一点非常困难）。这些人类指令也是我们从模型中观察到的所有“不恰当的...（It is not appropriate to...）”和其他公式化/模板化响应的来源。这是一种通过示范训练模型“良好行为（behave nicely）”的方法。

上述是ChatGPT的三种能力。当然，该模型可能还有其他能力，这就是为什么我认为它与“传统”语言模型有很大不同，为什么它可能不“遵守”我们（或我）期望语言模型有的一些限制，以及为什么它在许多任务上表现更好：ChatGPT是一种有监督模型，具有访问外部模态的能力，同时也通过演示显式地训练以遵循对话形式给出的指令。

还缺少什么？

以下是一些关于语言模型的常见争论。这些争论确实存在，但并不具有启发性，或者与我所讨论的不相关：

语言模型是不经济的。训练模型的代价很高，而且用起来很贵。

确实，现在看来这些观点是正确的。但随着时间推移，成本会下降。此外，我们要将问题放在更广泛的背景下考虑：虽然环保代价高，但我们并没有训练太多语言模型，而且它们的总能耗相对于人类的其他能耗来说显得微不足道。另外，我也不确定环境问题和“这些东西是否有趣”、“这些东西是否有用”等问题之间有什么关系，这只是一个经济问题。

模型存在很多偏见和刻板印象。

模型的确存在这些问题。因为模型模拟的是人类语言，而人类本身就带有偏见、存在刻板印象。这意味着我们在将这些模型应用于现实任务时需要谨慎，但从科学的角度来看，这并不会降低模型的有效性、有用性或趣味性。

模型并不能真正地理解语言。

模型的确并不真正理解语言。那又怎样？我们应该关注模型能做些什么，并对其缺点进行优化。

模型永远无法真正理解语言。

那又怎么样？模型在某些方面表现得非常出色。我们为什么不去关注那些表现出色的方面？如果你不关心这一点，大可不必关注。那些真正想要深入理解语言的人可能更喜欢从其他途径去探究。对我来说，近似理解已经足够了。

模型不能像人类一样理解语言。

模型不是人类对吧？模型在某些机制上与人类不同，但它们仍然可以告诉我们很多关于语言结构的信息。而对于模型无法提供的信息，我们可以从其他渠道获取。

仅通过形式上的训练不足以学到有意义的内容。

模型并不仅仅是通过形式进行训练，具体情况请参见前面的部分。

模型只是根据某些统计规律来连接它之前见过的片段。

使用统计学方法能够让模型取得这样的成果，不是很令人惊讶吗？大型模型能以非常强大的方式连接单词，此外，根据统计规律，尽管从语料库中连接的单词或短语有许多错误的方式，但模型仍然可以选出“有意义”的连接方式。这非常了不起。

我们不知道这些事物可能会对社会产生什么影响。

对于任何新的技术或发现，我们都无法预知其可能对社会产生的影响。但这并不意味着我们不应该去发现它们的潜在影响。我们可以尝试以谨慎的态度对其进行研究，这样并不会降低其趣味性、有效性或研究价值。反之，它为我们提供了一个值得研究的角度。

模型不会引用来源。

我理解你“想要某些应用有引用功能”的想法，因为不想受到模型的误导。但我认为，这并不是语言模型的核心问题。人们在真正意义上也并不“引用信息来源”，我们很少将知识归因于特定的单一来源，即使这样，我们也往往是出于理性化解释或先查找来源再引用的有意识过程。这种情况是可以复制的。

从应用的角度来看（例如想开发一个搜索系统、论文写作系统或通用问答系统），人们当然可以致力于将表达与来源联系起来，可以通过生成过程或后处理步骤，或者先检索再生成的设置。确实有很多人这样做了，但这与语言理解并不真正相关。我认为更有意义，或者更有建设性的问题是：（1）如何将“语言和推理”的“核心（core）”知识与关于“事情（things）”的特定事实的知识分开；（2）如何实现“知识”的知识（knowledge of knowledge，见下文）。

目前有哪些真正的局限和缺失？

我列出了当前“大型语言模型”（包括ChatGPT最新版）存在的一些挑战。当然，仅代表个人观点，而且可能不是很完善。这些问题在某种意义上阻碍了它们“完全理解”语言。以下是这些模型仍无法完成，或者至少在完成时表现不佳的一些任务：

多文本相互关联。在训练过程中，这些模型将文本看作一个整体或独立信息片段来处理。虽然它们可能会发现文本中的共性模式，但却缺乏如何将文本与现实世界中的“事件（events）”相关联的概念。如果这些模型在多个描述同一事件的新闻报道上进行训练，它们就无法知道这些文本都描述了同一件事，也无法将其与描述相似但不相关事件的多个文本区分开。因此，这些模型不能（或没有能力）从它们所“阅读”的所有文本中真正形成一致、完整的世界观。
时间概念。模型在其训练流程中没有关于事件发生的先后顺序概念。除了明确提到的时间，它们实际上并没有时间概念。因此，虽然它们可能学习到一些局部的意义，例如“奥巴马在2009年成为总统”，并能够推断出其他发生在此之前或之后的事件，但是它们无法理解时间流逝的概念。例如，如果模型在不同的文本中读到“奥巴马是美国现任总统”和“奥巴马不再是总统”，它们无法确定这些信息之间的先后关系以及当前的真相。它们可能会同时认为“奥巴马是美国现任总统”、“特朗普是美国现任总统”和“拜登是美国现任总统”这些陈述都是正确的。此外，这些模型实际上也没有实用的方法来解释“X是Y的最新专辑”这类陈述以及它们之间的关系。

“知识”的知识。模型不真正“知道自己知道什么”，甚至不知道“知道”的意思。它们所做的一切就是猜测流程中的下一个token，而这个猜测可能基于已经获得的确切知识，或者是纯猜测。模型的训练和训练数据没有明确的机制来区分这两种情况，也没有明确的机制根据这些情况采取不同行动。“自信地编造事实”就是很好的证明。从演示学习（RLHF）中，模型“意识到”有些答案应该谨慎对待。也许模型甚至学会将这种谨慎程度与训练数据中涉及的某些事实、实体或主题的程度以及数据在其内部权重中反映的程度相关联。在这个意义上，它们展现出了某些“知识的知识”。但是当它们克服了拒绝回答的最初阶段，进入“文本生成模式”时，它们会失去所有这些“知识的知识”，并且非常快速地转变为“胡说八道”模式。即使是在它明确表示（在不同阶段）没有相关知识的事情上也是如此。

数字和数学。模型非常不适合进行数学计算，它们的基本构建块是“单词片段（word pieces）”，这些片段并不完全对应任何便于计算的数字基数。它们也没有任何适当的方法以有意义和一致的方式学习不同数字之间的关系（如+1或“大于”关系）。虽然大型语言模型在一些涉及数字的问题上表现得不错，但相比我们给予大型语言模型的机制，在表示数字和数学方面有更多更好的方式。因此，这些模型的无所不能真的很让人吃惊。但我认为，如果不进行更显式的建模，它们不会取得很大进展。

罕见事件、高召回设置和高覆盖设置。从本质来看，模型专注于常见和可能的案例，所以我对它们从数据中学习罕见事件、回忆罕见事件或回忆所有事件的能力表示怀疑。我不是很确定模型能否做到这一点：它们也许能够做到。但我目前仍持怀疑态度。

数据饥饿（Data hunger）。这可能是当前大型语言模型面临的最大的技术问题：模型需要大量数据。为了达到出色的性能，模型需要训练数万亿个单词。“……人类只从其中的一小部分中就可以学习”显然是正确的，但这并没有那么吸引我：那又怎样？模型不必模仿人类就很有用。然而其中还有其他令人担忧的影响因素：大多数人类语言并没有这么多数据，尤其没有那么多有价值的数字形式的数据。

为什么这很重要？因为这意味着，在其他语言上我们很难复制目前所取得的英语理解的成果，比如我的母语希伯来语，或者像德语、法语、阿拉伯语、甚至中文或印地语这样更为常见的语言，更不用说非洲和菲律宾等地的“资源较少（low resource）”的语言。

虽然这些语言也可以获得很多数据，但并不像英语数据那么多。通过“指令训练”技术可能需要的数据更少，但随之而来的是需要创建指令数据，这对我们想要添加的每一种新语言来说都是一项巨大的工作。此外，如果我们相信（而我确实相信）在编码+语言方面进行训练非常重要，那么在实现其他语言的类似模型时这将成为另一个巨大障碍。

那么，翻译能解决这个问题吗？毕竟我们在机器翻译方面也取得了很大进展。我们可以将那些文本翻译成英语，然后用英语运行模型，再将结果翻译回去。我们确实可以这样做，但只能在非常浅显的层面上起作用。地理区域不同，语言也不同。这些区域有自己的文化、规范、故事和事件，与英语地区的文化、规范、故事和事件在各种方面都有差异。即使像“城市”这样的简单概念也会因不同的社群和地理位置而不同，更不用说“礼貌”或“暴力”等概念了。当然还有人、历史事件、重要地点、植物、风俗等方面的“事实”知识，这些都不会反映在英语训练数据中，也不能通过翻译来传递。

因此，如果我们想要在英语以外的语言中使用语言理解和“AI”技术，那么数据饥饿是一个切实存在的问题。

对于我们这些关心社会影响的人来说，将数据饥饿和英语/美国中心化（English/US-centrality）相结合绝对是一个需要考虑的重大问题。

模块化：在前面的“常见但平平无奇的争论”中，我提出了一个重要问题：“如何将语言和推理的“核心（core）”知识与关于“事物（things）”的具体事实性知识分开？”该问题能否够解决将在很大程度上影响其他问题的解决方案。如果我们能够将“核心语言理解和推理”组件与“知识”组件进行模块化和分离，可能会更好地解决数据饥饿问题和文化知识鸿沟问题，更好处理和控制偏见和刻板印象，还可以“免费获取”知识的知识。（许多人正在研究“检索增强型语言模型”，不过还无法确认这是否是解决这个问题的正确方法。对此，我往往持怀疑态度，也许存在更根本的解决方法，但历史经验表明我对这些事情的直觉不够敏锐。）

结论

大型语言模型的能力非常惊人。语言建模本身并不足够，但“当前的语言模型”实际上不仅仅是语言模型，它们可以做到很多超出我们预期的事情。然而，如果我们关心“包容性（inclusive）”的语言理解，大型语言模型所能做的还是不够；即便我们不关心这一点，情况也是如此。

其他人都在看

大型语言模型的推理演算
向量嵌入：AutoGPT的幻觉解法？
揭秘RLHF；可商用开源LLM列表
John Schulman：通往TruthGPT之路
为什么ChatGPT用强化学习而非监督学习
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/ http://github.com/Oneflow-Inc/oneflow/

边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析认知超载 AI 人工智能
基本定义微调：是指利用更小、更具针对性的数据集对经过预先训练的大语言模型进一步训练的过程。在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。RAG：即检索增强生成，是将检索大量外部知识的过程与文本生成结合在一起的一种方法。它会从大型外部数据库中检索与输入问题相关的信息，将这些信息作为上下文提供给大语言模型，辅助其生成回答。微调适用场景1.特定领域
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
mysql数据一致性
前言美团酒店直连项目自2013年末开始，通过业务上的不断完善和技术上的不断改进，至今已经接入200多家供应商，其中在线酒店3万以上，在线SPU30万以上。经过两年的成长，美团酒店直连平台终于在2015年末发展为国内最大的酒店直连业务平台，其接入的业务类型也从最初的经济连锁，拓展到高星渠道、小连锁集团、非标准住宿等，获得了业界一致好评。随着美团点评的日益壮大，客户的需求和系统体量的不断增加，直连平台
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
LangChain4j在Java企业应用中的实战指南-2 在未来等你大模型应用开发 AI 技术编程 Java Spring
LangChain4j在Java企业应用中的实战指南文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具。本
成为高级Python开发人员的完整学习路线与核心知识体系
引言Python已成为全球最受欢迎的编程语言之一，其简洁的语法和强大的生态系统使其在数据科学、Web开发、自动化、人工智能等领域占据重要地位。然而，从初级Python程序员到真正的高级开发人员，需要掌握一系列深入的知识点和实践经验。本文将详细介绍成为高级Python开发人员必备的核心知识体系，并提供系统化的学习资源，帮助你规划专业发展路径。第一部分：Python语言基础进阶1.Python语言特性
【AI】闭环反馈：构建从用户处学习的人工智能秋说 AI广延人工智能 AI
文章目录前言AI产品性能的双重视角：模型指标vs用户信号模型指标：AI系统的“内部视角”用户信号：AI产品的“外部视角”用户信号类型用户信号的价值模型指标为何难以独立支撑产品成功如何设计AI产品的全面反馈闭环一、统一成功标准：模型指标+用户价值二、用户信号的数据采集策略三、整合多源数据流四、分析与洞察从反馈到改进：迭代驱动的闭环循环一、识别并优先解决核心问题二、将用户信号转化为模型改进方向三、产品
揭秘华为认证体系：ICT人才的新标杆 IT运维大本营华为认证 HCIA HCIP HCIE
00华为认证体系全景解析：打造ICT行业人才新标准华为作为全球领先的信息与通信技术（ICT）解决方案供应商，旗下的华为认证培训体系，为行业提供了标准化的人才资格评定方案。本文将深入解析华为认证的发展历程、国际化影响、核心认证体系与实施流程等，探究其在ICT行业人才培养中的重要作用。01华为认证的历史沿革华为认证培训体系始于2001年，经过多年的发展，如今已经成为业界领先的ICT全技术领域认证体系。
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
LangChain4j在Java企业应用中的实战指南-3 在未来等你大模型应用开发 AI 技术编程 Java Spring
【LangChain4j在Java企业应用中的实战指南】文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
OpenAI技术路线急转：从TypeScript到Rust的Codex CLI重构内幕全栈陈序员 typescript rust 重构自然语言处理神经网络人工智能深度学习
目录前言：OpenAI的技术抉择引发业界思考CodexCLI：OpenAI的终端AI编程利器语言抉择的戏剧性反转：从TypeScript到RustRust重写的四大技术动因1.零依赖部署：消除环境配置痛点2.内存安全与沙箱隔离3.性能的全面碾压4.协议层的深度整合Rust的崛起：从系统编程到AI基础设施技术选型的平衡艺术：生产力vs性能对开发者生态的潜在影响结语：技术进化的永恒韵律前言：OpenA
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
【大模型学习 | BLIP2原理】九年义务漏网鲨鱼人工智能深度学习语言模型多模态大模型
BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels目前（2023）的图文模型都是基于端到端训练方式，大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型，作者提出一种使
探索Gemini Balance：Google Gemini API的代理与负载均衡解决方案几道之旅人工智能智能体及数字员工负载均衡运维人工智能
引言在人工智能领域，API的高效使用和管理至关重要。尤其是当涉及到Google的GeminiAPI时，为了实现更稳定、更高效的服务，我们需要一个强大的代理和负载均衡工具。今天，我们就来深入了解一下GeminiBalance这个开源项目，它为GeminiAPI的使用提供了全面而灵活的解决方案。项目概述GeminiBalance是一个基于PythonFastAPI构建的应用程序，主要用于提供Googl
意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录》副标题：机械义肢产线惊现神经突触叛乱，中国科学家激活甲骨文量子纹重写人类认知主权2025年7月2日22：47光明科学城脑机接口中心急电负五层神经植入舱突爆血雾！为边防军人陈默安装的AI机械臂在神经接驳瞬间剧烈震颤，量子脑电图
时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实》副标题：抗癌疫苗冷链门关闭前3秒遭量子生物武器袭击，中国科学家启动长城时空盾改写人类文明存续方程2025年7月2日14:28:57光明科学城虫洞警报第184支疫苗即将注入液氮罐的刹那，B3层量子钟突现重影！14:28/15:4
实时直击：全球首座AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《实时直击：全球首座AI-BioFab工厂72小时全息记录》副标题：2025年7月2日深圳现场——癌症疫苗11天定制神话如何改写万亿生物经济规则本报深圳2025年7月2日电（记者徐远舟）此刻，位于光明科学城负三层的无菌车间内，液态机器人正将第4,817管CRISPR编辑液注入微流控芯片。墙上的量
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

关于大型语言模型的争论和局限

你可能感兴趣的:(业界观点,语言模型,人工智能,自然语言处理,深度学习,ChatGPT)