OneFlow深度学习框架

超越ChatGPT：大模型的智能极限

在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中，符尧剖析了大型语言模型的突现能力和潜在优势，大模型所带来的“潜在的”范式转变，并拆解了ChatGPT演进的技术路线图。

在本文中，作者以终为始分析了大模型的智能极限及其演进维度。不同于刻舟求剑式只追求复现ChatGPT的经典互联网产品思维，而是指出了OpenAI组织架构和尖端人才密度的重要性，更重要的是，分享了模型演化与产品迭代及其未来，思考了如何把最深刻、最困难的问题，用最创新的方法来解决。

（以下内容经授权后由OneFlow发布，原文：https://yaofu.notion.site/e1cd16d1fae84f87aeddf872c838e07c）

作者｜符尧
爱丁堡大学博士生

[email protected]

2022 年 12 月，ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研究和工程应用的范式。在中国，ChatGPT 受到了广泛的关注与深刻的讨论。

在过去的一个月里，我走访各大高校、研究院、大厂、创业公司和风投。从北京到上海到杭州到深圳，跟所有头部的玩家们全部聊了一遍。The Game of Scale 在中国已然拉开，风暴中心的玩家们，在已知国内技术和生态与世界前沿的巨大鸿沟下，如何做成这件事？谁能做成这件事？

秦失其鹿，天下共逐之。

——— 《史记·淮阴侯列传》

三种不同的答案

我每接触到一个创业公司，都会问同一个问题：”ChatGPT 在那里，你们想做什么？“ 我大概能收到三种不同的答案。

1.1 做中国的 ChatGPT

第一个答案很明确，要做中国的 ChatGPT。因为它就在那里，所以想要复现，想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过去二十年，中文互联网常见的商业模式：首先硅谷做出来一个东西，然后我们把它抄过来。

但这里的问题是，首先，ChatGPT 可不像打车软件，复现难度完全不可同日而语。光从人的角度看，GPT 的产生，是这个世界上最顶尖的科学家和工程师们从 2015 年开始就不断研究的结果。

OpenAI 的首席科学家 Ilya Sutskever 深刻地相信 AGI 一定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子，从 2007 年就开始研究深度学习。他的 citation 有 37 万，发过的文章精准踩中了过去十年 Deep Learning 的所有关键节点。即使是如此强大的团队，从 GPT 2 到 GPT 3.5 也花了四年的时间，它的科学与工程的难度可想而知。

同时，初代 ChatGPT，是 OpenAI 在 GPT 3.5 的基础模型上，花了两星期时间对着 dialog 做 finetuning 之后随手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品，而是底下的 GPT 3.5 基础模型。这个模型还在不断地演化，GPT 3.5 系列在 2022 年更新了三个大版本，每个大版本都显著强于前一个版本；同样地，ChatGPT 发布两个月一共更新了四个小版本，每个小版本都在单个的维度上比前一个版本有着明显的改进。OpenAI 的所有模型都在持续不断的演化，随时间推移越来越强。

这也就意味着，如果只盯着当前 ChatGPT 这一个产品，无异于刻舟求剑。当 ChatGPT 出现的时候，它对已有的语音助手们形成了降维打击；如果看不到基础模型的演化，即使花个一两年辛辛苦苦做出一个类似的东西，那时候 OpenAI 的基础模型也在继续变强，如果他们接着产品化，以新的更强的基础模型 finetune 到一个更强的产品，难道要再被降维打击一次吗？

刻舟求剑的做法是行不通的。

1.2 做中国的 OpenAI

第二种答案是，要做中国的 OpenAI。给出这个答案的玩家，跳出了经典中文互联网产品思维。他们不止看到单个产品，而且还看到了这个产品背后，基础模型不断演化的强大驱动力，来源于尖端人才的密度和先进的组织架构。

• 尖端人才的密度：不是一个人集资源带队然后把任务按层级打包分配给底下的人，而是一群顶级的集 science 和 engineering 于一身的人们共同协作；

• 先进的组织架构：Language 团队与 Alignment 的团队相互合作迭代，然后底下 scaling 团队和 data 团队帮忙提供基础设施，每个 team 都非常小，但目标明确路径清晰，高度集中资源，朝着 AGI 进发。

所以，如果要做这件事情，不只要看到产品，还要看到它背后的人才团队和组织架构。按稀缺程度排名的话，人 > 卡 > 钱。

但这里的问题是，不同的土壤对创新的鼓励程度是不一样的。在 OpenAI 刚创立的 2015 年，它的投资者们都相信 AGI ，即使当时看不到什么盈利的点。现在 GPT 做出来了，国内的投资者们也都信了 AGI，但相信的点或许也不一样：到底是信 AGI 能挣钱，还是信 AGI 能推动人类发展？

更进一步地，即使 OpenAI 就产生在这里，明天就出现，但他们跟微软达成的 deal，能否跟国内的云计算厂商达成呢？大模型的训练和推理都需要极大的成本，需要一个云计算引擎作为支撑。微软可以倾尽所有，让整个 Azure 给 OpenAI 打下手，这个换到国内，阿里云有可能给一个创业公司打下手吗？

组织架构很重要，只有尖端的人才和先进的组织架构才能推动智能的不断迭代与进化；但它同样需要跟所在的土壤做适配，寻找可以 flourish 的方法。

1.3 探索智能的极限

第三种答案是，要探索智能的极限。这是我听到的最好的答案。它远超刻舟求剑式的经典互联网产品思维，也看到了组织架构和尖端人才密度的重要性，并且更重要的是它看到了未来，看到了模型演化与产品迭代，思考着如何把最深刻，最困难的问题用最创新的方法来解决。

这就涉及到了思考大模型的极限思维。

极限思维

观察现在的 ChatGPT / GPT-3.5 ，它明显是一个中间状态，它还有很多可以加强，并且马上就能加强的点，包括：

• 更长的输入框：开始的时候，GPT 3.5 的上下文最长到八千个 token；现在的 ChatGPT 上下文建模的长度似乎已经过万。并且这个长度明显可以接着增长，在融入 efficient attention 和 recursive encoding 的方法之后，context length 应该可以接着 scale 到十万，甚至百万的长度；

• 更大的模型，更大的数据：模型的大小还没有到极限，MoE 可以接着把模型 scale 到 T 的量级；数据的大小还没有到极限，人类反馈的数据每天都在增长；

• 多模态：在增加了多模态数据（音频，图片），特别是视频数据之后，总体与训练数据的大小可以再增大两个量级，这个可以让已知的能力接着按 scaling law 线性增加，同时还有可能继续出现新的涌现能力。比如可能模型在看过各种几何形状的图片，以及看过代数题之后，或许会自动学会做解析几何；

• 专业化：现有的模型在文科上大概相当于研究生水平，但在理科上相当于高中或大一大二的学生水平；已有的工作已经证明我们可以把模型的技能点从一个方向挪到另一个方向，这就意味着即使不做任何 scaling，我们依然可以在通过牺牲其他方面能力的情况下，把模型朝着目标方向推进。比如牺牲掉模型的理科能力，把它的文科能力从研究生推到专家教授的水准。

以上四点只是现阶段可以看到的，马上就可以加强但暂时还没有加强的点，随着时间的推移和模型的演化，会有更多可以被 scale 的维度进一步体现出来。这意味着我们需要有极限的思维，要思考当我们把能够拉满的维度全部拉满的时候，模型会是什么样子。

2.1 能够拉满全部拉满

模型的输入框可以接着加长，模型的大小可以继续增大，模型的数据可以继续增多，多模态的数据可以融合，模型的专业化程度可以继续增高，所有这些维度可以继续往上拉，模型还没有到极限。极限是一个过程，在这个过程中模型的能力会怎样发展呢？

• Log-linear 曲线：一部分能力的增长会遵循 log-linear 的曲线，比如说某项任务的 finetuning。随着 finetune 数据的指数增长，模型所对应的 finetune 的任务的能力会线性增长。这部分能力会可预测地变得更强；

• Phase change 曲线：一部分能力会随着 scaling 继续涌现，比如说上文中的模型做解析几何的例子。随着可以被拉满的维度被不断拉满，新的，难以预测的涌现能力会接着出现；

• 多项式曲线? 当模型强到一定程度，与人类 align 到一定程度之后，或许一些能力的线性增长，所需要的数据，会突破指数增长的封锁，而降低到多项式的量级。也就是说，当模型强到一定程度之后，它或许不需要指数级的数据，而是只需要多项式级的数据，就可以完成泛化。这可以从人类的专业学习中观察到：当一个人还不是领域专家的时候，ta 需要指数级的数据来学习领域的知识；当一个人已经是领域专家的时候了，ta 只需要很少量级的数据就自己迸发出新的灵感和知识。

所以，在极限思维下，把所有能拉满的维度全部拉满，模型注定会越来越强，出现越来越多的涌现能力。

2.2 反推中间过程

在思考清楚极限的过程之后，就可以从极限状态往后反推中间过程。比如说，如果我们希望增长输入框的大小：

• 如果希望把模型的输入框从千的量级增长到万的量级，可能只需要增加显卡数量，进行显存优化就能实现；

• 如果希望接着把输入框从万的量级增长到十万的量级，可能需要 linear attention 的方法，因为此时加显存应该也架不住 attention 运算量随输入框长度的二次增长；

• 如果希望接着把输入框从十万的量级增长到百万的量级，可能需要 recursive encoding 的方法和增加 long-term memory 的方法，因为此时 linear attention 可能也架不住显存的增长。

以这种方式，我们可以反推不同阶段的 scaling 需要怎样的技术。以上分析不止适用于输入框的长度，也适用于其他因素的 scaling 的过程。

这样的话，我们可以得到清晰的从现阶段的技术到 scaling 极限的每个中间阶段的技术路线图。

2.3 按模型演化进程产品化

模型在不断演化，但产品化不需要等到最终那个模型完成 — 每当模型迭代出来一个大的版本，都可以产品化。以 OpenAI 的产品化过程为例：

• 2020 年，初代 GPT 3 训练完成，开放 OpenAI API；

• 2021 年，初代 Codex 训练完成，开放 Github Copilot；

• 2022 年，GPT-3.5 训练完成，以 dialog 数据 finetune 成 ChatGPT 然后发布。

可以看到，在中间阶段的每一个重要版本，模型的能力都会增强，都存在产品化的机会。

更加重要的是，按照模型演化进程产品化，可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身，但产品化可以按照本土市场的特征来做。这种方式或许可以既学到 OpenAI 的先进经验，又避免水土不服的问题。

人工智能显著超过人类的能力

到目前为止，我们讨论了要用模型演化的视角来分析模型，要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度，更大的模型和数据，多模态数据和模型的专业化程度。现在让我们再把视野放得更长期些，思考在更大的时间和空间中，模型如何进一步地往极限推。我们讨论：

• 并行感知：一个人类研究员一次顺序地读四五篇论文已经是极限，但模型输入框变长之后，可以在极短的时间内并行阅读一百篇论文。这意味着，模型对外部信息的感知能力远超人类一个数量级；

• 记忆遗传：人类的演化过程中，子代只继承父代的基因，但不继承父代的记忆，这意味着每一次生殖都需要重启一次；在模型的演化过程中，子代可以继承父代的记忆，并且这个继承的程度可控：我们可以设置子代继承 100%，50%，20% 的记忆，或清空记忆，这意味着父代的经验和技能可以不断累积；

• 加速时间：人类相互交流的速率是受到人类说话的物理速度限制的，而模型相互交流的速率可以远快于人类，这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题；人类演化的过程受到物理时间的限制，模型的演化可以比人类的物理时间快上几个数量级，这意味着模型的进步速度可以远快于人类；

• 无限生命：一个人的生命有限，百年之后终归尘土，但模型的权重只要不丢失，就可以不断地演化。

从这些角度来说，人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题：

如何驾驭远超人类的强人工智能？

这个问题，是 Alignment 这项技术真正想要解决的问题。

Alignment 对齐

当前阶段，模型的能力，除了 AlphaGo 在围棋上超过了最强人类之外，其他方面的 AI 并没有超过最强的人类（但 ChatGPT 在文科上或许已经超过了 95% 的人类，且它还在继续增长）。在模型还没超过人类的时候，Alignment 的任务是让模型符合人类的价值观和期望；但当模型继续演化到超过人类之后，Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。

4.1 Alignment 作为驾驭远超人类的智能体的方法

一个显然的问题是，当 AI 超过人类之后，还可以通过人类反馈让 ta 更强 / 更受约束吗？是不是这个时候就已经管不了了？

不一定，即使模型远超人类，我们依然又可能驾驭 ta，这里的一个例子是运动员和教练之间的关系：金牌运动员在 ta 的方向上已经是最强的人类了，但这并不意味着教练就不能训练 ta。相反，即使教练不如运动员，ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。

类似地，人类和强人工智能的关系，在 AI 发展的中后期，可能会变成运动员和教练之间的关系。这个时候，人类需要的能力并不是完成一个目标，而是设定一个好的目标，然后衡量机器是否足够好地完成了这个目标，并给出改进意见。

这个方向的研究还非常初步，这个新学科的名字，叫 Scalable Oversight。

4.2 Alignment 与组织架构

在通往强人工智能的路上，不只是需要人类与 AI 对齐，人类与人类，也需要高度对齐。从组织架构的角度，alignment 涉及到：

• Pretraining 团队与 instruction tuning - alignment 团队之间的对齐：

这两者应该是一个相互迭代的过程，pretraining 团队不断地 scale 基础模型，alignment 团队为基础模型做 instruction tuning，同时用得到的结果反向指导 pretraning 团队的方向。

• Pretraining / Alignment 团队与 Scaling / Data 团队的对齐：

scaling 负责为 pretraining / alignment 做好基础设施，data 做好高质量数据与人类反馈数据。

• 创业公司与 VC 的对齐：

AGI 是一个困难的事情，需要长期投入，这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局，模型的演化会让有足够耐心的，踏实做事人们在长期得到丰厚的回报，也会让只看短期刻舟求剑的人们一次又一次被降维打击。

结语

在 2017 年，我刚刚入行 NLP 的时候，花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改，把 good 改成 bad 就算是完成了 transfer。

2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格，一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务，曾经极其困难的事情，今天大语言模型非常轻松地就能完成。

在 2022 年一整年，我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代，亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢，反而正在加快。那些原先看来科幻的事情，现在已经成为现实。谁会知道未来会怎样呢？

彼黍离离，彼稷之苗。

行迈靡靡，中心摇摇。

彼黍离离，彼稷之穗。

行迈靡靡，中心如醉。

——— 《诗经 · 黍离》

其他人都在看

ChatGPT进化的秘密
ChatGPT数据集之谜
GPT-3/ChatGPT复现的经验教训
ChatGPT的一小步，NLP范式转变的一大步
比快更快，开源Stable Diffusion刷新作图速度
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow最新版本：GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

Disable checkingPremium suggestions

LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
2022.01.22 有用谨言的成长
写作，对我来说，更像是一个自说自话，自我观察，自我反思，自我探索的途径。可以写我的心情故事，写我的观点而不用担心任何人的评论，写我的情绪，写我想说的，有时候觉得只是简单用语言还不能表现出那份深刻，但是文字可以给自己一个更长的时间来思考，来做深度思考，表达得更透彻。写作，有时候我会写自己看了某个电影后的一点感悟，自己的真实感受，不管它和专业影评人相比是不是很肤浅，是不是片面了，只是有时候我也想发声，
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
高考后该不该给孩子买电脑，什么情况能买？什么情况不能买？寻求改变
我知道家长们很担心，怕买了电脑小孩沉迷游戏，耽误了学业，也不利于身体健康。对于准大学生来说，基本上在18岁左右，也不算小了，但在很多父母眼里，依旧是个小孩子。数据显示，这种情况是有发生的，大学生约70%的电脑主要被用于玩网络游戏，如果没有养成一个用良好的习惯，对孩子影响是非常大的。我总结为三买，三不买。最近有看到群里很多家长再问，小孩上大学该不该给他买电脑，要买和不买两种观点的家长都有，那么哪种情
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
什么是最好的时间管理江千钰
源自罗辑思维1.最近我看到一个观点，说时间管理这个事，一般方法的入手点，可能都错了。为啥？因为都是想站在自己和时间的外面，规范对时间的使用。这管理得越狠，就越是分秒必争，那样就会让自己的生活越绷越紧，最后谁都受不了。2.那真正的时间管理的秘诀是什么呢？其实秘诀就是四个字。头两个字是“沉浸”。沉浸在自己做的事里面。你可能会说，不对啊，我就是沉浸在刷手机、打游戏里面，所以才浪费时间，才需要时间管理嘛。
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

超越ChatGPT：大模型的智能极限

你可能感兴趣的:(业界观点,chatgpt,人工智能,NLP,AIGC,语言模型)