IT界那些事儿

大模型开启「长」时代，杨植麟的新公司把对话框容量做到了世界第一

虽然我们不知道谁是下一个 OpenAI，但是似乎找到了另一个 Anthropic。

最近，大模型创投领域又发生了一件大事：大模型初创公司 Anthropic 获得了亚马逊40 亿美元的融资。该笔融资几天后，又有消息传出，谷歌等也要向这家公司再投 20 亿美元。听到这些消息，不少人可能会问，这家公司有何过人之处？别急，我们来问一下新必应。

新必应的答案显示，在大模型方向上，除了一支优秀的团队，Anthropic 在技术上也非常领先，尤其在大模型支持的上下文窗口方面。

上下文窗口有多重要？回想一下使用 ChatGPT 处理长文的经历，你是不是也经常收到「文本过长」的提示？这是因为 ChatGPT 至多只支持 32k tokens（约 2.5 万汉字）的上下文。这一限制让很多行业的从业人员都很头疼，尤其是律师、分析师、咨询师、prompt 工程师等需要分析、处理较长文本的工作。

此外， token 数量的限制还会导致模型「忘记」之前对话的重要信息，或者加重模型「幻觉」，就像 Character.AI 等聊天 AI 产品的用户所抱怨的那样。

为了解决这些问题，Anthropic 在其产品 Claude 2.0 中提供了 100k tokens（实测约 8 万汉字）的上下文窗口，大大扩展了其产品的应用空间。

那么，如果这个窗口再大一点呢？

这是国内大模型初创公司 Moonshot AI 推出的大模型智能助手 Kimi Chat，拥有超长的上下文窗口。在动图展示的例子中，Kimi Chat 接收到的上下文达到了 15 万字，而实测中我们发现，它甚至能一次处理 20 万字，大约是 Claude 2.0 中文上下文窗口的 2.5 倍，是全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。GPT-4 等英文为基础的模型产品需要做到接近 250k tokens 才能获得与 Kimi Chat 同等的汉字上下文窗口。

那么，这么大的上下文窗口用起来是一种怎样的体验？Moonshot AI 是怎么做到这一点的？在该功能开放内测之际，机器之心在第一时间拿到了内测资格并进行了测评，同时也和 Moonshot AI 的技术团队聊了一些技术细节以及他们对该技术的思考，希望能给国内关注大模型技术与应用的读者一些启发。

原来，不用担心文本过长是这种感觉

打开「KIMI」的测试页面，我们可以看到，它有一个简单的对话框，对话框的右侧有几个按钮，分别是网络开关和文件上传按钮。这意味着，KIMI 不仅能分析我们提供的资料，还能在必要时自己上网查找，看起来非常靠谱。

既然 KIMI 的强项是处理长文本，那我们就选一些长文本的场景来测试一下。第一份材料是《中华人民共和国刑事诉讼法》和《最高法关于适用〈中华人民共和国刑事诉讼法〉的解释》组合起来的一份 word 材料，篇幅超过 12 万字，一般的大语言模型都无法处理。在询问了几个比较具体的问题后，我们发现，KIMI 能够根据材料回答大部分问题，并给出答案依据：

如果问题超出了材料所给的范围，它会自己上网检索相关内容，并归纳出答案，这是一种跨文档的文本处理能力。

值得注意的是，KIMI 在回答一些比较综合的问题时会结合多个法条，并在消化了这些条款内容的前提下，用自己的语言重新组织逻辑清晰的答案。

这种贯穿全文的强大理解能力在小说的测试中表现得更为明显。这里我们选取的是科幻小说《三体 1》，虽然小说有 20 万字，但 KIMI 能把它全部读下来，并梳理人物故事线等信息：

当我们问及小说后半部分的内容以及需要结合上下文理解的某些概念的引申含义时，KIMI 回答起来也毫无压力：

既然 KIMI 展现出了如此强大的上下文记忆能力，那多轮对话想必也能轻松应对。于是，在另一项测试中，我们选取了《原神》人物胡桃的百科信息，让 KIMI 在掌握胡桃全部信息的基础上模仿后者与我们对话，就像科幻作品里的「数字生命」一样。当前大多数角色扮演类 AI 是消化不了这么多角色背景信息的，因此聊天过程中很容易让人丧失沉浸感。

基于大模型设计的文字游戏玩家抱怨角色设定信息少，输出缺乏逻辑性。

同样的，我们也用《三体》试了一下，让 KIMI 模仿大史说话，效果也非常不错：

重要的是，这种基于长文本的多轮对话能力在科研、教育等场景中也非常实用，比如它可以解读最近很火的微软 GPT-4V 使用体验论文：

几轮体验下来，可以明显感觉到，当上下文窗口扩展到 20 万字，我们能用大模型做的事情突然就多了很多。由于大部分文本材料都不会超过这个数字，我们终于不用再去一个一个检查字数，也不用担心和模型聊多了话题戛然而止。这是一种非常流畅的体验，也让人有信心去探索更多使用场景。

超长上下文窗口，实现起来有多难？

既然扩大上下文窗口如此有效，那为什么市面上现有的各路大模型大多还局限在 32k 或以下的 token 长度呢？这是因为，实现模型对超长上下文的处理在训练算法和工程实现上都面临着艰巨的挑战。

首先，从训练层面来看，想得到一个支持足够长上下文长度的模型，不可避免地要面对如下困难：

如何让模型能在数十万 tokens 的上下文窗口中，准确地关注到所需要的内容？
如何让模型在适应长文本工作方式时，不降低其原有的基础能力？
由超长上下文窗口带来的更高的算力需求和极严重的显存压力，如何在传统的 3D 并行方案之外寻找到更多的并行空间？
缺乏充足的高质量长序列数据，如何提供更多的有效数据给模型训练？

从推理层面来看，在获得了支持超长上下文的模型后，如何让模型能服务众多用户，同样要面临一番挑战：

一是 Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量实际会增长 1000 倍，这会导致用户需要等待极长的时间才能获得反馈；
二是长下上文推理需要的显存容量巨大：以 1750 亿参数的 GPT-3 为例（GPT-4、Claude 等模型参数量未知，故无法估算），目前最高单机配置 (80 GiB * 8) 最多只能支持 64k 上下文长度的推理，超长文本对显存的要求可见一斑；
三是目前的显存带宽无法满足需求：英伟达 A800 或 H800 的显存带宽高达 2-3 TiB/s，但面对如此长的上下文，若只通过一些朴素的基本处理方法，生成速度只能达到 2~5 token/s，使用的体验极其卡顿。

当然，上述问题的解决存在一些「捷径」，但这些捷径往往都是以牺牲模型性能为代价的，导致模型的应用价值大打折扣，典型的做法包括：

首先，最容易想到的就是把模型做小，通过把参数减少到百亿来提升上下文长度。但模型小了之后，能力也会显著下降，大量任务都无法胜任，就像未发育完全的蝌蚪。

其次，你可以让模型「问哪儿看哪儿」，就像只能在特定花蕊上采蜜的蜜蜂，无法关注到整体信息。这通常是通过对上下文的降采样或者 RAG（检索增强生成）方法来实现的，让模型只关注和问题直接相关的部分，减少计算量。但如此一来，模型就无法回答那些需要基于全文理解来回答的问题（例如从 50 个简历中对候选人的画像进行归纳和总结），能力大打折扣。

最后，你还可以让模型「边看边忘」，只让它记住最新的输入，就像只有 7 秒钟记忆的金鱼一样。但很明显，这种方法也做不到理解全文，尤其是跨文档的长文本的综合理解（比如从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点）。

总之，这些所谓的捷径都无法达到理想的产品化效果。为了让模型真正解决问题，从好技术变成好产品，Moonshot AI 选择直面挑战，从多个角度去解决长上下文窗口的技术难题。

在模型训练方面，业界已经有不少通过相对位置编码外推来低成本地实现超长上下文的模型，在各项 benchmark 中分数也非常高，但 Moonshot AI 发现，这类模型在实际的工作场景中并不能达到预期的效果。因此 Moonshot AI 选择直面困难，逐一解决上述问题。

总体来看，他们从如下几个大方向入手来改善训练中遇到的问题：

在传统的 Tensor 并行、Data 并行、Pipeline 并行基础上，增加了多项基于 Seqence 维度的并行策略，提升了并行效率；
利用定制版的 Flash Attention、Fuse Cross Entropy、CPU offload 等技术大幅度降低了显存压力；
使用了创新的训练方法，针对性地调配了多阶段式训练方法，让模型保留基础能力的前提下，逐步激活长上下文的能力。

当然，模型训练是一项外科手术般精密的工作，每一个细节都不能出差错。因此，除了上述几个大方向外，Moonshot AI 还在算法稳定性、显存占用、数据分布等方面进行了上百项优化。在强大的工程和算法能力加持下，他们最终让直接训练超长上下文模型成为可能。

模型有了，接下来还要优化推理成本，以保证大量用户都能高效、低成本地使用模型。为此，Moonshot AI 探索了诸多方案，比如：

用 GQA 替换 MHA：让 KVCache 所占用的显存大小大幅度缩小
Paged attention：保证显存的充分利用；
低比特量化：通过 W8A8，至多可以把推理速度在上述基础上再提升一倍；
MoE & KVCache 裁减：让显存占用在上述基础上再下降一倍；

此外，Moonshot AI 通过极高的工程代码质量，将所有的 overhead 降到最低，使得代码性能不断逼近理论上限，从而构筑了高效推理的基础。

通过组合这些关键技术，Moonshot AI 在超长文本下依然可以让大量用户同时获得良好的使用体验，并且拥有了在文本长度和推理速度间灵活权衡的空间，其极限可处理的上下文长度上限更是可以达到 150 万字以上，相当于可以一次让模型处理《三国演义》加《西游记》两本名著。

大模型能力的二元性：为什么要死磕「长上下文窗口」？

今年年初，在 GPT-4 问世之前，一个号称「GPT-4 有 100 万亿个参数」的谣言引发了不少关注。在无数次被转发后，很多人信以为真，导致 OpenAI 首席执行官 Sam Altman 不得不亲自出来辟谣。这也在一定程度上反映了大模型领域对于参数量的一种「崇拜」。

诚然，参数量对于大模型的能力高低十分重要，是大模型出现「涌现」现象的一道门槛。但除此之外呢？还有哪些方向没有得到足够的重视？在 Moonshot AI 看来，长上下文窗口就是其中之一。

我们知道，在传统计算中有两个核心原则：计算是按照顺序逐步进行的；每一步都有有限的复杂度容量。大型语言模型可以被看作是进化了的计算实体，所以 Moonshot AI 认为大模型能够达到的最高水平由两个因素决定：单步骤的容量（即模型在每一步中可以处理的信息量，对应参数量）和执行的步骤数（即模型能够处理的上下文长度）。

目前，大部分大模型研究都集中在增加模型参数量的大小，即增强「单步骤容量」。但 Moonshot AI 认为，在保持一定参数量的同时放大另一个维度，即「步骤数」或上下文长度也同样重要。就像我们在实测中所看到的，上下文窗口就像大模型应用的新「内存」，窗口越大，用户能用它做的事情就越广泛；同时，窗口所能容纳的信息越多，模型在生成下一个 token 时可以参考的信息就越多，「幻觉」发生的可能性就越小，生成的信息就越准确。这是大模型技术落地的必要条件。

不过，更为重要的是，Moonshot AI 已经看到，超长上下文窗口其实是大模型技术未来发展的必由之路。

如今，以 OpenAI 为代表，几乎所有的头部大模型企业都会走多模态技术道路，因为人类文明的总和不止以文字的形式存在硬盘上，还隐藏于海量的语音、图像、视频等数据形态中。Moonshot AI 创始人杨植麟曾提到，他们相信对海量数据的无损压缩可以实现高程度的智能。而无损压缩等同于对数据联合概率分布的预测，这就找到了与多模态数据生成的契合点，多模态数据的生成本质上也是在做数据的联合概率分布预测，所以超长上下文窗口技术对实现多模态至关重要，是一个必须解决的技术问题。

大模型「登月计划」第一步：欢迎来到 Long LLM 时代

能选出一个有前景的方向是一回事，能不能做成又是另外一回事，毕竟超长上下文窗口打造起来并非易事，需要非常强的算法和工程能力。对此，杨植麟采取了和 Anthropic 类似的策略：提高人才密度。

目前，Moonshot AI 的整个团队人数超过了 60 人，这些人绝大部分都是拥有世界级影响力工作的大模型专家，比如杨植麟本人提出的 Transformer-XL 是历史上第一个在词级别和字级别都全面超越 RNN 的注意力语言模型，解决了语言建模上下文长度的关键问题，定义了语言建模的新标准；两位联合创始人 —— 周昕宇和吴育昕 —— 有着五位数的 Google Scholar 引用，在大模型方面有非常丰富的工程和算法经验。还有一些核心成员参与了 Google Gemini、Bard、盘古、悟道等多个大模型的开发。在这些人的共同努力下，Moonshot AI 仅用半年时间就打造出了一款世界领先的产品。

这款产品的诞生是有标志性意义的，20 万字以及更长的上下文窗口足以把使用大模型工作的你我从 LLM 时代带入 L（Long）LLM 时代。在这个时代，我们可以拥有一个能记住与你所有交互细节的虚拟伴侣；可以将日常工作中的冗长文件（如合同、研报、财务报告等）都丢给大模型来处理；还可以针对某个科学问题，将跨领域的相关学术论文作为上下文，利用大模型寻求解决问题的新思路…… 可以说，上下文窗口越大，大模型留给用户的创新空间就越大。

至少日常处理发票这种工作就不会浪费时间了

此外，Moonshot AI 表示，本次推出的超长上下文产品对于他们来说仅仅是一个起点。随着对应用场景挖掘的逐渐深入以及相应技术的优化，他们很快就会开放支持更长上下文以及拥有其他能力的模型。

如果你也想体验 Kimi Chat 的长文本能力，可以点击以下链接，申请加入内测计划：https://www.moonshot.cn/

不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

大模型开启「长」时代，杨植麟的新公司把对话框容量做到了世界第一

原来，不用担心文本过长是这种感觉

超长上下文窗口，实现起来有多难？

大模型「登月计划」第一步：欢迎来到 Long LLM 时代

你可能感兴趣的:(人工智能)