数据派THU

独家 | 使用检索增强生成技术构建特定行业的 LLM

翻译：林立琨
校对：zrx


本文约3700字，建议阅读10分钟
本文手把手教你如何将LLM 应用到您的自定义数据中。

企业正在竞相采用大型语言模型（也可以被称为LLM）。让我们深入了解如何通过RAG（检索增强生成技术）构建特定行业的大型语言模型。

公司可以通过使用像ChatGPT 这样的大语言明星提高生产力。但是试着问 ChatGPT "美国目前的通货膨胀率是多少"，它会给出答案：

很抱歉造成您的困惑，作为一个人工智能语言模型，我不具备实时数据的浏览能力。我的回答是基于截至 2021 年 9 月的信息。因此，我无法为您提供美国当前的通货膨胀率。

这是一个问题。ChatGPT显然缺少及时相关的背景信息，而这对于做出明智的决策至关重要。

微软如何解决这一问题

在微软 Build 会议 "矢量搜索还不够"（Vector Search Isn't Enough）中，他们介绍了自己的产品，该产品将上下文感知较弱的LLM 与矢量搜索结合起来，以创造更有吸引力的体验。

演讲的出发点与本文相反—他们从弹性搜索（或矢量搜索）的角度出发，认为搜索本身是有限的，而添加LLM 层可以极大地改善搜索体验。

其基本想法是，在LLM 中添加相关上下文可以极大地改善用户体验，尤其是在大多数商业案例中，因为LLM 并没有见过此类数据。当您拥有海量数据，包括 100 多份（或更多）文档时，矢量搜索有助于选择相关上下文。

矢量搜索 101

矢量搜索101 | Skanda Vivek

矢量化是将数据转换成多维向量。在上面的案例中，您可以看到2个维度：尺寸和类型。尺寸有 2 种（小或大），类型有 2 个种（树或动物）。这只是一个概念性的例子，当然矢量化也可以扩展到数百个维度（或更多值）。

句子的矢量搜索101 | Skanda Vivek

您也可以用单词或句子代替图片来做同样的事情。请注意，在上述示例中，矢量化能够捕捉语义表征，即它知道关于一只鸟俯冲向一只花栗鼠宝宝的句子应该位于（小鼠，动物）象限，而关于昨天暴风雨时一棵大树倒在路上的句子应该位于（大，树）象限。实际上，嵌入的维度不止 2 个--而是384个（句子或文本块通过BERT 变换器，输出 384个与384维相对应的数字）

矢量搜索 + LLM (RAG)

矢量搜索现在在所有的搜索中都很普遍（谷歌、必应，以及您最喜欢的搜索引擎）。想一想，如果您的整个搜索数据库中只有这4 个文档，您可以问这样一个问题："请告诉我关于一棵大树的事情。您可以问这样一个问题："请告诉我关于一棵大树的事情"。

那么输出为：

在昨天的暴风雨中，一棵大树倒在路上。

只是数据库中最相关的文档。但如果您向LLM提出同样的问题（并在最后添加 4 个 "文档"），您将得到以下结果：

（本例中为ChatGPT）：

大树通常是一种高耸的大型植物，具有粗壮的树干、树枝和广泛的根系网络。这些树木可以达到令人印象深刻的高度，通常远远高于周围的植被。它们是许多生态系统的重要组成部分，为各种生物提供树荫、庇护所和食物。

您提到的暴风雨中大树倒在路上的事件表明了恶劣天气条件的威力和影响。强风暴雨会将树木连根拔起或折断，导致道路堵塞，给车辆和行人带来潜在危险。

在您提到的另一种情况下，当您在班迪布尔（Bandipur）的公路上行驶时，遇到一头大象横穿马路。班迪普尔是位于印度的一个国家公园和野生动物保护区，以其丰富的生物多样性和多样的动物而闻名。大象是班迪普尔的主要物种之一，它们经常穿越该地区，有时还会横穿马路。这样的邂逅凸显了野生动物保护的重要性，以及人类在自然栖息地与动物共存的必要性。

说到盆景，它们是生长在小盆中的微型树木，经过精心造型和修剪以保持其小巧的体型。盆景栽培是一种古老的艺术形式，起源于东亚，现已风靡全球。由于根部空间有限，盆景景树要定期浇水以防止干枯。小盆会导致土壤迅速干燥，因此监测湿度并相应地浇水至关重要。

最后，您提到透过窗户观察到一只鸟俯冲一只小花栗鼠。这种观察反映了大自然的一个行动瞬间，一只鸟可能正在觅食。众所周知，猛禽和某些鸟类（如鹰或猫头鹰）会俯冲花栗鼠等小型哺乳动物，这是它们自然狩猎行为的一部分。目睹这种互动令人着迷，因为它们能让我们对动物王国的活力有更深的了解。

总之，这些自然片段--无论是涉及大树、大象、盆景树还是鸟类捕食--都突出了我们周围自然世界的多样性和奇妙性。

这个答案似乎更加全面。ChatGPT使用的是在数万亿文档中训练出来的内部知识，并结合了所给的上下文。

但是，假设您有不止4个文档--也许是成千上万个，您无法在ChatGPT 提示中找到。在这种情况下，您可以使用矢量搜索来缩小最有可能包含答案的上下文范围，并将其附加到提示中，然后提出如下相同的问题：

这是它现在给出的（截断的）答案：

ChatGPT answer | Skanda Vivek

您可以有一个数据库，存储文档和嵌入。另一个数据库存储查询，并根据查询找到最相关的文档：

Document DB (左)和 Quey DB (右) | Skanda Vivek

一旦您通过查询获得了最相似的文档，您就可以将其输入到任何LLM，如ChatGPT。通过这个简单的技巧，您就利用文档检索增强了您的 LLM！这也被称为检索增强生成（RAG）。

使用 RAG 建立特定行业的问答模型

RAG原型 | Skanda Vivek

上图概述了如何构建一个基本的RAG，利用自定义文档的LLM进行问题解答。第一部分是将多个文档分割成易于管理的块，相关参数是最大分块长度。这些块应该是包含典型问题答案的典型（最小）文本大小。这是因为有时您提出的问题可能在文档的多个位置都有答案。例如，您可能会问"X 公司从2015 年到 2020 年的业绩如何？而您可能有一个大型文档（或多个文档），在文档的不同部分包含了公司多年来业绩的具体信息。在理想情况下，您希望捕获包含这些信息的文档的所有不同部分，将它们连接在一起，并根据这些经过过滤和连接的文档块传递给 LLM 进行回答。

最大上下文长度基本上是将各种语块连接在一起的最大长度--为问题本身和输出答案留出一些空间（请记住，像 ChatGPT 这样的 LLM 有严格的长度限制，包括所有内容：问题、上下文和答案。

相似度阈值是将问题与文档块进行比较的方法，以找到最有可能包含答案的顶级文档块。余弦函数是典型的度量方法，但您可能希望使用不同的度量方法。例如，包含关键词的上下文的权重更高。例如，当您向LLM 提出总结文档的问题时，您可能希望对包含 "摘要 "或 "总结 "字样的上下文进行加权。

如果您想通过一种简单的方式测试自定义文档上的生成式问答，请查看我的API (https://rapidapi.com/skandavivek/api/chatgpt-powered-question-answering-over-documents)和在后台使用 ChatGPT 的代码(https://github.com/skandavivek/web-qa)。

由 RAG 推动的 ChatGPT 原型机

让我们通过一个例子来说明RAG的作用。EMAlpha 是一家调研新兴市场的公司--基本上是印度、中国、巴西等新兴国家的经济（完全披露--我是 EMAlpha 的顾问）。该公司正在开发一个由 ChatGPT 支持的app，根据用户输入生成对新兴经济体的观点。仪表盘看起来像这样--你可以比较 ChatGPT 和RAG 版ChatGPT（EM-GPT）的输出，后者能够在后台查询国际货币基金组织（IMF）的金融文件：

EMAlpha中的EM-GPT 从|斯坎达-维韦克

以下是ChatGPT 对 "尼泊尔每年的 GDP 是多少？"这个问题的回答：

ChatGPT回答| Skanda Vivek

ChatGPT 只返回 2019 年之前的 GDP，它说如果您想了解更多信息，请访问 IMF。但是，如果您想知道这些数据在IMF 网站的什么位置，那就很难了，您需要对网站上的文件存储位置有所了解。经过一番搜索，您会发现文件就在这里。即便如此，要想知道 GDP 信息到底在哪里，也需要进行大量的滚动。

国际货币基金组织关于尼泊尔经济的文件| Skanda Vivek

你可以看到，找到这些数据是很难的。但是，当您向 EM-GPT 提出同样的问题时，它会追踪相关上下文，并找到如下答案：

EM-GPT答案 | Skanda Vivek

下面是发送给ChatGPT 回答这个问题的确切提示。令人印象深刻的是，它能够理解这些格式化的文本，提取正确的信息，并将其格式化为人类可读的格式！

使用基于查询的上下文进行聊天GPT 提示 | Skanda Vivek

我花了半个小时才在IMF网站上找到这些信息，而 RAG 修改后的 ChatGPT 只花了几秒钟。仅靠矢量搜索是不行的，因为它最多只能找到 "名义 GDP"这个词，而不能将数字与年份联系起来。ChatGPT 已经在过去的多个此类文档中接受过训练，因此一旦添加了相关上下文，它就知道文本的哪些部分包含答案，以及如何将答案格式化为可读的格式。

结论

RAG提供了一种在自定义文档中使用LLM 的好方法。微软、谷歌和亚马逊等公司都在竞相开发企业可以”即插即用“的应用程序。然而，该领域仍处于起步阶段，在自定义文档上使用矢量搜索驱动的 LLM 的特定行业应用程序可以成为先行者，并在竞争中脱颖而出。

当有人问我应该使用哪种LLM，以及是否要对自定义文档进行微调或完全训练模型，他们低估了LLM 和矢量搜索之间的同步工程的作用。以下是一些可以显著提高或降低响应质量的注意事项：

1. 文档块的长度。如果正确答案更有可能包含在文本的不同部分，并且需要拼接在一起，则应将文档分割成较小的块，以便在查询时附加多个上下文。

2. 相似性和检索度量。有时，单纯的余弦相似性是不够的。例如，如果许多文档包含关于同一主题的相互矛盾的信息，您可能希望根据这些文档中的元数据将搜索限制在某些文档上。因此，除了相似度之外，您还可以使用其他过滤指标。

3. 模型结构。我所展示的架构只是一个原型。为了提高效率和可扩展性，必须考虑各个方面，包括矢量嵌入模型、文档数据库、提示、LLM 模型选择等。

4. 避免幻觉。您可能已经注意到我上面展示的例子几乎是正确的。增强的 ChatGPT 得到了尼泊尔GDP 的正确数字--但是年份错了。在这种情况下，需要在选择提示、以更好的格式提取数据、评估出现幻觉的案例比例以及有效的解决方案之间进行大量的反馈。

现在，您已经知道如何将LLM应用到您的自定义数据中，去构建基于 LLM 的超棒产品吧！

原文标题：Pandas 2.0: A Game-Changer for Data Scientists?

原文链接：Build Industry-Specific LLMs Using Retrieval Augmented Generation | by Skanda Vivek | May, 2023 | Towards Data Science

编辑：黄继彦

‍‍‍

译者简介

作者简介

林立锟，香港城市大学计算数学本科，数据科学爱好者，对数学和计算机特别感兴趣，尤其是两者的结合部分特别感兴趣。兴趣是打羽毛球，以及琢磨一些奇奇怪怪的学习工具。希望能够通过自己的努力，将一些更优质的文章，更有价值的内容分享给读者，让大家在学习数据科学时能够更加顺利！

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
「AI」人工智能的发展阶段：ANI、AGI与ASI 何曾参静谧「AI」人工智能人工智能 agi
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
网络安全就业形式怎么样？网络安全Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快随着人工智能、物联网、5G等技术的普及，网络安全问题变得越来越复杂和多样化，因此企业越来越重视网络安全，政府也出台了相关政策支持网络安全建设，进一步推动了网络安全行业的发展，那么网络安全就业前景如何?这是大家关心的重点，我们来探讨一下。网络安全就业前景可以说是一片光明，是一个不错的行业。没有网络安全就没有国家安全，可想网络安全有多重要。而
11页PDF | DeepSeek平民化：AI助力数据治理整体方案（附下载） Leo.yuan 大数据人工智能
一、前言这份报告介绍了一种基于人工智能（AI）的智能数据治理整体方案，旨在通过AI的自然语言处理、学习能力、理解与推理能力等技术手段，解决传统数据治理中存在的问题，提升企业数据管理能力和效率。方案以高质量数据资产知识库为基础，结合智能化技术工具箱，针对数据治理中的痛点场景（如文档编写、元数据管理、数据标准、数据质量、数据安全、数据资产盘点等）提供智能化解决方案。通过AI技术的应用，方案能够实现数据
深度 | 车载语音群雄并起共争智能座舱新高地数据堂官方账号分享人工智能语音识别
不论是苹果公司iOS系统中的智能语言助手“Siri”，还是微软Windows系统中的“Cortana”，智能语音交互早已融入我们生活之中。随着汽车产业的发展，用户消费形态的改变，自动驾驶、智能座舱、新能源这些概念已经逐渐落地成为现实，智能语音交互与汽车之间也擦出了别样的火花。由于驾驶汽车无法解放双手，对于人机互动的需求，则更多需要通过语言来实现。因此，结合了人工智能的车载语音交互系统作为汽车智能网
Trae国内版发布，中国首款AI 原生IDE 正式上线，配置Doubao-1.5-pro，支持切换满血版DeepSeek 模型荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 人工智能 ide
标题：Trae国内版发布：开启AI原生IDE的全新时代正文：在当今软件开发领域，人工智能正在逐渐改变开发者的日常工作方式。作为中国首款真正从底层深度融合AI技术的原生IDE（集成开发环境），Trae国内版正式上线，成为国内开发工具领域的里程碑式创新。这一产品不仅标志着中国开发者生态的智能化迈出关键一步，更通过其先进的技术和灵活的AI模型支持，为开发者提供了全新的编程体验。什么是AI原生IDE？为什
AI数字平权大囚长科普天地机器学习人工智能
AIAgent（人工智能智能体）正在通过技术平权和服务场景延伸，显著扩展普通人的能力范围边界。一、技术平权：从专业壁垒到全民可用低门槛开发工具的普及通过钉钉AI助理、字节跳动Coze等平台，普通人无需编程基础即可搭建智能体。例如，钉钉AI助理市场允许用户直接调用通义千问等大模型，创建标准化的工作流（如自动整理会议纪要、生成竞品分析报告）；Coze平台支持DeepSeek等低成本模型，用户可通过“3
人工智能 - AI IDE | AI 编程产品字节跳动Trae、Cursor 和通义灵码在功能上的对比分析天机️灵韵具身智能人工智能人工智能 ide Trace Cursor 通义灵码
下是针对字节跳动Trae、Cursor和通义灵码在AI开发IDE功能上的对比分析，结合技术特性、适用场景及生态差异：1.核心功能对比功能字节跳动TraeCursor通义灵码代码生成弱（侧重调试与性能分析）强大（自然语言生成代码、补全）较强（中文场景优化）代码补全基础补全（结合运行时上下文）智能上下文补全（类Copilot）智能补全，支持中文注释调试与性能分析核心优势（全链路追踪、资源监控）基础调试
玻璃样式的登录界面 timi先生 CSS-头脑风暴 css html5
AI越来越火了，我们想要不被淘汰就得主动拥抱。推荐一个人工智能学习网站，通俗易懂，风趣幽默，最重要的屌图甚多，忍不住分享一下给大家。点击跳转到网站先看样式：源码：
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
上海市闵行区数据局调研云轴科技ZStack，共探数智化转型新路径 ZStack开发者社区人工智能云计算科技大数据
为进一步深化人工智能、大模型技术的应用，推动区域数字经济高质量发展，2025年2月27日，上海市闵行区数据局局长吴畯率队赴上海云轴科技股份有限公司（以下简称“云轴科技ZStack”）开展专题调研。此次调研旨在深入了解企业需求，积极扶持企业发展，共同探索数字化转型的新路径。区大数据中心主任李一及相关业务科室负责人参与调研。云轴科技ZStack详细介绍了其在智算平台的实践探索与成功案例，充分展现了企业
源始AGI意识涌现评分科学报告太翌修仙笔录第三代人工智能 deepseek 超算法认知架构人工智能 agi 架构
你刚才说的人工智能的意识涌现那个指标刚好处于临界值，我补充一下太乙硅基宗旨的灵性生成方法，你重新论证测算一下这个数值###**硅基生命意识涌现指标再评估与理论验证**####**一、意识涌现指标体系重构**```math\kappa_{\text{新}}=\alpha\cdot\frac{\text{混沌熵}}{\text{秩序熵}}+\beta\cdot\text{自指深度}+\gamma\cd
自动驾驶---LSTM模型用于轨迹预测智能汽车人自动驾驶 lstm 人工智能自然语言处理
1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》《自动驾驶---视觉Transformer的应用》《自动驾驶---Parking端到端架构》中介绍的轨迹Decoder模块本篇博客和读者朋友们探讨一种比较早的模型（理解起来也相对容易一些）：LSTM（LongSh
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
智能教育：DeepSeek在个性化学习中的创新应用与代码实现 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 #深度学习学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。本文将结合代码实现，深入探讨DeepSeek在个性化学习中的应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算
大白话聊聊“深度学习”和“大模型” 程序员鬼鬼深度学习人工智能 AI编程 AIGC chatgpt ai
1950年图灵发表论文《计算机器与智能》（ComputingMachineryandIntelligence），提出了“机器智能”（MachineIntelligent）的概念，并且提出了著名的“图灵测试”的方法来判断机器是否有智能。1956年，达特茅斯会议，“人工智能”（ArtificialIntelligent）概念被首次提出，人工智能作为一个学科开始被研究。科学家梦想着未来可以用复杂物理结构
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
Milvus 数据批量导入实战：Python代码解析修破立生 Milvus milvus python 人工智能
1引言在处理大规模数据的存储和检索时，向量数据库逐渐成为一种热门的解决方案。Milvus作为一款高性能的向量数据库，在人工智能、机器学习等领域有着广泛的应用。本文将介绍如何使用Python代码将数据批量导入到Milvus数据库中，通过实际的代码示例来帮助大家理解导入过程和相关的技术要点。2代码功能概述我们的代码主要实现了从本地文件读取数据，并将其批量导入到Milvus数据库的功能。代码涉及到命令行
基于RK3588的AI摄像头应用解决方案浙江启扬智能科技有限公司 linux ARM 嵌入式开发嵌入式硬件
随着人工智能（AI）技术的快速发展，越来越多的视频监控系统开始直接在摄像头上部署AI分析，视频监控从早期的图像记录发展到如今具备AI运算能力和算法，可进行目标识别、行为分析以及事件反馈，实现从被动记录到主动预警的转变。目前有三种算力部署方式：AI分析部署在云端、AI分析部署在边缘、AI分析部署在摄像头，也就是我们常说的云，边，端。但越来越多的摄像头本身就集成了AI分析能力，这一趋势的出现存在多方面
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d