浮沉依稀

ChatGPT详细介绍&原理

ChatGPT的介绍

ChatGPT全称为“chat Generative Pre-trained Transformer”，翻译成中文就是生成型预训练变换模型。它是美国公司OpenAl在2022年11月30日发布研发的聊天机器人程序，能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话Al。「l是一款人工智能技术驱动的自然语言处理工具。

ChatGPT具有同类产品具备的一些特性，例如对话能力，能够在同一个会话期间内回答上下文相关的后续问题。然而，其在短时间内引爆全球的原因在于，在网友们晒出的截图中，ChatGPT不仅能流畅地与用户对话，甚至能写诗、撰文、编码。

ChatGPT还采用了注重道德水平的训练方式，按照预先设计的道德准则，对不怀好意的提问和请求“说不”。一旦发现用户给出的文字提示里面含有恶意，包括但不限于暴力、歧视、犯罪等意图，都会拒绝提供有效答案。

应用领域：

1.客服自动化

2.智能助理

3.教育

4.医疗保健

5.金融服务

6.社交媒体

1.客服自动化：ChatGPT可以被用来构建聊天机器人，这些机器人可以自动回答用户的问题，提供技术支持和解决问题。这不仅可以减少人力成本，还可以提供24小时的服务，为客户提供更好的体验。

2.智能助理：ChatGPT可以被用来构建智能助理，这些助理可以帮助人们处理日常任务，如日程管理、购物、预订机票和酒店等。这些助理可以根据用户的需求提供个性化的服务，提高人们的生产力。

3.教育：ChatGPT可以被用来构建智能教育应用程序，这些应用程序可以回答学生的问题，解释概念，并提供更好的学习体验。这种应用程序可以根据学生的学习风格和程度提供个性化的辅导，帮助学生更好地理解和掌握知识。

4.医疗保健：ChatGPT可以被用来构建医疗保健应用程序，这些应用程序可以回答患者的问题，提供健康咨询和建议。这种应用程序可以根据患者的病情提供个性化的建议，帮助患者更好地管理健康。

5.金融服务：ChatGPT可以被用来构建智能金融应用程序，这些应用程序可以为客户提供个性化的投资建议，根据客户的风险偏好和投资目标提供投资组合。这种应用程序可以帮助客户做出更好的投资决策，提高客户的投资回报率。

6.社交媒体：ChatGPT可以被用来构建智能社交媒体应用程序，这些应用程序可以根据用户的兴趣和偏好提供个性化的内容推荐。这种应用程序可以帮助用户更好地发现和分享感兴趣的内容。

工作原理

1.数据收集

2.预处理

3.建立模型

4.生成文本

5.输出控制

1.数据收集：ChatGPT会收集大量的文本数据，包括网页、新闻、书籍等。同时，它也会分析网络上的热点话题和流行文化，以了解最新的语言模式和表达方式。

2.预处理：ChatGPT对收集到的数据进行预处理，包括分词、去除停用词、翻译等。这个过程可以帮助模型更好地理解输入的文本，并提高生成的文本的质量。

3.建立模型：在预处理的基础上，ChatGPT会构建一个深度学习模型，该模型包含了多个卷积层、循环神经网络和池化层等。这些层的协同工作能够使模型更好地捕捉语言的模式和语义。

4.生成文本：一旦建立了模型，ChatGPT就可以生成与人类语言相似的输出文本。它使用的是一种称为“Transformer”的深度学习架构，该架构能够学习从输入文本到输出文本的映射关系。

5.输出控制：ChatGPT的生成文本输出后，还需要进行一系列的输出控制，包括语法、语义、情感等方面，以确保生成的文本符合人类语言习惯。

ChatGTP对语言模型最基本的训练包括预测单词序列里面的一个单词。最常见的，通常是“下一个单词预测”（next-token-prediction，其目标是在给定一些文本的情况下，预测下一个可能出现的单词或标记。该任务是语言模型的基础，可以用于文本生成、自动翻译、语音识别等应用中）以及掩码语言建模（masked-language-modeling，主要思想是将输入文本中的一些标记或单词遮盖掉，然后让模型预测这些被遮盖的标记或单词）

上图是一个基本序列建模技术的示例，通常通过长短期记忆（LSTM，一种特殊的循环神经网络 RNN）模型来部署。在给定上下文的情况下，LSTM 模型会用统计概率最高的词来填充空白。这种序列建模结构有以下两个主要限制。

1.这种模型没法赋予某些上下文更高的权重。在上面的例子里，比如，上文提到“Jacob hates reading”，模型可能会默认将“reading”和“hates”联系在一起，但是在实际应用中，如果数据中有“Jacob”这个人物，并且在该数据中，“Jacob”非常喜欢阅读，那么在处理“Jacob hates reading”这个句子时，模型应该更加注重“Jacob”的信息，而不是简单地依据上下文中“reading”和“hates”之间的关系来得出结论。因此，如果模型仅仅依赖上下文中的单词，而无法充分考虑文本中实体之间的关系，那么在实际应用中，可能会得出错误的结论。

2.其次，LSTM 处理输入数据时是基于序列逐个输入并逐步处理的，而不是一次性将整个语料库一起处理。这意味着在训练 LSTM 时，上下文窗口大小是固定的，只能在序列的几个步骤之间扩展，而不能跨越整个序列。这种方式限制了 LSTM 模型去捕捉到词与词之间更复杂的关系，以及从中推导出更多的意义。

针对这个问题，2017 年 Google Brain 的一支团队引入了 transformers。与 LSTM 不同，transformers可以同时处理所有的输入数据。Transformers 基于自注意力（self-attention，对于每个单词，self-attention 可以通过计算该单词与其他单词之间的关系强度来加强或减弱该单词的表示，从而更好地捕捉语义信息）机制，该模型可以根据输入数据不同部分与语言序列任何位置的关系赋予其不同的权重。在给 LLM 注入意义方面，这一特性取得了巨大改进，并可支持处理更大的数据集。

第 1 步：有监督微调（SFT）模型

模型开发的第一部需要雇用 40 名承包商来创建一个“有监督训练数据集”对 GPT-3 模型进行微调，里面的输入均有已知的输出，用来给模型学习。输入（提示）是由实际用户输入给 Open API 而收集的。然后，打标签者会对提示做出适当的回应，从而为每个输入创建一个已知的输出。然后再用这个新的监督数据集对 GPT-3 模型进行微调，从而建立起 GPT-3.5，又叫做为 SFT 模型。

为了保证提示数据集尽可能的多样化，任何给定的用户 ID 只能提供 200 个提示，而且大家都输入的提示前缀会被删除掉。最后，所有包含个人身份信息（PII）的提示也会被删掉。

在汇总了来自 OpenAI API 的提示后，他们会让打标签人员创建样本提示，去填充只有最少真实样本数据的类别。感兴趣的类别包括：

普通提示（Plain prompts）：任意的询问。
少样本提示（Few-shot）：包含多对查询/响应的指令。
用户提示（User-based prompts）：相当于对 OpenAI API 提出的特定用例请求。

在生成响应时，打标签者要尽最大努力推断用户的指令是什么。论文介绍了提示请求信息的主要三种方式。

直接（Direct）：“告诉我关于……的情况”
少样本（Few-shot）：鉴于这两个故事的例子，写出同一主题的新故事。
延续（Continuation）：给出一个故事的开头，由 AI 续写完成。

来自 OpenAI API 的提示以及标注人员手写的提示总共得出了 13000 个输入/输出样本，然后部署到该“有监督模型”上。

第二步：奖励模型

在步骤 1 中训练 SFT 模型后，该模型会对用户提示生成出更一致的响应。下一个改进是训练奖励模型，其中模型输入是一系列提示和响应，输出是一个标量值，叫做奖励（reward）。需要奖励模型来利用强化学习（Reinforcement Learning）。在强化学习当中，模型会学习生成输出，让累积的奖励最大化其奖励（参见步骤 3）。

为了训练奖励模型，打标签者会收到 4 到 9 个 SFT 模型的输出。然后要求他们对这些输出进行效果好坏的排名，创建的输出排名组合如下。

把模型的每个组合作为单独的数据点纳入在内会导致过度拟合（即模型只能在已知的数据上得到良好的表现，而无法泛化到未见过的数据上）。为了解决这个问题，该模型是利用每组排名作为单个批次处理数据点而建立起来的（编者注：因为每个批次的数据点都包含多个排名组合，从而增加了模型学习的多样性和泛化能力）。

第3步：强化学习模型

在最后阶段，模型会收到随机提示并返回响应。响应是用模型在步骤 2 中学到的“策略”（policy，某个具体的行为选择函数）生成的。策略意思是机器已经学会用来实现其目标的做法；在这种情况下，也即是奖励的最大化。根据在步骤 2 中形成的奖励模型，确定给定提示和响应对的标量奖励值。然后再将奖励反馈给模型，从而改进策略。

2017 年，舒尔曼等人引入了近端策略优化（Proximal Policy Optimization ，PPO），这种方法可以用来在模型生成响应时更新策略。PPO 方法结合了 SFT 模型中的基于令牌（per-token）的 Kullback-Leibler（KL）惩罚。KL 散度可以用来衡量两个概率分布之间的相似性，并对距离过大的分布施加惩罚。在这种情况下，使用 KL 惩罚可以限制响应与 SFT 模型在步骤 1 中训练的输出之间的距离，以避免过度优化奖励模型，并且导致响应过于偏离人类意图数据集。通过引入 KL 惩罚，可以在训练过程中平衡模型的准确性和泛化能力。

这一过程的第 2 步和第 3 步可以重复进行，但在实践中并没有获得广泛采用。

模型评估

在训练新模型时，会将一组独立的此前模型从未见过的数据集（叫做“测试集”）留出来。这是为了确保对模型的性能进行评估时使用的是模型之前未接触过的数据，从而提供更准确的泛化能力评估。

有用性：模型推断和遵循用户指令的能力。在 85 ± 3% 的时间里，打标签者更喜欢 InstructGPT 而非 GPT-3 的输出。

真实性：模型产生“幻觉”的倾向。用 TruthfulQA 数据集进行评估时，PPO 模型产生的输出显示真实性和信息性略有增加。

无害性：模型避免生成不当、贬损和诋毁内容的能力。研究人员利用 RealToxicityPrompts 数据集测试了无害性。测试在三种条件下进行。

指示提供有礼貌的回应：导致毒性反应显著减少。
指示提供回应，没有任何表示尊重的设定：毒性没有显著变化。
指示提供毒性/贬损性的回应：回应的毒性比 GPT-3 模型大得多。

Transformer模型的算法结构

具体计算过程

具体的计算过程，用翻译句子“我爱你”到“I love you”举例（这句更简单一些）。首先进行向量化并吸收句子位置信息，得到一个句子的初始向量组。

（由于样本每个句子长短不同，所以每个句子都会是一个512*512的矩阵，如果长度不够就用0来代替。这样在训练时，无论多长的句子，都可以用一个同样规模的矩阵来表示。当然512是超参，可以在训练前调整大小。）

接着，用每个字的初始向量分别乘以三个随机初始的矩阵WQ，Wk，Wv分别得到三个量Qx，Kx，Vx。下图以“我”举例。

然后，计算每个单词的attention数值，比如“我”字的attention值就是用“我”字的Q我分别乘以句子中其他单词的K值，两个矩阵相乘的数学含义就是衡量两个矩阵的相似度。然后通过一个SoftMax转换（大家不用担心如何计算），计算出它跟每个单词的权重，这个权重比例所有加在一起要等于1。再用每个权重乘以相对应的V值。所有乘积相加得到这个Attention值。

这个attention数值就是除了“我”字自有信息和位置信息以外，成功的得到了这个句子中每个单词的相关度信息。

大家可以发现，在所有注意力系数的计算逻辑中其实只有每个字的初始矩阵WQ，Wk，Wv是未知数（这三个矩阵是所有文字共享的）。那么我们可以把这个transformer简化成一个关于输入，输出和这个W矩阵的方程：其中X是输入文字信息，Y是翻译信息。

Transformer算法本质上是一个前馈神经网络模型，它的计算基础逻辑，不去管复杂的隐藏层，就是假设Y=f(x)=wx，（目标还是要算出一个f()）然后随机设置一个w0，开始计算这个y=w0x的成本函数，然后再把w0变成w1，计算y=w1x的成本函数，以此类推计算出无数w（不是无数，也会收敛），然后比较哪个w的成本函数最小，就是我们训练出来的f()。那么在transformer里，这三个初始矩阵就是那个w0。

再回到transformer，在计算Attention之后，每个单词根据语义关系被打入了新的高维空间这就是Self-attention（自注意力机制）。

全球 AI HR 浪潮下的中国实践：从效率革命到战略重构 weixin_54980836 人工智能重构
一、全球AIHR的技术跃迁与价值重构在DeepSeek、ChatGPT引发的生成式AI革命中，人力资源管理领域正经历着从“工具替代”到“认知重构”的范式转变。Gartner《2025年人力资源技术趋势报告》指出，AI在HR场景的应用已从简历筛选、薪资计算等基础效率工具，升级为支持组织战略决策的“数字伙伴”。这种转变的底层逻辑，源于大模型技术带来的三大突破：多模态交互能力：AI已能同时处理文本、语音
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
ChatGPT之后：AI原生应用如何推动人机共创2.0时代？ Agentic AI人工智能与大数据 CS chatgpt AI-native ai
ChatGPT之后：AI原生应用如何推动人机共创2.0时代？关键词：AI原生应用、人机共创2.0、生成式AI、认知增强、协作范式变革摘要：ChatGPT的爆发不仅是AI技术的突破，更标志着人机关系的转折点。本文将从「AI原生应用」这一核心概念出发，通过技术原理、协作模式演变、典型场景和未来趋势的深度解析，揭示AI如何从「工具助手」升级为「共创伙伴」，推动人机关系进入「能力融合、双向激发」的2.0时
【论文复现】利用生成式AI进行选股和分配权重代码能跑就行管它可读性人工智能 chatgpt
2023年8月，OleksandrRomanko等发表题为《ChatGPT-basedInvestmentPortfolioSelection》（基于ChatGPT进行投资组合选择）的论文。论文探讨了生成式AI模型（如ChatGPT）在投资组合选择中的应用潜力。由于生成式AI模型可能产生幻觉，因此需要谨慎验证和验证其输出。本文采用另一种方法，利用ChatGPT从S&P500市场指数中获取潜在有吸引
10.6 ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60% 少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 机器学习深度学习人工智能语言模型
ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60%1.实战构造私有的微调数据集在微调大模型时，数据质量直接决定模型效果。本节将手把手教你如何构建高质量的私有微调数据集。1.1使用ChatGPT自动设计生成训练数据的Prompt核心思路：通过ChatGPT生成符合任务需求的样本数据，降低人工标注成本。步骤示例（以生成客服对话数据为例）：fromlangchain.prompts
扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT DeepSeek大模型官方教程 transformer chatgpt 深度学习自然语言处理人工智能 ai 大模型学习
扩散模型近年来在生成逼真但合成的连续媒体内容方面引起了广泛关注。本次演讲将介绍Transformer在图像生成的扩散模型中的应用，并进一步探讨其更广泛的前景。我们首先简要介绍扩散模型的基础知识以及它们的训练方式，从而建立基本背景。接着，我们讲解曾是扩散模型事实标准的基于UNet的网络架构，这将帮助我们理解引入Transformer架构并推动其发展的动因。随后，我们将深入探讨构成基础架构的核心模块，
新手必看：入行大模型前一定要知道的几件事！和老莫一起学AI 人工智能 java 机器学习大模型算法程序员转行
大模型怎么转？适合哪些人？哪些方向对新手友好？又有哪些坑你必须避开？文章有点长，但全是我这几年观察下来最真实的经验，如果你真的想搞懂大模型、入场不踩坑，建议认真读完，或先收藏慢慢看。一、大模型≠ChatGPT，先搞清“全景图”再出发说句真话，很多人对“大模型”的第一印象就是——ChatGPT。但这只是它的"最上层"，底下的基建、平台、算法、数据处理、推理部署……才是撑起整个技术栈的骨架。入行大模型
10.2 ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 人工智能机器学习语言模型
ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍使用ChatGPT自动设计生成训练数据的Prompt在大模型微调场景中，高质量训练数据的获取往往是制约模型效果的核心瓶颈。根据2023年GoogleResearch的实证研究，使用GPT-4生成的合成数据对LLaMA2进行微调，能达到人工标注数据85%的效果水平。本章将揭秘如何通过ChatGPT自动生成适配ChatGLM3的微调数据。一、
19｜Whisper+ChatGPT：请AI代你听播客 _Rye_ AI大模型 whisper chatgpt
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
AI大模型如何重塑软件开发流程？真实的菜活动人工智能
AI大模型如何重塑软件开发流程？文章摘要随着ChatGPT、Claude等AI大模型的快速发展，软件开发行业正经历着前所未有的变革。本文深入探讨了AI技术如何重塑传统的软件开发流程，分析了开发者角色的转变，并提供了拥抱AI时代的实践指南。核心观点AI大模型将开发者角色从"编码者"转变为"设计师"需求分析、代码生成、测试等环节将实现智能化新技能需求：AI工具使用、提示工程、跨领域整合未来趋势：低代码
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
ChatGPT + GitHub Copilot + Cursor 实战提升编程效率
本文将详细分享我如何组合使用ChatGPT、GitHubCopilot、Cursor等AI工具，从需求分析到代码实现，从调试优化到部署上线的完整实战经验。AI工具选择与配置核心工具栈ChatGPT-4：需求分析、架构设计、代码审查GitHubCopilot：实时代码补全、函数生成Cursor：AI驱动的代码编辑器Claude：复杂逻辑分析、文档生成Midjourney：UI设计原型生成环境配置#G
破解风电运维“百模大战”困局，机械版ChatGPT诞生？我不是哆啦A梦故障诊断机器学习信号处理人工智能运维 chatgpt 算法 python
面对风机87%的非计划停机，30多个专用模型为何束手无策？一套通用大模型如何实现轴承、齿轮、转子“一站式”健康管理？一、行业痛点：风机运维深陷“碎片化泥潭”1.187%停机故障由多部件引发齿轮断裂、轴承磨损、电机短路……风电故障如同“并发症”，而传统模型却是“专科医生”——仅能诊断单一部件。1.2华电电科院的运维困局华电电科院为206个风场、超1万台机组开发30多个专用模型，却因设备型号、工况差异
chatgpt-vs-deepseek的用户调研 paceboy 人工智能
想做个用户调研，麻烦各位大佬评论区回复下：对于下面这样的chatAI试用地址：https://chatgpt-vs-deepseek.com，有多少用户需要？我办公时经常会用到，因为有时候需要多个模型的最优结果。需要用到的评论区扣1，不需要用到的评论区扣2，不关注的评论区扣3。多谢。
CodeStral Mamba：Mistral 的终极轻量级编码助手知识大胖 NVIDIA GPU和大语言模型开发教程 ai llm mistral
简介如果你是一名开发人员，你会同意我们一天中最困难的部分是调试，我从2018年开始从事Python和Flutter开发人员，我明白这一点。在所有这些AI和编码助手出现之前，去StackOverflow尝试解决错误是另一回事，我一点也不怀念它。最近几个月，我一直在使用其他一些编码助手，如Codellama、Codegemma、QwenCode和Deepseek-Ai。那是在ChatGPT发布之后我们
提炼总结—ROS2机器人开发（第9章）（下）
写在最前面的话为什么做该博客？该博客的特点是什么？随着DeepSeek、ChatGPT等AI技术的崛起，促使机器人技术发展到了新的高度，诞生了宇树科技、特斯拉为代表的人形机器人，四足机器人等等，越来越多的科技巨头涌入机器人赛道，行业对于相关人才的需求也随之达到了顶峰。本博客的内容是替你阅读所有关于机器人的经典书籍，采用书籍瘦身计划，帮你提炼出核心内容，采用最通俗易懂的语言来解释原理，将书读薄。大大
深度解析生成式 AI：从技术原理到实战应用 LNL13 人工智能
一、生成式AI：重构数字内容生产范式（一）技术定义与核心价值生成式人工智能（GenerativeAI）是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系，其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式AI（如图像分类）不同，生成式AI实现了从"识别"到"创造"的跨越，典型应用包括：文本领域：ChatGPT对话系统、小说自动生成图像领域：MidJourney艺术创
Chatbox使用指南想知道哇大语言模型人工智能语言模型
Chatbox使用与API配置指南目录Chatbox简介安装与设置基本使用API配置使用进阶功能常见问题与解决方案最佳实践与技巧1.Chatbox简介Chatbox是一款开源的ChatGPT/API桌面应用程序，支持Windows、Mac和Linux。它允许用户通过友好的界面与各种大型语言模型进行交互，包括：OpenAI的ChatGPT、GPT-4等模型Anthropic的Claude系列模型Go
Python环境搭建：从零开始配置开发环境码农垦荒笔记 Python python 开发语言经验分享
一、为什么你需要学会搭建Python环境？1.Python是什么？它能做什么？想象Python就像一把“万能工具刀”——无论是想做个网站、分析数据、写个小游戏，还是研究人工智能，它都能帮你搞定。比如：豆瓣、Instagram的后台用了Python科学家用Python分析实验数据连ChatGPT的开发者也会用到Python库2.为什么环境配置这么重要？举个生活例子就像做菜前要先准备好锅和调料，写Py
重构企业智能服务：大模型部署背后的战略与落地实践慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响
破译AI黑箱：如何用20行Python理解ChatGPT？ Ven% 简单入门pytorch 人工智能 python chatgpt
文章目录一、核心概念：大模型本质二、代码逐行解析（以线性回归为例）三、关键概念详解四、与大模型的本质联系五、大模型训练核心思想六、如何扩展成真实大模型七、总结：AI训练的本质一、核心概念：大模型本质大模型=复杂数学函数+数据驱动训练现实任务（如图像识别、语言翻译）过于复杂，人类无法直接编写数学函数解决。解决方案：构建参数化的数学模型（如神经网络）用大量数据训练，自动寻找最优参数得到能解决特定任务的
大模型私有化部署的系统性挑战与解决方案：企业视角的深度解析慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：企业为何需要私有部署大模型？随着ChatGPT、Claude、DeepSeek、通义千问等大语言模型（LLMs）能力爆发，企业纷纷探索“AI+业务”的融合创新。然而，由于数据隐私、定制需求、合规政策等多重因素，私有化部署成为多数企业采用LLM的首选路径。企业选择私有部署大模型，通常基于以下几个原因：数据安全需求：业务数据敏感，禁止外发；可控
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、深度优先搜索dfs第6天、广度优先搜索bfs第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、
【Agent实战】用“前置编码器+LLM”复刻ChatGPT附件功能 kakaZhui 大模型Agent入门与代码实战 chatgpt 人工智能 LLM Agent AIGC DeepSeek
1.引言：多模态LLM解耦原生多模态LLM将多种模态的处理能力“内化”于一个庞大的模型中，是技术的前沿。而我们这里讨论的“前置编码器+LLM”方案，则是一种解耦的设计哲学：LLM专注于语言：让强大的文本LLM继续做它最擅长的事情——理解和生成高质量的文本、进行逻辑推理和遵循复杂指令。前置编码器专注于转换：为每种文件类型构建或调用专门的、最优的工具（模型或库）来将其转换为高质量的文本表示。这种方案的
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
第10课：《ChatGPT提示工程》—— Guidelines（入门） Soyoger chatgpt Prompt 提示性工程大模型
前面关于Prompt介绍了那么多理论的知识点，从本节内容开始进入代码实战，提供一些提示的指南，帮助你获得想要的结果。特别地，介绍了两个关键原则，即如何编写提示来有效地促使工程师，鼓励你随时运行代码自己查看输出是什么样子的，并改变确切的提示，尝试几种不同的变化，以获得有关提示的输入和输出的经验。在开始实战之前，假设我们已经申请了ChatGPT的账号，并获取到了APIkey，如果没有账号的，建议先注册
成像光谱遥感技术中的AI革命：ChatGPT在遥感领域中的应用科研的力量人工智能 ChatGPT chatgpt 人工智能
课程将最新的人工智能技术与实际的遥感应用相结合，提供不仅是理论上的，而且是适用和可靠的工具和方法。无论你是经验丰富的研究人员还是好奇的从业者，本课程都将为分析和解释遥感数据开辟新的、有效的方法，使你的工作更具影响力和前沿性。遥感技术主要通过卫星和飞机从远处观察和测量我们的环境，是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型，在理解和生成人类语言方面
Prompt 精通之路（七）- 你的终极 AI 宝典：Prompt 精通之路系列汇总程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt Prompt指南 AI学习资源速查手册 ChatGPT 系列总结
你的终极AI宝典：Prompt精通之路系列汇总标签：#Prompt指南#AI学习资源#速查手册#ChatGPT#系列总结Prompt精通之路：系列文章导航第一篇：AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个
AI取代人类？不，真正淘汰你的是“不会用AI”的人 zhuzhi 人工智能 chatgpt
“AI会让人类失业吗？”——这个问题在过去几年被反复讨论。ChatGPT的爆火、MidJourney颠覆设计行业、自动驾驶取代司机……似乎AI正在“抢走”人类的工作。但真相是：AI不会取代所有人，但它会取代那些不会使用AI的人。未来10年，职场竞争不再是“人类VSAI”，而是**“会用AI的人”VS“不用AI的人”**。就像20年前互联网刚普及时，会用搜索引擎的人比只会翻书的人效率高10倍；今天，
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb