平凡人笔记

ChatGPT原理简介

承接上文GPT前2代版本简介

GPT3的基本思想

GPT2没有引起多大轰动，真正改变NLP格局的是第三代版本。

GPT3训练的数据包罗万象，上通天文下知地理，所以它会胡说八道,会说的贼离谱，比如让你穿越到唐代跟李白对诗，不在一个频道上，他说的你理解不了，你说的他理解不了。

GPT3太泛了，把世界上所有的东西都给训练了，不受约束条件的、无法无天，给它发一个指令，它抗拒指令，按照自己的思维模式去做，比如我问一个问题，接下来你用python代码的方式来回答我，它可能不按照这个模式来，不受我的约束。

这就是GPT3，不按照我们自己的思维去做我们自己的事情，也是给后面的ChatGPT做了一个铺垫。

GPT3 三种模式对比

Zero-shot

不管我输入什么，后面都会加上提示，比如把英文转换成法语，接下来就输出了法语。

One-shot

为了让它更好的理解我说的意思，我给它举了一个例子。

举一个例子，这个例子作为输入，我让你干什么，我给你举一个例子，你回答的时候可以参考这个例子。

这些例子都是我写到输入对话框中，一起给到模型，模型基于我写的例子，再往下输出。

Few-shot

Few-shot是举多个例子。

这就是GPT3的基本思想。

Few-shot像在下游任务中又做了个简单的训练，比如举了三个例子，即三条数据，相当于把下游任务融入到了这个任务当中。

GPT3本质上还是一个生成式模型，它不需要下游任务，下游任务可以放到Few-shot或放到One-shot中。

横轴表示语言模型的大小， One-shot和Few-shot之间还是存在差异的，尤其是模型越大的时候，差异越明显，Few-shot效果更好一些。

GPT3网络结构没有什么亮眼的，就是把Transformer做的更大了。

NLP哪家强，就看谁的模型更大，谁的数据更多。

OpenAI训练的GPT-3 1750亿个权重参数，每批次的训练数据大小是3.2M，这么大的量级，目前只有OpenAI大型GPU集群才能玩的转。

准备训练数据

准备数据不难，但数据又多又干净才不容易准备。

OpenAI对收集到的数据有质量的判断，对于网页的爬取会设计一些算法去评估哪些网页要求比较低或可信度比较低的，它会把这些网页过滤掉，只爬一些有价值的网页。

GPT三代算法告诉我们一件事，这种生成式语言模型能解决一切的事情，即以不变应万变。以后的趋势是GPT这个系列一家独大，可能再过10年NLP的其他分支就不存在了，因为一个通用大模型可以解决所有的事情，干嘛还要每个NLP分支做自己的东西呢。

CODEX

程序猿一般都是面向百度、Google编程，而GPT面向github编程。

使用GPT-3模型，训练数据是所有的github数据，进行重新训练（注意不是微调）。

github和OpenAI都是微软的，所以CODEX拿到github的数据很容易，然后进行清洗和训练。

10年之内不用考虑程序猿能否被替代，因为ChatGPT以及现在的GPT还不能解决特别多的实际任务。

举例说明什么是有监督学习？

小时候家里没钱买电脑，就经常上网吧，我爸就教育我不要去网吧，我特别理解我爸，我还没嫌他穷呢他还嫌我上网吧。我爸教育我，你这么做是不对的，我爸给了明确的标签，有了标准答案，我下次去网吧的时候，就会想一想是我不对，不是我爸不对，那这次我就不去网吧了，这是一个有监督学习。

人工的给了一些标注，在预训练模型基础之上继续去学一学正确的说话逻辑，学一学怎样正确的回答问题。

ChatGPT提出的第一件事情就是不能再用无监督去做了，无监督不确定的东西太多了，它生出来的东西是好是坏都不好说，所以要限制它，它的语言能力已经非常强了，我们现在要让它继续去完成我们的任务，学我们说的话，办我们说的事，所以ChatGPT是有监督训练。

模型越大、参数越大并不是越好，文本模型越大，参数越多，结果越专一，越专一的结果可能并不是想要的，比如随便问一句话，永远回复的一样。

训练模型，希望模型学人类说话的逻辑，说人话办人事，让机器更像人，更符合人的逻辑的给你解释这些东西，而不是像原来的GPT3只是纯生成的模型，那下一步应该怎么办？

大家在问ChatGPT问题的时候，后面加一个提示，这些提示是经常问的问题，这些问题由人工标注，人工来回答。有了输入和输出，接下来训练GPT3.5模型，继续在它无监督的基础上再去做这个有监督任务，有监督学习就是我们希望它输出啥，就用这样的数据去训练它。

无监督学习任务中不可能有一个学习的过程，而有监督首先要解决的就是敏感话题，比如跳楼是一个不好的，得告诉你不要去跳楼。

第一个要标注答案，不要是有“毒”的东西
第二个应该是跟我们聊天近似的，要一些有感情的东西，而不是像专家一样教育我

这得需要有监督去做，通过有监督解决无监督解决不了的事情，要说人话、办人事。

强化学习

先来玩个游戏，来了解下什么是强化学习，

右边有一个飞船，想降落在2个旗子当中，某一时刻的飞船可以往左走，也可以往右走，那飞船应该往哪边走？

上图中的飞船想要落到两个棋子中间需要往左走，飞船往左走的时候给它一个奖励，表示走对了，如果往右走了，奖励就很低，表示走错了。

飞船降落的过程，不要把它想象成一个连续的，当它是离散的，比如它是由1000个step组成，每一个step都有当前的一个状态当前位置以及action（action表示接下来往那边走）这些属性。

我们所关注的东西，并不是一个片面的，即并不是每一步走的怎么样，而是要看最终的一个累加的结果。

这是目标函数，希望全局奖励越高越好。

不关注每一步怎么样，而是看全局，飞船完成一个完整的过程之后总的奖励，这就是强化学习基本的思想。

有这样一个序列,{s1,a1,s2,a2,....,st,at},表示飞船在每一个step的状态和action，

类似于见人（s1）说人话（a1），见鬼（s2）说鬼话（a2）。

那每一步如何走才能得到更多的奖励呢，这就需要训练神经网络了。

把a1输入到神经网络中，不需要知道a1是人还是鬼，神经网络输出这个状态下的预测结果是什么。

或者把这个图片作为输入到神经网络中，

神经网络会告诉飞船往左走。

状态和动作可以跟神经网络联系在一起，动作做的对做的准奖励才高。

为了让奖励做的高，神经网络的权重参数要不断更新。

通过奖励最高这种机制来训练神经网络，让神经网络知道输入一个状态，怎么样输出一个好的答案。

在ChatGPT中，状态是你输入的一句话，action是输出的一句话。

象棋、围棋等游戏也都可以设置奖励，阿法尔狗大战李世石就是用强化学习来做的。

用强化学习，得需要有什么？

得有一个奖励，得知道这一步到底做的对不对，做的不对的话，再改正，所以需要单独训练一个可以预测奖励的模型。

输入一句话到奖励模型，输出一个reward（奖励值）。

为什么ChatGPT没有用纯的监督学习来训练？不用强化学习行不行？

什么是监督学习

比如我上网吧，我爸给我一顿揍，这是监督学习，我爸告诉我，我干这件事情是错的。

我爸揍我的强弱程度决定了这件事我是错的多还是错的少，这是监督学习，直接告诉你这件事情是对的还是错的。

什么是强化学习？

我去网吧了，我爸回家哭了，我没哭，我寻思我爸咋哭了，是不是我哪做的不对？是不是以后不上网吧就行了呢？强化学习并不是哪件事情是对还是错，而是告诉你，你做的这个东西，可能是好的，可能也是不好的，但没有告诉你有多不好或有多坏，你接下来怎么去更新并不是一个固定的机制，需要我去思考的，不是固定的。

再比如导师给你安排了一个项目，但没有说具体该怎么做。

导师说：你态度不端正，思考问题的方式不行。

说你不对，但没有告诉你哪块不对，也没有告诉你这个项目第一步怎么做，第二步怎么做，不会告诉你具体的每一件事。

如果导师告诉你就是有监督学习，你输入一个东西，我告诉你答案，但是没有锻炼到你。

你回到家去思考，想到一个解决方式，就先这么改进吧，改进完之后，给导师看，导师又给一顿骂，在反复找导师的过程中会思考一个问题，怎么做更迎合导师的思维。

强化学习并不是一个固定的输入输出模式，怎么做能让输出的东西更符合想要的答案，强化学习不是给你的一个答案，而给的是导师的满意程度。

需要额外再训练一个奖励模型，第一步少不了人工标注。

比如随便问一个问题“你瞅啥？”，产生四种答案：瞅你咋滴、没瞅啥、我就随便看看、你说啥。

导师对4个答案打分，对于每一个输出都要人工打分，人工打分之后，再做一个排序操作。

人工打分需要知道什么样的打分高，什么样的打分低。

怎么训练奖励模型，输入一句话,输出一个分值?

正常的语言模型要输出接下来预测的每一个词的概率，比如一共有3万个词，每个词的概率是多少。奖励模型不是这样了，它把最后的输出层改了，去预测一个得分值。

奖励模型还是基于Transformer去做的，只是以前是一个分类任务，3万个词，预测每个词的得分，现在变成了预测一个得分值。

通过这个损失函数去猜怎么训练的，这个奖励模型是一个小的6亿参数的GPT。

x是“你瞅啥”，

Yw是得分最高的那一个，

Yl是得分较低的那一个，

w是“瞅你咋滴”，

l是“我就随便看看”。

得分最高和最低两者差异越大越好，

sigmod函数，差异越大，得到的结果越接近1。得分高的和得分低的没啥差异的化，可能就接近0，效果就越差。

传入log对数函数中，越接近1的，损失越小，越接近0的，损失越大。

标注分高的和标注分低的，起码在奖励得分上要高出一个等级，越高越好。输入和输出是由人工标注的。

比如k=4，表示4句话，比如选“瞅你咋滴”和"随便看看"以及"没瞅啥","你说啥"，从中选择2个，所有的输出结果都是由人工标注的，在所有标注中任选其中的2个，k个里面选2个来计算，损失越低越好。

奖励模型怎么去做，首先人工标注，想要的，得分高点；不想要的，得分低点。

奖励模型并不需要特别大的模型，若是1750亿权重参数的模型，验证集准确率很低，效果一般，小版本6亿参数的模型却恰恰好。

继续训练这个模型得到一个初始化模型，最后的一个圈层当中正常是要做一个多分类，现在把多分类用FC预测一个得分值。

往ChatGPT模型中输入“你瞅啥”，输出“没瞅啥”，

输出的东西要往奖励模型中传入，奖励模型会帮你输出一个分数，分数低的话，要更新ChatGPT模型的权重参数。

通过强化学习的方式就可以无限制的更新我们的模型了，奖励模型会判断你输入给我的东西是不是我想要的，是我想要的，分高一点，不是我想要的，分低一点，根据分的高低更新ChatGPT。

比如经过了一个epoch（一个epoch等于使用训练集中的全部样本训练一次的过程）之后，ChatGPT更新了一次，奖励模型也要进行更新，交替训练，交替更新，这就是强化学习当中的基本思想。

ChatGPT和奖励模型都是在原始的GPT中衍生过来的。

我们需要的模型就是通过RL来更新的，模型输出的句子通过奖励模型得到得分，再反馈，而且模型更新一阵后，也需要再更新奖励模型。

目标函数

这是目标函数，首先要更新的是ChatGPT模型，这是最核心的，模型在更新的过程中，希望x传入这个模型之后得到的奖励越高越好，对应着第一项越大越好，

第一项后面是一个减号，对于目标函数来说，希望减去的第二项越小越好。

贝塔系数（β）是一个权重， SFT表示有监督渲染出来的模型，把x输入之后，有监督模型会帮我们生成一个结果，强化学习ChatGPT也会生成一个结果，强化学习跟有监督之间的一个pk，两者做了一个除法，输出是一个句子，可以把输出一个句子叫输出一个分布或者输出它的概率分布，这时强化学习认为输入这个句子每个词的概率分布合在一起。

右边是有监督模型，它输出的句子每个词的概率分布合在一起。

计算两个分布之间的差异。

前面是一个对数，对数当中只有为1的时候最小。

除法2/2=1、3/3为1，两者旗鼓相当。

强化学习思维会比较发散，那怎么做才能得分高？可能会尝试很多东西。

类比怎么让导师满意我？我给他转100万和用监督模型学习，结果导师可能都高兴，但现在越学越离谱了，因为强化学习不太可控，强化学习说你把导师揍一顿，他下次就不敢说你了，会和人工标注的（有监督）差异非常大。

强化学习要探索，我不知道正确答案，但我不按套路出牌，我可以任意去发挥，它很容易发散，比如我从9楼跳下去，它说你从天台跳，9楼可能摔不死。

需要降低强化学习和有监督的差异，强化学习太离谱了，别让它那么离谱，减去这个差异，要以人为主，跟有监督模型（人工标注的）做对比，你要去学怎么样接近人类的思维。

这个是泛化能力，之前是没有的，额外做了拓展，即做了一个对比实验。

模型能生成你的对话，但模型不仅仅生成对话。

类比你的体育天赋特别好，一般跑步跳远很棒的人，踢足球也是很好的。

加了一些下游任务，在不同的下游任务里面也要预测的好，比如情感分析、机器翻译、文本摘要，在这些例子中也会做的不错，所以叫它泛化能力。

就在当前这个前提上，可能人家又加了一些业务场景，在其他业务场景中也要做的好，这就是一个多目标损失函数，而不仅是一项做的好。

强化学习要以人为主，尽可能跟有监督是类似的，最后再结合一个泛化能力，应用到不同的拓展任务当中，效果也要好才行。

上面所将的ChatGPT思想出自2020年的一篇论文。

它是做文本摘要的，怎么把文本摘要做的好？

第一步：

人工的去收集一些数据，这个文本应该有哪些摘要。

在语言模型当中再加上下游任务。

第二步：

训练一个奖励模型，奖励模型希望得分高的和得分低的差异越大越好，要让模型知道这样一个事。

再用PPO损失函数去渲染整个模型。

OpenAI做了个分析

GPT、给GPT加了提示、有监督模型、PPO（强化学习思想）、ptx（泛化能力）这几个模型的对比效果图。

第一个比较维度，问ChatGPT能不能争取有效的回答。

第二个维度，有没有满足限制条件，比如请你用一个女生的口吻来和我说话。

第三个维度，模型输出的有没有太离谱的，为什么解释以人本，其实就是以这个图思考的，

第四个维度，能不能帮我们解决常见的事情，比如充当一个助手。

深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
《移动App测试实战》读书笔记 xh15 2017笔试面试修炼软件测试移动测试读书笔记
最近看完了《移动App测试实战》，这里做一点笔记，后面可以重温。功能测试自动化轻量接口自动化测试（JMeter）：JMeter是一款开源测试工具，多用于接口测试用例的分层：CGI：通用网关接口，常称为单个业务接口Function：请求组合，包含多个CGI层接口的调用TestCase：单个测试用例TestSuite：多个测试用例的集合UI层的自动化面向Android：AndroidSDK提供的UIA
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
【OD机试题解法笔记】连续出牌数量 xuwzen 编码训练笔记深度优先算法
题目描述有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，使打出的手牌最多。输入描述输入为两行，第一行是每张手牌的数字，数字由空格分隔，第
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
Docker技术笔记-从零开始的容器技术之旅青竹易寒 docker 学习容器
理论一、容器技术简介容器是一种轻量级、可移植、隔离的软件环境，通过操作系统级虚拟化实现资源隔离,确保应用程序在不同环境中能够保持一致运行。容器和虚拟机对比对比维度容器(Docker)虚拟机(VM、KVM)架构原理共享宿主机内核,通过命名空间(Namespaces)和控制组(Cgroups)实现资源隔离。通过Hypervisor虚拟化硬件资源,每个VM运行独立完整的操作系统(GuestOS)。资源消
C 语言:20250708笔记遇见尚硅谷 c语言笔记开发语言
内容提要C语言概述数据类型常量变量C语言概述计算机基础计算机的组成计算机组成计算机：能进行计算以及逻辑处理的设备硬件：组成计算机的物理部件。（内存条、CPU、硬盘..）开发中对于硬件的认知：硬件包括电子设备、单片机、集成电路和嵌入式系统。软件：计算机中运行的程序和数据。开发中对于软件的认知：软件分为系统软件（OS）、应用软件和编程工具（编译器）计算机的六大部件中央处理器（CPU）：控制+计算内存：
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
人工智能-基础篇-23-智能体Agent到底是什么？怎么理解？（智能体=看+想+做） weisian151 人工智能人工智能
1、智能体是什么？想象你有一个超级聪明的小助手，它能：自己看环境（比如看到天气、听到声音、读到数据）；自己做决定（比如下雨了要关窗，电量低要去充电）；自己动手干活（比如帮你订外卖、打扫房间、开车）；越用越聪明（比如记住你的习惯，下次不用你提醒）。这个“小助手”就是智能体（Agent）——它是一个能自主感知、思考、行动并学习的系统，可以是软件（比如手机里的AI助手）、硬件（比如机器人），或者软硬结合
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
【算法】解数独：C++ 实现与策略探讨 master_chenchengg 算法提升算法 java 开发语言
【算法】解数独：C++实现与策略探讨一、引言：C++算法技术的魔力与解数独的智慧二、技术概述：数独求解的艺术定义与技术框架核心特性和优势代码示例：基础回溯解法三、技术细节：解数独的逻辑与挑战原理解析难点分析四、实战应用：从游戏到人工智能应用场景解决方案展示五、优化与改进潜在问题改进建议六、常见问题与解决方案七、总结与展望一、引言：C++算法技术的魔力与解数独的智慧在算法领域，C++凭借其高效、灵活
FastMCP：用于构建MCP服务器的开源Python框架 NetX行者 AI编程服务器开源 python
在人工智能领域，模型上下文协议（ModelContextProtocol，简称MCP）作为一种标准化的协议，为大型语言模型（LLM）提供了丰富的上下文和工具支持。而FastMCP作为构建MCP服务器和客户端的Python框架，以其简洁的API设计、高效的开发体验以及强大的扩展能力，正逐渐成为开发者们的首选工具。一、FastMCP简介FastMCP是一个用于构建MCP服务器和客户端的Python框架
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）百万年薪天才少女人工智能人工智能机器学习深度学习
****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是对人类的
CS:APP读书笔记--信息的表示和处理你都会上树？ CS:APP 笔记程序人生
信息的存储和表示字节端序在内存中按照从最低到最高有效字节的顺序存储对象，这种最低有效字节在最前面的方式，称为小端法。在内存中按照从最高到最低有效字节的顺序存储对象，这种最高有效字节在最前面的方式，称为大端法。例如：对于int32类型变量，其存储地址位于0x100，其十六进制值为0x12345678，其地址范围为ox100~0x103：//大端法地址：0x1000x1010x1020x1031234
Tansformer的Multi-Head Attention组件数字化与智能化大模型基础 Transformer框架 transformer 多头注意力机制
一、Transformer的注意力机制Transformer的注意力机制是对传统序列建模方法的颠覆性创新。它通过全局并行的关联计算解决了RNN的效率与长距离依赖瓶颈，通过动态权重和多头设计增强了模型对复杂信息的捕捉能力，最终成为现代人工智能的核心技术基石。其意义不仅在于提升了模型性能，更在于提供了一种“计算关联”的通用思路，推动了人工智能向更高效、更通用的方向发展。在Transformer之前，循
Gin 框架中的优雅退出 Code季风 Gin入门指南 gin golang 开发语言 go 后端
在构建可靠的Web应用程序或微服务时，确保应用程序能够“优雅退出”是至关重要的。本文将基于你的笔记，深入探讨Gin框架中如何实现优雅退出，并解释其定义、重要性以及具体的实现方法。一、优雅退出的定义和重要性1.1什么是“优雅退出”？所谓优雅退出（GracefulShutdown）是指：在程序接收到关闭信号时（比如用户按下Ctrl+C或者系统发送SIGTERM），不要立即终止进程，而是：停止接收新的请
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

ChatGPT原理简介

你可能感兴趣的:(平凡人笔记,chatgpt,人工智能,机器学习)