技术小张zz

快速了解 GPT 发展三阶段

GPT 是把 Transformer 的解码器提出来，在没有标注的大数据下完成一个语言模型，作为预训练模型，然后在子任务上做微调获得不同任务的分类器。这个逻辑和我们的计算机视觉的套路是一样的。这个模型叫 GPT-1。

GPT-2 收集了更大的数据集，生成了更大的模型这就算 GPT-2，证明了当数据库越大，模型越大，能力就有可能越强，但是需求投入多少钱可以得到预期效果，大家都不确定，所以 GTP-2 没有在市场上获得特别强的反响。

GPT 团队认为自己的算法没有问题，思路没有问题，逻辑没有问题，唯一有问题的就是没有菠菜罐头，所以 GPT 团队找了金主买了菠菜罐头，终于大力水手升级为暴力水手，从大力出奇迹转变为暴力出奇迹，惊艳的 GPT-3 终于诞生了，那么这么暴力升级有多恐怖呢？GPT-3 数据和模型都比 GTP-2 大了100倍！

GPT

GPT全称是 Generative Pre-trained Transformer，名字非常直白，就是生成式预训练转换器。GPT 想解决的问题：在 NLP 领域有很多任务，虽然有了互联网，我们已经可以方便的采集大量的样本，但是相对于有标注的样本，更多存在的是无标注样本，那么我们怎么来使用这些无标注的样本。

GPT 团队的解决方案是在没有标注的样本上训练出一个预训练的语言模型，然后在有标注的特定的子任务上训练一个微调分类器模型。具体来说就是先让模型在大规模无标注数据上针对通用任务进行训练，使模型具备理解语言的基础能力，然后将预训练好的模型在特定的有标注数据上针对下游任务进行微调，使模型能够适应不同的下游任务。

但是 NLP 并不是 AI 中一个新的领域，在之前其实已经有了很多出色的 NLP 模型，那 GPT 的创新在哪里呢？之前的 NLP 模型是和任务绑定的，比如分词，词向量，句子相似度，每一个任务都有自己的模型，所以每一个新任务都需要一个新模型。GPT 的方式是生成一个大模型，然后通过输入的形式就可以获得不同的任务结果。这个是非常创新的思路。

当然了，统一的想法是好的，谁不想要一个这样的统一模型呢？但明显会遇到几个挑战：

损失函数怎么选择，因为在原先的方式中，不同的任务具有不同的损失函数，能不能找到一个损失函数可以为所有任务提供有效服务呢？
NLP 子任务的各自表现形式不同，怎么设计一个表示方式，有没有一种统一的表示可以让所有子任务接受。
在没有标注的文本上训练一个大的语言模型，然后在子任务上进行微调，GPT 称为半监督方式。有大量的无标注的数据和有标注的数据，这些数据具有相似性，那我怎么用我已经标注的数据来有效的使用那些无标注的数据。后来这个方式又叫自监督模型了。

下面是 GPT 提出的解决方案：

无监督预（自监督）训练：在没有标注的数据上做预训练。假设我们有一段文本，里面每一个词都是有序的，GPT 使用了 Transformer 的解码器来预测第一个词出现的概率。预测的方式就是通过前面的词的序列来预测接下来词出现的概率，是不是觉得和我们的联想输入法特别相似，所以前面的词越长，预测出后面词出现的概率精度就越高，这点应该是非常容易理解的。同时我们也可以想象出，这个计算是非常恐怖的。我总觉得 GPT 团队大概很想通过这样的预测模式来预算股票走势。
微调：微调就是输入一段文本，同时给这一段文本设计一个标注，这是一个比较标准的分类手段。GPT 的创新是对这段微调文本同时使用了对下一个词的预测和对完整文本的标签预测。
NLP 的子任务表示形式：NLP 的子任务有很多种，传统 NLP 的任务模型和输入都是对应的，就是一个模型对应一个任务，GPT 要做一个统一模型，就必须定义一个 NLP 子任务的表示形式。

下面的图非常重要，在我看来比论文中各种眼花缭乱的公式重要的多。

分类输入表示：将需要分类的文本在前后加上开始和结束标记，然后放入 Transformer，然后模型对特放进线性层进行微调。
推理输入表示：推理表达是对两段文本给出支持，反对和中立三分类的问题。比如前提为：一个人今年32岁，假设是他未成年，这段的标签就是反对。也能出现前提是：他喜欢吃狗肉。假设是：他不是爱狗人士。如果是我做标签的话，我可能会给出中立的标签。所以微调其实是存在标签设计者者的偏向的。
相似输入表示：两段文本的表达方式不一样，但他们的含义是相似的。由于模型是单向的，但相似度与顺序无关。所以需要将两个句子顺序颠倒后两次输入的结果相加来做最后的推测。
多选题输入表示：给出一个问题和一组答案，预测对这个问题是不是能给出正确答案。

除了无标注文本和自监督学习外，GPT 还有一个创新，这个创新是贯穿了整个 GTP-1-2-3，也是 GPT 和 BERT 的一大区别：GPT 模型既使用了前馈神经网络，又使用了自回归模型，两种模型都在模型的不同部分起到了关键的作用。具体而言，GPT 模型中的编码器部分使用了前馈神经网络和自注意力机制，以将输入序列中的每个单词转换为高维向量表示，并提供上下文信息；而生成器部分则使用了自回归模型，以基于前文生成下一个单词。这两种模型的结合使得 GPT 模型能够更好地处理自然语言和任务，并且在多个任务上取得了非常优秀的表现。

前馈神经网络和自回归的方式都是用来预测下一个单词。它们的不同在于处理输入序列的方式和输出预测的方式。前馈神经网络将整个输入序列一次性传入网络，并在多个全连接层中对其进行转换，最后得到下一个单词的预测。而自回归的方式则是将先前生成的单词作为输入，递归地生成下一个单词，直到达到预设的长度或生成特殊的终止符号为止。

GPT-2

据说疾速追杀4马上要上映了，又可以数基努·里维斯杀了多少人了。通常我们都叫疾速追杀1、疾速追杀2、疾速追杀3、疾速追杀4，但其实这部电影的中文名字并不是这样1234，而是疾速追杀、疾速特攻、疾速备战。GPT 也是这样的，GPT-2 的名字其实是Language Models are Unsupervised Multitask Learners，中文的意思是语言模型是无监督的多任务学习器。但我们习惯上还是叫 GPT-2。

在 GPT-1 我们聊过一个事情，传统的 NLP 的任务处理是一个任务收集一个数据集，在这个数据集上构建自己的预测模型。这种方式的优点是目标性比较强，工作量和成本低，大部分团队都可以自己独立去完成自己的目标任务。但是缺点是这个模型的泛化性不够好，一个这样的模型很难被复用到另一个任务上去。

GPT-1 的预训练模型在 GPT-2 团队看来有一个不足的地方，虽然 GPT-1 构建了一个不错的预训练模型，但是对下游任务还是需要使用有标注的样板来训练新的模型，也就是说需要对具体的下游任务做有监督的微调。GPT-1 的有监督微调就是我们之前说的输入表示。这样下游任务还是需要先训练一个模型，这样下游任务才能了解输入的表示，比如开头，结尾，分隔符，所以很明显下游任务需要做两个事情：收集一些有标签的样本，同时训练一个可以理解这些样本的模型。

所以 GPT-2 团队计划继续优化语言模型，并且用 Zero-Shot（零样本）让下游任务不再需要接受任何有标注的样本。既然不再需要那些标记，那么也就不需要构建新的模型了。

这个 Zero-Shot（零样本）使得下游任务可以不需要接受有标注的样本，也不需要构建新的模型，是 GTP-2 最重要的创新和绝对大胆的尝试。怎么使得预训练模型具备此能力呢？要从预训练过程入手，GPT-2 团队参考了上世纪的一个观点：多任务学习，同时看多个数据集，用多个损失函数让模型在多个任务上可以用。那么下游任务不做新的模型，也不接受有特定标记的输入，那怎么样能让下游任务可以理解输入呢？

GPT-2 说他的语言模式可以接受自然语言对任务的请求，在论文中他给出了两个案例：

一个是描述翻译任务：translate to french, english text, french text
一个是描述问答任务：answer the question, document, question, answer

要实现这样的效果，GPT-2 团队认为需要一个非常大的模型，需要非常大的数据。GPT-1 采用了7000本没有公开发布的书做数据集，那现在 GPT-2 团队就要解决能满足自己目标的高质量数据集哪里来。

GPT-2 瞄准了 Reddit。这个网站中文叫红迪网，是一个娱乐、新闻和社交网站，是美国第五大网站，流量仅次于 Google、YouTube、Facebook 以及 Amazon。Reddit 中的社区被称为 subreddit（简称 sub），按照不同的主题内容来分类，包括新闻、游戏、音乐、健身、食物和图片共享等。你可以认为类似贴吧，知乎，豆瓣，小红书的综合体。注册用户可以在上面发布文字、图像或链接，然后由其他成员投票赞成或反对，结果将被用来进行排名和决定它在首页或子页的位置。

每位用户都可以创建 sub ，创建者就是 sub 的 mod（即管理者），mod 权限很大，能够决定一个 sub 的风格和规则。用户（也叫 redditors）能够浏览各类社区，可以提交内容链接或发布原创，可以支持、反对、评论、转发帖子，用户发布的优质有趣内容可以获得帖子分数（post karma）及留言分数（comment karma），甚至能够获赠 Reddit 硬币。和其他社交网站不同，Reddit 的匿名性使其不存在任何自带流量的 KOL，所有内容完全按照热度排名，热门内容会被推到首页。所以 GPT-2 团队认为，这样一个由人群自发进行过滤选择的内容网站就是一个天然的被标注了内容优劣的样本，而且还对知识类型做了分类。那么如何提取出这个社区里面优质内容呢？GPT-2 团队选择了 Reddit 中具有三个以上 Karma 的帖子。Karma 是你在 Reddit 所得的分数，表示你所发表的帖子在社区里所占有的价值量。每个用户在 Reddit 都有他们自己的评论 Karma 和链接 Karma。相当于你在 Reddit 的等级标志。每个人拥有2组 Karma 值，分别为发布 Karma 和评论 Karma，分别对应内容发布和内容评论。原则上，收到一个顶就+1，收到一个踩就-1，但是同时在同一篇内容所获得的顶踩值会有衰减效应，即当你获得的点赞越多，每个点赞兑现的 karma 值越低。所以 Reddit 的这个相对公平的设置真的是天然的从大众的价值观对内容进行了分类和优劣评价，这就是 GPT-2 团队所需要的。最后 GPT-2 团队从 Reddit 中爬取了4500万链接，800万篇文档，一共40G文本。

基于这些数据集，GPT-2 团队设计了四个模型：

GPT-2 团队非常实诚的对这四个模型分别在阅读理解，翻译，摘要和问答四个领域和当时最主流的模型做了 PK。

从结果来看，除了阅读理解领域还算可以，其他三个领域都不怎么理想，但是别忘了，GPT-2 是在无监督的模型下和这些有监督的模型做的 PK，得到这样的结果已经是非常不错了，并且从图表可以看到一个关键信息，总体来讲，只要模型越大，预测的结果就越好。

具体来说，GPT-2 采用了更大规模的语料库进行预训练，并增加了更多的参数。GPT-2 的模型架构与 GPT-1 相同，都是基于 Transformer 结构的编码器模型。但 GPT-2 的模型规模是 GPT-1 的4倍，拥有1.5亿个参数。同时，GPT-2 还引入了一些新的技术，如动态掩码、自适应的词向量权重、多层次的表示等，以提高模型的性能和泛化能力。

GPT-2 的预训练任务仍然是语言建模，即在大规模语料库上训练模型，以预测下一个单词的概率分布。但由于模型规模和预训练效果的提升，GPT-2 在生成各种文本任务方面表现出色，如文本生成、机器翻译、对话生成等。

总体来说，GPT-2 的核心思想是在 GPT-1 的基础上进一步提高模型规模和预训练效果，采用更大规模的语料库进行预训练，引入一些新的技术以提高模型的性能和泛化能力，仍然以语言建模为预训练任务，在生成各种文本任务方面表现出色。

GPT-3

GPT-3 的名字叫：Language Models are Few-Shot Learners，中文解释就是语言模型是少样本学习器。是不是觉得这个团队很有意思：从有监督微调到零样本训练到现在的少样本训练，科学就是这样，需要对自己的结果做客观的认知，对不足的地方就要调整，不能为了面子不顾事实，而是要客观面对自己的经验教训。

GPT-3 团队用这张图来解释他们为啥要回到有样本的思路，从这个图可以观察到，少样本，单样本和零样本在模型的规模增大后，精度是有明确的差异的。

但是基于 GPT-1 和 GPT-2 我们会得到一些概念：一旦有了样本，我们就是微调工作，得到一个新的模型，但是模型的效果和模型的大小成正比，那么在一个超大的预模型下做微调获得新的模型成本肯定非常昂贵。

但同时 GPT-3 团队认为预训练模型使用的样本可能会影响下游子任务的质量。举例来说，如果你的子任务输出结果非常好，也许是你的微调的数据和预训练模型中的刚好很接近，所以不能说微调出来的模型好，就说你的预训练的模型一定泛化的很好。

所以 GPT-3 又开创性的提出了一个设计：在作用到下游任务上的时候不做任何参数调整和梯度更新，也就是说子任务不要产生新的模型。GPT-3 团队用下面的图描述了零样本、单样本和少样本来处理任务。这图里面提出了一个概念：prompt。预训练模型来通过这个提示理解你要做什么任务。

这个图还是很直观的说明了三种样本的概念，但是要记得 GPT-3 是不生成新模型的，所以这些样本是不做训练的，只做预测。GPT-3 要求模型在做推理的时候能够通过注意力机制去处理比较长的信息，然后从这些信息中抽取出有价值的信息，这就是上下文学习。

要实现这样聪明厉害的模型，从 GPT-1 和 GPT-2 的经验来看，那这个模型需要非常大，因此他的数据集也需要非常大才行。

GPT-2 团队从 Reddit 搞来了海量的优质内容，那 GPT-3 团队想获得更大的样本要从哪里来呢？开创性的行为再次出现。GPT-3 团队把目光转到了 Commom Crawl。这名字起得真的是直白，这群人利用其自己的网络爬虫收集了十亿级别的网页数据，并使任何人都可以免费访。Common Crawl 的创始人 Gilad Elbaz 说：“据我所知，互联网是当今最多知识的聚集体，如果能拥有如此巨大的数据，你就可以在这座数据矿藏上面建立你想要的新产品。” 这个矿大到什么程度呢？从2008年开始，这个爬虫就是按年在互联网上进行采集，你可以认为从2008年开始，Common Crawl 每年对互联网做了一次快照。这些快照存储在 Amazon S3 上，任何人都可以免费下载。

但是 Commom Crawl 既然是互联网的快照，那么内容的质量也会和互联网一样参差不齐，GPT-3 团队对 Common Crawl 的处理方式很巧妙：用 GPT-2 的内容为参照，从 Common Crawl 中提取有价值的信息，然后又对提取出来的数据集做了去重。到此为止，就是传说中 GPT-3 把整个互联网的数据做了训练。

下面就是 GPT-3 包含的样本情况：

数据集	tokens数量	训练占比	Epochs elapsed when training for 300B tokens
过滤后的Common Crawl	4100亿	60%	0.44
WebText2（Reddit）	190亿	22%	2.9
Books1	120亿	8%	1.9
Books2	550亿	8%	0.43
Wikipedia	30	3%	3.4

然后在这样的样本规模下，GPT-3 训练出了下面这样模型：

Model Name	参数	层	每一层大小	多头注意力头	头维度大小	训练的时候小批量大小	学习率
GPT-3 Small	1.25亿	12	768	12	64	50万	6.0 × 10-4
GPT-3 Medium	3.5亿	24	1024	16	64	50万	3.0 × 10-4
GPT-3 Large	7.6亿	24	1536	16	96	50万	2.5 × 10-4
GPT-3 XL	13亿	24	2048	24	128	100万	2.0 × 10-4
GPT-3 2.7B	27亿	32	2560	32	80	100万	1.6 × 10-4
GPT-3 6.7B	67亿	32	4096	32	18	200万	1.2 × 10-4
GPT-3 13B	130亿	40	5140	40	128	200万	1.0 × 10-4
GPT-3 175B or “GPT-3	1750亿	96	12288	96	128	320万	0.6 × 10-4

看到这张表，是不是有一种自己在优衣库选衣服的感觉，没有最大，只有更大的尺寸在等着你。很多人都感叹，GPT 重新定位了 small。

那么这么大的模型，要用什么设备来训练呢？GPT-3 秀了下自己的钞能力：All models were trained on V100 GPU’s on part of a high-bandwidth cluster provided by Microsoft。这就是传说中微软老大用 Bing 团队的算力给 GPT-3 团队输血的来源吧。反正 GPT-3 团队的意思就是虽然我把我语言模型说的模模糊糊，但就算你完全理解了我的逻辑，但你是无论如何都得不到这样高的算力来复现 GPT-3 了。你们就乖乖的用我的模型算了。

基于这样的钞能力，最后 GPT-3 团队得到一个结论：模型越来越大，但过拟合并没有严重，模型越大，学习率下减。

总结

最后我们总结一下 GPT 的发展三阶段：

GPT-1：提出了一个开创性的想法，并做了实践。
GPT-2：提出有钱就可以做的很好。
GPT-3：证明了如果有很多很多钱，就可以做的很惊艳。

2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

快速了解 GPT 发展三阶段

你可能感兴趣的:(深度学习,人工智能)