风度78

一文串起从NLP到CV 预训练技术和范式演进

本文首发于微信公众号：包包算法笔记。包大人班车原创内容分享。

主题是深度学习中的预训练技术发展，基本思路是顺着CV和NLP双线的预训练技术发展演进。看他们怎么影响和交织。

序言

会大致的看一下，在2013年，在CNN时代的word2vec，在2020年，Bert的时代的MAE，他们各自的预训练技术是在8年之间，从CNN发展到MAE，以及怎么从word2vec发展到Bert，各自的思路是怎样形成以及相互影响的。预训练技术的历史背景是什么，演进路线是什么，各个创新点是什么。为什么transformer作为集大成者，在CV和NLP上最后形成了交织和影响。

开头和结尾放同一张图，分别奠定本文的主线，所有细节将在后面逐渐展开！

从NLP说起

从预训练技术说起，按照时间线，还是讲NLP里的word2vec吧，NLP里的有监督任务的范式，可以归纳成如下的样子。

输入是字词序列，中间一步关键的是语义表征，有了语义表征之后，然后交给下游的模型学习。预训练技术的发展，都是在围绕怎么得到一个好的语义表征（representation）的这一层次，逐渐改进的。

下面我们围绕表征（representation）这一块展开讲解。

语义表征演进

我们可以把语义表征（representation）的计算，大致将演进路线归纳成如下的样子。

有两条路线，分别从网络深度和语义理解两个角度出发，网络越走越深，语义理解越来越深刻，越来越有代表性。

我们粗略的可以把语义表征的计算分为三个阶段，分别是：

一、特征工程阶段，以词袋模型为典型代表。

二、浅层表证阶段，以word2vec为典型代表。

三、深层表征阶段，以基于transformer的Bert为典型代表。

后面我们讲仔细讲解，演进中解决的关键问题和基本思路。

刀耕火种

首先是词袋模型，顾名思义，就是一个袋子打包词，表征计算如下文右边的篮筐，每个维度统计了文档中词的数量。

这种简单粗暴的表征有一个问题，就是语义局限与字面相同与否。

人工智能和AI两个词，在语义上是有强关联的，但是这个词袋模型就抓瞎了。

为了解决这个问题，word2vec在2013年被搞出来了。

词向量

word2vec就是典型学术的分布式语义表征（distribution representation）的代表，你肯定听过另外一个名字，词向量。

嗯词袋模型的时候，人还真没把叫做词向量。顶多算特征工程的一种。在word2vec时候，这种语义表征有了专门的名字。

他的特别是词的特征表达具有了聚类性质和线性性质，在一篇文章中，football和baseketball天然聚集。

并且有国王-女王=男人-女人的奇妙性质。（不过这个性质后来没有什么研究了，也没什么太多的应用）

word2vec解决了一个关键的问题，就是语义表征，真的有语义。不局限在字面意思。

但是不要太开心，他还没有解决一个关键的问题，上下文语义。比如play music和play football，同一个play没办法区分开是打球还是弹琴，他就是玩哎。

语言模型

看了刚才word2vec解决的问题和存在什么问题，你一定想知道，他是怎么做的吧。这里其实说来话长，说word2vec的话，要从语言模型说起。

语言模型就是给你一串文本，让你猜猜后面的词是什么，以下面的图为例。不知道是啥的搜索引擎，在我敲出【语言模型是】的时候，给出了【什么】的预测，这里面就有一定程度语言模型的功劳。

形式化地表达就是算这个东西 P(wi|w1,w2,...wi−1)，其中w是一个词，根据输入的前i-1个词，预测第i个词。

NNLM

语言模型除了类似贝叶斯那种统计的方法，有一个路子在这条线里非常重要，就是神经语言模型。

下面那个图，估计你看得云里雾里。不过你可以发挥一下聪明才智，要是让你穿越回20年前，让你做一个输入法预测的工具，你会怎么做？

跨时代的发明来了，这个东西是Bengio大神发明的，真的跨时代，现代NLP，都是这个简单模型的痕迹。

解释一下，这是一个基本的MLP网络，其中，最下面蓝色框是词的id，然后C是共享的矩阵参数，查表能到一个词的

嵌入参数，你这里可以理解为，输入为词的onehot表达的MLP网络。结果是一样的。

在中间经过concat后，走一层tanh激活的MLP。softmax激活，得到最大可能性词的输出概率。

其中输出的softmax维度。和词表V的大小是一样的，就是在词汇空间挑一个最大的词。

嗯，就是一个很简单的MLP。

其中关键的一步是，Table look up in C，这一步奠定了word2vec的基础。

这个东西，每个词对应的参数，掏出来就是词向量。

只不过在2013年的时候，最后那个词表对应的MLP网络实在是太奢侈了，毕竟一个词表动辄几十万，前文就算10个300维的词向量拼接，

那也是3k*30万的参数规模，实在是太奢侈了。

Word2Vec

word2vec解决了这个关键的问题，并且设计了两种语言模型的任务。

直接大放异彩。

word2vec有两种任务，

分别是CBOW和SkipGram，分别对应着上下文预测中心词，和中心词预测上下文。

如下图所示。

还有两种加速技巧，分别是负采样和哈夫曼树，这里篇幅有限，实在是没办法展开了。

但是我们要注意这里的重点是，word2vec通过，大规模无标注语料上的自监督训练语言神经网络模型。

把网络中的lookup table参数掏出来，当成词向量的。

这里有两个不平凡的地方，一个是神经语言模型，一个是从网络中提出出来的参数。

NLP的初级预训练+下游任务

好了。现在词向量有了。

等等，似乎还没有讲word2vec怎么用在NLP任务里。

这里以文本分类为例，穿插一点。以CNN做文本分类为例。

输入是词的token id，经过词向量层，映射到预训练好的词向量，然后下游通过卷积层提取特征。

基本的范式是词向量+DNN，词向量负责提升特征表达能力，DNN负责特征提取和预测。

而在最最初期的时候，基本就是Bow（wordcount vector） + LR这样的方案。

DNN改进了LR，词向量改进了BoW，还没有从根本上改进NLP的范式。

预训练语言模型

下面是激动人心的时刻，我们先回顾下词向量的问题。

他还没有解决一个关键的问题，上下文语义。比如play music和play football，同一个play没办法区分开是打球还是弹琴，他就是玩哎。

于是预训练语言模型出来了。

预训练语言模型，与word2vec不同的是。

1.同样在语料上进行自监督训练，我把任务改造成难度更大的形式，比如完形填空，句子顺序对预测等。

2.表征参数和特征提取组件的一体化。不需要像word2vec那样掏出一层固定网络参数，我预训练语言模型本身可以实时推断一个语义表征。

从ELMO说起

预训练语言模型的开篇之作是ELMO，

源于 Deep contextualized word representation，这是NAACL在2019年的best paper。ELMO的全程是Embedding from Language Models。

ELMO是深层LSTM的堆叠，他最大的改进有两点

1、表征参数和特征提取组件的一体化，抛弃了静态词向量的方案。

2、提出了两阶段上游预训练+下游任务微调的范式

ELMO不再拆分词向量和语言模型，用语言模型本身学好一个单词的Word Embedding，一步到位。

这样很巧妙的解决了静态词向量没有语义的问题。

不足之处就是，ELMO还是以LSTM堆叠为基础的。

而LSTM有一个致命的缺点，无法做到真正的并行，网络复杂度高，在堆叠深的时候，难以快速训练。

这就限制了这个框架的潜力，而Transformer正好解决了这个问题。

Transformer引入

tansformer有个非常好的优点，就是可以跑得很快，并且做的很深。

至于是怎么实现的，还要从self-attention说起。self-attention改进了CNN那种粗暴的建模局部关键信息的思路，侧重建模元素之间的关系，

能够自动捕捉信息的关键和信息的交互，所以被称为注意力机制。

并且他有个非常好的好处，

1.就是实现以无时序的矩阵乘法为核心，矩阵乘法是GPU最擅长地方，那么我就可以做的很快。

2.可以做的比较深，我没有LSTM那种超级的复杂的非线性。我就是简单的MHA+残差。

我可以通过每一层，微弱的非线性表达做深，来提升网络容量，又不至于过拟合和难以训练。

这两个天赋决定了，transformer的潜力无穷，只要你善于挖掘他。而Bert就是充分挖掘了transformer的潜力。

Bert千呼万唤

重头戏Bert来了，其实在他之前有个GPT，这个东西，实在是尴尬，理论上GPT才是把transformer和预训练语言模型结合起来的最早的方法。

但是Bert通过改进预训练和模型细节，实在是效果太好了抢了风头，这两者区别不太大，不单独写GPT了。特别没有面子。

Bert比GPT的改进有两点：

第一、预训练任务的改进，MaskLM（完形填空）的成功应用，要比普通的根据前文预测下文效果好很多，构成了语义上的双向性。

第二、NSP任务的引进（后来很多模型把他干掉了）

还是沿用了EMLo那种两阶段的微调范式。

除了预训练任务的改进，Bert里面有两个关键的地方

1. position embedding引入解决了上下文不敏感的问题

2.word level降级到BPE level（单词拆分）一定程度解决了OOV的问题。

（2这个思路，在bert没有出现的时候，我们在Kaggle上2017年 jigsaw第一届的比赛用过，把word拆成bpe来训练，提分很多）

从NLP到CV的预训练

好了说了这么多，我们总结下NLP预训练技术的演进特点吧。

一、模型从浅变深，从简单NNLM变化到深层的transformer。

二、预训练任务逐渐复杂，从上下文预测演进成完形填空。

三、任务从拆分静态词向量向深度语义向量一体化演进。

四、语义从表面向深层，语义从孤立到上下文情景敏感。

好了NLP到这里，我们继续翻到CV上。

CV从imagenet说起吧，imagenet是深度学习兴起的见证者，见证了alexnet，vgg，resenet，densenet一直到现在的基于automl的efficient。

我们对比一下，CV和NLP在初期的预训练上有什么特点。

CV上，预训练来的还是比较简单粗暴的，大家发现，在大的分类数据集上训练好的参数，当其他的初始化，效果特别好。

这么简单的思想一直在各种backbone上沿用。

但是这里面有个问题：

1.NLP里的预训练都是自监督的，凭啥你CV可以找人标注数据。

2.NLP里的预训练都是侧重输入本身的表征学习的，凭啥你CV拿个分类backbone到处忽悠人？

这两点，成为了最近CV预训练任务改进的重大范式。

CNN初步演进主要还是集中在网络结构上，对于预训练任务，大家约定俗成的似乎不太重视。

自监督的水花：对比学习

当然，在这里面也有一些水花，比如对比学习。他是图像领域为了解决

“在没有更大标注数据集的情况下，如何采用自监督预训练模式，来从中吸取图像本身的先验知识分布，得到一个预训练的模型”。

这一点很关键，在NLP里很自然的。大家使用无标注的语料，学习词向量的表达，但是在CV里，就很怪。

有没有办法不依赖标注数据，要从无标注图像中自己学习知识。

基本套路归结成三步走：

1.构造输入的变化：对同一个样本进行增强变换

2.使用backbone提取表征

3.loss：同一个样本（原始和增强），表征距离相似，不同的样本，表征的距离拉远。

具体的细节暂且不展开。

嗯这样的操作终于解决了不要标注的问题，你是一个成熟的CNN了，可以自己学起来了。不过让人比较丧气的是，这种方案的上限不太高，在imagenet能刷到70%就不错了。

但是，这是一个伟大而美好的尝试，我们先放一放，看看transformer在CV里折腾出什么花样来了。

Transformer初见威力：iGPT

与NLP不一样的地方，图像作为一种高维、噪声大、冗余度高的形态，被认为是生成建模的难点,这也是为什么过了好几年，transformer才应用到视觉领域。

其实我们想一下就很离谱。

1. 图像是连续的，NLP是离散的，如何解决图像token输入的问题？文本是个1D序列，图像是个2D矩阵，transformer输入的形式是类序列，因此，如何转化图片为transformer的输入很关键。

2.怎么搞定图像的预训练呢？还是简单的在分类上train吗？似乎没有梦想。我想像NLP一样，自监督，学习上下文，效果还特别好。

3.transfomer的self-attention的复杂度是O(n^2 d)的。CIFA图像展开之后的序列长度是 3072，再长的大分辨率图完全搞不定了。

关键一：为了解决问题1，本文把像素从上到下，从左到右拉平，作为离散的token来输入transfomer，这里会带来问题3。后面会讲

关键二：为了解决问题2，这个论文借鉴了GPT2的结构，预训练任务设计为

1.自回归任务，根据前边的像素，逐个预测后面的像素

2.掩码语言模型MLM，类似Bert中的完形填空，只不过是像素级别的

关键三：为了解决问题3，这个论文对图像进行了压缩操作。分为两步，第一步是尺度的降采样，第二步是用Kmeans对颜色降采样为9bit。这样就非常小了。

文章中有个小trick就是，第三步。作者发现最后一层的表征不一定是最好的，结果最好的可能是中间几层，所以做了这样的操作。

这个效果挺好的，在各个数据集上刷到了SOTA，但是，他也有几个问题。

1.iGPT要想达到同样的效果，需要的参数是CNN的2倍多，速度也特别慢，iGPTL在V100上要跑2500天。。。

2.iGPT对于图片降采样，损失信息很多，CNN对这个问题不是很敏感

后续有继续的改进工作。下面再说。

这张图展示了TRM不同层向量对于结果的影响，可以看出来，先上升后下降的，所以中间层效果更好。

ViT：高效的Transformer分类预训练

我觉得上面那个iGPT的思路是不错的，不过看起来就不是很完美的文章，为了预训练的目标，降采样这种操作都出来了。

嗯后来大家改进了这个问题。我们看一下ViT吧。

ViT很重要的一点是提出了Path+embedding的思想替换了降采样的方式。

另外，Bert里是通过在输入开头加【CLS】来实现文本的语义表达的。如果文本能做到这件事，似乎说明了在我们离图片语义越来越近了。

ViT具体的做法是：

1.模仿Bert中的position embeding ，标记图片的位置，称为patch embeddings

2.每一个patch是一个图形小块，类比Bert中的 word embedding

ViT通过这样的方式把图片塞进了transformer，并且没有压缩。维持了【CLS】作为语义向量用来分类的特色。

但是，唯一美中不足的是，他是分类任务进行预训练的（开倒车）。

别忘了我们最初美好的愿景，我们希望像NLP一样，能从语料库里面用自监督的方式，学习到语义信息。

BEiT：Transformer+自监督

于是更接近Bert的图像Transformer出现了，他是BEIT。BEiT: BERT Pre-Training of Image Transformers

BEiT继承了ViT中Patch的做法，改进了预训练任务。

1、预训练任务变成了图像复原。

2、Patch级别的MLM引入到预训练任务中

搞CV的同学可能对这个数字很有疑惑。这个东西是个啥玩意？

他是为了引入图像复原的Visual Tokens，对应的东西是一个编号，编号里的玩意，是这个位置对应的语义向量，

预训练任务就是学习预测的 visual tokens ，复原网络，这里是通过encoder-decoder的方式来实现的。

嗯这个工作真是承上启下已经接近完美了。

但是还有一个问题，

这个模型训练的时候是分两步的。

stage1：首先优化 dVAE（图重构组件），这个我们叫重构损失，通过优化编码和解码，好让dVAE 能够学习到更好的隐变量又能更好还原原图，:

stage2：然后再优化 Encoder 和 Masked Image Modeling Head（语义编码组件），为了能更好的预测出对应的 visual tokens

有没有什么办法能像NLP那样自然呢？完形填空，大道至简。

有的，kaiming大神MAE呼之欲出。

MAE：Transformer+大规模自监督的巅峰之作

大道至简，MAE秉承了自监督预训练的基因，通过encoder-decoder预训练框架，encoder输入只有image的token，decoder同时送入image token和mask token，对patch序列进行重建，完成图片复原任务。他改进了BEiT两阶段的任务。去掉了预训练编解码器的过程，并且做到了image token和mask token和分离。添加positional embedding来保持patch的位置信息。

encoder只做语义编码的事情，decoder只做图像恢复的事情。简化的模型，让速度提升显著。

在预训练任务里面，提速可以让同样的时间，过更多的数据。而自监督，意味着无穷无尽的无标注数据唾手可得。

我可以把Transformer的潜力压榨到死。

看一下图片恢复的效果，简直震惊了，这哪里是图片复原，这是脑洞打开的自动画面！

CV中的演进总结

类比下NLP中语义编码路线的发展。

我们把他从CV中扒拉出来。

一条线是从CNN到transformer的探索

另一条线是从分类预训练发展到大规模的自监督预训练。

嗯，清晰了。

CV和NLP演进的交汇

我们最后一起来看一下吧。

下图通过三种颜色标识了几个关键的阶段，然后箭头指引了优化借鉴和发展的方向。

要是非要说一条路线的话，那就是为了更好的理解知识表征这一件事。围绕着这件事，我们在更自动化，设计学习任务，加速模型，提升模型潜力天花板，上做了大量的优化工作。

你都看到了这了，一定要分享给你的同学同事，一起来学习下吧~

‍

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419，加入微信群请扫码：

你可能感兴趣的:(自然语言处理,计算机视觉,神经网络,机器学习,人工智能)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {