数据派THU

原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势

自然语言处理（Natural Language Process，简称NLP）是计算机科学、信息工程以及人工智能的子领域，专注于人机语言交互，探讨如何处理和运用自然语言。自然语言处理的研究，最早可以说开始于图灵测试，经历了以规则为基础的研究方法，流行于现在基于统计学的模型和方法，从早期的传统机器学习方法，基于高维稀疏特征的训练方式，到现在主流的深度学习方法，使用基于神经网络的低维稠密向量特征训练模型。

总结过去二十年里，无数先辈辛劳付出带来的璀璨成果，以下3个代表性工作应该被列为里程碑事件：

1）2003年Bengio提出神经网络语言模型NNLM，从此统一了NLP的特征形式——Embedding；

2）2013年Mikolov提出词向量Word2vec，延续NNLM又引入了大规模预训练（Pretrain）的思路；

3）2017年Vaswani提出Transformer模型，实现用一个模型处理多种NLP任务。2018年底，基于Transformer架构，开始出现一大批预训练语言模型，刷新众多NLP任务。

当前，随着深度学习以及相关技术的发展，NLP领域的研究取得一个又一个突破，研究者设计各种模型和方法，来解决NLP的各类问题。如今，NLP应用已经变得无处不在。我们似乎总是不经意间发现一些网站和应用程序，以这样的或那样的形式利用了自然语言处理技术。实际上，在近年来的自然语言处理方向的顶会上，深度学习也往往占据了大量的篇幅，自然语言处理方向成为模型与计算能力的较量。为此，本文介绍了自2018年起一些顶级的预训练模型，读者们可以用它们来开始你的自然语言处理之旅，并复制该领域的最新研究成果。

一、NLP模型盘点

1、ULMFiT

GitHub 项目地址：

https://github.com/fastai/fastai/tree/master/courses/dl2/imdb_scripts

ULMFiT的预训练模型论文：

https://www.paperswithcode.com/paper/universal-language-model-fine-tuning-for-text

其他研究论文

https://arxiv.org/abs/1801.06146

ULMFiT 由 fast.ai 的 Jeremy Howard 和 DeepMind 的 Sebastian Ruder 提出并设计。ULMFiT 是 Universal Language Model Fine-Tuning（通用语言模型微调）的缩写。其实根据它的名字，基本就可以知道它的操作流程，具体见上图：一共是分为3个阶段，首先是语言模型的预训练、然后是语言模型的finetune、最后是分类任务的finetune。

ULMFiT 使用新的自然语言生成技术实现了最先进的结果。该方法包括在 Wikitext 103 数据集上训练的预处理语言模型进行微调，使其不会忘记以前所学的内容，从而将其微调为一个新的数据集。在文本分类任务方面，ULMFiT 的性能优于许多最先进的技术。使用这种预训练的语言模型，让我们能够在使用更少的标记数据的情况下训练分类器。尽管网络上未标记的数据几乎是无穷无尽的，但标记数据的成本很高，而且非常耗时。

2、Transformer

GitHub 项目地址：

https://github.com/tensorflow/models/tree/master/official/transformer

Transformer预训练模型论文《Attention IsAll You Need》

https://www.paperswithcode.com/paper/attention-is-all-you-need

其他研究论文

https://arxiv.org/abs/1706.03762

2017年之前，语言模型都是通过RNN、ISTM来建模，这样虽然可以学习上下文之间的关系，但是无法并行化，给模型的训练和推理带来了困难，因此Google研究者提出了一种完全基于attention来对语言建模的模型，叫做Transformer。Transformer摆脱了NLP任务对于RNN、ISTM的依赖，使用了self-attention的方式对上下文进行建模，提高了训练和推理的速度，Transformer也是后续更强大的NLP预训练模型的基础。

实践发现，当模型变得越来越大，样本数越来越多的时候，self-attention无论是并行化带来的训练提速，还是在长距离上的建模，都是要比传统的RNN、ISTM好很多。Transformer现在已经各种具有代表性的NLP预训练模型的基础，Bert系列使用了Transformer的encoder，GPT系列使用了Transformer的decoder。在推荐领域，Transformer的multi-head attention也应用得很广泛。

3、BERT

GitHub 项目地址：

https://github.com/google-research/bert

BERT预训练模型论文

https://www.paperswithcode.com/paper/bert-pre-training-of-deep-bidirectional#code

其他研究论文

https://arxiv.org/pdf/1810.04805.pdf

BERT，是 Bidirectional Encoder Representations

（双向编码器表示）的缩写，它从单词的两边（左边和右边）来考虑上下文。在BERT之前，将预训练的embedding应用到下游任务的方式大致可以分为2种，一种是feature-based，例如ELMo这种将经过预训练的embedding作为特征引入到下游任务的网络中；一种是fine-tuning，例如GPT这种将下游任务接到预训练模型上，然后一起训练。然而这2种方式都会面临同一个问题，即无法直接学习到上下文信息，比如ELMo只是分别学习上文和下文信息，然后concat起来表示上下文信息；而GPT只能学习上文信息。因此，作者提出一种基于Transformer encoder的预训练模型，可以直接学习到上下文信息，叫做BERT。BERT使用了12个transformer encoder block，在13G的数据上进行了预训练，可谓是NLP领域大力出奇迹的代表。

BERT 是第一个无监督、深度双向的自然语言处理模型预训练系统。它只使用纯文本语料库进行训练。在发布的时候，BERT 在 11 个自然语言处理任务上取得了最先进的结果。这真是相当了不起的成就。你可以在短短几个小时内（在单个 GPU 上）使用 BERT 训练自己的自然语言处理模型（例如问答系统）。总之，BERT真正地影响了学术界和工业界。无论是GLUE，还是SQUAD，现在榜单上的高分方法都是在BERT的基础之上进行了改进。不过BERT也并不是万能的，BERT的框架决定了这个模型适合解决自然语言理解的问题，因为没有解码的过程，所以BERT不适合解决自然语言生成的问题。因此如何将BERT改造成适用于解决机器翻译，文本摘要问题的框架，是今后值得研究的一个点。

4、Transformer-XL

GitHub 项目地址：

https://github.com/kimiyoung/transformer-xl

研究论文：

https://arxiv.org/abs/1901.02860

Transformer-XL由 Google AI 团队开发，是对Transformer的改进或变种，主要是解决长序列的问题，其中XL表示extra long，可以帮助机器理解超出固定长度限制的上下文。Transformer-XL 比普通的 Transformer 要快上 1800 倍。在最近流行的XLNet中就是使用Transformer-XL作为基础模块。

5、XLNet

GitHub 项目地址：https://github.com/topics/xlnet

2018年底谷歌推出了BERT，该模型一经问世就占据了NLP界的统治地位，如今CMU和Google brain联手推出了BERT的改进版XLNet。在这之前也有很多公司对BERT进行了优化，包括百度、清华的知识图谱融合，微软在预训练阶段的多任务学习等等，但是这些优化并没有把BERT致命缺点进行改进。XLNet作为BERT的升级模型，主要在以下三个方面进行了优化：

采用AR模型替代AE模型，解决mask带来的负面影响
双流注意力机制
引入transformer-xl

6、GPT-2

GitHub 项目地址：

https://github.com/openai/gpt-2

研究论文：

https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

GPT-2 是一种基于transformer 的大型语言模型，具有 15 亿个参数，在 800 万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》（Language Models are Unsupervised Multitask Learners）的代码实现。

GPT-2 经过训练后，可以预测 40GB 互联网文本数据的下一个出现的单词。该模型在 800 万个 Web 页面的数据集进行训练。为了供研究人员和工程师测试，开发人员发布了一个小得多的 GPT-2 版本。原始模型有 15 亿个参数，而开源的示例模型仅有 1.17 亿个。

7、MPNet

代码和模型链接：

https://github.com/microsoft/MPNet

论文地址：

https://arxiv.org/pdf/2004.09297.pdf

近年来，预训练语言模型无疑成为了自然语言处理的研究热点。这些模型通过设计有效的预训练目标，在大规模语料上学习更好的语言表征来帮助自然语言的理解和生成。其中，BERT 采用的掩码语言模型 MLM 和 XLNet 采用的排列语言模型 PLM 是两种比较成功的预训练目标。然而，这两种训练目标各有优缺，具有较大的提升空间。为此，结合BERT、XLNet的思路，南京大学和微软在2020年共同提出了新的预训练语言模型MPNet：Masked and Permuted Pre-training for Language Understanding。它在 PLM 和 MLM 的基础上扬长避短，在自然语言理解任务 GLUE 和 SQuAD 中，超越 BERT、XLNet 和 RoBERTa 等预训练模型，取得了更好的性能。

8、ALBert

论文地址：

https://arxiv.org/pdf/1909.11942.pdf

尽管GPT-2.0，XLNET，RoBERTa等预训练模型确实都基于BERT了做了一些改进，在模型结构、训练模式等方面都有一些创新，但是大部分的预训练模型也有一个共通的“特点”，即模型相对“笨重”，预训练成本高。ALBERT的作者就是基于这样的背景，提出ALBERT这个模型的。其试图解决大部分预训练模型训练成本高，参数量巨大的问题。ALBERT为了减少模型参数主要有以下几点：

1.词嵌入参数因式分解；

2.隐藏层间参数共享

为了提升模型性能，ALBERT提出了一种新的训练任务：句子间顺序预测。

Albert效果

从结果看，相比于BERT，ALBERT能够在不损失模型性能的情况下，显著的减少参数量。此外，ALBERT还有一个albert_tiny模型，其隐藏层仅有4层，模型参数量约为1.8M，非常的轻便。相对于BERT，其训练和推理预测速度提升约10倍，但精度基本保留，语义相似度数据集LCQMC测试集上达到85.4%，相比bert_base仅下降1.5个点。对于一些相对比较简单一些或实时性要求高的任务，如语义相似度计算、分类任务等，ALBERT很适合。

9、ELECTRA

GitHub地址：
https://github.com/google-research/electra

论文地址：
https://openreview.net/pdf?id=r1xMH1BtvB

ELECTRA来自谷歌AI，不仅拥有BERT的优势，效率还比它高。它是一种新预训练方法，叫做replaced token detection (RTD)。它能够高效地学习如何将收集来的句子进行准确分词，也就是我们通常说的token-replacement。在效率上，只需要RoBERTa和XLNet四分之一的计算量，就能在GLUE上达到它们的性能。并且在SQuAD上取得了性能新突破。这就意味着“小规模，也有大作用”，在单个GPU上训练只需要4天的时间，精度还要比OpenAI的GPT模型要高。目前，ELECTRA已经作为TensorFlow的开源模型发布，包含了许多易于使用的预训练语言表示模型。

10、ELMo

GitHub 项目地址：

https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md

研究论文

https://arxiv.org/pdf/1802.05365.pdf

ELMo（是 Embedding fromLanguage Models 的缩写）是一种用向量和嵌入表示单词的新方法，在构建自然语言处理模的上下文非常有用。2018年3月份，ELMo出世。该paper是NAACL18 Best Paper。在之前2013年的word2vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型。使用时，将一句话或一段话输入模型，模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如apple，可以根据前后文语境理解为公司或水果。

二、NLP发展趋势

从目前来看，大规模语料预训练+finetune的方式，应该会是NLP接下去几年的主流。各种基于语言模型的改进也是层出不穷。虽然玩法种类各异，我们还是可以看出一些具有突破性的方向。

1、巨无霸系列：T5、GPT3、MegatronLM

前期BERT到RoBERTa，GPT到GPT2效果的提升，已经证明更多数据可以跑出更强大更通用的预训练模型。去年底到今年，英伟达、谷歌、Open-AI相继放出巨无霸模型MegatronLM（83亿参数）、T5（110亿）、GPT3（1500亿），不断刷榜令人咋舌的同时也彰显了巨头们的实力。相信未来，巨无霸模型依然会成为大公司的研究目标之一，却让普通科研人员可望不可及。

2、小而美系列：DistillBERT、TinyBERT、FastBERT

没有前排巨头们的经济实力，普通公司和科研机构沿着相反赛道-模型轻量化下足了功夫。如何在尽可能少的参数量下，取得和大模型接近的效果，同时训练/预测速度翻倍，是很实际很有价值的课题。这其中，有代表性的工作如华为诺亚方舟实验室发布的TinyBERT、北大的FastBERT都取得了瞩目的效果。例如FastBERT在BERT的每一层都接入一个分类器，通过样本自适应机制自动调整每个样本的计算量（容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程）。

3、潜力股系列：few shotlearning

在实际业务场景中，对于中小AI企业往往容易出现数据量不足的问题。这种情况下，迁移学习、小样本学习可能会非常有帮助。受到人类具有快速从少量（单）样本中学习能力的启发，让模型在少量样本中学习获得有力的泛化能力，成为近年的研究热点之一。

总结近些年自然语言处理发展的过程，我们会发现有如下趋势变化：

第一，神经网络深入到NLP各个领域之中，由此带来的崭新的神经NLP的建模、学习和推理方法，在我刚才所介绍的典型NLP任务中都取得了很好的进展；

第二，以BERT为代表的一系列预训练模型得到了广泛应用，体现了大规模语言数据所蕴含的普遍语言规律和知识与具体应用场景巧妙结合的潜力；

第三，低资源的NLP任务获得了广泛重视并得到了很好的发展。

除了以上技术上的显著进步，中国的NLP的进展也引起了世界瞩目。从顶会（ACL、EMNLP、COLING 等）论文发表来看，过去五年来连续居于世界第二名；仅次于美国，远远高于其他国家；以中文为中心的机器翻译，现在在世界上处于领先水平；在聊天和对话方面，中国也位居世界前列。总之，从中国到亚洲到世界，NLP领域的整个趋势是不同的层次、不同水平都在进行努力。正如微软亚洲研究院副院长周明所说，NLP进入了黄金十年。随着未来国民经济发展和人工智能对NLP带来的庞大的需求，大规模的各类数据可供模型训练，以神经网络NLP为代表的各种新方法将一步步提升建模水平，各种评测和各种开放平台推动NLP研究和推广的能力，日益繁荣的AI和NLP领域促进专门人才的培养等等，相信NLP领域将会迎来更多里程碑实践，越来越多的智能应用将随之落地。

编辑：文婧

校对：汪雨晴

【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
掌握C#文件操作与XML处理：学习资料完整指南竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：C#是一种广泛应用于Windows和跨平台开发的编程语言，它在.NET框架中包含强大的文件和XML操作能力。本文深入探讨了C#中的文件读写技术，包括使用System.IO命名空间中的File类进行文本和二进制文件处理，FileStream类的流操作，以及XML文档的解析、创建和修改方法。同时，文章也介绍了文件操作的扩展功能和在进行文件操作时应考虑的异常处理。通
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
五大编程竞赛平台终极对比 2401_86601498 c++
LeetCodeLeetCode是一个流行的在线编程平台，提供大量算法和数据结构题目。题目分为简单、中等和困难三个难度级别。LeetCode的题目涵盖各种主题，包括数组、字符串、树、动态规划等。LeetCode支持多种编程语言，包括C++，并提供在线代码编辑器和即时反馈。LeetCode还提供竞赛和面试模拟功能，适合准备技术面试的用户。CodeforcesCodeforces是一个以竞赛为主的在线
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
BPE（字节对编码）和WordPiece 是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法人工智能 transformer 深度学习
BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。BPE（BytePairEncoding，字节对编码）原理初始化：将文本按字符（或Unicode字节）拆分为最小单元，形成初始词汇表。统计合并：迭代合并最频繁出现的相邻字符对，形成新的子词单元，直到达到预设的词汇表大
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势

你可能感兴趣的:(人工智能,大数据,自然语言处理,编程语言,机器学习)