LolitaAnn

图解BERT、ELMo（NLP中的迁移学习）| The Illustrated BERT, ELMo, and co.

看我看我

这是我翻译这位大佬的第二篇文章了，我计划是翻译四篇，（Transformer、BERT、GPT-2、GPT-3），翻译授权见最后。

之前的工作：

图解transformer | The Illustrated Transformer
图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)

这部分内容为我主观注释，和原作无关。

文章目录

看我看我
正文
- 举个:chestnut: ：句子分类
- 模型结构
- - 模型输入
  - 模型输出
- 与卷及网络类似
- Embedding新纪元
- - 简要回顾词嵌入Word Embedding
  - ELMo: 上下文语境很重要
  - ULM-FiT：将迁移学习引入NLP
  - Transformer：超越LSTMs的存在
  - GPT：对Transformer的Decoder进行预训练的语言模型
- 迁移到下游任务
- BERT：不用Decoder了，我们来用encoder
- - 掩码语言模型 Masked Language Model
  - 两个句子的任务
  - Task specific-Models
  - BERT 的特征抽取
- 带BERT出去炫
Jay Alammar's Blog

正文

2018年是NLP模型发展的转折点。我们不断探索单词和句子的表示方法，以求能最好地捕捉其中潜在的语义和关系。此外，NLP领域已经提出了一些功能强大的组件，你可以免费下载，并在自己的模型和pipeline中使用它们（这被称为NLP领域的ImageNet时刻，类似的发展在几年前也是这么加速计算机视觉领域的机器学习的）。

我来解释一下：

在CV（Computer Vision）领域，预训练+微调已经应用很久了。他们有在ImageNet上训练好的模型可以直接拿去用。但是在NLP（Natural Language Processing）领域并没有像ImageNet那样大的带标签的数据集。因此NLP领域迟迟没有大型预训模型，还是停留在比较低层次的研究上。

GPT的出现让研究人员看到了曙光，我们使用无标签数据也能做出大模型用于微调。从原来的静态词向量到Transformer的动态词向量，再到使用无标签数据预训练模型并用于微调，简直是开创性的工作。同年又涌现出了BERT。所以那一年真的是开辟了NLP领域工作的新时代。

在后边本文的作者会说“BERT被认为是NLP新时代的开始”，我不是很同意这个说法，我认为GPT是新时代的开始。

ULM-FiT和Cookie Monster没关系，但我一时半会儿没想到别的角色表示…….

Cookie Monster是芝麻街里边一个吃饼干的蓝色小怪兽。BERT是芝麻街里另一个黄色的角色。

在这一发展过程中，最新的里程碑工作之一是BERT。~~BERT被认为标志着NLP新时代的开始~~ 。BERT模型在自然语言处理任务方面打破了多项记录。
BERT论文发布不久之后代码就开源了，还提供了可以直接下载的已经在大型数据集上预训练好的模型。
这是一个重大的发展，BERT模型可以作为一个组件，任何人都可以借助它建立一个NLP模型，从而节省了从头开始训练语言处理模型所需的时间、精力、知识和资源。

使用BERT的两个步骤：下载在步骤1中已经在无标签数据上预训练好的模型，只需要考虑步骤2的的微调。

BERT 是建立在近期NLP领域中涌现的许多聪明想法之上的，包括但不限于半监督学习、ELMo、ULMFiT、GPT 和 Transformer。

为了正确理解BERT是什么，我们需要了解许多概念。
在了解模型本身所涉及的概念之前，让我们先看看BERT的使用方法。

举个：句子分类

使用BERT最直接的方法是使用它对一段文本进行分类。这个模型看起来是这样的：

为了训练一个基于BERT的分类模型，你主要需要训练分类器（Classifier），BERT模型仅需要微小的改动，这样的训练过程被称为微调，微调起源于半监督学习和ULMFiT。

但对于不熟悉这个话题的人来说，既然我们谈论的是分类器，那么我们就进入了机器学习的监督学习领域。这意味着我们需要一个有标记的数据集来训练这样的模型。看看下边的例子，一个垃圾邮件分类器的带标签的数据集，有两部分：一个电子邮件消息列表和一个标签（标签标记每个邮件为“垃圾邮件”或“不是垃圾邮件”）。

其他用法比如：

……

BERT能做的事情有很多，现在几乎各个子任务都能看到BERT及其变体。

模型结构

现在，你已经知道了BERT如何使用的一些例子，让我们仔细看看它是如何工作的。

BERT论文中提出了两个尺寸的BERT模：

BERT-base：和GPT一样大，因为要和GPT比较性能
BERT-large：一个大得离谱的模型，论文中的SOTA就是这个模型实现的。

看一下没被紫色标记的那句话。我看论文的时候就觉得这句话写的贱嗖嗖的，指名道姓喊话GPT。

对于第二点，在当年来看这个模型确实大的离谱，不过身处2022年的我们可以知道，BERT已经算是普通实验室可以微调的良心小模型了。

BERT基本上是用Transformer的Encoder组件堆起来的。

是时候向你们介绍我之前写的《图解Transformer》了，这篇文章介绍了Transformer模型。想要了解我们接下来要介绍的东西，一定要先了解Transformer。

两种尺寸的BERT模型都有大量的Encoder组件（论文里叫Encoder组件为Transformer block）。

模型	Encoder层数	隐藏单元大小	多头注意力数量
Transformer	6	512	8
BERT-base	12	768	12
BERT-large	24	1024	16

模型输入

第一个输入token是默认提供的一个特殊的[CLS]token，原因后面再说明。CLS在这里代表分类。

就是你不管输入序列是什么东西，模型都会给你加上一个[CLS]做为开头第一个token。

和Transformer的普通的encoder一样，BERT将一个单词序列作为输入，该序列在组件堆栈中不断向上流动。每一层都施加自注意力，并通过前馈网络传递其结果，然后将其传递给下一个encoder组件。

就架构而言，到目前为止，它和Transformer是相同的（除了大小，当然大小是我们可以自己设置的超参数）。在输出部分，我们才能开始看到不同的地方。

模型输出

每个位置输出一个大小为hidden_size（BERT-base为768）的向量。对于上面说的句子分类那个例子，我们只需要关注第一个位置的输出（就是我们之前传入特殊[CLS]token的那个位置）。

这个向量现在可以用作我们分类器的输入。论文中仅使用单层神经网络作为分类器就取得了很好的效果。

如果你有更多的标签（比如你是一个电子邮件服务提供者，需要将电子邮件标记为“垃圾邮件”、“非垃圾邮件”、“社交”和“推广”），那只需调整分类器的网络结构，使其可以做多分类即可。

与卷及网络类似

对于那些有计算机视觉基础的人来说，这种向量传递应该会让人联想到一些网络（例如VGG）的卷积部分和网络后边的全连接分类部分。

Embedding新纪元

新的发展带来了文字编码方式的转变。词嵌入一直是NLP模型处理语言的主力军，像Word2Vec和Glove这样的方法已经获得了广泛应用。在说新变化之前我们先来回顾一下之前的词嵌入编码方式。

简要回顾词嵌入Word Embedding

如果想用机器学习模型来处理单词的话，你需要先将单词转化为模型能够计算的数值表示。Word2Vec表明我们可以使用向量表示单词，并捕捉其语义和含义关系，以及句法和语法关系。

语义和含义关系例如：能够分辨单词是相似的还是相反的。能够区分像“斯德哥尔摩”和“瑞典”与“开罗”和“埃及”之间的关系是相同。
句法和语法关系例如：“had”和“has”之间的关系与“was”和“is”之间的关系相同。

人们很快意识到，我们可以直接在大量文本数据上预训练好embedding，而不是对每个模型的小数据都进行embedding训练。之后就可以直接下载通过Word2Vec或GloVe预训练好的单词及其embedding列表。下图单词“stick”的GloVe的词嵌入示例（embedding向量大小为200）

单词“stick”的GloVe词嵌入是由200个浮点数组成的向量（四舍五入到两位小数）。

因为这些向量都很长，画那么多格子不切实际，之后我会用这样少数几个格子来表示词嵌入向量。

ELMo: 上下文语境很重要

如果我们使用GloVe的那些词嵌入，那么不管上下文是什么，单词“stick”都将由这个向量表示。许多自然语言处理研究人员说，“（尔康手）等等！‘stick’有多种含义！具体意思取决于它的使用位置。为什么我们不根据上下文语境进行embedding呢？这样既能捕捉该语境中的含义，又捕捉其他语境信息。”
于是，语境化的词嵌入就诞生了。

许多自然语言处理研究人员 指的是

Semi-supervised sequence tagging with bidirectional language models

Learned in Translation: Contextualized Word Vectors

Deep contextualized word representations

语境化词嵌入可以根据词语在句子语境中的含义赋予词语不同的embedding。

ELMo没有对每个单词使用固定的词嵌入，而是在为每个单词计算embedding之前考虑整个句子。ELMo模型使用的是特定任务上训练的bi-LSTM进行词嵌入。

ELMo为NLP的预训练任务迈出了重要一步。ELMo在大型语料库上进行预训练，在数据集语言的大规模数据集上进行训练，然后我们可以将其一个组件放到其他模型上处理语言。

ELMo的秘密是什么？

ELMo是通过预测任务进行语言理解的，这项任务称为语言建模。这样非常方便，因为这样训练不需要有标签数据，而我们有大量的文本数据可以让模型从中学习。

假设用Let’s stick to作为输入，预测下一个最可能的单词。
当在数据集上训练时，模型开始学习语言模式。在这个例子中，它不太可能准确地猜出下一个单词（improvisation）。举个现实一点的例子，比如hang之类的单词，它大概率输出out之类的词，反正out概率肯定比camera更高。

上图我们可以看到展开的 LSTM，每个步骤的隐藏状态从 ELMo 的后脑勺向量逐步传播，一直到最顶上传给一个FFNN。模型训练完以后，这些向量会在计算词嵌入的过程中派上用场。

看下图，ELMo 实际上不只是LSTM，而是训练了一个bi-LSTM，这样它的语言模型不仅能看到下一个词，也能看到上一个词。

推荐一个相关PPT。

ELMo通过以某种方式将隐藏状态和初始embedding组合在一起，从而进行语境化词嵌入。

ULM-FiT：将迁移学习引入NLP

ULM-FiT引入了一些方法，可以有效地利用模型在预训练阶段学到的很多东西——不仅仅是embedding，也不仅仅是上下文信息的embedding。ULM-FiT引入了一个语言模型和一个可以有效地对该语言模型进行微调的方法，使得该模型能适应各种任务。

NLP终于有了一种像CV领域一样的迁移学习方法。

Transformer：超越LSTMs的存在

Transformer诞生之后再机器翻译等任务上取得了一些成果，让NLP领域的一些人认为它是LSTM的替代品。但是Transformer相较于LSTM，能更好地处理长期依赖关系。

Transformer的encoder-decoder结构使其非常适合机器翻译。但是如何用它来进行句子分类呢?您将如何使用它来预训练一个语言模型，以便对其他任务进行微调（下游任务是该领域所称的那些使用预训练模型或组件的监督学习任务）。

GPT：对Transformer的Decoder进行预训练的语言模型

事实证明，我们不需要整个Transformer进行迁移学习，或者为NLP任务创建预训练语言模型。我们可以只使用Transformer的decoder。Decoder是一个不错的选择，因为它天然适合语言建模，因为它采用的是masked attention，可以掩盖当前步骤之后的tokens。

GPT 由12个Transformer的decoder组成。因为模型没有encoder，因此这些decoder和Transformer原始的decoder相比是没有encoder-decoder注意力子层的，但是会保留masked self-attention子层。

使用这种结构，我们可以继续在语言建模任务上训练模型：使用大量无标签数据集预测下一个单词。只需将 7000本书的文本扔给它，让它学习！
书籍非常适合语言建模任务，因为两个词之间被大量文本分隔，模型可以学习到如何关联一些相关信息。你使用推特或文章进行训练就不会得到这些信息。

GPT现在已经准备好接受训练了，在一个7000本书组成的数据集上进行预测任务训练。

迁移到下游任务

现在GPT已经经过了预训练，我们可以开始将它用于下游任务。

让我们先来看一下句子分类（把电子邮件分类为“spam”或“not spam”）：

GPT怎么进行句子分类？

GPT论文中列出了一些方案：怎么转换输入以适应不同类型的任务。
下面这张图片展示了执行不同任务的模型结构和输入转换格式。

厉不厉害！

BERT：不用Decoder了，我们来用encoder

OpenAI的Transformer（GPT）为我们提供了一个基于transformer的可微调的预训练模型。但是在从LSTM到Transformer的转变过程中，有些东西消失了。
ELMo的语言模型是双向的，但是GPT只训练正向语言模型。我们能否构建一个基于Transformer的模型，它的语言模型既可以向前看，也可以向后看（用技术术语来说——“同时受左右两边上下文的约束”）?

左边是Ernie，右边是BERT。

下边这句话原文是“Hold my beer”, said R-rated BERT.
拿好我的啤酒，我要开始装逼了。引申为看我的吧。

BERT：“看我的！”

掩码语言模型 Masked Language Model

BERT：“我们将使用Transformer的encoder！”

Ernie：“哦我的老天鹅，你疯了吧。是个人就知道双向制约在多层语境中能让文本间接看到自己的信息。”

BERT自信地说：“我们将使用mask！”

BERT的巧妙之处在于，BERT在语言建模任务中随机mask掉输入序列中15%的单词，要求模型预测缺失的单词。

找到正确的方法去训练Transformer的encoder是一个难点。BERT通过采用早期文献中的“掩码语言模型”（masked language modelnMLM）来解决这个问题。

BERT不是单纯的mask掉15%的输入，为了便于模型微调，BERT还在其中混合了其他的东西。比如有时它会随机用另一个单词替换一个单词，要求模型预测该位置的正确单词。

就是从输入中随机抽15%的词。将其中80%mask掉，10%换为其他的词，10%不做任何处理。

两个句子的任务

如果你回想一下GPT对不同任务的输入进行转换的时候，一些任务需要模型对两个句子做一些提示。（例如，给定两个输入，一个是维基百科词条作，另一个是关于该词条的问题，需要提示“我们能回答这个问题吗？”）。

为了使BERT更好地处理多个句子之间的关系，预训练过程中还有一个额外的任务。给定两个句子AB，判断B是否是A的下一句。

训练数据中50%的B是A的下一句，另外50%是随机抽取的句子。

BERT预训练的第二个任务是两个句子的分类任务。在上图中，token被简化了，BERT实际使用的是WordPieces分词作为token，而不是一个单词作为一个token。WordPieces是一些单词会被分解成更小的部分。

Task specific-Models

BERT的论文展示了在不同任务中使用BERT的多种方法。

BERT 的特征抽取

微调并不是使用BERT的唯一方法。和ELMo一样，你可以用预训练好的BERT做动态词嵌入，然后把学到的嵌入信息提供给你的模型。论文中表示，在命名实体识别等任务上，用BERT提供动态词嵌入和微调BERT的效果差不多。

哪个向量最适合作为上下文嵌入？我觉得这取决于任务。论文原文考虑了六种选择（与获得 96.4 分的微调模型相比）：

带BERT出去炫

试用BERT的最佳方法是通过谷歌Colab上托管的云TPUs进行BERT微调。如果你以前没用过云TPU，那么这也是一个尝试的的好起点。BERT代码可以在CPU、TPU、GPU上工作。

第二步当然是看看BERT的源码：

模型在modeling.py （class BertModel）中，和普通的Transformer编码器几乎相同。
run_classifier.py是微调过程的一个例子。它还为监督模型构建了分类层。如果你想构造自己的分类器，可以参考其中的create_model()方法。
有一些预先训练的模型可以直接下载使用。这些模型涵盖BERT-base、BERT-large，涵盖英语、汉语，以及wikipedia上训练的102种语言的多语言模型。
BERT不是把单词看做token，而是视为WordPieces。 tokenization.py 是分词器，能把你的单词转化为适合BERT的WordPieces。

你也可以看一下Pytorch版本的BERT。 AllenNLP 允许任何模型使用BERT嵌入。

Jay Alammar’s Blog

作者博客：@Jay Alammar
原文链接：The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)

学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
生成式AI技术对未来知识生产模式的颠覆性影响：跨学科案例分析德宿人工智能
引言随着人工智能技术的迅猛发展，生成式AI作为一种革命性技术正在深刻地改变人类知识生产和学术研究的范式。生成式AI不仅能够创建原创内容，还能模拟人类思维过程，处理和生成大量数据，从而在各个学科领域展现出广阔的应用前景。本研究报告旨在深入探讨生成式AI技术对未来知识生产模式的颠覆性影响，通过对比传统学术研究与AI辅助研究的范式差异，并选取医学、法学、文学、经济学和艺术学等五个典型领域进行深度案例分析
ChatGPT驱动的跨学科研究灵感挖掘指南学境思源AcademicIdeas 学境思源 AI写作 ChatGPT chatgpt
跨学科研究已成为解决复杂问题的重要手段。学境思源，无论是人工智能与心理学的结合，一键生成论文初稿！还是生态学与经济学的融合，越来越多的研究者正试图打破学科界限，探索全新问题域。但问题是：acaids.com。我们如何高效发现这些跨学科交叉点？使用传统方式，像文献综述、领域专家访谈或大型头脑风暴虽有效，但耗时，且受限于已有认知。今天为大家分享一种高效、智能、可复制的方法——利用ChatGPT进行跨学
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
PPT 要你好看（全彩）又是一个装逼的
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！PPT,要你好看（全彩）杨臻编著ISBN978-7-121-14725-82011年11月出版定价：49.90元16开264页宣传语：般若黑洞▪百万点击之升华16位知名PPT高手联袂热议内容简介此刻呈现在你面前的
FTTR（Fiber to the Room）一主一从
FTTR（FibertotheRoom）一主一从是家庭或企业光纤组网中的一种设备配置方式，具体含义如下：1.基本概念FTTR：指光纤直接延伸到每个房间（替代传统网线），实现全屋千兆/万兆覆盖。一主一从：由一台主光猫（主网关）和一台从光猫（从网关）组成的网络架构，通过光纤连接，形成主从协作的网络系统。2.主设备和从设备的作用主光猫（主网关）直接连接运营商的光纤入户线路，负责拨号、路由、Wi-Fi覆盖
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
MiniMax - M1：开源大模型的革命性突破
开源大模型MiniMax-M1研究报告一、引言在人工智能技术飞速发展的当下，大模型领域的竞争愈发激烈。开源大模型以其开放性、可定制性和社区协作的优势，逐渐成为推动人工智能技术进步的重要力量。MiniMax-M1作为全球首个开源大规模混合架构的推理模型，一经发布便引起了广泛关注。它在长上下文处理、推理效率和成本控制等方面展现出了卓越的性能，为人工智能的发展带来了新的思路和方向。本文将对MiniMax
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
基于人工智能的图表生成器警世龙开发记录人工智能自然语言处理
基于人工智能的图表生成器软件需求分析本项目旨在开发一个基于Web的图表生成工具，利用人工智能技术将自然语言描述转换为专业的流程图、时序图等可视化图表。具体需求如下：支持用户输入自然语言描述来生成图表。提供实时预览功能，让用户能够即时看到生成的图表。允许用户对生成的Mermaid代码进行编辑。支持图表的缩放和平移操作。提供代码保存和图片导出功能。具备快捷键支持，提高用户操作效率。技术选型前端HTML
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
openai-go v1.6.0版本详解：新增功能与优化全面解析福大大架构师每日一题文心一言vschatgpt golang easyui 开发语言
一、前言openai-go作为OpenAI官方提供的Go语言客户端库，一直备受广大Go语言开发者关注和喜爱。随着人工智能技术的飞速发展，openai-go的迭代速度也在不断加快。最近，openai-go发布了v1.6.0版本，该版本带来了多项新功能和优化，进一步提升了API的灵活性和开发者体验。本文将基于官方发布的完整更新日志，深入解析v1.6.0版本的新增功能、改进细节及实际应用，帮助读者全面掌
Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag