hjzgj263446

BERT 相关介绍以及EMLo、transformer等模型简介

翻译自：Blog of Jay Alammar；http://jalammar.github.io/illustrated-bert/ ；翻译的同时增加了部分修改以及注解。

介绍

2018年是机器学习文本处理领域(或者更准确地说，是自然语言处理或简称为NLP)的一个转折点。我们对如何以最佳方式（能够最好地捕捉潜在的含义和关系）表示单词和句子正在迅速发展。此外，NLP社区已经提出了非常强大的组件，您可以免费下载并在自己的模型中使用这些组件。

NLP领域发展的最新里程碑之一就是BERT的发布，该事件被描述为NLP新时代的开始。BERT模型打破了语言处理任务中的几个记录。论文发布之后，该团队就开源了相关代码，并且我们可以从github上获取相关的预训练模型（Github：Bert）。这是一个重大的进展，因为它使任何人都可以构建一个语言处理的机器学习模型，并将其作为一个随时可用的组件使用——从而节省了从零开始训练语言处理模型所需的时间、精力、知识和资源。

BERT基于最近在NLP社区中出现的一些聪明的想法——包括但不限于半监督序列学习、ELMO、 ULMFiT、OpenAI transformer、以及Transformer。
要准确理解Bert，我们需要了解许多概念。因此，在了解模型本身涉及的概念之前，我们先来看看如何使用BERT。

例子：句子分类

使用BERT最直接的方法是使用它来对单个文本进行分类。这个模型是这样的:

训练一个这样的模型，你主要只需要训练一个分类器，而只对BERT模型进行一点点修改。这个训练过程叫做fine-tuning，它起源于 Semi-supervised Sequence Learning和 ULMFiT。
可能有些人不熟悉这个话题，既然我们在讨论分类器，那么我们就有必要聊聊机器学习里的监督学习。这意味着我们需要一个带标签的数据集来训练这样的模型。对于这个垃圾邮件分类器示例，数据集将包含一个电子邮件消息列表和一组标签(对于每个消息来说是“垃圾邮件”或“非垃圾邮件”)。

相似的其他用例包括：

情感分析（Sentiment analysis）
- 输入：一段评论，输出：对这个评论的情感，即正向或负向
- 数据集：SST
- （注：最近我也在做情感分析以及aspect 情感分析，大家可以探讨下：））
事实核查（Fact-checking）
- 输入一个句子，输出是：“Claim” or “Not Claim”
- FULL FACT是一个为公众利益构建自动事实检查工具的组织。他们pipeline的一部分是一个用于读取新闻并且检测其是否是“Claim”的分类器，随后用于事实核查（目前这项工作都是人工来做，未来希望用ML取代）。

模型结构

现在您已经有了一个关于如何使用BERT的用例，让我们仔细看看它是如何工作的。

论文提出了BERT的两种模型尺寸

BERT BASE — 为了比较性能，其大小与the OpenAI Transformer差不多；
BERT LARGE — 非常巨大的模型，这个模型实现了最优的结果；
BERT是基于Transformer Encoder堆叠起来的。关于Transformer的相关介绍可以阅读这篇Transformer（注：后期有时间再翻译这篇）。

两种BERT模型都有大量的编码器层（文中称为Transformer Blocks）— 对于BERT BASE包含12层，BERT LARGE包含24层。同时模型也具有很大的前馈网络（分别包含768和1024个隐藏层神经元）以及多头注意力模型（分别12和16个）。这比Transformer的默认设置多（6个编码层，512个隐藏层神经元，和8头注意模型）

输入的第一个标记（即token）是 [CLS] 。在这儿代表分类（Classification）。
跟Transformer编码器一样，BERT将单词序列作为输入，信息在encoder层中向上流动（如图所示）。每一个编码层，采用注意力机制学习信息，然后通过一个全连接层将信息处理后传递给下一个编码层。

目前为止，从结构上来看，BERT除了一些参数设置外，与transform基本一致。现在我们从输出看看有何不同。

模型输出

每个位置的输出是一个向量（大小为隐藏层size，即在bert base 中为768）。对于我们上面提到的分类任务，我们关注于第一个位置上的输出，即[CLS]标记位置。

这个[CLS]位置的向量可以作为一个分类器的输入。文中采用了只有一层神经网络的分类器便取得了非常好的效果。如果你的任务是多标签的，那么只需要对这个分类器进行一些调整就可以。

与卷积网络相似性

对于那些有计算机视觉背景的人来说，这种向量传递应该会让人联想到 VGGNET 这样的模型中卷积部分以及模型的全连接层分类器部分。

Embedding的新时代

这些新发展带来了单词编码的新方式。目前为止，词嵌入是自然语言处理领域的主要力量。 Word2Vec 和 Glove广泛应用于NLP领域。在指出现在改变的内容之前，让我们回顾一下这些方法是如何使用的。

Word Embedding回顾

要让机器学习模型处理单词，得让单词需要某种形式的数字表示，以便模型在计算中使用。Word2Vec 表明我们可以通过一个向量来表示一个单词，这个向量包含了单词的语义信息、关系信息甚至语法信息（即表明单词之间的相似性，相关性，比如上海和成都都表示地名，又比如女人与女王和男人与国王之间的关系。）NLP领域很快意识到采用在大规模数据上预训练的单词嵌入向量作为输入相比于在少量数据上直接训练模型更有用。因此，我们可以下载使用Word2Vec 或者 GloVe生成的预训练向量。以下是Glove中单词‘stick’的向量表示（200维）：

为了方面描述，后续我们用下面的形式表示一个的单词向量。

ELMo

如果我们采用Glove表示一个单词，那么无论‘stick’的上下文是什么，它都用相同的向量表示。但是‘stick’在不同情境下有不同的含义。那么为什么不根据内容信息提供对应的单词向量表示呢 — 既能捕捉语义信息又能捕捉上下文信息。因此，一个基于上下文的单词表示方法出现了。

EMLo再给定一个单词向量表示前会关注整个句子，而不是直接分配一个固定的单词表示。它使用双向LSTM来生成这些嵌入表示。

ELMo为NLP任务训练的上下文中提供了重要的一步。ELMo的LSTM模型首先会在一个非常大的数据集上进行预训练，随后便可以将这个作为我们模型中的一个组件进行使用。
ELMo通过训练预测单词序列中的下一个单词获得了语言理解能力，这项任务称为语言建模。这很方便，因为我们有大量的文本数据，这样的模型可以在不需要标签的情况下学习这些数据。

EMLo预训练步骤： “Let’s stick to”作为输入，预测下一个可能出现的单词。当对大型数据集进行训练时，该模型开始学习语言模式。它不太可能准确地猜出这个例子中的下一个单词。更现实的来说，在一个单词‘hang’之后，它会给‘out’分配一个更高的可能性（‘hang out’），而不是‘camera’。
ELMo实际上更进一步，训练了一个双向LSTM——这样它的语言模型不仅有下一个单词的含义，而且还有上一个单词的含义

ELMo通过将隐藏状态(和初始嵌入)以某种方式组合在一起(合并后的加权求和)，提出了基于上下文的嵌入。

（注：个人理解就是，在第h层的LSTM模型中，一个单词例如‘stick’包含一个前向的状态表示e₁，一个后向状态表示e₂，将两者拼接起来得到e^h，这样一来每层模型将得到关于‘stick’的表示（e⁰,e¹,…e^h）,其中e⁰可以看作是输入向量，然后将这些向量进行加权求和得到‘stick’最终的向量表示。）

ULM-FiT：NLP领域的迁移学习

ULM-FiT介绍了有效利用模型在预训练时学习到的大量知识的方法 — 不仅仅是嵌入表示，也不仅仅是基于上下文的嵌入表示。ULM-FiT介绍了一个语言模型以及为各种任务微调语言模型的过程。NLP最终找到了一种可能和计算机视觉一样可以进行迁移学习的方法。

The Transformer: 超越了LSTM

Transformer论文和代码的发布，以及它在机器翻译等任务上取得的成果，开始让一些业内人士认为它们可以替代LSTMs。这是因为Transformers处理长距依赖比LSTM更好。
Transformer的Encoder-Decoder结构在机器翻译上效果很好。但是你怎么用它来进行句子分类呢?你将如何使用它来预训练一个可以为其他下游任务进行微调的语言模型呢(下游任务是指那些利用预先训练的模型或组件的监督学习任务)。

OpenAI Transformer：预训练一个Transformer Decoder模型作为语言模型

事实证明我们不需要对整个transformer模型进行迁移学习以及训练一个可以微调的语言模型。我们可以只用其中的decoder部分。
这个模型堆叠了12层decoder层。因为只采用了decoer层，因此decoder层中并没有普通transformer中encoder-decoder的注意力层，但依然有self-attention层（注：在原始transformer结构中，encoder中主要是self-attention机制加全连接层，而在decoer层中包含一个self-attention，一个encoder-decoder attention，以及一个全连接层）。
有了这个结构，我们可以继续训练模型:使用大量(未标记的)数据集预测下一个单词。比如扔给他7000本书籍让他训练。书本上的信息对于模型训练非常有效，它可以让模型学习到信息之间的关联，这是在tweets这些数据集上难以学到的。

下游任务的迁移学习

当OpenAI transformer 预训练后我们就可以将他用于一些下游任务了。首先我们还是来看看垃圾邮件分类任务。
OpenAI论文列出了一些输入转换方法处理输入的数据以适应不同的任务。下图显示了模型的结构和执行不同任务时的输入转换。

BERT：从decoder到encoder

openAI transformer 提供了一个基于transformer的可微调的预训练模型。但是在从LSTMs到transformer的转换过程中遗漏了一些东西。 ELMo的语言模型是双向的LSTM模型，但是openAI transformer只是训练了一个前向模型。那么我们是否可以训练一个关注前后的基于transformer的模型呢？

Masked Language Model

为了学习到两个方向上的信息，BERT对其中部分单词做了mask处理

找到一个合适任务训练一个transformer是一困难的问题，早期的BERT采用了“masked language model”解决这个问题。
不仅屏蔽掉15%的输入，BERT还引入了其他一些方式进行改进。有时它会采用随机替换部分词，然后让模型去预测这个位置上原本正确的单词。

两个句子级任务

如果您回顾OpenAI transformer处理不同任务时的输入转换，您会注意到有些任务需要模型对两句话进行智能化处理（即他们之间是简单的转述吗？给定一个wiki百科条目作为输入，一个关于该条目的问题作为另一个输入，我们可以回答这个问题吗？）
为了使BERT更好地处理多个句子之间的关系，预训练的过程包括一个额外的任务：给定两个句子A和B，预测B是否是A的下一句。

具体任务模型

BERT的论文展示了许多使用BERT完成不同任务的方法。

BERT特征提取

微调方法并不是使用BERT的唯一方法。就像ELMo一样，您可以使用预训练好的BERT来创建基于上下文的单词嵌入。然后您可以将这些嵌入输入给您现有的模型。下面展示了一个与在诸如命名实体识别等任务上微调BERT的结果相差不远的方法。

哪种向量作为上下文嵌入效果最好?我认为这取决于任务。本文考察了6个选项(与微调的得到96.4分的模型相比)。

你可能感兴趣的:(自然语言处理,神经网络,机器学习,深度学习)

腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
关于神经网络中的正则化文弱_书生乱七八糟神经网络人工智能深度学习
神经网络训练中的正则化正则化（Regularization）是神经网络训练中的一个关键技术，主要用于防止模型过拟合（overfitting），提高泛化能力。1.为什么需要正则化？在神经网络训练过程中，模型的目标是找到能在训练数据上表现良好的参数，同时也能泛化到未见过的数据。如果一个模型过于复杂（如参数过多、层数过深），它可能会记住训练数据中的噪声，而不是学习数据的本质模式。这种情况称为过拟合（ov
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他