哎呦-_-不错

BERT模型—1.BERT模型架构

文章目录

- - 引言
  - 一、Bert模型总览
  - 二、注意力机制
  - - 1.Seq2seq中的注意力操作
    - 2.注意力的一般形式（三步曲）
    - 3. transformer中的自注意力机制—Self.Attention
    - 4. transformer的多头注意力机制
    - 5. scaling
    - 6. 模型优化技巧：残差连接
  - 三、BERT其他结构特性
  - - 1.BERT模型中的位置编码
    - 2. BERT中的全连接层与非线性激活函数
    - 3. 层归一化—LayerNormalization

引言

本节将按照思维导图逐步了解BERT模型。

2018年谷歌在Github上开源了Bert模型之后，后续人们开发Bert模型变体以及对Bert模型进行优化，各种NLP比赛榜单都是Bert及其变体占据，开启了NLP的新时代！这个时代有两个特性：

模型的架构是趋同的，所有的模型基本上是基于transformer的
所有的模型基本上都是基于预训练的

一、Bert模型总览

BERT网络结构是多层transformer Encoder叠加。

Transformer block的具体架构为：

Transformer层的网络核心要素如下:

Multi-head attention (多头注意力)
FFN(全连接层)
LayerNorm(层归一化)
残差连接

二、注意力机制

人类在接收到所有信号时，并不会将注意力平分到每一个信号中，而是会重点观察某些部分，战略性忽略某些部分。

NLP中核心的注意力机制与人类的注意力机制在直观上是一致的。

1.Seq2seq中的注意力操作

我们现在从attention的起源来了解attention的功能。在没有attention机制以前，机器翻译模型通常是使用序列到序列的架构（Seq2seq）。

左边的编码器（Encoder）将原文直接表示成向量，这个向量用于目标语言句子的预测中，在解码器（Decoder）生成目标语言句子。这个模型架构逻辑上是非常合理的，但是会涉及到信息瓶颈的问题—即输入的句子不管有多丰富，但是面对解码器，最终只会生成一个向量。在预测目标语言句子的不同字时，所拥有的输入信息（原句输入信息）是相同的（输入句子全部局限于向量表示中）。不过，我们在预测目标语言句子的不同字时，需要关注输入的不同部分。

例如：翻译句子的前面几个字，大概率是基于句子靠前部分来翻译；翻译句子的后面几个字，大概率是基于句子靠后部分来翻译的。

为了解决“信息瓶颈”的问题，引入了attention机制，打开了NLP架构的新格局。
在预测目标语言句子的下一个词时，利用attention接受到更多的信息。

首先，利用 $s_1$ 向量与原句的每一个字的向量表示进行点积，相当于得到了一些打分。

Attention store:
我们将上一步得到的打分通过求softmax形成一个分布。经过变换后，这些打分总和为1，而且，其全部非负，可以看成概率分布。

Attention distribution:
我们将原句的注意力向量表示用注意力打分进行加权平均就得到注意力输出向量Attention output。

注意力打分加权平均表征：
最后，Attention output能够帮助我们更好的预测下一个词，即将注意力输出与 $s_t$ 拼接经过解码得到下一个字。

注意力输出与 $s_t$ 拼接帮助解码：

2.注意力的一般形式（三步曲）

注意力的一般定义:给定一组向量(key, value)键值对，以及一个向量query，注意力机制就是一种根据query与keys来计算values的加权平均的模块。

上面介绍的机器翻译模型中的attention机制打分是基于点积的。下面介绍attention机制的其他写法。常用的注意力打分方法有3种：

点积注意力(dot-product attention) :
乘法注意力(multiplicative attention):

引入可学习的 $W$ 元素，使得attention机制更加匹配下游任务。
加法注意力(additive attention):

把query与key都引入到全连接层，通过引入一个额外的向量进行点积，最后形成一个attention打分。

3. transformer中的自注意力机制—Self.Attention

下面我们考虑一个问题：注意力机制是否可以得到一个句子的向量表征？这里就引出自注意力机制，通过自己注意自己，来更新句子每个词的向量表征。
自注意力机制建模句子表征的过程为：从单个字角度:e.g：it_的向量表征与句子中的所有词之间计算注意力，由此更新其向量表征。过程如下：

首先对Query、key与value均乘以一个参数矩阵
$q_i=h_iW_Q\\k_i=h_iW_K\\v_i=h_iW_V$
假设it_在句子的第 $i$ 个位置，那么它在第 $j$ 个位置的注意力打分为：
$e_{i,j}=q_i^Tk_j$
通过softmax归一化成概率分布
$\alpha_i=softmax([e_{i,1},...,e_{i,T}])$
通过注意力打分的分布，我们对value进行加权平均，然后再经过一个线性层输出 $h_i^{'}$ ， $h_i^{'}$ 正是更新后的it_向量表征
$h_i^{'}=(\sum{\alpha_{i,j}v_j})W_O$

it_为Query，句子中的其他词为key与value

注意力机制通过操作实现了句子中词语两两间的交互。当然，在实现的过程中，不可能对句子中的每一个字都重复进行上面运算，这个非常低效。实际实现的过程中，需要通过矩阵的计算来使得整个句子直接完成两两之间的注意力的计算。整个句子的一次self-attention的过程如下：

假设句子现有表征记为 $H=[h_1,...,h_T]$ ，首先对Query、key与value均乘以一个参数矩阵
$_\\ = _\\ = _$
然后进行注意力打分
$E = ^(转置)$
通过softmax归一化成概率分布
$A t t n = S o f t m a x (E)$
通过注意力打分的分布，我们对value进行加权平均
$^{'}= ·$

4. transformer的多头注意力机制

多头机制（multi-head attention）是BERT网络结构当中使用的网络优化技巧。它的思想是：使用不同的head关注不同的上下文依赖模式，类似于模型集成效应。

将网络的输入分成多个支，分别做注意力机制，最后将每支的结果进行拼接得到 $H^{'}$ 。
$_ = _{i,} \\_ = _{,}\\ _ = _{,}\\ ^{i,′} = (_^{^} )\\ ′ = [^{1,′} , ^{2,′} , … , ^{,′} ]_O$

5. scaling

scaling是transformer中又一模型优化技巧（Scaled dot-product attention）。即在计算attention分数时除以因子 $\sqrt{d_k}$ ，一般在transformer中取的是向量在每个head中的维度，一般 $d_k$ 为64。
$_{i,} \\_ = _{,}\\ _ = _{,}\\ ^{i,′} = (\frac{_^{^}}{\sqrt{d_k}})\\ ′ = [^{1,′} , ^{2,′} , … , ^{,′} ]_O$
作用:模型维度较高的时候，向量点乘结果会比较大，这个时候由于经过了softmax，梯度会变小,训练会不稳定。除以因子 $\sqrt{d_k}$ 可以改善梯度不稳定的问题。

6. 模型优化技巧：残差连接

残差连接在CV领域无处不在，transformer中也存在模型优化技巧—残差连接。
残差链接的意义在于：

解决深度网络的梯度消失问题
改变损失函数形状，使得损失函数更加平滑，方便优化损失函数


上图两部分均存在残差连接
$H^{l+1} =H^l+ layer (H^l )$

三、BERT其他结构特性

1.BERT模型中的位置编码

一个Embedding层与多个self.Attention层是否能够组成一个NLP网络？答案是不行的。这就涉及到自注意力机制的辅助模块。首先第一个模块就是位置编码。
如果，我们将两个词was_与streets_的顺序调换，经过公式计算，并不会对其注意力打分有影响。

这说明我们现有的自注意力机制没有反映到句子序列的前后顺序信息。但是句子的顺序信息在自然语言处理当中应该是非常重要的，这就需要位置编码（Position encoding）用来表示位置信息。下面介绍位置编码。
位置编码形式为：

$p_i∈R^d,for i ∈ {1,2,...,T}$

位置编码的位置为：

可以加在Embedding层
也可以每层都加

位置编码的具体形式为:
正余弦位置编码
通过给正余弦不同的周期达到区分位置的效果，transforms中使用了这种编码。

下面展示位置编码与句子位置之间的曲线关系

随着句子维度的增加，周期会逐渐增长。

p_i 的不同维度，从1到768，使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加。这样设置其实是使得长度为T的序列，每个位置上的位置编码 p_i 都是不一样的。
学习驱动的位置编码
$p_i$ 随机初始化，同模型一起学习。BERT模型中采用了这种位置编码。

2. BERT中的全连接层与非线性激活函数

上述工作是对句子中不同词之间的依赖进行建模，将该网络映射到更加高维的空间或者表达更加复杂的语义还有做，所以，我们可以增加一层全连接层，并给与非线性变换。这个正是BERT中的全连接层与非线性激活函数的作用。

增加全连接层后，公式为：

注意这里的操作是单点的(pointwise): m_i只由output_i决定,而不接收句子中其他信息。

后续，人们研究将不平滑的ReLU转化成平滑的ReLU，即GELU。GELU的一个特点是当输出为负数时，导数很大概率不为0。

3. 层归一化—LayerNormalization

层归一化是transformer中需要的另一模型优化技巧:LayerNormalization。层归一化是对每一个向量单独求均值 $\mu$ 与方差 $\sigma$ 。
$x^{'}=\frac{x-\mu}{\sqrt{\sigma}+\epsilon}*\gamma+\beta$

层归一化的意义：

与残差连接的作用类似:损失函数landscape（形状）变得平滑了
梯度的方差变小了，模型训练更加稳定

层归一化的位置也很重要。2019-2020年，微软研究了层归一化位置对模型的影响：

对于post-LN，最后一层的参数的梯度满足:
对于pre-LN，则为∶

AutoTrans提出采用自动机器学习的方法寻找layerNorm的最优位置组合。

如果对您有帮助，麻烦点赞关注，这真的对我很重要！！！如果需要互关，请评论或者私信！

你可能感兴趣的:(#,bert模型学习,BERT模型,模型架构)

程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析 AI创享派后端
一、DeepSeek技术新突破：程序员必须掌握的MoE架构实战2025年2月25日，DeepSeek开源了专为MoE模型设计的DeepEP通信库，这项技术革新直接影响了分布式训练和推理效率。该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。对于后端工程师而言，DeepEP的以下特性值得关注：计算-通信重叠机制：通过回调函数实现GPU资源动态分配
还不会构建MindIE镜像？一篇文章搞定 Zain Lau vim 编辑器 linux MindIE 昇腾
MindIE镜像构建工程项目简介用于构建多平台/架构的MindiE镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。前提条件网络连接在整个构建过程中，必须保持稳定的网络连接。此构建工程依赖于在线下载多个资源，包括但不限于Python源码、编译工具以及各种依赖，无法离线构建。Docker推荐版本：Docker20.10.x及以上最低版本要求：Docker19.03.x安装方式：
elasticsearch analyzer 学习笔记 weixin_40455124 elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候，也即在建立索引的时候在searching的时候，也即在搜索时，分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering：使用标记过
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
Redis7——进阶篇（四）啥也不会的小神龙· Redis系列 redis 缓存学习 redis经典面试题
前言：此篇文章系本人学习过程中记录下来的笔记，里面难免会有不少欠缺的地方，诚心期待大家多多给予指教。基础篇：Redis（一）Redis（二）Redis（三）Redis（四）Redis（五）Redis（六）Redis（七）Redis（八）进阶篇：Redis（九）Redis（十）Redis（十一）接上期内容：上期完成了缓存双写一致性方面的学习。下面学习HyperLogLog/Geo/Bitmap实际案
【大模型UI\多模型回复UI】 Ai君臣 LLMS 微调 ui 大LLMS UI
文章目录1、开源大模型用户界面（UI）2、同时让多个模型回复UI1、开源大模型用户界面（UI）LobeChatOpenWebUI：这是一款功能丰富且用户友好的开源自托管AI界面，旨在完全离线运行。它支持多种大型语言模型（LLM），包括Ollama和兼容OpenAI的API。OpenWebUI提供直观的界面，支持多模型和多模态交互，具有全面的Markdown和LaTeX支持，以及本地RAG集成等功能
PCIe信号传输的幕后：HCSL与LP-HCSL深度解析赛卡单片机嵌入式硬件服务器人工智能硬件架构 fpga开发
在数字化浪潮席卷的当下，PCIe（PeripheralComponentInterconnectExpress）作为高速串行计算机扩展总线标准，已然成为计算机内部硬件设备连接领域的中流砥柱。其信号传输的质量与完整性，恰似计算机系统运行的“命门”，对系统整体性能起着决定性作用。在PCIe体系架构里，HCSL（High-speedCurrentSteeringLogic）与LP-HCSL（Low-Po
DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
【Gee】项目总结：模仿 GIN 实现简单的 Golang Web 框架 YGGP Golang Project golang
文章目录Gee项目回顾Gee项目总结Golang已经具备基础的web功能，为什么还需要web框架？作为web框架，Gee框架完成了哪些功能？如何用Gee来构建web项目？Gee项目回顾上个月月末我按照Geektutu的教程，实现了Gee这个基于Golang的简单Web框架，但是一直没有进行复盘总结。学习Gee的八篇文章的链接如下：【Gee】7天用Go从零实现Web框架Gee【Gee】Day1：HT
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
软考高级《系统架构设计师》知识点（十三） Ritchie里其系统架构
系统架构设计软件架构的概念一个程序和计算系统软件体系结构是指系统的一个或者多个结构。结构中包括软件的构件，构件的外部可见属性以及它们之间的相互关系。体系结构并非可运行软件。确切地说，它是一种表达，使软件工程师能够：分析设计在满足所规定的需求方面的有效性：在设计变更相对容易的阶段，考虑体系结构可能的选择方案；降低与软件构造相关联的风险。软件构件简单到可以是程序模块或者面向对象的类，也可以扩充到包含数
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
黑板架构风格 BGM不迷路架构
一、定义黑板架构（BlackboardArchitecture）是一种用于解决复杂问题的系统架构模式，其中多个独立的组件（通常称为知识源）共同工作，通过共享一个共同的“黑板”（通常是一个全局的共享数据结构）来实现解决方案的推演的架构风格。每个组件根据黑板上的信息做出贡献，修改黑板上的状态，直到最终完成任务。二、组成黑板架构由黑板（Blackboard）、知识源（KnowledgeSources）、
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
N个utils(处理日期) 庖丁解java java
解释一下为什么会在java学习教程中放js的代码.1,最直接的肯定是我有时候会写js,而一些经典的逻辑,又不想新开前端文章,索性就放一起.2,java的面向对象太完善了,这也是我写文章的原因,导致写java代码很难学习到面向过程的编程思想,正好,原生js的代码,很大程度上写起来用的思维方式,很雷同面向过程的思考方式.算个补全,对写java代码,理解java代码,大有裨益.(这不是作者胡乱找补,写j
【PCDN】2020架构: 提高穿透和分享、BGP协议等风来不如迎风去传输探索实践架构服务器运维
小溪流科技自研海外PCDN系统技术架构与演进转载自腾讯云文/张道远整理/核心组网我们自己的P2P组网模型。我们采用了树形组网，但是我们规避优化了传统树形模型的缺点。为防止延时过高，我们在调度时会严格控制树形高度。为弥补父节点掉线造成孤儿状态的不足，我们使系统中每个节点都首先从CDN拉流。如果出现父节点掉线的情况，它立即向服务器补片，同时触发新的组网。对于纯粹的消费者模型，我们目前有两种方案，其中一
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题 ZhangJiQun&MXP 2021 AI python 2024大模型以及算力 2021数字交易数字资产语言模型安全人工智能机器学习自然语言处理算法
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题对齐方法（AlignmentMethods）主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题。其核心目标是让模型生成的内容更符合人类预期，同时确保伦理合规性和实用性。以下是对齐方法解决的具体问题及典型场景：1.安全性与伦理问题问题：基础LLMs可能生成有害内容（如暴力、歧视、
庖丁解java(一篇文章学java) 庖丁解java java 开发语言
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
【AI热点】Manus技术细致洞察报告（篇2）碣石潇湘无限路人工智能
针对大家对Manus产品褒贬不一的现象，基于近期对Manus的多方实测、公开信息与开源竞品的比对分析而撰写，旨在为从业者、技术爱好者以及潜在用户提供一个较为系统、专业的视角。报告将围绕Manus的核心原理、功能特点、技术亮点、常见应用场景与不足，以及与其他Agent产品和开源方案的对比进行深入探讨。1.引言与背景1.1产品崛起与「全自主通用Agent」的概念自2023年底至2024年初，大模型及其
鸿蒙HarmonyOS开发系列：WebSocket消息发送应用示例太空人_喜之郎 HarmonyOS 鸿蒙 OpenHarmony harmonyos 华为前端 linux 鸿蒙移动开发程序员
1.WebSocket简介WebSocket协议最初于2011年通过RFC6455完成了标准定义，后来又通过RFC7936、RFC8307、RFC8441等标准对协议进行了完善。WebSocket位于网络分层模型的应用层，是建立在TCP之上的双向通讯协议，可以在一个TCP连接上进行全双工通信；和HTTP不同的是，WebSocket通讯需要服务端和客户端先通过握手连接，连接成功后才能相互通信。2.W
iptv内容运营系统服务器架构,IPTV系统架构技术的深入解析 Damong.Liu iptv内容运营系统服务器架构
IPTV简单来说就是交互式网络电视，它能为用户提供电信级的服务和使用简便的电视式体验。IPTV业务是伴随着宽带互联网的飞速发展而兴起的一项新兴的互联网增值业务，它利用宽带互联网的基础设施，以家用电视机和电脑作为主要终端，利用网络机顶盒(STB，Set-TopBox)，通过互联网协议来传送电视信号，提供包括电视节目在内的多种数字媒体服务。IPTV系统概述到目前为止，IPTV虽然还没有一个十分明确的定
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
这些 JavaScript 编码习惯，让你最大程度提高你的项目可维护性！快乐非自愿 javascript 开发语言 ecmascript
前言：因为JavaScript语言是一门极其松散、极其自由的语言，这意味着我们可以随心所欲的操作它，这是他的优点，但同时也是它的缺点。在编码过程中，我们需要一种良好的规范或者习惯来保持应用程序的一致性和可维护性。而今天我们要说的就是，怎么在日常编码中通过一些的良好的编码习惯，从你编码的基础层面就能使得你的JavaScript代码可以更好维护。什么是可维护性？很多人学习前端，可能是从各种不同的渠道获
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
MCU的工作原理：嵌入式系统的控制核心绿算技术 MCU架构介绍单片机嵌入式硬件
MCU的工作原理可以概括为以下几个步骤：1.初始化上电后，MCU从Flash存储器中加载程序代码，并初始化外设和寄存器。2.任务执行根据程序逻辑，MCU执行数据处理、外设控制和通信等任务。通过中断系统实时响应外部事件。3.低功耗管理在空闲时，MCU进入低功耗模式，等待外部事件唤醒。4.结果输出通过GPIO、通信接口或模拟接口输出处理结果。MCU的架构：模块化与可扩展性MCU的架构设计注重模块化和可
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他