BAAIBeijing

斯坦福大学Christopher Manning：Transformer语言模型为什么能取得突破

2020 北京智源大会

本文属于2020北京智源大会嘉宾演讲的整理报道系列。北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动，以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日，为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾，和来自50多个国家、超过50万名国内外专业观众共襄盛会。

2020年6月22日，在第二届北京智源大会语音与自然语言处理专题论坛上，国际自然语言处理著名学者、斯坦福人工智能实验室负责人Christopher Manning做了名为《Linguistic structure discovery with deep contextual word representations》的主题演讲。

在演讲中，Christopher Manning 根据对语言学结构的学习程度，将语言模型分为三个发展阶段：早期基于概率统计、无法学习语言结构的黑暗时代（Language Models in The Dark Ages）；之后则是启蒙时代的神经语言模型（Enlightenment era neural Language Models），特点是具备一定学习语言结构的能力；2018年始，基于Transformer结构的大参数量预训练模型（Big Language Models）大行其道，Manning发现预训练语言模型的参数中包含着非常多的语言结构信息，并在本次演讲中进行了详细的解析。

Christopher Manning，斯坦福人工智能实验室（SAIL）主任，斯坦福大学语言学和计算机科学系机器学习领域、斯坦福人类中心人工智能研究所（HAI）副主任。Manning 的研究目标是以智能的方式实现人类语言的处理、理解及生成，研究领域包括树形 RNN 、情感分析、基于神经网络的依存句法分析、神经机器翻译和深度语言理解等，是一位 NLP 领域的深度学习开拓者。他是国际计算机学会 (ACM)、国际人工智能协会（AAAI）、国际计算语言学会（ACL）等国际权威学术组织的 Fellow，曾获 ACL、EMNLP、COLING、CHI 等国际顶会最佳论文奖，著有《统计自然语言处理基础》、《信息检索导论》等自然语言处理著名教材。

整理：智源社区何灏宇

一、语言模型：用数学给语言建模

在报告中，Christopher Manning首先引出了语言模型的概念。语言模型是对自然语言进行数学建模的工具，它提供了一种能够用数学模型去表示自然语言的方法。现如今通用的语言模型大多采用序列化概率模型的思想，比如在给定的语境下预测下一个词出现的概率。

图1：根据语境预测下一个词

语言模型如N-Gram语言模型、基于循环神经网络的语言模型及预训练语言模型等都在不同的任务上被广泛使用，且能达到理想的效果。然而，这些语言模型真的学到了语言结构吗？还是说它们仅仅是在句子层面上学习词的概率分布？Manning给出了他的答案。

二、黑暗时代：N-Gram语言模型

N-Gram语言模型，是通过统计数据中给定词在长度为n的上文的条件下出现的频率来表征这些词在相应语境下的条件概率，如

图2：N-Gram例子

N-Gram语言模型是神经网络出现之前构建语言模型的通用方法，该方法虽然通过引入马尔科夫假设，但是其参数量依然很大。另外，N-Gram语言模型通过平滑和回退策略解决数据稀疏的问题。但是N-Gram语言模型学到了多少人类语言的结构信息？有些语言学家们认为几乎没学到。虽然这样的模型可能会包含一些简单的常识性知识，比如“船”通常会与“沉没”、“起航”等词共同出现，或者模型会学习到一些简单的词法，比如类似于“冠词-形容词-名词”这样的句子，但是N-Gram语言模型对于“名词”这样的词性概念和语言结构规则是没有概念的。

因此，在那个时代，如果想要让模型学习到语言结构，必须通过人工标注的方式获取特定语言结构的训练数据，然后训练相应的分类器。采用这一方法固然是能让语言模型学习到语言结构，但是标注成本太高且数据的迁移性差，似乎并不是一个好的解决方案。

图3：人工标注的语法

Manning随后表示，想要让语言模型学习到自然语言的结构知识，只学习字面上的信息是远远不够的，但幸好，自N-Gram语言模型之后，基于神经网络的语言模型取得了长足的进步。

三、启蒙时代：

神经网络赋予语言模型新的方向

得益于神经网络和深度学习带来的强大学习能力，神经网络语言模型展现出了比N-Gram语言模型好得多的效果。这其中最为人熟知的便是前向神经网络（FFNN）语言模型和循环神经网络（RNN）语言模型。前向神经网络语言模型通过把高维度的稀疏向量嵌入到低维度的分布式向量，从根本上解决了维度灾难问题。循环神经网络语言模型，例如LSTM模型，通过“门”的机制解决长距离依赖的问题，这样的模型结构在处理语句这种序列化数据时就有着天然的优势。Manning提到，N-Gram和过去的大多数模型都解决不了语句中的长距离依赖问题，但我们可以期待神经语言模型做到这一点。

图4：预测词removed，需要用到句子中距离较远的词stump而不是通过N-Gram在近距离取上下文

同时，Manning还展示了通过树结构的神经网络捕捉语句结构的一个研究成果。事实上，Manning 早期的深度学习工作一直致力于构建树形模型，因为在他看来，树形模型更能捕捉到语言不同于线性的视觉或者信号处理的结构特点。他们建立的TreeLSTM能够在一定程度上学习到如何去构建语句的语法树，该模型在细粒度情感分类、语义关系分类等任务上也取得了更好的效果，但比提高准确率更重要的是，语言模型终于开始学习语言结构了。

图5：语法树

四、大模型时代：

Transformer模型带来巨大突破

2018年，大参数量的预训练语言模型一个接一个的出现，为自然语言处理带来了突破性的进展。

图6：预训练语言模型

在这些预训练模型中，除了ELMo，其他的模型都应用了Transformer结构，原因是Transformer的结构使得模型在GPU上进行大规模训练成为可能，而模型的参数量也越来越大，达到十亿甚至百亿级别。Transformer的输入是句子中的词以及词的位置编码，通过一层线性变换，每个词得到Query、Key、Value三个低维向量。通过对三个向量做Attention运算，从而计算出句子中的每个词应该对句子中的其他词付出多少“注意力”。不仅如此，Transformer结构中还引入了“多头”机制，“多头”机制认为句子中的上下文信息可以从多个方面进行挖掘，因此Transformer使用了多个权重矩阵对Query、Key、Value向量进行Attention运算，从而达到通过多个权重矩阵学习多重语义信息的目的。

图7：Transformer的结构

这些基于Transformer结构的预训练语言模型在自然语言处理的很多领域都产生了巨大的影响，显著地提高了多个NLP任务的准确率。那么，动辄几十亿参数的预训练模型们可以学习到多少语言结构呢？在本次演讲中Manning选取了其中最著名的BERT模型进行了分析。

根据对Transformer结构的理解可以知道，Attention运算是通过点积加权的方式计算两个向量的相关性，从而得到句子中的每个词对其他词该付出多少“注意力”。通过分析这个注意力结果，Manning发现，在BERT的多个“头”中，有几个“头”是能够通过无监督或自监督的方式学习到和依存句法相关的信息的。

图8：BERT模型中每个词对其他词的注意力，颜色越深表示注意力越强

如上图的左半部分，宾语sell和stocks会将注意力更多地指向动词considered和recommending，而在上图的右半部分，限定词（冠词等）the、in，形容词huge、new等，它们更多将注意力指向名词language、law、flight、time等。如果对这四个例子中的语句进行依存分析，我们会发现左图中的词sell、stocks与动词considered、recommending构成了直接宾语的依存关系，而右图中的词the、in、huge等都是名词laguage、law等的前置修饰语，它们构成了语句中的限定词依存关系。可以看到模型确实在一定程度上学习到了依存句法信息。

事实上，“多头”机制不仅学习到了句法结构，也学习到了语句中的共指关系。下图中左边的例子中，she、her、Kim实际上指的是同一个人，从模型中的注意力分布也可以看到这种关系。右图同理。

图9：BERT模型中的某些“头”学习到的共指关系

Manning表示以上的这些发现证明，预训练语言模型能够对语言的符号结构进行建模，因为不管是依存句法还是共指关系其实都是一种用符号表示语法的方法，这是一件很酷的事情。但如果模型能够直接对语言结构进行建模，那就更好了。

随后，Manning提出了一个问题：在BERT模型的向量空间中是否蕴含着语法树结构？为了验证这个问题，Manning对BERT模型产生的词向量进行了探索，希望这些基于深度上下文的词表征能够带给我们答案。那么，如何根据词向量去构建这些树呢？

Manning假定句子中词向量间的L2距离作为树中结点之间的距离，根据这个距离构建一棵最小生成树，并将这个最小生成树作为模型学习到的语法树，最后用该树去与人工标注的语法树进行验证。值得一提的是，在不同的语境下，一个词可能会有不同的含义，那么每个词向量就可能会包含着多重语义信息。在实验时，Manning通过对词向量进行线性变换从而将词向量映射到一个低维的空间，这个低维的向量就包含了原词向量在特定语境下的语义信息。

实验结果表明，BERT根据上下文词表征构建的树效果非常好，在许多场景下都可以达到人工标注的精度。如下图中，根据BERT向量空间构建的最小生成树，与本篇文章图5所提到的语法树完全一致。

图10：根据BERT向量空间构建的最小生成树

图11：用BERT做语法分析树能够达到和人工标注相似的结果

根据这样的实验结果，Manning总结道，像BERT这种基于深度上下文词表征的语言模型，与之前的语言模型相比有了一个大转型，不论是形态上还是学习效果上。模型中大量的参数使得神经网络不再仅仅去学习词与词之间的表面联系，而是有了学习语法结构的能力。至于为什么模型会去主动学习语法结构，Manning也给出了解释，他认为模型之所以会去主动学习语法结构，是因为学习语法结构能够帮助模型更好地完成预测任务，也就是说，模型本质上依然是在提高预测能力，由于学习到语法结构有助于更好地预测，模型就会利用参数去学习语句的语法结构。

接下来，Manning做了另一个更有趣的探索，探索不同种类语言的BERT模型是否学到了相似的语法信息。做法如下，使用一种语言（如英语）的BERT模型的语法空间表示去验证另一种语言（如法语），如果验证成功，那么就说明BERT模型编码不同种语言的语法是采用的是相近的方法。

图12：两种语言的语法空间聚类结果

上图是实验结果，相似颜色的浅色代表英文，深色代表法语，可以看到聚类效果明显，这表明BERT模型在建模不同语言的语法信息时采用的方法是相近的。

演讲最后，Manning提出了如下几点思考。

1. 基于无监督或自监督学习的上下文词表征模型能够成功学习到语言结构，取得这样的成功证明了语言模型的学习实际上是一个信息量丰富的通用任务。

2. 既然语言模型已经能够学习语言结构，那过去几十年耗费人力标注语言学数据算是一个错误吗？

3. 基于深度上下文词表征的语言模型已经从之前的基于统计的关联学习模型转型，开始主动探索语言结构。

4. 在下个十年，语言模型的任务是否应该更多地将重心放在接地语言学习（Grounded Language Learning）上？

点击阅读原文，进入智源社区参与更多讨论。

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C#接口实现详解：从理论到实践，掌握面向对象编程的核心技巧钢铁男儿 C#图解教程 c#java 前端
在C#的世界里，接口是实现多态性和解耦设计的利器接口实现的核心规则实现主体限制只有类和结构体（struct）能实现接口。接口本身不包含实现代码，而是定义一组必须由实现类提供的成员契约。双重实现要求声明关联：在类/结构体的基类列表中明确包含接口名称classMyClass:IMyInterface//接口声明在冒号后成员实现：为接口声明的每个成员提供具体的实现代码，包括匹配的方法签名、属性和返回值类
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
实时预览功能问题 GISer_Jinger 项目 javascript 开发语言 ecmascript
你遇到的问题是：“B端修改配置后无法实时出现在previewiframe中，而必须点击刷新才能生效”。主要原因与以下几方面有关：❗为什么需要手动刷新：iFrame与主页面之间缺少实时通信机制：原本仅靠刷新重新加载iframe，而没有通过postMessage等方式同步状态；Valtio的proxy状态不能跨文件热刷新持久保存：当你修改包含proxy定义的文件，热重载会导致object被替换，监听丢
Topview Avatar 2深度实测：AI数字人带货的新高度，还是又一个营销噱头？神码小Z AI工具人工智能
在AI数字人赛道越来越卷的今天，各家产品都在宣传自己的"独门秘技"。最近，TopviewAI推出的Avatar2引起了我的注意——号称突破了产品尺寸限制，实现了"万物皆可带"。作为一个经常需要制作营销视频的内容创作者，我决定亲自上手测试一番，看看这款工具是否真的像宣传的那样强大。TopviewAvatar2是什么？革命性升级还是渐进式改良？TopviewAvatar2是TopviewAI推出的第二
C++设计秘籍：为什么所有参数都需类型转换时，非成员函数才是王道？讳疾忌医丶 c++前端开发语言
当所有参数都需要类型转换时，为什么要选择非成员函数？在C++的世界里，有一个看似简单却蕴含深意的设计原则：当所有参数（包括被this指针所指的那个隐式参数）皆须进行类型转换时，请为此采用非成员函数实现。这个原则背后隐藏着C++类型系统的精妙设计，也揭示了成员函数与非成员函数在处理隐式类型转换时的本质差异。想象一下，你正在设计一个数学计算库，需要支持整数与有理数的混合运算。如果你天真地将所有操作都实
【Linux内核模块】Linux内核模块简介 byte轻骑兵 #嵌入式Linux驱动开发实战 linux arm开发运维
你是否好奇过，为什么Linux系统可以在不重启的情况下支持新硬件？为什么修改一个驱动程序不需要重新编译整个内核？这一切都离不开Linux的"模块化魔法"——内核模块（KernelModule）。作为Linux内核最灵活的特性之一，内核模块让开发者可以动态扩展内核功能，今天就来揭开这个神秘组件的面纱。目录一、什么是内核模块？1.1先打个比方：给内核装"插件"1.2技术定义：动态加载的内核代码段1.3
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
群狼调研：以深度调研赋能餐饮服务升级，筑牢行业竞争力湖南群狼调研神秘顾客湖南群狼市场调查暗访长沙群狼调用武汉市场调查线下门店暗访调查
在餐饮市场竞争日趋激烈的当下，（长沙餐饮神秘顾客调查公司）（湖南消费者调查）（线下门店暗访调查）消费者对用餐体验的需求已从“满足味蕾”升级为“全程优质服务”。服务品质的高低，直接决定了品牌的客户留存率与市场口碑。群狼调研凭借17年深耕餐饮调研领域的专业经验，以系统化的神秘顾客调查为核心，为餐饮企业提供从问题诊断到方案落地的全链条支持，助力企业实现服务升级，夯实行业竞争力。一、餐饮服务升级：从“生存
赋能长沙汽车服务升级，神秘顾客调查筑牢竞争壁垒
在汽车消费日益理性的当下，（长沙市场调研）（汽车行业密采）（湖南汽车神秘顾客）服务体验已成为车企突围市场的核心竞争力。湖南群狼市场调研服务有限公司凭借深耕华中地区的行业积淀，以专业的汽车服务神秘顾客调查服务，为长沙及周边地区的汽车企业精准把脉服务短板，助力其在激烈竞争中筑牢优势。作为立足华中地区的专业调研机构，群狼调研辐射湖南、湖北、江西、河南、安徽等百余个省市乡镇，依托多领域专家团队与国际标准的
Spring 声明式事务：从原理到实现的完整解析 Code季风 Spring详解 spring 数据库后端开发语言 java spring boot
在后端开发中，事务管理是保证数据一致性的核心机制。尤其是在复杂业务场景下，一个操作可能涉及多步数据库操作，任何一步失败都需要回滚到初始状态。Spring的声明式事务通过AOP思想，将事务管理从业务逻辑中剥离，让开发者更专注于核心业务。本文将结合实际实现，详解声明式事务的核心机制和设计思路。一、为什么需要声明式事务？在讨论实现之前，我们先明确一个问题：为什么要用声明式事务，而不是手动编写事务代码？假
STM32-DAC数模转换
DAC数模转换：将数字信号转换成模拟信号特性：2个DAC转换器每个都拥有一个转换通道8位或12位单调输出（8位右对齐；12位左对齐右对齐）双ADC通道同时或者分别转换外部触发中断电压源控制部分（外部触发3个APB1；不使用1个APB1）外部触发输出：DAC1-PA4;DAC2-PA5软件设计流程：使能端口以及DAC时钟；设置引脚为模拟输入RCC_APB2PeriphClockCmd(RCC_APB
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

斯坦福大学Christopher Manning：Transformer语言模型为什么能取得突破

你可能感兴趣的:(斯坦福大学Christopher Manning：Transformer语言模型为什么能取得突破)