wuhui_gdnt

调用惯例的历史

作者：Raymond Chen

在x86平台上关于调用惯例的好处是有如此多的选择！

在16位的世界中，调用惯例的部分是由指令集固定的：BP寄存器缺省为SS选择子，而其他寄存器缺省为DS选择子。因此BP寄存器是访问基于栈的参数必须的寄存器。

用于返回值的寄存器也是由指令集自动选择的。AX寄存器作为累加器，因此是传递返回值的显然选择。8086指令集还有把DA:AX对处理为单个32位值的特殊指令，因此使用这个寄存器对返回32位值是显而易见的选择。

剩下SI，DI，BX及CX。

（注：在函数调用中不需要保留的寄存器通常被称为“草稿寄存器（scratch）”。）

当一个调用惯例决定哪些寄存器应该被保留时，你需要平衡调用者与被调用者的所需。调用者更倾向于保留所有的寄存器，因为这样调用者不需要在调用中费神地保存/恢复值。被调用者则更倾向于不保留寄存器，因为这样就不需要在进入是保存值，在退出时恢复它。

如果你要求保留的寄存器太少，那么调用者将充斥寄存器保存/恢复代码。但如果你要求保留的寄存器太多，那么被调用者将被迫保存及恢复调用者可能并不关系的寄存器。对叶子函数（不调用其他任何函数的函数）这尤其重要。

不一致的x86指令集也是一个因素。CX寄存器不能用于访问内存，因此你希望CX以外的某个寄存器作为草稿寄存器，这样一个叶子函数至少可以无需保留任何寄存器而访问内存。这样BX被选作草稿寄存器，留下SI与DI作为保留寄存器。

下面是16位调用惯例的纲要：

All

16位世界的所有调用惯例都保留寄存器BP，SI，DI（其他是草稿寄存器），返回值根据大小放入DX:AX或AX中。

C (__cdecl)

带有可变数目参数的函数在相当大的程度上限制了C调用惯例。它基本上就是要求调用者清理栈，并且参数从右至左压栈，因此第一个参数有相对于栈顶固定的位置。传统的（pre-prototype）C语言允许你调用函数，无需告诉编译器该函数要求什么参数，如果你“知道”该函数不介意，向它传递错误数目的参数是惯常的做法。（这的一个经典例子，参考open。如果第二个参数没有指明要创建一个文件，第三个参数是可选的）。

总之：调用者清理栈，参数从右向左压栈。

函数名修饰包含一个前置下划线。我的猜测是该前置下划线避免了函数名与汇编器的保留字冲突（例如，想象一下，如果你有一个名为call的函数）。

Pascal (__pascal)

Pascal不支持带有可变数目参数的函数，因此它可以使用被调用者清理栈的惯例。参数从左至右压栈，因为这看上去更自然。函数名修饰包含到大写字母的转换。这是必要的，因为Pascal是不区分大小写的语言。

几乎所有的Win16函数都被导出为Pascal调用惯例。被调用者清栈惯例在每个调用点节省3个字节，在每个函数固定的2个字节开销。因此如果一个函数被调用10次，在调用点你节省了3*10 = 30字节，而在函数本身增加2字节，净节省28字节。它还稍快一些。在Win16上，节省几百字节以及几个时钟周期是了不得的。

Fortran (__fortran)

Fortran调用惯例与Pascal调用惯例相同。给予它不同的名字，可能是因为Fortran有奇特的按引用传递的行为。

Fastcall (__fastcall)

Fastcall调用惯例在DX寄存器里传递第一个参数，在CX寄存器里传递第二个参数（我认为）。这是否实际更快，取决你调用的使用。通常它会更快，因为在寄存器中传递的参数无需溅出到栈，然后由被调用者重新载入。另一方面，如果在计算第一与第二参数之间出现不可忽略的计算，调用者不得不执行溅出。雪上加霜的是，被调用函数通常将寄存器溅出到内存，因为为别的事它需要备用寄存器，这在“前两个参数间存在不可忽略计算”的情形里，意味着你得到了两次溅出。噢！

结果，__fastcall通常仅对短的叶子函数更快一些，即使这样也不一定。

好了，这些都是我所记得的16位调用惯例。第二部分将讨论32位调用惯例，如果我找到时间写它。

铺垫：这个信息实际上在将来的讨论中有用。虽然不是很好的细节，但你可能会注意到有一些解释……嗯……这很难描述。等一下。

很好奇，只有8086与x86平台有多个调用惯例。所有其他都只有一个。

现在我们将进入没有人记得或甚至关心的琐事：你不会再看的32位调用惯例。

All

这里列出的所有处理器都是RISC类型的，这意味着除了硬连线为0的0寄存器，还有许多寄存器。（结果0是一个非常便利获取的数字）。附加给寄存器的任何含义都是由调用惯例强加的。

作为旧处理器的一个倒退，call指令将返回地址保存在一个寄存器，而不是压入栈。也是好事，因为处理器无需正式知道“栈”；它成为调用惯例的一种解释。

如常，被调用函数可以将用于传递参数的寄存器或栈空间用作草稿寄存器，返回值寄存器也可以。

你可能注意到RISC调用惯例基本相同。再次的，证明8086/x86是古怪之物。广受欢迎的怪物，提醒你。

The Alpha AXP

Alpha AXP（AXP也是一个官方不代表任何东西的人造首字母缩写）有32个整形寄存器，其中一个硬连线为0。按照惯例，其中一个寄存器是“栈指针”，一个是“返回地址”寄存器；另外两个有与参数传递无关的特殊含义。

前6个参数通过寄存器传递，余下参数在栈上传递、如果函数是可变参数的，参数可以溅出到栈上，这样它们可以作为一个数组来访问。

另外7个寄存器在调用间保留，一个是返回值，而剩下的13都是草稿寄存器。1零寄存器+1栈指针+1返回地址+2特殊+6参数+7保留+1返回值+13草稿 = 总共32个整形寄存器。

Alpha AXP上的函数名是完全不修饰的。

The MIPS R4000

前4个参数在a0，a1，a2及a3中传递；余下的溅出到栈上。另外，栈上有4个“死空间”，如果在栈上传递了四个寄存器参数，那里是它们“应该待的地方”。这些由被调用者用来在需要时溅出寄存器参数。（对可变参数函数特别方便）。

MIPS上的函数名完全不修饰。

The PowerPC

前八个参数在寄存器中传递（r3到r10），返回地址手动管理。

我忘了对第九个参数及以后会发生什么……

PowerPC上的函数名通过前置两个圆点来修饰。

免责声明：我个人没有使用MPIS或PPC处理器的经验，因此我对这些处理器的讨论可能少许幼稚，不过我认为基本思想是合理的。

好了，让我们继续：32位x86调用惯例。

（顺便说一下，以防人们不了解：我只会在进行Windows编程时你可能遇到的，或由Microsoft编译器使用的，调用惯例的上下文中进行讨论。我不准备讨论其他操作系统或特定于某个语言或编译器供应商的调用惯例）。

记住：如果一个调用惯例用于一个C++成员函数，对该函数存在一个隐藏的“this”参数作为隐含的第一个参数。

All

所有32位x86调用惯例都保留EDI，ESI，EBP及EBX寄存器，返回值使用EDX:EAX对。

C (__cdecl)

就像16位的世界，对32位世界也有相同的限制。参数从右至左压栈（因此第一个参数最接近栈顶），调用者清理参数。使用前置下划线修饰函数名。

__stdcall

这是Win32使用的调用惯例，除了可变参数函数（必须使用__cdecl）以及极少数使用__fastcall的函数。参数从右至左压栈，被调用者清栈。函数名由前置下划线以及带有该函数参数字节数的后接@符号修饰。

__fastcall

前两个参数在ECX及EDX中传递，其余就像__stdcall那样通过栈传递。同样，由被调用者清栈。函数名由前置下划线以及带有该函数参数字节数的后接@符号修饰（包括寄存器参数）。

thiscall

第一个参数（它是“this”参数）在ECX中传递，其余就像__stdcall那样通过栈传递。再次的，由被调用者清栈。函数名由C++编译器以一个异常复杂的，还编码进了每个参数类型的机制来修饰。这是必须的，因为C++允许函数重载，因此必须使用一个复杂的修饰方案使得各个重载有不同的修饰名。

记住调用惯例是调用者与被调用者之间的一个协议。对于你们那些疯狂到以汇编写程序的人，这意味着你的回调函数需要保留由调用惯例托管的寄存器，因为调用者（操作系统）依赖于它。比如你破坏了调用中的EBX寄存器，程序崩溃也就没什么令人惊讶了。将来进一步讨论它。

Ia-64架构（Itanium）与AMD64架构（AMD64）是相对新的，因此你们中的许多人不太可能处理过它们的调用惯例，但我在这个系列里包括它们，谁知道呢，也许哪一天你就会买一台。

Intel提供了the Intel® Itanium®Architecture Software Developer’s Manual，从中你可以读到指令集与处理器架构详尽的信息。我准备只描述足够解释调用惯例的内容。

Itanium有128个寄存器，其中32个（r0到r31）是全局寄存器，不参与函数调用。函数向处理器声明余下的96个寄存器中，多少它希望用于纯粹的局部使用（localregion），其中头几个用于参数传递，多少用于向其他函数传递参数（输出寄存器）。

例如，假定一个函数接受两个参数，要求4个寄存器用于临时变量，并调用一个接受3参数的函数。（如果它调用多个函数，接受其中最大的参数数）。然后在函数入口将声明它希望6个寄存器在局部区（r32到r37），3个输出寄存器（r38，r39与r40）。寄存器r41到r127禁止使用。

给书呆子的提示：我知道这并不是它实际的做法。但这样解释要容易得多。

在函数希望调用子函数时，它将第一个参数放入r38，第二个放入r39，第三个在r40，然后调用该函数。处理器移动调用者的输出寄存器，使得它们可以作为被调用函数的输入寄存器。在这个情形里r38迁移到r32，r39迁移到r33，而r40迁移到r34。旧寄存器r32到r38被保存在另外的，不同于sp寄存器所指向的寄存器栈。（当然，实际上这些“溅出”被推迟了，与SPARC寄存器窗口直到需要时才溅出一样。事实上，你可以看到整个ia64参数传递惯例与SPARC寄存器窗口相同，只是窗口大小可变）！

当被调用函数返回时，寄存器被迁移回原来的位置，从寄存器栈恢复从r32到r38原来的值。

这对调用惯例传统的问题创造了一些令人惊奇的答案。

调用过程中要保留哪些寄存器？在局部区内的一切（因为它是由处理器自动压入与弹出的）。

哪些寄存器保存参数？参数进入调用者的输出寄存器，这依赖于调用者在局部区需要多少寄存器而有不同，但被调用者总是把它们视为r32，r33，以此类推。

谁从栈清理参数？没有人。一开始参数并不在栈上。

哪个寄存器保存返回值？这有点复杂。因为被调用函数不能访问调用者的寄存器，你可能认为不可能传值回来！这正是32个全局寄存器的意图。其中一个全局寄存器（我记得是r8）被任命为“返回值寄存器”。因为全局寄存器不参与寄存器窗口戏法，保存在那里的值能挺过函数调用切换与函数返回的切换。

返回值通常保存在局部区的一个寄存器中。这有一个栈变量的缓存溢出不会覆盖一个返回地址的净效应，因为返回地址一开始不是保存在栈上。它保存在局部区，然后溅出到寄存器栈，与栈分开的一块内存。

函数可以自由地下调sp寄存器以创建临时栈空间（例如，用作字符串缓存），当然这必须在返回前清理。

栈惯例的一个令人好奇的细节是，栈上的前16个字节（前两个quadword）总是草稿。（Peter Lund称之为“红区”）。因此如果在一个短的时间里需要一些内存，你可以使用栈顶这个内存。不过记住如果你调到另一个函数，这个内存就变成你所调用函数使用的草稿！因此如果你需要这个“免费草稿簿”的值在调用间保留，你需要下调sp以正式地保留它。

Ia64的另一个令人好奇的细节是：ia64上的一个函数指针不是指向代码的第一个字节。相反，它指向描述这个函数的一个结构体。该结构体的第一个quadword是代码第一个字节的地址，第二个quadword包含了称为“gp”寄存器的值。在以后的博客中我们会学习gp寄存器的更多知识。

（这个“函数指针实际指向一个结构体”的技巧不是ia64首创。在RISC机器里是常用的。我相信PPC也使用它）。

好吧，我承认这确实是乏味的词条。但不管信不信，我准备回到这个词条的几个要点，这样不至于徒劳无功。

在这个系列里我准备讨论的最后一个架构是AMD64（也称为x86-64）。

AMD64采取传统的x86，将寄存器扩展到64位，将它们命名为rax，rbx，以此类推。它还添加了8个额外的通用寄存器，名字从R8到R15。

· 函数的头4个参数在rcx，rdx，r8及r9中传递。更多的参数压到栈上。另外，在栈上保留寄存器参数的空间，以防被调用函数溅出它们；如果该函数是可变参数的，这是重要的。

· 小于64比特的参数不是零扩展的；高位比特是垃圾比特，因此记住，如果需要要显式清零。大于64比特的参数通过地址传递。

· 返回值放在rax里。如果返回值超过64比特，那么一个秘密的第一参数被传递，它包含要保存该返回值的地址。

· 在调用间所有的寄存器必须被保留，除了rax，rcx，rdx，r8，r9，r10与r11，它们是草稿寄存器。

· 被调用者不能清理栈。清理栈是调用者的工作。

· 栈必须保持与16字节边界对齐。因为call指令压入一个8字节返回地址，这意味着每个非叶子函数将以一个16n+8形式的值调整栈，以回复16字节对齐。

下面是一个样例：

void SomeFunction(int a, int b, int c, int d, int e);

void CallThatFunction()

{

SomeFunction(1, 2, 3,4, 5);

SomeFunction(6, 7, 8,9, 10);

}

在进入CallThatFunction时，栈看起来像这样：

由于返回地址的出现，栈是非对齐的。CallThatFunction设置其栈帧，它看起来可能像这样：

sub rsp, 0x28

注意局部栈帧大小是16n+8，因此结果是一个重新对齐的栈。

mov dword ptr [rsp+0x20], 5 ; output parameter 5现在我们可以设置第一个调用：

mov r9d, 4 ; output parameter 4

mov r8d, 3 ; output parameter 3

mov edx, 2 ; output parameter 2

mov ecx, 1 ; output parameter 1

call SomeFunction ; Go Speed Racer!

在SomeFunction返回时，栈不是干净的，因此它看起来仍然像上面那样。为了发布第二个调用，我们只需将新的值放入我们已经保留的空间：

mov dword ptr [rsp+0x20], 10 ; output parameter 5

mov r9d, 9 ; output parameter 4

mov r8d, 8 ; output parameter 3

mov edx, 7 ; output parameter 2

mov ecx, 6 ; output parameter 1

call SomeFunction ; Go Speed Racer!

现在CallThatFunction完成，可以清理它的栈并返回。

add rsp, 0x28

ret

注意在amd64代码中很少push指令，因为规范是让调用者保留参数空间，并持续重用它。

AI 编译器技术沙龙丨 AMD/北京大学/沐曦/上海创智齐聚北京，TVM/Triton/TileLang 各展所长 hyperai
在AI变革千行百业的时代，一场关于效率、可部署性与算力可持续性的技术革命正悄然发生。作为承上启下的关键中间件，AI编译器串联起了底层硬件与上层应用。无论是已在业界广泛应用的TVM，还是近年来快速崛起的Triton，亦或是今年年初才崭露头角的算子编程语言TileLang，编译技术已不仅仅是让模型「跑得起来」的基本保障，同时也正在升级为支撑「高效执行与资源利用优化」的关键技术。围绕AI编译器上下游的创
最新Modular公司之MAX和Mojo作者克里斯·拉特纳简介 WSSWWWSSW mojo
ChrisLattner（克里斯·拉特纳）是一位著名的计算机科学家和软件工程师，以其在编程语言、编译器技术和软件开发工具领域的贡献而闻名。以下是关于他的详细介绍：1.主要成就（1）LLVM项目的创始人ChrisLattner是LLVM（LowLevelVirtualMachine）项目的创始人和主要开发者。LLVM是一个开源的编译器基础设施，广泛用于构建编程语言的编译器、优化器和工具链。LLVM的
1.2 编译器技术的应用夏驰和徐策程序猿之编译原理编译原理
思维导图：1.2.1高级语言的实现引言虽然只有少数专家从事主流编程语言的编译器设计，但编译器技术的应用远远超出了这一领域。从提高编程语言的抽象级别以简化编程任务，到优化代码以提高执行效率，编译器技术的影响遍及计算机科学的各个角落。本节将探讨编译器设计如何与计算机科学的其他主要领域相互作用，并突出编译器技术的关键应用。高级语言的实现高级编程语言提供了一个丰富的抽象层，允许开发者以接近人类思维的方式表
第 2 章：编译器的结构段舸 LLVM-17 c++
编译器的结构编译器技术是计算机科学中一个经过深入研究的领域。其高级任务是将源语言翻译成机器码。通常，这项任务分为三个部分：前端（frontend）、中端（middleend）和后端（backend）。前端主要处理源语言，中端执行代码改进的转换，后端负责生成机器码。由于LLVM核心库提供了中端和后端，我们将在本章重点关注前端。在本章中，您将学习以下部分和主题：编译器的构建块，了解编译器中通常存在的组
MOJO语言的诞生是乔乔啊 #MOJO mojo
文章目录背景目标现状背景传统的编译器技术如LLVM和GCC并不适合现有深度学习编程语言的发展迭代，无法完全支持现代芯片架构。如今，专用机器学习加速器的标准技术是MLIR。MLIR是一个相对较新的开源编译器基础架构，最初由Google（其主要负责人转到Modular）启动，已在机器学习加速器社区广泛应用。MLIR的优势在于它能够构建领域特定编译器，特别是用于不是传统CPU和GPU的奇怪领域，例如AI
编译原理概论 Roc.lp 编译原理编辑器汇编
文章目录编译原理概论编译器的概述编译器的结构词法分析器语法分析器语义分析器中间代码生成器代码优化器代码生成器符号表错误处理器总结编译器技术的应用编译原理概论编译器的核心功能是把源代码翻译成目标代码：理解源代码词法分析、语法分析、语义分析转化为等价的目标代码中间代码生成、目标代码生成优化方法编译器的概述各种计算设备（计算机、嵌入式系统、智能设备等）都离不开编译器各种计算设备的核心问题都是软件的构造绝
Julia的安装以及配置国内下载源 code_of_yang Julia julia 开发语言
文章目录前言一、Julia是什么？二、安装Julia2.1安装Julia2.2配置国内源2.3适合Julia的IDE2.3.1VSCode搭载Julia2.4Julia相关文档前言科学计算对性能一直有着最高的需求，但目前各领域的专家却大量使用较慢的动态语言来开展他们的日常工作。偏爱动态语言有很多很好的理由，因此我们不会舍弃动态的特性。幸运的是，现代编程语言设计与编译器技术可以大大消除性能折衷（tr
AbsInt—确保代码安全的静态性能分析工具经纬恒润 AbsInt
产品概述德国AbsInt公司是专注于安全苛求软件研发、确认、验证和认证的工具链供应商，能够为客户提供完整的确保代码安全的性能分析工具套件以及软件分析、验证、确认和编译器技术相关咨询服务。AbsInt产品广泛地应用于工业、交通、汽车、通信和能源等行业的安全苛求软件研发过程中。产品介绍AbsInt代码安全性能分析套件主要包括以下几种产品：aiTWCETAnalyzer/最差情况执行时间分析工具Stac
活动预告 | 2023 Meet TVM · 深圳站定档，邀您共赴一场最前沿的 AI 编译器技术之旅！ HyperAI超神经 2023 Meet TVM 人工智能线下活动 TVM中文
内容一览：2023MeetTVM线下聚会第3站将于9月16日在深圳腾讯大厦举办！本次Meetup包含5个关于AI编译器的精彩talk，期待与大家在深圳相聚！关键词：编译器线下活动2023MeetTVM今年3月和6月，2023MeetTVM系列活动分别在上海和北京成功举办，300余位来自各大厂商、科研院所的伙伴们齐聚一堂，线上线下进了充分的交流和讨论。9月中旬，TVMMeetup第3站线下聚会定档深
活动预告 | 2023 Meet TVM · 深圳站定档，邀您共赴一场最前沿的 AI 编译器技术之旅！人工智能
内容一览：2023MeetTVM线下聚会第3站将于9月16日在深圳腾讯大厦举办！本次Meetup包含5个关于AI编译器的精彩talk，期待与大家在深圳相聚！关键词：编译器线下活动2023MeetTVM今年3月和6月，2023MeetTVM系列活动分别在上海和北京成功举办，300余位来自各大厂商、科研院所的伙伴们齐聚一堂，线上线下进了充分的交流和讨论。9月中旬，TVMMeetup第3站线下聚会定档深
探讨JVM的JIT 编译器 tbc123tbc java性能优化 jvm java 编译器技术
本文转载自《深入浅出JIT编译器》https://www.ibm.com/developerworks/cn/java/j-lo-just-in-time/JIT简介JIT是justintime的缩写,也就是即时编译编译器。使用即时编译器技术，能够加速Java程序的执行速度。下面，就对该编译器技术做个简单的讲解。首先，我们大家都知道，通常通过javac将程序源代码编译，转换成java字节码，JVM
c语言编译器2017,2016-2017年本科C语言编译器设计与实现毕业论文设计.doc weixin_39911998 c语言编译器2017
北京邮电大学毕业设计(论文)任务书第1页毕业设计(论文)题目：C语言编译器设计与实现毕业设计(论文)要求及原始数据(资料)：1．C语言简介和国内外编译器技术研究现状；2．深入了解编译器前端,包括词法分析,语法分析,语义分析；3．熟练掌握C语言语法及语法特点；4．深入分析编译器编写语言(C++)；5．设计并实现编译过程中各个子过程，词法分析，语法分析，语义分析；6．训练检索文献资料和资料的能力能力6
编译器工具链（一）——编译过程 Lcc955 编译器工具链 c++开发语言
前言随着芯片行业的不断发展，编译器技术变得比以往任何时候都重要。从大到小的技术公司都需要编译器工程师。随着物联网设备、ML基础设施等越来越多的采用，对编译器工程师的需求在过去几年中急剧增加。大多数大型科技公司都有编译器工程师在开源或闭源编译器上进行开发。有些编译器工程师致力于编译器优化，有些则致力于优化消耗大量设备资源的重要应用程序。几乎所有的硬件供应商都需要编译工程师来帮助启动处理器。由于RIS
编译器技术的演进与变革 OneFlow深度学习框架业界观点编译器计算机体系结构
在过去的数十年里，摩尔定律一直支配着半导体行业的发展路线，随着晶体管尺寸的不断变小单个芯片上集成的晶体管数量越来越多。最新的NVIDIAA100GPU单个芯片集成了540亿个晶体管，而嵌入式系统级芯片（SystemonChip，SoC）中的晶体管数量，例如华为麒麟990集成了103亿个晶体管。晶体管数量的增加允许芯片设计厂商可以在单个芯片上实现更多的功能和更高的计算能力。也正是日益丰富的功能和日渐
AI编译器技术浅析 loongknown 编译工具链深度学习编译器
AI编译器技术浅析随着深度学习应用和专用加速器的兴起，为了快速部署DNN网络，产生了两条主要的技术路线：手写算子和AI编译器（深度学习编译器）生成代码。手写算子需要具备领域特定专业知识的工程师打磨调试出高性能的代码实现，然后再经过传统编译器生成可执行代码，经验丰富的工程师可以写出性能极佳的算子。但是手写算子的缺点也非常明显：其一，需要堆人力，并且很难覆盖深度学习领域的所有算子。其二，手写算子一般都
TVM简介 free1993 TVM 神经网络的软硬件协同加速神经网络编译器
整体架构从开发者在不同深度学习开放平台上所撰写的代码，到最终在不同硬件平台上执行，这其中存在着不小的差距。深度学习框架更多关注开发者的便捷性，而硬件设备更注重能耗和效率。TVM/NNVM，定位于开源的深度学习编译器技术栈(opendeeplearningcompilerstack)，整体目的就是缩小这两者之间的差距。需要注意的是，无论是深度学习框架还是硬件设备，两者都具有高度的多样性，倘若一对一的
Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程 | AI系统前沿动态 OneFlow深度学习框架前沿技术人工智能 stable diffusion 大模型 TVM oneflow
1.StableDiffusion采样速度翻倍！仅需10到25步的扩散模型采样算法自研深度学习编译器技术的OneFlow团队更是在不降低采样效果的前提下，成功将之前的“一秒出图”缩短到了“半秒出图”！在GPU上仅仅使用不到0.5秒就可以获得一张高清图片！这基于清华大学朱军教授带领的TSAIL团队所提出的DPM-Solver，一种针对于扩散模型特殊设计的高效求解器：该算法无需任何额外训练，同时适用于
详解Rust中的变量与常量
目录变量与可变性常量变量隐藏属性Rust是一种低级静态类型多范式编程语言，专注于安全性和性能，解决了C/C++长期以来一直在努力解决的问题，例如内存错误和构建并发程序。它具有以下三个优点：1.靠语法和编译器技术，做到了更好的内存安全特性；2.防止数据竞争的数据所有权模型，并发更容易；3.抽象没有性能损失。变量与可变性在Rust中，哪怕你声明的是一个变量，在默认情况下也是不可更改的，如果改变量具有更
预约直播 | 深度学习编译器技术趋势与阿里云BladeDISC的编译器实践深度学习
一、分享议题：深度学习编译器技术趋势与BladeDISC的编译器实践二、直播时间：2022年08月17日（周三）18：00-18：30三、议题介绍：对深度学习编译器的研究可以提高模型训练和推理的速度、发挥硬件最大算力，是深度学习在生产中落地的重要课题。深度学习的发展使得很多模型呈现出了动态TensorShape的特性，传统优化手段（如计算图优化）和以TensorFlowXLA、ApacheTVM为
3个提升Python运行速度的方法，都很实用程序员枸杞. python 几何学开发语言
今天总结3个提升Python运行速度的方法，只从代码本身考虑，提升运行速度并不会从编写C扩展的代码、基于JIT的编译器技术考虑。关于代码执行效率的第一个方法是减少频繁的方法访问，尤其是在多层循环内层、且循环次数较多的操作，差距尤为明显。# 真是模块内全局变量import mathdef compute_sqrt(nums): result = [] for n in nums: # 假
3个提升Python运行速度的方法，都很实用代码输入中... python 开发语言
今天总结3个提升Python运行速度的方法，只从代码本身考虑，提升运行速度并不会从编写C扩展的代码、基于JIT的编译器技术考虑。关于代码执行效率的第一个方法是减少频繁的方法访问，尤其是在多层循环内层、且循环次数较多的操作，差距尤为明显。#真是模块内全局变量importmathdefcompute_sqrt(nums):result=[]forninnums:#假如nums长度很大#1.math.s
鉴释课堂丨编译器技术入门知识一网打尽鉴释编译器
近10年，摩尔定律逐渐失效，芯片性能已经摸到了天花板。功率消耗与优化的基石——编译器技术再次进入了人们视野，我们请到了鉴释研发负责人赖建新，通过通俗的语言与示例带大家走近编译器技术。这次分享将分为共六个问题向大家介绍:什么是编译器技术？初学编译器技术的开发者需要具备哪些基础？当今现代编译器的关键挑战是什么？编译器中哪个部分最重要？编译器技术除了生成代码在进程或VM中执行之外，是否还有其他领域使用编
深入浅出 JIT 编译器一只弹窗仔
JIT简介JIT是justintime的缩写,也就是即时编译编译器。使用即时编译器技术，能够加速Java程序的执行速度。下面，就对该编译器技术做个简单的讲解。首先，我们大家都知道，通常通过javac将程序源代码编译，转换成java字节码，JVM通过解释字节码将其翻译成对应的机器指令，逐条读入，逐条解释翻译。很显然，经过解释执行，其执行速度必然会比可执行的二进制字节码程序慢很多。为了提高执行速度，引
编译器架构的王者LLVM——（1）现代编译器架构西风逍遥游编译原理编译器架构的王者LLVM
LLVM平台，短短几年间，改变了众多编程语言的走向，也催生了一大批具有特色的编程语言的出现，不愧为编译器架构的王者，也荣获2012年ACM软件系统奖——题记版权声明：本文为西风逍遥游原创文章，转载请注明出处西风世界http://blog.csdn.net/xfxyy_sxfancy现代编译器架构编译器技术，作为计算机科学的皇后，从诞生起，就不断推进着计算机科学的发展，编译器的发展史，简直就是计算机
浅析Java内存区及其垃圾回收机制 Deep_Mind JVM Java 堆栈栈垃圾回收
浅析Java内存区及其垃圾回收机制Java三大内存区Java堆与栈的形象描述两种垃圾判别机制两种垃圾回收技术JIT编译器技术简介Java三大内存区Java堆与栈的形象描述堆Java的堆比较特殊，《Java编程思想》（第4版）里把Java的堆（Java的堆是堆，Java的堆栈是栈）比作一个传送带，每分配一个新对象，它就往前移动一格。但是其实这样的描述不够准确，因为这样的话会造成大量的空间浪费。我们可
一步步前进的重要性(兼谈编译器的自举) 快乐的阿常艾念宝杂谈＆随想
这一段在一段代码的基础上开发一个增量的小功能，在过程中总是忍不住不成熟程序员的习惯冲动---不由自主地进行东一优化、西一棒子，到最后增量的小功能联调就卡壳的时间比较长。因为修改地方比较多，分辨不出来到底是优化的代码出现了问题，还是增量功能的代码出现了问题。由于当时此功能ld催的又很急，但是却又交不出来，当时那个后悔啊。。。。，悔不该如此费时费力。痛定思痛，想到了编程语言和编译器技术中“自举”，其实
代码失控与状态机（下） Popeye expression parser fsm c#
序言在《代码失控与状态机（上）》的文末，我们留了一个解析「成员访问表达式」的“作业”，那么，通过本文我们一起来完成这个作业。首先，为什么要苦哈哈的写一个这样看上去没什么用的解析器？因为在某些IoC或AOP容器中（不幸的是我需要实现一个这样的IoC容器），常需要动态求解成员访问表达式的值，而解析表达式就是第一步。其实这个“作业”正是编译器技术中词法解析的简化版，自己手动撸一遍，对理解《编译原理》的前
jit即时编译 haozi_ncepu jit
WeiboGoogle+用电子邮件发送本页面JIT是justintime的缩写,也就是即时编译编译器。使用即时编译器技术，能够加速Java程序的执行速度。下面，就对该编译器技术做个简单的讲解。首先，我们大家都知道，通常通过javac将程序源代码编译，转换成java字节码，JVM通过解释字节码将其翻译成对应的机器指令，逐条读入，逐条解释翻译。很显然，经过解释执行，其执行速度必然会比可执行的二进制字节
CISC指令集涵煦
CISC指令集CISC包括一个丰富的微指令集，这些微指令简化了在处理器上运行的程序的创建。指令由汇编语言所组成，把一些原来由软件实现的常用的功能改用硬件的指令系统实现，编程者的工作因而减少许多，在每个指令期同时处理一些低阶的操作或运算，以提高计算机的执行速度，这种系统就被称为复杂指令系统。历史背景：早期计算机出现时，软件环境、开发环境比较欠缺，编译器技术不发达，编程是一个很繁琐的过程，在这种环境下
最新图灵奖得主演讲视频开放 turingbook 基础理论
2006年图灵奖得主FrancesAllen的演讲视频现在可以访问了（.mov格式，需要QuickTime等播放器播放）。哪位高手可以把演讲词翻译翻译？图灵奖第一位女性得主。获奖原因是“她对于优化编译器技术的理论和实践做出的先驱性贡献，这些技术为现代优化编译器和自动并行执行打下了基础。”（Forpioneeringcontributionstothetheoryandpracticeofoptim
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

调用惯例的历史

你可能感兴趣的:(编译器技术)