OneFlow深度学习框架

LLVM之父Chris Lattner：编译器的黄金时代

作者｜Chris Lattner

翻译｜胡燕君、周亚坤

摩尔定律失效论的讨论与日俱增，2018年，图灵奖获得者 John Hennessey 和 David Patterson 在一次演讲上更是直言，几十年来的 RISC（精简指令集）和 CISC（复杂指令集）孰优孰劣之争可以终结了，新一轮计算机架构的黄金时代已经到来，为此，他们在2019年的 ACM 期刊上发表了一篇文章里作专门论述。

为了打破当前架构发展的桎梏，他们给出的答案是，需要软硬件协同设计和创新，构建领域专用架构、领域专用语言，从而构建更专业化的硬件，并提升运行速度。

作为驱动计算机架构革新的重要组成部分，编译器也在迎来它的黄金时代。就在去年4月19日的ASPLOS会议上，编译器大牛Chris Lattner在主题演讲中分享了关于编译器的发展现状和未来、编程语言、加速器和摩尔定律失效论，并且讨论业内人士如何去协同创新，推动行业发展，实现处理器运行速度的大幅提升。OneFlow社区对其演讲内容做了不改变原意的编译，希望能对AI/编译器社区有所启发。

Chris Lattner 毕业于波特兰大学的计算机科学系，具有创建和领导多个知名大型项目的经验，其中包括 LLVM、Clang、MLIR和CIRCT等编译器基础设施项目，他还带头创建了Swift编程语言。

从2005年7月到2017年1月间，他曾领导苹果的开发者工具部门，随后，曾短暂领导过特斯拉的自动驾驶团队。2017年8月，Chris Lattner 在Google Brain团队领导了TensorFlow基础设施工作，包括一系列硬件支持（CPU、GPU、TPU），底层运行时和编程语言工作。

2020 年 1 月到 2022 年 1 月，Chris Lattner 在 SiFive 公司领导工程和产品团队（包括硬件、软件和平台工程），SiFive 基于开源指令集 RISC-V，向芯片设计公司提供 IP。去年 6 月，SiFive 收到了英特尔的收购意向，后者提出以超过 20 亿美元的价格收购这家公司。2022 年 1 月，Chris Lattner 和 Tim Davis 共同成立了 Modular AI，他本人担任CEO，目标是重建全球 ML 基础设施。

以下是Chris Lattner的演讲内容。

为什么需要下一代编译器和编程语言

尽管硬件正在蓬勃发展，新加速器和新技术不断涌现，但软件业却很难真正利用它们。

为什么会这样？在加速器的世界里，比如AI和结构化计算技术发展领域，出现了标量加速和向量加速等多种层面的加速，就像CPU领域也分为标量处理器和向量处理器一样，当然现在还有多核CPU。这样一来就会出现多种硬件组合，不同的硬件安装在同一个数据中心，那这些硬件就必须相互通信。

但是，很多时候却没有一致性的内存，导致写一个C语言程序来运行所有东西是不可行的，这样的组合运行有点像超级计算机使用多个CPU一样。

同时，世界正在越来越异质化，出现了各种各样的应用。机器学习快速发展，但机器学习涉及很多技术，如果你不止研究训练和推理，还想研究强化学习，那就要了解不同的加速器。如果你想研究强化学习，就要整合主机计算和加速器计算，让它们协同工作。现在制造的很多新设备里的IP和硬件块都是可配置的，即便是随存储器层次深度改变缓存大小这么简单的事，都会影响这些设备运行所依赖的内核。

所以，尽管现在硬件越来越多样，硬件生态迅速壮大，但软件还是很难充分利用它们来提高性能。而且如果软硬件协同不到位，性能就会受到巨大影响，那不止是10%左右的浮动，比如，如果弄错了内存层次结构，性能很可能会发生断崖式下跌，变成正常水平的十分之一。

当今，加速器领域发生爆炸式增长，几乎每天都会有新公司制造新的加速器。但问题是，怎么用这个加速器？更关键的是，有人想做新应用，但他们想在软件代码库上下工夫，于是不停地推进和完善软件代码库。

你无法直接在这个新设备上使用旧的软件堆栈，它们的某个部件可能换了供应商，做了流程精简，导致所需的技术堆栈不一样。因此，你不得不给每个新的小型设备都写一个全新的软件堆栈。而这样做又导致了软件的碎片化，这种碎片化的发展带来了巨大成本，也会反噬硬件行业，因为硬件用不了了。

我的观点是，我们需要下一代编译器和编程语言来帮助解决这种碎片化。首先，计算机行业需要更好的硬件抽象，硬件抽象是允许软件创新的方式，不需要让每种不同设备变得过于专用化。

其次，我们需要支持异构计算，因为要在一个混合计算矩阵里做矩阵乘法、解码JPEG、非结构化计算等等。然后，还需要适用专门领域的语言，以及普通人也可以用的编程模型。

最后，我们也需要具备高质量、高可靠性和高延展性的架构。我很喜欢编译器，很多人根据编译器在做应用，我也很尊重这一点。可以说，他们在开发下一代神经网络，而不仅仅只想做编译器。大家可以合作，这样一来就意味着他们需要可用的环境和可用的工具。

令人兴奋的是，编译器或者编程语言工程师会迎来一个崭新的时代：过去和现在都有无数的技术诞生，这些技术正在改变世界，有幸参与这场变革浪潮非常令人激动。

接下来，我会谈谈编译器行业的早期发展，以及它带给我们的经验和对未来的启发。

传统编译器的设计和挑战

当我还是学生时，编译器是单独装盒的，安装在一个软盘上，每次使用都要把软盘插进电脑里。

当时的行业状况是，不同的供应商做出不同的处理器、操作系统，都想要通过创新脱颖而出，抓住编译器的价值。这些编译器都是专用的，互不兼容，不会共享代码。所以你会看到Borland C编译器和Microsoft C编译器互相竞争，最终造成碎片化生态。这就阻碍了行业发展，但人们还没有意识到这一点。

编译器由前端、优化器和后端组成，这种固定结构已经沿用很多年了。如果一家公司自主研发了一个编译器，通常的做法是只研发一套前端和后端，而不会投入太多资金研发多种前端和后端。其他公司也会这么做，这导致不同公司的优化器和前后端不能通用。

GCC编译器团队最早打破了这种模式。GCC通过自由软件和开放许可证，允许互相合作，这使得人们可以将前端、优化器、后端分开设计，实现“关注点分离”。也因为这个原因，GCC有了多种前端和后端。

这样的“关注点分离”不但有利于编译器的研究改进，还改变了编译器的行业格局。因为GCC有最好的C++前端，所以一大批编译器工程师都在这个前端的代码库基础上改进，推动了创新和C++的发展。同时，一大批CPU公司可以直接运用GCC的前端，只需加上自己的后端就能参与市场竞争。因此20世纪90年代到21世纪初这段时间，整个行业的碎片化程度降低。从那时起，GCC为C语言编译器的发展铺平了道路，涌现出更多新编译器。这是行业的巨大成功，因为它点燃了创新的火把。

继GCC的革新之后又出现了一些新技术，其中包括我自己特别喜欢的LLVM，我想讲的是它的模块性。它颠覆了编译器长久以来的“前端+优化器+后端”的三段结构，LLVM编译器是一系列库（library）的组合。查看LLVM代码库会发现，所有代码都在lib目录下。

这些库可以单独拎出来，与其他库组合、搭配使用，也可以重复使用。它可以和电影特效处理引擎、数据库查询引擎结合起来，LLVM既是一个优秀的C++编译器，也可以发挥更广泛、更有创新性的用途。

LLVM的模块性凸显了接口和组件的重要性。自LLVM诞生的20多年来，没有了前端、优化器、后端的划分，它用一种革新的方式推动了编译器行业的发展。比如可以把XA6编译器或者X86后端用到别的地方，还可以集中全世界顶尖专家来专门单独研究寄存器分配器，而不用管其他编译器组件，这样既提高了扩展性，也催生了新的合作形式。

LLVM的一大优点就是可以集合更多人的力量，实现更多创新。很多基于LLVM的新前端已经诞生，而且它促进了Julia语言、数字编程、Rust和Swift语言、系统程式设计、安全编程模型等大力发展，这让人倍感兴奋。LLVM的模块性、IR的独立性、低碎片化程度也催生了多种语言。

此外，LLVM还让JIT编译（即时编译）能有更多作为。虽然JIT编译器已经是一种著名的技术，但它一开始是用在其他地方。有了LLVM以后，芯片设计、HLS工具、图形处理、都更加便捷，还促进了CUDA和GPGPU的诞生，这些都是很了不起的成就。

但更重要的的是，LLVM整合了的碎片化。LLVM出现之前有很多种JIT编译器框架，但LLVM的存在，提升了JIT编译器的基线，让它迸发出更多可能，也让行业可以实现更高层次的创新。

话说回来，LLVM虽然有很多优点，但它同样存在很多问题。一开始LLVM的目标是成为一个“万能”的解决方案，但结果它好像什么也没做好。很多人不断给LLVM加一些“乱七八糟”的东西，你可以对CPU和GPU可以这么做，但对加速器来说不太行。这种胡乱做“加法”就导致不能很好地用LLVM做并行处理优化。但我喜欢LLVM的一点是，它是一个很好的CPU后端，尽管并不能很好满足其他需求。

现在我们来到了“摩尔定律失效期”，我们可以发扬LLVM作为CPU后端的优点，但如果要探索CPU以外的功能，应该把目光放到LLVM IR之外。

构建适用专用领域的架构

Patterson和Hennessey提出过一个结论：我们来到了计算机架构的文艺复兴时代，需要把计算机行业上下游人员垂直整合起来，大家既要懂硬件，也要懂软件。他们说，因为世界变化得很快，所以思考问题时要回归第一性原理，要用新的眼光去重新看待旧事物。

接下来我会讲讲加速器的构建过程，并结合经验谈谈加速器未来可能的演变。

如果观察硬件领域，会发现专用化架构已成为一种趋势，分化出一系列的专门品类。关于这个话题，我推荐观看Mike Urbach的演讲。如果把CPU看作通用型处理器，那么当你想控制所有的门（gate）时，就需要更深的专用化和更多硬编码能力。

所以一方面CPU是通用的，不像矩阵运算加速器那么专用化。然后出现了GPGPU，很灵活，功能也很强大，但要对GPU进行编程就没那么容易了。然后针对机器学习加速又出现了TPU，可以做大矩阵乘法运算和直接卷积等操作。这些是可编程的各种“xPU”，除此之外还有FPGA（现场可编程门阵列）等固定功能硬件，你可以重新配置block之间的线路；再进一步细分的话还有ASIC，也就是可以应特定需要专门设计集成电路。

总体就这两个大类，一类是通用的、可编程的，另一类是功能比较固定的。每当我思考领域专用架构时，我的脑海里就会浮现这两大类。

上图列举了一些正在做上述硬件的公司（不完全统计），可以看到有不少都是行业巨头。每个公司研究的时候都会思考：怎么给它编程？而每个公司也会给出不同的答案。比如Google在做XLA和TensorFlow，NVIDIA在做CUDA，Intel在做oneAPI，还有很多硬件公司在做自己的硬件设计工具包等等。

问题是，每个工具针对的都是不同问题，它们不协同，也不兼容。因为它们是每个公司的小型团队自主研发的，共享的代码不多，而每个公司也都孜孜不倦地给自己的工具增加新功能，各个工具都瞬息万变，造成比较混乱的整体局面。这些工具作为行业的基本组件，却有这么多不同特点，那从行业层面应该怎么做？

其实今天的加速器遇到的问题，90年代的C语言编译器也遇到过。就像人们常说的那样，历史是一个轮回。我们见证了硬件和软件的多样性爆发，但如果想要继续发展，这种多样性就会成为阻碍。

所以我们需要统一，需要一些类似GCC和LLVM这样的东西，不然都要忙着为每个特定的设备开发一个专属后端，就没时间进行前端、编程语言和模型的创新了。

业内有许多精英人才，但还不够多。假如我们能够减少碎片化，把行业整合起来，就可以促进创新，加快行业发展，持续建立技术堆栈，充分利用硬件，并以全新方式利用异构计算。

接下来谈谈我对加速器发展的看法，以及发展过程中可能遇到的挑战。

加速器的本质和演进

加速器是什么？可以把它高度简化成两个部分，第一个是并行计算单元。因为硅本身的结构也是并行的，加速器要用到许多晶体管，也就需要很多硅来达成这种并行处理能力。

第二个部分起控制作用。它的名字不太统一，有人叫它“控制处理器（Control Processor）”，有人叫它“序列器（Sequencer）”。有人希望它小一点，所以会做状态机然后嵌入寄存器。这个部分基本上起到编排并行计算单元的作用。如果并行计算单元是一个大型矩阵乘法单元，控制处理器就会命令它执行一些宏操作，例如从这个内存区加载、执行某一操作、执行另一操作、更新SRAM等。

还有一些加速器很不一样，所以控制逻辑和计算之间的比率也各有不同。正如Patterson和Hennessy所说那样，你可以选择不同的点，但每个点都需要一定程度的编排。

但人们常常忘记其他一些相关的工作，比如，你不止需要编排，还要解决启动问题，比如电源管理，还要不断调试排错。如果你想做得尽善尽美，可以对这些部件进行编程；如果你希望简单一点，可以把这些部件做得很小。

当控制处理器和并行计算单元都齐备之后，怎么给它们输入和输出信息？这时就需要一个内存接口。根据抽象等级的不同，这个内存接口可以是小型的block，也可以是支持物联网的芯片，这样加速器就可以和该芯片连接整个网络通信了。这里需要用到像AMBA或类似的技术。

你可以在更大的粒度（granularity）上构建整个 ASIC，所有的 ASIC 都在加速，在这种情况下，你可能正在与 PCI 通信，并且正在芯片外直接访问内存，但这种“我有一个控制处理器，有一个计算单元和有一个内存接口”的模型，是构建这些东西的一种非常标准的方法。

一旦这些结构问题解决了，架构师们就开始大展拳脚，但他们往往忘记还需要软件人员参与进来。

理想情况下，他们会从最基本的问题开始着手解决，但软件最终看起来像按照几个不同的层次来做。最高层次是考虑用户体验，用户如何使用？要如何围绕它构建一个应用程序？而最低层次则是考虑控制处理器的运行，所以至少需要一个汇编器来完成要处理的控制过程。

然后写一个运行在某种主机处理器上的驱动程序来控制这个东西，控制它打开和关闭，进行加载，把程序上传到控制处理器。之后有一些工作在这些控制处理器上运行，所以这些通常被称为内核。这个模型很通用，但最终的结果是硬件变得更复杂。所以第一代协同处理器（first generation co-processor）可能很简单，但后来有人想出了这个绝妙的主意：我们想实现更多。

在这种情况下，我们想减小面积来进行加速，想做更多的AI、物理、5G或比特币等领域的任何值得加速的东西。最终的结果需要更多的控制处理器，因为光速和线延迟等问题会导致不能只用一个控制处理器在一个巨大的芯片上协调所有的晶体管，所以你需要多个控制处理器并行处理。

幸运的是，这很容易放进你的模型里，因为只需要将这些设备内核并行化、多线程化或做一些展开（tiling），只需做一些简单的改动就可以了。然后，在这些淡褐色单元上运行的内核就可以一起协作解决问题，把任何问题在空间上进行分解，再并行处理。

现在开始，事情变得更加复杂。当建立一个像GPU一样专门的加速器，比如要把数十亿个晶体管组装成一个完整的十字形芯片。这种规模的芯片会产生多方面的问题。

首先，你最终想有多层次的平铺，所以不会只想拥有492个核，你可以在GPU上有阵列，或者有不同的SMS或类似的东西。或者将有异质性介入，所以在同一物理芯片上将有不同种类的加速器，因为我可能正在做AI，但需要能够解码一些JPEG。因此，如果我打算在相机上做推理，需要对相机的传感器数据进行原始解码，这将得到新的加速器block，它们是硬编码用于不同操作，而且这些都混在一起。

然后它们需要通过内存接口相互通信，这需要对其进行编程，并且变得更加复杂。现在突然需要这个中间层的技术，在加速器上处理多个数据流时，不只是在加速器上不同单元的tile上有并行性。因为现在有多个不同的操作在同时运行，所以要解决工作负载平衡的问题。

此外，还要解决通信优化问题，光速是一个痛点，因为把数据从芯片的一端传到另一端需要时间。但是这段时间你不想闲着，而是想在通信的同时进行另一个通信过程，或者在做通信的同时进行计算。

你希望能够运行像TensorFlow一样的东西，现在你可能有一个XA6后置处理器，所以希望从加速器回到主机处理器。因为你在做文件系统操作或其他非常奇怪的事情，就必须能够协调这一点，突然，这层软件开始变得非常大，而且相当复杂。

在很多情况下已经证实了这一点，很多加速器都经历过这种情况。一个问题是，他们一开始都是手工写的kernel，这些东西有多个不同的进化步骤，从这些硬件供应商的产品中可以看到：随着时间的推移，他们的硬件不断进化，变得越来越普遍，软件堆栈和支持的功能也在不断进化。

所以kernel的优点是，它是最简单好用的开始方式。一个硬件人员与一个固件人员配对，就可以清楚地知道硬件的作用。软件人员和硬件人员通过协同设计紧密合作，让你的矩阵乘法在AI工作负荷上运行得非常快。它的抽象程度很低，很容易搞定。

问题是，这并没有真正扩展能力。所以我们也看到，现在想在加速器上运行的工作负载不仅仅是矩阵乘法，他们想要在这些东西上运行成百上千种不同的核运算，涵盖从卷积和矩阵乘法到重塑（主要是内存操作）到元素间操作（element-wise operations），再到各种奇怪的操作，比如Top K和排序，再到非常普遍的新一代研究稀疏算法的东西和其他新兴的不同应用。

随之而来的问题是，一方面你有这些正在运行的kernel，另一方面，你有硬件的无限通用性。因此，在一个供应商的硬件中，也许你可以把它固定然后看看新一代的技术。

你只需要手写一百或一千单位的kernel就行了。也许这没问题，但当你推出了第二代设备，可能改变了内存层次结构，给控制处理器增加了一些新指令，增加了可选的功能，或者你决定做kernel融合，想对卷积进行元素间操作，这时你就有一个n次方的不同kernel的组合需要很好地融合。即使你有成千上万个软件工程师，你也不能手写所有的kernel，因为你希望你的硬件团队能够快速推进工作。

我见过这种情况好几次了，最终人们开始手写kernel，但后来他们写了一个Python程序来生成kernel，这些Python程序在某种意义上就像微型编译器。

如果继续这样做，这些复杂性就会叠加起来，最终形成了这个编译器层，它可以通过强大的编译器工程来形成。这在理论上是可能的，随着时间的推移，它可以通过自然演变逐渐形成，就像人类从爬行到行走一样，这是我在实践中所看到的真实情况。每个人都有机会成为这个过程的缔造者，这方面还有很大的进步空间。

当你在构建一个真实的东西时，实际上很困难。刚开始感觉容易，是因为可以构建一个小型控制处理器和小型加速器，让一些软件运行得很快，这种情况下很简单。但当你沿着“这条路”继续走，困难会慢慢出现，实际上，直到遇到扩展问题之前都不会觉到特别难，但你不想改变方向了。

此外，正如我们之前所说的，产品质量并不一直都很好。现在，人们创造出令人惊叹的产品，而我也一直对这个行业中不断发生的创新感到惊讶。但我们也见过一些编译器崩溃了，比如技术堆栈中出现的坏消息。

这是有道理的，人们就不会总在这方面投资。虽然我能理解这种做法，但这阻碍了行业发展，导致使用这些工具变得更加困难。因此，要减少社区中愿意容忍和使用这些工具的人。

我认为另一个真正的问题是，大部分复杂性真的与解决加速器问题无关。如果我想建立一个5G网络加速器，需要考虑5G、FTS、问题中固有的并行性以及如何利用它们。如果要考虑人工智能机器学习的工作量，我应该考虑的是算数运算以及计算和内存的正确比例等等。但相反，我们通常需要在和这些重要的问题无关的事情上投入很多时间，以复杂性而告终。

如果你把与加速器有关的重要东西抹掉，剩下的就是控制处理器的内核驱动和汇编程序以及像所有这些复杂的多流管理小组，该如何利用加速器上的所有tiles。

这不是我们想花费时间的地方，要花时间在编程模式、硬件等方面进行创新，但这种碎片化是真正阻碍行业发展的原因。

因此，我的主张是创新编程模型，发展新的应用程序，通过不断创新推动行业向前发展。我们应该对此过程所需的一切实行标准化，通过标准化能够快速完成工作，然后就可以把时间花在真正重要的事情上。

那么，如何做好这个工作？幸运的是，业界已经开始对我们需要的所有接口总线进行标准化。如果你与你知道的SoC结构连接，通常使用AMBA或CHAI或类似的东西。如果要和内存连接，那么你要用DDR或HBM这样的东西。如果你要在系统中建立一个插件卡，要使用像PCI Express这样的东西。有一些新的标准，如CXL定义了新的方式，可以将PCI普遍化，并允许在更大规模的系统中使用新型加速器，但我们需要更进一步。

那么，这个控制处理器呢？需要注意的是，当我们观察加速器，开发在加速器上面运行的软件最终比打造硬件的成本更高。况且在这一点上，硬件是更被人熟知的。不同硬件有不同配置，但构建软件是一个尚未解决的问题。

控制处理器也在堆栈的底部，所以当我谈到系统设计中存在这些微妙的陷阱时，事情看起来很容易，但更进一步会发现它们很困难。控制处理器是其中一种情况，刚开始，你考虑的是用小型状态机来控制它，所以我会在电子表格程序写一个编译器。

有时候要意识到需要做电源管理，还要考量安全性，需要构建和协调这些东西的困难部分，真正改变它们最终的工作方式。如果构建控制处理器的人没有同时构建编译器，那么他们就不会感受到构建软件的痛苦，而软件最终是更困难的部分。

Patterson和Hennessey在他们的演讲中谈到了这一点，他们从60年代开始观察到行业存在着巨大的碎片化。IBM最终解决这个问题的方法是标准化指令集，选择的是IBM 360指令集，至今仍在使用。这是一个惊人的壮举。

所以，我们要做出选择，比如我们是否要标准化这些控制过程。我们会使用IBM 360吗，还是我们要用一些新的东西？

我认为，我们应该使用一些新东西，有一种指令集技术叫做RISC-V，它是CPU的一个开放的行业标准。我喜欢RISC-V的原因是，它是一个模块化的指令集，就像LLVM一样是模块化的、基于库的。如果不想用浮点数，它允许把指令集的不同部分划分子集出来。

但是，如果你不想要整数乘法，也可以把它去掉。关于RISC-V的伟大之处在于，它不仅提供了一个指令集标准，还提供了在上面运行的整个软件世界。因此，你可以得到一个C语言编译器，得到Linux，得到所有围绕RISC-V的这些东西。

像SiFive这样的公司，它制造了很多不同的RISC-V处理器。你可以在设计领域中得到许多不同的视角，以不同的权衡点来实现该规范。因此，如果你正在建立一个非常简单的加速器，如矩阵乘法或卷积加速器，可以有一个非常小的RISC-V核来控制一个大的硬编码加速器block。

另一方面，如果你想要更多的可编程性，你可以改变花费在控制和并行处理上的硅的比例，并且有更多的控制逻辑，从而实现更多的可编程性和灵活性，可以调整比率。

也可以反过来，并行单元是处理器的一部分，使用这个处理器时，在处理器内置一个异构计算加速器。

或者相反，你可以把这个加速器中的每一个tile视为一个很大的CPU，这样做就会得到像Graviton这样的云加速器，例如，你有一堆不同平铺的CPU，通用性和加速的功能都可以在一个指令集内处理，这就允许提升软件的生态系统。

你可能会担心，如果想构建这样一个微小的控制处理器，RISC-V会如何解决这个问题？很明显，一般的解决方案太大了。有一些非常小的RISC-V的实现，你可以得到开源的标准化的RISC-V，大约有一万五千种gates的实现，这是硅行业的美妙之处。因为有很多gates，可以不必担心在控制处理器上花费太多gates，得到最符合需求的解决方案。

一旦这样做，它改变了构建加速器的方式。以前你从选择一个控制处理器开始，然后写一个汇编程序或RISC-V给出一个汇编程序。但RISC-V不仅给出一个汇编程序，还给了一个C语言编译器和一个可以编程的IR。

因此，可以针对控制处理器来生成内核。不仅可以得到C语言编译器，还可以得到模拟器和调试器。我从来没有见过其他可以为模拟器和芯片安装GDB、LLDB的加速器，这不是人们通常会投资的技术，因为它是一次性的。但是，通过建立和利用RISC-V的生态系统，你可以投资并再次构建下一个级别的技术，从而获益。

一旦做到这一点，就进入到下一层级的复杂性。做出了这个类似加速器内核编译器的东西后，就会遇到下列问题：如何进行分层并行计算？一个数据中心有很多机器，电路板上有多个芯片？每个芯片在一个ASIC中有几十个或上百个不同的加速器单元，又该如何编程？

有趣的是，虽然所有这些编译器都是不同的，但它们有很多共同的特点。比如，都有内存层次结构，都有多个不同粒度级别的tiling，都需要能够与其互动。所以，尽管这些编译器是不同的，例如一个5G基站的编译器应该与AI加速器不同，但像平铺和内存层次结构这种需要解决的技术问题都是一致的。

现在有一种相对较新的编译器技术MLIR可以帮上忙。你可以把MLIR看作是一个元编译器，它允许你非常快速地构建加速器/编译器。MLIR的全称是“多级中间表示”，它支持构建分层编译器，并以适用专门领域的方式构建，同时保留领域的复杂性。然后，使用MLIR提供的大量库和例程来做一些事情，比如，用多面体编译器来做循环展开和循环融合等等。

所以MLIR是LLVM技术家族的一部分，它继承了LLVM的设计方法和使LLVM如此伟大的理念，所以有了模块化、可扩展性，有一个由友好的人们组成的伟大社区。我认为，LLVM社区的一件令人欣赏事是：LLVM是模块化的，有相当好的文档，很容易学习，适合用于研究。

我很高兴看到MLIR的出现。尽管它只有几年的历史，但它已经被广泛用于从CPU代码生成到GPU、机器学习、FPGAs以及硬件等领域，此外，也用于量子计算和编译器本身的MLIR优化模式应用。在MLIR这个领域有很多有趣的事情发生。

MLIR的另一个优点是，直接在LLVM的基础上分层。它使用LLVM的库，所以可以做即时编译，写内核然后编译成LLVM IR也很容易。当然，LLVM也有很好的RISC-V代码生成支持。你可以用一种非常简单、漂亮且可组合的方式构建基于RISC-V的加速器。

现在，我们开始看到的是，MLIR开始统一异构计算的世界，这也是我希望看到的。所有的大公司现在都在不同程度地使用MLIR，我认为，建立在RISC-V之上的MLIR很有必要，因为一旦开始从下往上整合行业，就可以开始把越来越多的层（layer）拉到一起，重复使用更多的技术。这使得我们可以专注在堆栈中更有趣的部分，而不是一遍又一遍地重新发明轮子。

我们能从中得到什么？如果我们能把稀缺的编译器和编程语言的能量整合到一起，让这些人一起工作，那么这个行业可以取得更多成就。如果我们一而再、再而三地重新发明轮子，我们就会互相拉扯。

作为一个产业，我们需要的是更多的创新，更多的编程模型，更多的技术和基础设施，真的要减少行业的碎片化，提高其他未解决事物的模块化，然后专注于真正重要的部分。

我刚刚一直在谈论加速器，谈到了从CPU到TPU和GPU等各种不同的“xPU”。

硬件本身呢？上图右边留出了一个很大的灰色区域，在这个领域工作的人都是“硬件人员”，在左边领域工作的人既是硬件也是软件人员，但右边确实是一个非常不同硬件世界。

这也是并行计算单元里的东西。这就是Patterson和Hennessey谈到的适用专门领域的架构，以及如何构建这些硬件块。我们需要算法创新，需要许多不同技术的创新，这些都需要基于特定领域。

编译器的创新机会

也许你不会感到惊讶，但我认为答案是编译器，这是真正要走的一条路。

作为编译器编程语言从业者，我认为硬件设计这个领域已经到了重新评估的地步。整个领域是建立在两种技术之上，但实际上主要是一种叫做Verilog的技术，你大概率可能不喜欢Verilog。

它有一个非常复杂的标准，当我看它时，不知道它是被设计成一个IR，也即一个不同工具之间的中间表示，还是被设计成让人们直接书写的东西。我认为，它在这两方面都很失败，它真的很难使用，对工具来说也很难生成。

此外，EDA工具、硬件设计工具已经非常成熟，它们非常标准化，有很多大公司正在推动和开发这些工具。但他们的创新速度并不快，设计时并不注重可用性。它们比加速器编译器要差得多，绝对不是以软件架构的最佳实践来构建的，而且成本也非常高。因此，这个领域有巨大的创新机会。

我不是第一个认识到这一点的人。在开源社区，已经构建了一堆工具推动行业向前发展。这些工具非常棒，比如Verilator被广泛使用，Yosys是另一个非常棒的工具，它有很好的定理证明器（Theorem Prover）。

我的担忧在于，这些工具的理想目标是试图像专有工具一样好，而我并不真的认为专有工具有那么好。另外，这些工具的设计者并没有合作。每个工具都在遵循单一僵化的方法，没有实现大程度的模块化或重复使用，可以从其中一些工具中得到网络列表，用它来解析一些Verilog之类的东西。但是，它不是由基于库的设计构建，与LLVM之类的东西不一样。

好消息是，我看到了这里正在发生的不同进展的全面爆发，这与我们一直在谈论的摩尔定律的失效非常相关。我们看到，研究小组正在推动新硬件设计模型的生产，有Bluespec和Chisel等东西。有许多新的不同研究小组在探索不同的硬件设计方法，而且他们最终往往会生成Verilog，这真的很好，因为现在你可以从软件和硬件世界引入新的类型系统方法、编程语言思想、编译器技术。实际上，软件和硬件有很多想法是互通的。

只是软、硬件领域用不同的方式说着不同的语言。因此，如果双方能有更多的交集，这对两个行业都有益，这种合作令人惊奇，但他们也遇到了困难，这又回到了这个问题上：Verilog实际上不是一个很好的IR。

要创建在语法上正确，并且能表达你想要的东西的Verilog非常困难。此外，因为许多与Verilog有关的工具都有点奇怪，而且很难高质量地预测。生成与工具兼容的Verilog是每个前端工具都必须重新发明的一门黑科技。因此，在堆栈中真的缺失了一种组件，这个组件允许人们在编程模型水平上进行创新，并允许人们找到方法让所有工具都接受它。

有一个叫CIRCT的新开源项目正试图解决这个问题。CIRCT的全称是"Circuit IR for Compilers and Tools（编译器和工具的Circuit IR）"，它构建在MLIR和LLVM之上。CIRCT社区的目的是提升整个硬件设计世界，促进编程模型的创新，并启用一套新的模块化硬件设计工具。它确实运用了很多我们到目前为止一直在讨论的基于库的技术。

此外，它提供了一个可组合的基于库的工具链，可以建立有趣的新的弹性接口连接，你可以建立Chisel社区正在探索的新编程模型，用它来加速Chisel流程。它带来了很多好处，可以让很多人一起工作，推动不同方式的创新。我们正在建立一个真正伟大的小世界，让关心硬件编译器的人在一起工作，这很有趣。这项工作仍处于早期，目标是更快地构建加速器，让加速器变得更快。

我们的大目标是，要把硬件设计和验证过程速度都提高10倍。因此，构建新硬件往往最终需要更多的成本来验证其正确性，这包括形式化方法，相当于单元测试，有很多不同方式可以证明你正在构建的东西在所有情况下都是正确的。

这种正确性验证在硬件领域比在软件领域里更复杂，因为硬件领域并没有真正的类型系统，也没有真正的多层次的IR，所以也就不允许将一个状态机表示为一个状态机，并针对它编写证明。现在，正在发生的事情是整个领域被“去掉了糖分（de-sugared）”，变成了基本上没有类型的bits，然后所有的分析和工具都在这个层面上工作，我认为，我们可以通过构建和引入编译器和语言社区中相当知名的技术来迅速提升改善整个领域。

因此，我希望我们将能够帮助覆盖整个软件和硬件领域，组合这些标准的开放工具，包括作为指令集的RISC-V，作为编译器堆栈的MLIR，以及作为关注硬件的应用的CIRCT。我们正在努力推动整个行业更快发展。

总结

最后，我想说，现在的确是“编译器的黄金时代”。我认为，随着硬件和软件的协同设计变得更加重要，我们需要比以往更快地推动创新。

编译器、编程语言以及所有的技术，包括形式化方法和提升线性类型的类型系统，以及其他相当好理解的系统，将会使整个领域受益。我认为形式化、工程化以及这个领域的不同部分的合作，都将推动所有事情发展得更快、更进一步。我很高兴看到许多学术界相当知名的方法和技术正在落地。

人们正在试图弄清楚这一点，他们学习新东西，但也在一些愚蠢的问题上翻跟头。现在的情况是，我们看到发展速度加快了，看到了新的创新，对旧事物有新研究，因为人们正在回到第一性原则看问题。我非常高兴和兴奋地看到所发生的这一切。

（本文已获取编译授权，视频链接：https://www.youtube.com/watch?v=4HgShra-KnY）

其他人都在看

资源依赖的“诅咒”
“远见者”特斯拉AI主管Karpathy
我，机器学习工程师，决定跑路了
解读Pathways（二）：向前一步是 OneFlow
两大图灵奖得主力作：计算机架构的新黄金时代
OneFlow v0.7.0发布：全新分布式接口，LiBai、Serving等一应俱全

欢迎下载体验OneFlow v0.7.0最新版本：

GitHub - Oneflow-Inc/oneflow: OneFlow is a performance-centered and open-source deep learning framework.OneFlow is a performance-centered and open-source deep learning framework. - GitHub - Oneflow-Inc/oneflow: OneFlow is a performance-centered and open-source deep learning framework.https://github.com/Oneflow-Inc/oneflow/

你可能感兴趣的:(业界观点,芯片,编程语言,python,机器学习,编译器)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23