人工智能学家

为什么 AI 芯片时代必然到来——从TPU开始的几十倍性能之旅

作者：刘肉酱

摩尔定律的终结将使服务于特定领域的架构成为计算的未来。一个开创性的例子就是谷歌在 2015 年推出的张量处理单元（TPU），目前已经在为超过十亿人提供服务。TPU 使深度神经网络（DNN）的计算速度提高了 15-30 倍，能耗效率比类似技术下的当代 CPU 和 GPU 高出了 30-80 倍。

核心观点

虽然 TPU 是一种专用集成电路，但它运行的程序来自 TensorFlow 框架下的神经网络，驱动了谷歌数据中心的许多重要应用，包括图像识别、翻译、搜索和游戏。
通过专门为神经网络重新分配芯片计算资源，TPU 在真实数据中心负载环境下效率要比通用类型的计算机高 30-80 倍，目前已为全球 10 亿人提供日常服务。
神经网络的推理阶段通常会有严格的响应时间要求，这降低了通用计算机所使用技术的有效性；通用计算机通常运行得较快，但某些情况下也会较慢。

所有指数增长都将有结尾

1965 年，据英特尔创始人之一的 Gordon Moore 预测，芯片中的晶体管数量每一两年都会增加一倍。尽管 2017 年 1 月的 ACM 通讯封面呼吁道：“担心我会终结简直是杞人忧天”，摩尔定律确实还是寿终正寝了。2014 年推出的 DRAM 芯片包含了 80 亿个晶体管，而在人们的预测中即使到了 2019 年，带有 160 亿个晶体管的 DRAM 芯片也不会大规模生产，但根据摩尔定律的预测，四年里晶体管数量应该变成四倍多。2010 年款的英特尔至强 E5 处理器拥有 23 亿个晶体管，而 2016 年的至强 E5 也只有 72 亿个晶体管，或者说比摩尔定律预计的数值低 2.5 倍——显然，纵使半导体行业还在进步，但其脚步已十分缓慢。

Dennard Scaling 是一个鲜为人知，但同样重要的观察结果。Robert Dennard 在 1974 年认为，晶体管不断变小，但芯片的功率密度不变。如果晶体管尺寸线性缩小两倍，那么同样面积上芯片中晶体管的数量就会变为 4 倍。同时，如果电流和电压都降低了二分之一，它所使用的功率将下降 4 倍，在相同的频率下提供相同的功率。Dennard Scaling 在被发现的 30 年后结束，其原因并不是因为晶体管的尺寸不再缩小，而是因为电流和电压不能在继续下降的同时保持可靠性了。

计算架构师们一直笃定摩尔定律和 Dennard Scaling，并通过复杂的处理器设计和内存层次结构，将资源转化为性能，这些设计利用了不同的处理指令的之间的并行性，但架构师们并没有什么编程的知识。ε=(´ο｀*))) 唉，于是架构师们最终还是再也找不到新的办法可以利用指令级别的并行性。Dennard Scaling在 2004 年终结了，祸不单行的是继续提升指令级别并行性的方法也开始缺席，这迫使业界只能从单核高耗能处理器转换到多核高效率处理器。

今天我们仍然遵守吉恩·阿姆达尔（IBM 著名工程师，阿姆达尔定律的提出者）在 1967 年提出的定律，该定律认为不断增加处理器数量会导致性能提升的递减。阿姆达尔定律说，并行计算的理论加速受到任务顺序部分的限制；如果任务的 1/8 是串行的，则最大加速也只比原始性能高 8 倍——即使任务的其余部分很容易并行，并且架构师增加了 100 个处理器也是如此。

下图显示了过去四十年以来，上述三大定律对处理器性能的影响。按照目前的速度，标准处理器的性能在 2038 年以前都不会再次翻倍。

图 1. 依照Hennessy和Patterson的理论，我们绘制了过去40年中，32位和64位处理器内核每年最高的SPECCPUint性能；面向吞吐量的SPECCPUint_rate反映了类似的情况，即使其平稳期延迟了几年

晶体管看来没什么进步空间了（这反映了摩尔定律的结束），而每平方毫米芯片面积的功耗正在增加（毕竟 Dennard Scaling 也结束了），但人们对于芯片的功率预算却并没有增加（因为电子的移动、机械和发热限制），芯片设计师们已经在充分发挥多核心的能力了（但这也受到阿姆达尔定律的限制），架构师们现在普遍认为，能显著改进性能、价格、能源三者平衡的唯一途径就是特定领域的架构——它们只适用于处理几种特定的任务，但效率非常高。

在云端的大型数据集和大量计算机之间的协作使得机器学习近年来有了很大的进步，特别是在深度神经网络（DNN）方面。与一些其他领域不同，DNN 的应用方式很广泛。DNN 的突破性进展包括将语音识别的单词错误率相比老方法降低了 30%，这是近 20 年来最大的单次提升；自 2011 年以来，将图像识别的错误率从 26% 降低至 3.5%；在围棋上击败了人类世界冠军；改进了搜索排名等等。单个 DNN 架构或许应用范围很窄，但这种方法仍然催生出了大量实际应用。

神经网络类似于人脑中神经的功能，基于简单的人工神经元，它们是输入的加权和的非线性函数，例如 max(0,value)。这些人工神经元被分为许多不同的层，其中一层的输出就会作为下一层的输入。深度神经网络中的“深层”代表有多个层，由于云上有极大的数据集，只需换用更大、更多的层就可以构建出更准确的模型，它也就可以获取更高阶抽象的模式或是概念，而 GPU 可以提供足够的计算能力帮我们开发 DNN。

DNN 运行的两个阶段被称为训练（或学习）和推理（或预测），分别指代开发与生产。训练一个 DNN 可能需要数天，但训练好的 DNN 进行推理只需要几毫秒。针对不同的应用，开发者需要选择神经网络的类型和层数，而训练过程会决定网络中的权重。几乎所有的训练都是浮点运算，这就是 GPU 在深度学习时代如此受欢迎的原因之一。

被称为“量化”的转换将浮点型转为整型，整型通常只有 8 位——这种程度通常足以满足推理的要求了。与 IEEE 754 16 位浮点乘法相比，8 位整型乘法只需要 1/6 的能耗，需要的空间也只需要 1/6，而转换为整型加法也能带来 13 倍能耗和 38 倍空间的提升。

下表展示了两个例子，共三类、六个 DNN 实例的运行效率——这代表了谷歌数据中心 2016 年 95% 的深度神经网络推理工作负载，我们把它们作为 benchmark。它们在 TensorFlow 中的代码都非常短，只有 100-1500 行。这些例子是主服务器上运行较大应用程序中的小组件，这些大应用可能会由数千到数百万行 C++代码构成。应用程序通常面向用户，这就对响应时间带来了严格的要求。

表 1. 2016年7月，谷歌TPU上的DNN工作负载。共六种DNN应用（三种DNN类型），代表95%的TPU工作负载

如表 1 所示，每个模型需要 500 万至 1 亿个权重，即便只是访问这些权重都需要花费大量时间和能耗。为了降低访问成本，在训练或者推理中会针对一批完全不相干的输入样本都使用同样的权重，这种做法可以提高性能。

TPU 起源、架构及实现

早在 2006 年，谷歌就开始考虑在其数据中心部署 GPU（图形处理器），或者 FPGA （field programmable gate array，现场可编程门阵列），或者专用集成电路（ASIC）。当时的结论是，能在专门的硬件上运行的应用并不多，它们使用谷歌大型数据中心的富余计算能力即可，基本可以看做是免费的，另外也很难不怎么花钱就带来很大改进。情况在 2013 年出现了变化，当时谷歌用户每天使用语音识别 DNN 语音搜索三分钟，使得谷歌数据中心的计算需求增加了一倍，而如果使用传统的 CPU 将非常昂贵。因此，谷歌启动了一项优先级别非常高的项目，快速生产一款定制芯片用于推理，并购买现成的 GPU 用于训练。谷歌的目标是将性价比提高 10 倍。为了完成这项任务，谷歌在其数据中心设计、验证、构建并部署了 TPU，而这一过程仅仅用了 15 个月。

为了降低部署推迟的风险，谷歌工程师将 TPU 设计成 I/O 总线上的协处理器，并允许它像 GPU 一样插入现有服务器，而不是使 TPU 与 CPU 紧密集成。此外，为了简化硬件设计和调试，主机服务器将指令发送给 TPU 令其执行，而不是让 TPU 去自行获取。因此，TPU 在理念上更接近浮点单元（FPU）协处理器，而不是 GPU。

谷歌工程师将 TPU 看做一个系统进行优化。为了减少与主机 CPU 的交互，TPU 运行整个推理模型，但提供了与 2015 年及以后的 DNN 相匹配的灵活性，而不局限于 2013 年的 DNN。

TPU 指令通过 PCI-e Gen3x16 总线从主机被发送到指令缓冲器中。内部计算模块通常通过 256 字节宽度的路径连接在一起。对于右侧的芯片布局图，从右上角开始，矩阵乘法单元是 TPU 的核心，256×256 MAC 可以对有符号或无符号的整型执行 8 位乘法和加法运算。得到的 16 位的结果会存入矩阵计算单元下方的共 4MB 空间的 32 位累加器中。这四个 MiB 代表含有 4,096 个 256 元素的 32 位累加器。矩阵计算单元每周期产生一个 256 元素的部分和。

图 2. TPU架构示意图及芯片布局图

矩阵单元的权重通过片内「权重 FIFO」来分级，该 FIFO 从我们称之为「权重存储器」的片外 8GB DRAM 中读取；对于推理，权重仅作读取；8GB 空间可以支持同时激活多个模型。权重 FIFO 有四层深。中间结果保存在 24MiB 的片上「统一缓冲器」中，可以作为矩阵计算单元的输入。可编程 DMA 控制器会z z哎CPU 主机存储器和统一缓冲器间传送数据。为了能在谷歌的规模上可靠地部署，内存储器和外存储器包含内置错误检查与纠正硬件。

TPU 微架构的原理是保持矩阵计算单元一直在工作中。为了实现这一目标，读取权重的指令遵循解耦访问/执行原理，它可以在发送权重的地址之后、但从权重存储器中取出权重之前完成一条指令。如果输入激活或权重数据没有准备好，矩阵计算单元将停止。

由于读取大型静态随机存取存储器（Static Random-Access Memory，SRAM）消耗的能源比数学运算多得多，矩阵单元使用「脉动执行」通过减少统一缓冲器的读写来节约能量。来自不同方向的数据以规律的间隔到达阵列中的单元，然后进行组合计算。一个含有 65,536 个元素的向量-矩阵乘法运算作为对角波前在矩阵中移动。这些权重被预加载，并随着新数据块的第一个数据一起随着前进波生效。控制和数据被流水线化，给程序员一种错觉，仿佛 256 个输入是一次读取的，并立即更新 256 个累加器中每个累加器的一个位置。从正确性的角度来看，软件不了解矩阵单元的脉动特性，但为了提高性能，必须考虑单元的延迟。

TPU 软件栈必须与为 CPU 和 GPU 开发的软件栈兼容，这样应用可以快速移植到 TPU 上。在 TPU 上运行的应用部分通常用 TensorFlow 编写，并编译成可以在 GPU 或 TPU 上运行的 API。

CPU、GPU、TPU 平台

多数体系架构研究的论文基于运行小型、易于移植的基准测试模拟，这些基准测试可以预测潜在的性能（如果实现的话）。本文与上述论文不同，是对 2015 年以来数据中心运行真实、大型生产工作负载的机器进行回顾性评估，其中一些机器的日常用户超过 10 亿。表 1 中列出的六种应用代表了 2016 年 TPU 数据中心 95% 的使用。

由于测量的是生产环境的负载，要比较的基准平台必须可以在 Google 数据中心部署，因为生产环境的计算负载也就只能在这里运算。谷歌数据中心的很多服务器和谷歌规模对应用程序可靠性的要求意味着机器必须至少检查内存错误。由于英伟达 Maxwell GPU 和最近的 Pascal P40 GPU 不检查内部存储中的错误，以谷歌的规模部署这些处理器、同时还满足谷歌应用程序的严格可靠性要求是做不到的。

表 2 显示了部署在谷歌数据中心的服务器，可以将其与 TPU 进行比较。传统的 CPU 服务器以英特尔的 18 核双插槽 Haswell 处理器为代表，该平台也是 GPU 或 TPU 的主机服务器。谷歌工程师在服务器中使用了四个 TPU 芯片。

表 2. 基准测试的服务使用Haswell CPU、K80 GPU及TPU

很多计算机架构师没有考虑到从产品发布到芯片、主板、软件可以服务于数据中心的用户之间的时间差。表3指出，2014 年至 2017 年间，商业云公司的 GPU 时间差为 5 至 25 个月。因此，当时适合与 2015 年投入使用的 TPU 的做对比的 GPU 显然是英伟达 K80，后者处于相同的半导体工艺中，并在 TPU 部署前六个月发布。

表 3.2015年到2017年，英伟达GPU从发布到云端部署的时间差距，这4代GPU分别为Kepler、Maxwell、Pascal和Volta架构

每个 K80 卡包含两块硅片，并提供内部存储器和 DRAM 的错误检测和纠错功能。这种服务器中最多可安装 8 个 K80 硅片，这也是我们基准测试的配置。CPU 和 GPU 都使用大型芯片：大约 600 mm2的芯片面积，大约是英特尔 Core i7 的三倍。

性能：Roofline、响应时间、吞吐量

为了说明这六种应用在三类处理器上的性能，我们使用了高性能计算机群（HPC）的 Roofline 性能模型。这一简单的视觉模型虽然不完美，但揭示了性能瓶颈出现的原因。该模型背后的假设是应用需求的计算无法完全装入片上缓存，因此它们要么计算受限，要么内存带宽受限。对于 HPC，y 轴表示每秒浮点运算性能（单位是 FLOPS），因此峰值计算率形成了 roofline 图的“平缓”区。x 轴表示运算密度（operational intensity），单位是 FLOPS/byte。内存带宽表示每秒多少比特，形成了 roofline 的“倾斜”部分，因为 (FLOPS/sec)/ (FLOPS/Byte) = Bytes/sec。没有充足的运算密度时，程序受限于内存带宽，性能只能在 roofline 的“倾斜”部分之下。

一个应用的每秒实际计算量与其天花板计算量之间的距离代表了保持运算密度不变时性能提升的潜力；提升运算密度的优化（如缓存分块）可能带来更大的性能提升。

为了在 TPU 上使用 Roofline 模型，当DNN应用被量化时，我们首先将浮点运算替换成整数运算。由于 DNN 应用的权重通常无法装入片上内存，因此第二个改变就是将运算密度重新定义为每读取 1 字节的权重值时的整数乘积累加运算操作数目，如表1所示。

图 3 展示了单个 TPU、CPU 和 GPU 硅片以 Roofline 模型评估的性能指标，图中是指数坐标。TPU 的 Roofline 模型“倾斜”部分较长，从计算密度角度考虑，这意味着性能更多地受限于内存带宽，而不是计算能力峰值。六个应用中有五个都接近天花板，MLP 和 LSTM 受限于内存，CNN 受限于计算。

图 3：TPU、CPU和GPU在 Roofline 模型上的性能表现。五角星表示TPU，三角形表示英伟达Tesla K80 GPU，圆表示英特尔酷睿处理器（Haswell）；所有TPU五角星都与其他两种芯片的 Roofline 模型持平或在后者之上

如图 3 所示，在 Haswell 以及 K80 上，这六个 DNN 应用距离 Roofline 天花板的距离都大于 TPU 上的距离。响应时间是原因所在。这些应用中的很多个是面向终端用户服务的一部分。研究表明，即使响应时间的些微增加都会导致用户使用该服务的频率降低。训练可能没有苛刻的响应时间 deadline，但推理通常有，或者说相比于选择更大吞吐量，推理任务更偏好低延迟。

例如，按照应用开发者的要求，MLP0 应用要求在 99% 的时间内响应时间不大于 7ms。（每秒完成推理的数目要求和 7ms 的延迟要求中包括服务器主机时间和加速器时间）即便对响应时间的限制放宽一些，Haswell 和 K80 运行时也分别只能达到 MLP0 应用最高吞吐量的 42% 和 37%。这些限制也会影响到TPU，它会以 80% 的吞吐量来运行，更加接近 TPU 的 MLP0 最大吞吐量。与 CPU 和 GPU 相比，单线程 TPU 没有复杂的微架构特征，也就不需要为平均状况而消耗晶体管和功率来提高性能，它直接适用于 99% 的状况，即 TPU 没有缓存、分支预测、乱序执行、多处理、推测预读、地址合并、多线程、上下文切等等。极简是领域专用处理器的优势。

表 4 显示了每个芯片的相对推理性能底线，包括两个加速器 vs. CPU 的主机服务器开销，展示了这六个 DNN 应用相对性能的加权平均值，表明 K80 芯片速度是 Haswell 的 1.9 倍，TPU 芯片速度是 Haswell 的 29.2 倍，TPU 芯片速度也就是 GPU 的 15.3 倍。

表 4：在 DNN 工作负载下 K80 GPU 芯片和 TPU 芯片与 CPU 的性能比。加权平均值使用了表 1 中六个 app 的实际混合

性价比、全周期成本（TCO）、性能／功耗

大批量购买计算机时会更多地考虑性价比而非性能。数据中心最好的成本指标是全周期成本（TCO）。一个组织（如谷歌）购买数千张芯片时所支付的实际价格取决于与相关企业的谈判沟通。由于涉及商业机密，我们无法公开此类价格信息或数据。但是，功率与 TCO 相关，我们可以公开每台服务器的功耗数，因此这里我们使用性能／功耗比代替性能／TCO 比。这部分我们对比了整个服务器而不是单个芯片。

图 4 显示了 K80 GPU 和 TPU 相对于 Haswell CPU 的平均性能/功耗比。我们给出了两种不同的性能/功耗比计算。我们展示了两种不同的性能／功耗计算方法。第一种“total”包括计算 GPU 和 TPU 的性能／功耗时主机 CPU 服务器所消耗的功率；第二种“incremental”从 GPU 和 TPU 中减去了主机 CPU 服务器所消耗的功率。

图 4：GPU 服务器与 CPU 服务器的性能/功耗对比（蓝色条）、TPU 服务器与 CPU 服务器的功耗对比（红色条）、TPU 服务器与 GPU 服务器的功耗对比（橙色条）。TPU' 是使用 K80 的 GDDR5 内存将 TPU 进行改进后的芯片

对于总性能/瓦特，K80 服务器是 Haswell 的2.1倍。对于增量性能/瓦特，当忽略 Haswell 服务器电源时，K80 服务器是 Haswell 的 2.9 倍。TPU 服务器的总性能/瓦特比 Haswell 要高出34倍，TPU 服务器的性能/功率也就是 K80 服务器的 16 倍。对于 TPU 来说，相比 CPU 的相对增量性能/瓦特以谷歌设计 ASIC 的水平已经做到了 83 倍，同时也就是 GPU 的性能/瓦特的29倍。

对替代性 TPU 设计的评估

和 FPU 类似，TPU 协同处理器比较容易评估，因此我们为六个应用创建了一个性能模型。模型模拟的结果和硬件实际性能的平均差距小于 10%。

我们使用性能模型评估了另一款假想的 TPU 芯片，记为 TPU'（使用同样的半导体技术再多花 15 个月我们就能设计出这款芯片）。更激进的逻辑合成和模块设计可以把时钟频率再提高 50%；为 GDDR5 内存设计接口电路（就像 K80 那样）可以将权重读取的内存带宽提高四倍，将 roofline 从斜到平的拐点从 1350 降到 250。

单独将时钟频率提高到 1,050 MHz 而不改善内存的话，性能提升非常有限。如果我们把时钟频率保持在 700MHz，但改用 GDDR5 作为内存，则加权平均值飞跃至 3.9倍。同时做这两种措施其实并不会改变性能，因此假设的 TPU' 只具备更快的内存就够了。

将 DDR3 权重内存替换成与 K80 相同 GDDR5 内存需要将内存通道的数量翻一倍，即 4 个通道。这一改进会需要将芯片面积扩大约 10%。GDDR5 还需要将 TPU 系统的功率预算从 861W 提高到 900W 左右，因为每台服务器都有四个 TPU。

从图4可看出，TPU'的总体每硅片性能／功耗是 Haswell 的 86 倍，K80 的 41 倍。其 incremental 指标是 Haswell 的 196 倍，K80 的 68 倍。

讨论

这部分按照 Hennessy 和 Patterson 的谬误-陷阱-反驳格式来展开：

谬误：数据中心的 DNN 推断应用将吞吐量和响应时间处于同等重要的地位。

我们惊讶于谷歌 TPU 开发者对响应时间有这么高的要求，2014 年有人透露说的是：对于 TPU 来说，批量大小应该足够大，以到达 TPU 的计算性能峰值，对延迟的要求不用那么苛刻。一个起到推动作用的应用是离线图像处理，谷歌开发者的直觉是，如果交互式服务也需要 TPU，则大部分服务需要累积足够大的批量然后才交给 TPU 计算。即使 2014 年谷歌关注响应时间（LSTM1）的应用开发者称，2014 年的限制是 10ms，而真正向 TPU 移植时 10ms 将被减少至 7ms。很多此类服务对 TPU 的意料之外的要求，以及它们对快速响应时间的影响和偏好，改变了这个等式。应用编写者通常会选择降低延迟，而不是累积更大的批量。幸运的是，TPU 具备一个简单、可重复的执行模型，来满足交互式服务的低响应时间以及高峰值吞吐量要求，即便是计算相对较小的批量时也比当前 CPU 和 GPU 具备更好的性能。

谬误：K80 GPU 架构很适合进行 DNN 推理。

我们发现 TPU 在性能、能耗和成本方面优于 K80 GPU 有五个方面的原因。1、TPU 只有一个处理器，而 K80 有 13 个，单线程当然更容易满足严格的延迟目标。2、TPU 具备一个非常大的二维乘法单元，GPU 有 13 个小的一维乘法单元。DNN 的矩阵相乘密度适合二维阵列中的算术逻辑运算单元。3、二维阵列还能通过避免访问寄存器来促成脉动式的芯片实现，节约能源。4、TPU 的量化应用使用 8 位整型，而不是 GPU 的 32 位浮点； K80 并不支持 8 位整型。使用更小的数据，改善的不仅是计算能耗，还能四倍化权重 FIFO 的有效容量和权重内存的有效带宽。（尽管推理时使用的是 8 位整型，但训练这些应用时会保证和使用浮点一样的准确率）5、TPU 忽略 GPU 需要而 DNN 不需要的特征，从而缩小 TPU 芯片、节约能耗、为其他改进留下空间。TPU 芯片的大小几乎是 K80 的一半，通常运行所需能量是后者的三分之一，而它的内存却是后者的 3.5 倍。这五个因素导致 TPU 在能耗和性能方面优于 K80 GPU 30 倍。

陷阱：在设计领域专用架构时不顾架构历史。

不适用通用计算的想法可能适合领域专用架构。对于 TPU 而言，三个重要的架构特征可以追溯到 1980 年代早期：脉动阵列（systolic array）、解耦访问/执行（decoupled access/execute）和复杂的指令集。第一个特征减少了大型矩阵相乘单元的面积和能耗；第二个特征在矩阵相乘单元运算期间并行获取权重；第三个特征更好地利用 PCIe bus 的有限带宽来发送指令。因此，对计算机架构历史比较了解的领域专用架构设计师具备竞争优势。

谬误：如果谷歌对 CPU 的使用更加高效，它得到的结果将可以媲美 TPU。

由于有效使用 CPU 的高级向量扩展（AVX2）对整型计算做高效的支持需要大量工作，最初在 CPU 上只有一个 DNN 有 8 位整型的性能测试结果，它的性能提升大约是 3.5 倍。所有的 CPU 性能评估都基于浮点的计算性能来展示会更明确（也不会占太多图表空间），也就没有给这个整型计算结果绘制单独的 Roofline 图。如果所有 DNN 都能够得到类似的加速，TPU 带来的性能/功耗比提升将分别从 41 倍和 83 倍降为 12 倍和 24 倍。

谬误：如果谷歌使用合适的新版本，GPU 结果将与 TPU 差不多。

表 3 报告了发布 GPU 和客户何时可以在云中使用 GPU 的区别。与较新的 GPU 进行公平比较将包括新的 TPU，而对于额外增加的 10W 功耗，我们只需使用 K80 的 GDDR5 内存就可以将 28 纳米、0.7GHz、40W TPU 的性能提高三倍。把 TPU 移动到 16 纳米工艺将进一步提高其性能/功耗。16 纳米英伟达 Pascal P40 GPU 的峰值性能是第一代TPU 的一半，但它 250 瓦的能耗却是原来的很多倍。如前所述，缺乏错误检测意味着 Google 无法再去数据中心部署 P40，因此无法在它们身上运行生产工作负载来确定其实际相对性能。

总结

尽管 TPU 在 I/O 总线上，并且内存带宽相对有限限制了它发挥全部效能（六个 DNN 应用程序中有四个受限于内存），但一个很大的数即便拆到很细，拆到每个周期 65536 次乘法累加计算，仍然是一个相对较大的数字，如 roofline 性能模型所示。这个结果表明，Amdahl 定律的其实有一个非常有价值的推论——大量廉价资源的低效利用仍然可以提供颇具性价比的高性能。

我们了解到，推理应用具有严格的响应时间限制，因为它们通常是面向用户的应用；因此，为 DNN 设计计算芯片的设计师们需要保证满足 99% 情况下的时间限制要求。

TPU 芯片利用其在 MAC 和片上内存的优势运行使用特定领域 TensorFlow 框架编写的短程序，该 TensorFlow 框架比 K80 GPU 芯片快 15 倍，因此能获得 29 倍的性能/功耗优势，这与性能/总拥有成本相关。与 Haswell CPU 芯片相比，对应的比率分别为 29 和 83 倍。

有五个架构因素可以解释这种性能差距：

处理器。TPU只有一个处理器，而K80有13个，CPU有18个；单线程使系统更容易保持在固定的延迟限制内。
大型二维乘法单元。TPU有一个非常大的二维乘法单元，而CPU和GPU分别只有18个和13个较小的一维乘法单元；二维硬件在矩阵乘法中有很好的性能。
脉动阵列。二维组织支持脉动阵列，减少寄存器访问和能量消耗。
8位整型。TPU的应用使用 8 位整型而不是 32 位浮点运算来提高计算和内存效率。
弃掉的特征。TPU放弃了 CPU 和 GPU 需要但是 DNN 用不到的功能，这使得 TPU 更便宜，同时可以节约资源，并允许晶体管被重新用于特定领域的板载内存。

虽然未来的 CPU 和 GPU 在运行推理时速度更快，但是使用 circa-2015 型 GPU 内存重新设计的 TPU 将比原来快三倍，并使其性能/功耗优势分别为 K80 和 Haswell 的 70 倍和 200 倍。

至少在过去十年中，计算机架构研究人员发布的创新成果都是来自模拟计算的，这些成果使用了有限的基准，对于通用处理器的改进也只有 10% 或更少，而我们现在报告的性能提升是原来的十倍不止，这是应用于真实生产应用的真实硬件中部署的特定领域架构的收益。

商业产品之间的数量级差异在计算机架构中很少见，而这甚至可能导致 TPU 成为该领域未来工作的典范。我们预计，其他人也会跟进这个方向，并将门槛提得更高。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

你可能感兴趣的:(为什么 AI 芯片时代必然到来——从TPU开始的几十倍性能之旅)

数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
FPGA 设计中的 “Create HDL Wrapper“ 和 “Generating Output Products“ 的区别行者.................. fpga开发
CreateHDLWrapper(创建HDL包装器)目的：为顶层设计模块（通常是BlockDesign/IPIntegrator设计）创建一个HDL包装文件功能：将图形化/框图设计的BlockDesign转换为可综合的HDL代码（Verilog或VHDL）创建一个顶层模块，将所有IP核和连接实例化使用场景：当使用IPIntegrator创建BlockDesign后需要将图形化设计转换为HDL代码以
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
深入解析 “void(0)；” 的用法与作用_void(0)；
关键要点void(0);是JavaScript中的一个表达式，研究表明它通常用于超链接中，防止页面跳转。它通过void运算符计算表达式并返回undefined，常用于创建“死链接”。证据显示，这种用法简单易用，但现代开发更推荐使用事件监听器。基本概念void(0);的作用void(0);是JavaScript的void运算符的一个实例，void运算符会计算一个表达式但不返回任何值，而是始终返回un
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
赛亚超频：蚂蚁、阿瓦隆、神马矿工超频解除低温限制，高温保护 Punkhash算力租赁超频虚拟货币矿机
www.punkhash.com赛亚超频在比特币挖矿行业日益激烈的今天，矿工们越来越重视矿机的效率与稳定性。随着电价的波动、币价的不确定以及矿机成本的攀升，单纯依靠“买新设备”提升产出，已经不再是最优选择。越来越多有经验的矿工开始转向对现有设备进行超频优化，以提高算力、降低单位能耗，从而获得更高的收益回报。而在众多第三方超频固件中，赛亚超频（SaiyanFirmware）凭借稳定性强、兼容机型广、
css遗忘的知识2(grid布局，&父类选择器与:has() 讲解) 不断努力的根号七 css css 前端 javascript
---grid布局1.基础Grid布局定义gird布局和行宽.container{display:grid;grid-template-columns:100px200px300px;/*三列，宽度分别为100px,200px,300px*/grid-template-rows:100px200px;/*两行，高度分别为100px,200px*/}常用单位fr(fractionalunit)：可用
three前置课程知识
学习中文网(1.threejs文件包下载和目录简介|Three.js中文网)threejs官方文件包所有版本：https://github.com/mrdoob/three.js/releases更新迭代较快，要选择对应版本使用---下载zip压缩包Threejs官网中文文档链接：https://threejs.org/docs/index.html#manual/zh/重要的内容docs包:文档
低温冷启动 & 高温热启动 hahaha6016 fpga开发
低温冷启动1.在低温下，晶体管的阈值电压可能升高，导致时序路径变慢，从而可能引起建立时间（setuptime）违规。另外，也可能出现保持时间（holdtime）违规，因为低温下信号传播速度可能变快（但通常低温下延迟增加，所以建立时间问题更常见）。2.droppinglogiccore意味着在低温下某个逻辑核心（可能是一个特定的模块或IP核）无法正常启动或工作，导致功能失效3.cellname，这通
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
游戏开发日记 future1412 学习数据结构 c#
如何用数据表来储存，位置坐标（XYZ）：决定了对象在世界中的摆放资源ID/图片URL：决定了使用什么模型或贴图事件ID/特效：是否触发某些事件（例如点击、交互）逻辑索引（GridIndex）：用于程序检索和映射用途这在策略类、模拟类、RPG游戏中非常常见，例如建筑布局、怪物摆放、地图资源点等。这个表格决定的是玩家事件，使用了的图片名称URL，格子的出入口设置，格子的类型，是否为检察点，场景id，副
C#学习日记 future1412 学习
一、基础概念回顾：值类型变量直接包含值本身，通常分配在栈（Stack）内存中。基本数据类型：int,float,char,bool,enum自定义结构体struct引用类型（ReferenceType）引用类型变量包含的是指向实际对象的引用地址，实际数据位于堆（Heap）内存中。string（虽然看起来像值，但本质是引用类型）数组、类class接口interface、委托delegate结构体（s
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
django - admin后台管理-2-自定义模型类米兔-miny django -达内 django 分布式 python
注册自定义模型类若要自己定义的模型类也能在/admin后台管理界中显示和管理，需要将自己的类注册到后台管理界面注册步骤：在应用app中的admin.py中导入注册要管理的模型models类，如：from.modelsimportBook调用admin.site.register方法进行注册，如：admin.site.register(自定义模型类)#file:bookstore/admin.pyf
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
Django REST framework 与 django-import-export 扩展结合 Venre django python
DjangoRESTframework与django-import-export扩展结合DjangoRESTframework与django-import-export简单介绍DjangoRESTframework和django-import-export是两个非常强大的工具，分别用于构建RESTfulWebAPI和处理数据的导入导出。虽然它们在功能上有所不同，但可以结合使用以实现更复杂的数据管理
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
学习日记-spring-day45-7.10 永日45670 学习 spring java
知识点：1.初始化Bean单例池完成getBeancreateBean（1）知识点核心内容重点单例词初始化在容器初始化阶段预先创建单例对象，避免在getBean时动态创建单例词必须在容器初始化时完成加载，否则会触发异常getBean方法逻辑1.从beanDefinitionMap查询BeanDefinition2.根据scope判断单例/多例3.单例：直接从单例词获取4.多例：反射动态创建新对象多
【Freertos实战】零基础制作基于stm32的物联网温湿度检测(教程非常简易)持续更新中......... 熬夜的猪仔 stm32 物联网嵌入式硬件
本次记录采用Freertos的第二个DIY作品，基于Onenet的物联网温湿度检测系统，此次代码依然是全部开源。通过网盘分享的文件：物联网温湿度检测.rar链接:https://pan.baidu.com/s/1uj9UURVtGE6ZB6OsL2W8lw?pwd=qm2e提取码:qm2e大家也可以看看我上个的开源项目【Freertos实战】零基础制作基于stm32智能小车(教程非常简易)实物演示
Django - 视图和模板 Missing Sunshine Python-Django django 视图和模板
视图视图-是具体的业务代码在app下的views.py文件中编写代码fromdjango.httpimportHttpResponsedefindex(request):returnHttpResponse("这里是我的站点") 为了调用该视图，我们还需要编写urlconf，也就是路由配置。在polls目录中新建一个文件，名字为urls.py（不要换成别的名字），在其中输入代码如下:fromdj
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
【Android】安卓四大组件之广播接收器（Broadcast Receiver）：从基础到进阶 m0_59734531 Android android java Boradcast 安卓四大组件
在Android开发中，广播接收器（BroadcastReceiver）是一个非常重要的组件，它能帮助应用接收来自系统或其他应用的事件通知，实现跨组件、跨应用的通信。大家可以把广播接收器想象成一个“收音机”。它的作用是监听系统或应用发出的“广播消息”，并在收到消息后执行相应的操作。（一）基础概念BroadcastReceiver用于监听系统或应用发出的广播事件，实现跨组件通信。其特点是发送方无需关
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL