编程语言Lab

CPython解释器性能分析与优化

原文来自微信公众号“编程语言Lab”：CPython 解释器性能分析与优化
搜索关注 “编程语言Lab”公众号（HW-PLLab）获取更多技术内容！
欢迎加入 编程语言社区 SIG-元编程 参与交流讨论（加入方式：添加文末小助手微信，备注“加入 SIG-元编程”）。

作者 | 张强

整理 | Hana、IceY

作者简介

南京大学计算机科学与技术系四年级直博生，研究方向为“解释器性能分析与优化”，研究兴趣是偏底层、偏工程的项目编写与性能调优。

论文

https://doi.org/10.1016/j.scico.2021.102759

视频回顾

编程语言技术沙龙 | 第12期：CPython 解释器性能分析与优化

1 背景介绍

首先需要明确，Python 作为一门语言，其实只是一个存在于概念中的规范，它本身并没有限制开发者去怎样实现它。因此就有 IronPython、Jython、PyPy 和 Pyston 等具有不同特性的实现。不过在实践中，大部分情况下大家用的都还是 CPython。这是因为，首先它作为一个参考实现，能够支持全部语言特性。还有 PyPI 这个仓库可以 pip install 第三方包，其他的实现可能因为兼容性等问题用不了仓库里的包。最后还一个原因，某些行为到底是语言标准的要求，还是实现定义的，或者甚至是未定义的，Python 并没有一个非常明确且详细的描述，所以这时候开发者会以 CPython 作为事实上的标准。

接下来的报告也只关注 CPython。

CPython 解释器

CPython 可以看成由一个编译器和一个虚拟机构成。前者把将要执行的 Python 代码编译成一个中间表示，也就是字节码。后者执行的时候就不用再去理会复杂的语法结构。

不过 CPython 的这个编译器非常的简单甚至简陋。它把每个函数视为独立的编译单元，不会实施任何函数间优化。函数内优化也几乎没有，比如公共表达式提取这种，不存在的。甚至它还会舍弃掉类型信息，所以对象一律视为 object，哪怕使用了 type annotation 语法显式标注了类型也不例外。

CPython 字节码

这有一个阶乘函数和它的字节码。字节码中每个指令都固定为两字节，一字节的 opcode 和一字节的 oparg。

下图展示了 CPython 内部负责指令解释的函数，可以看到是基于栈式架构。

2 性能分析

接下来是性能分析部分。

采样法的应用

插桩法的问题

测量程序中某个部分的时间开销，最容易想得到的办法自然是插桩，开头结尾时间一测再一个减法就好。但是它有一些问题：

首先插入的测量代码本身有时间代价，然后插桩后的代码会在寄存器分配等各个方面和原来的代码有所不同。而且，现代 CPU 基本会采取乱序执行，插桩的位置在实际执行中可能就不会对应它那一段代码的开头结尾了。

当然，使用更加先进的插桩方法和工具可以缓解缓解前面的问题，但依然有两个难点。首先被干扰的部分就是被插桩的部分，程序中有插桩和没插桩的各个部分受到的干扰程度不一样，可能让结果产生畸变。另外，插桩需要提前设置位置，无法在没有假设的前提下进行探索性的实验。

插桩法不适用于对解释器进行整体上的性能分析。

采样法

因此我们使用采样法来对解释器进行性能分析。它的原理是，程序每执行一段给定时间就会被中断，然后采样器记录下当前的状态，比如寄存器值，或者某一段内存里的数据。在分析的时候，就用这些样本的比例，或者说分布，去近似程序实际的开销分布。实际上就是用一系列离散点代替一段连续的时间。

因此采样法不需要修改被测程序，直接用正常编译的版本就行。而且，周期性中断对被测程序而言是随机的，程序里每个部分都可能受到影响，结果不会被带偏。最后，除了时间（也就是 CPU 周期），还可以用其他事件执行采样，比如分支跳转、缓存失效等等，这样还可以得到其他性能事件在程序中的分布。

采样法（误差控制）

当然，采样就意味着误差是必然的，只能设法减小。最简单粗暴的是增加运行时间或次数，样本够，精度就够。但如果时间有限的话，就只能增大采样频率了，在同样的时间内更频繁地中断程序获取样本，不过这样对程序的干扰也就大了，要掌握火候。

最后还有一个值得注意的，也不是光样本数越多越好，要足够随机，样本才能有代表性。如果采样的节奏和程序运行的节奏刚好对上，产生 lockstep sampling 现象，结果就会很离谱了。

采样法（误差估计）

如果采样是随机的话，样本就服从超几何分布。用切比雪夫不等式推一下可以发现，误差与样本量根号的倒数成正比。

我们用的采样工具是 Linux perf，它采集一个样本的开销大致在 10000 个 CPU 周期。所以我们把采样周期 $r$ 设置为 5000011，大两个多的数量级，保证在采样的影响相对较小的情况下可以收集更多样本。值得注意的是，这里用 5000011，而非整 5000000，因为这是一个质数，可以防止前面提到的 lockstep sampling 问题。单个 benchmark 运行 400 秒，大概获得 $n=3.8\times10^5$ 个样本。

数据代入上述公式可以确认，误差已经控制在合理的范围内，样本量足够了。

字节码开销

拆解

接下来是从字节码的角度分析 CPython 的性能。

首先是开销的拆解，后面还会有一些具体问题的分析。

从 C 栈帧到 opcode 开销

采样工具加上 addr2line 工具，可以帮我们还原中断发生时解释器本身的 C 语言调用链，那怎么知道当前正在处理的 Python 指令是哪种 opcode 呢？我们的方法是逆着调用链回溯，直到找到 _PyEval_EvalFrameDefault 函数，这个负责字节码指令解释的函数。

它有一个大的 switch-case 负责处理各种 opcode，看它当前正在执行哪个 case 的代码就行。因为只看最顶端的一个 Python 指令，所以像图 c 中带 Python 函数调用的，它的开销就被判定给 BINARY_ADD 而非 CALL_FUNCTION。然后有部分库函数是用 C 语言写的，我们也把它标记出来了，像图 d 这里，它的开销就不属于任何一个 Python 指令。

使用频率与时间开销

Python 3.9 定义了 119 种 opcode，如下左右两幅图分别列出了使用频率最高和运行时间开销最高的 20 个。所有数据都是在 48 个 benchmark 上独立收集的。Q1、Q2、Q3 是不同 benchmark 结果的四分位数，Q2 是中位数，图中按中位数排序。

最突出的结果是各种 LOAD 还有 STORE，特别是其中的 LOAD_FAST，占了 27.5% 的使用量，排名垫底的 99 个指令使用频率加起来都没它一半多。
然后是右边的时间开销，两个 CALL 排名第一第二。
再来找找加减乘除，左移右移，取与取或等等这些运算符对应的 opcode，结果除了一个 BINARY_ADD（对应加法运算符），无一上榜。也就是说，从多数 benchmark 整体看来，运算符的使用量还真没有我们直觉中预期的那么多。

opcode 分类

直接列出来可能不好发现多少信息，接下来就把 opcode 分成六个类：

首先是那一堆 LOAD 和 STORE，其实还有用的比较少的 DELETE，他们都是用来读、写、删某些目标位置，根据目标的种类的不同，他们占据了三个类：
- name access，名字访问，访问常量或者变量。
- attribute access，属性访问，用 a.b 的形式访问对象的属性。
- element access，元素访问，用 a[b] 的形式访问容器内的元素。
函数调用有 4 种不同的 opcode，对应不同的调用语法，把它们也归为名为 function call 的一类。
各种运算符号，也归为 math operator 一类。
剩下 63 中 opcode，不分了，丢在一起，就叫它杂类 miscellany 好了。

频率与开销（分类占比）

不同类别的使用频率和运行开销总结就是这个箱线图了。

name access 的频率最为突出，占了一半了，说明常量和变量的访问非常频繁，开销也不小。
Python 因为是动态类型，attribute access 就意味着要查字典，所以比较耗时。
然后是 function call，占了 16.0% 开销，说明 Python 上下文切换代价挺大的。好消息是，现在还是 beta 版本的 Python 3.11 加了一堆优化来缓解这个问题，所以未来这部分的开销会低一点。
math operator 这边，中位数都不大，但是有少数几个 benchmark 专门测试科学计算的，数值拉得很高。
element access 和 miscellany 数据都不怎么突出，就不讨论了。

名字访问问题

讨论了整体上的情况，再来看一些具体问题，首先是关于名字访问。

名字访问，这里的名字其实有两种不同的访问机制。

图里左边的是 array-style，包括常量、局部变量、还有闭包变量，这些名字是保存在数组中的，访问的时候直接数组加下标就行了。

图里右边的是 dict-style，包括全局变量和内置变量，由于 Python 的语法限制，他们不能用数组保存，所以 CPython 用了哈希字体，访问时候得查字典。

后者的复杂度比前者高多了，但是除了访问数据这个核心操作外，每个指令都有一堆共同的附加工作。所以，最终表现就是左边 array-style 的访问不管是从频率还是开销都占了上风，尤其是加载常量和读写局部比变量三种 opcode。那么有没有办法消除这几个指令？有！使用寄存器式解释器架构就是一种方法。这会在后面关于性能优化的部分展开讲解，所以就不继续展开。

动态类型的问题

第二个问题与动态类型有关。

动态类型之负担

这里可以总结出两个方面的负担：

其一是关于属性访问的。在 C++ 和 Java 等静态语言里，属性访问就是首地址加上一个偏移（当然如果有多态的话要利用虚函数表间接索引）。而在 Python 中，它需要依次查找对象本身、对象类型、对象父类乃至祖父类各自的哈希字典。如果类型里还定义了 __getattr__等魔法函数的话，整个过程还会更加复杂。
其二是关于数学运算的。因为类型不确定，即使是两个 int 或者两个 float 相加，也要和其他对象一样过一遍完整的流程，依次检查左右类型是否定义了处理例程，然后执行间接调用。无法转化为直接调用对应的底层过程。

静态推断之困难

很自然的一个想法是，能不能在编译时候，用静态分析的方法尽可能地推断出一些对象的类型，然后利用类型信息生成优化过的字节码，减小那两部分的开销。理论上是可以，但是第一步类型推断就会很棘手。

首先是对全局变量的静态推断是无法做到安全可靠的，他们可能在模块外或者通过反射的形式被意想不到地修改。然后普通的 Python 类型及其对象，允许用户在它定义之后再添加或者删除属性，这其中包括对运算符的重载，所以就算推断出来了类型也没有用。

唯一能够安全地进行静态推断的，就是从 123 和 “hello world” 这些 int 和 str 类型的字面值常量出发，推断出的一些局部变量的类型。并且这些内置类型还都有一个优点，就是不允许用户修改它们的属性。所以理论上来说，推断出来了类型也就能够优化它们的属性访问和数学运算。

但是话也不能说得这么绝对，比如看下面这个例子，这两个局部变量，不管怎么赋值，在下一行打印出来的类型都表明它们是字符串。其实是因为我们在前面（当然也可能是模块外）配置了 settrace，它还是可以反射地修改局部变量值。不过这个特性官方文档也没有说清楚到底是语言规范还是 CPython 自己的行为，所以也不好说。

from sys import settrace

def my_tracer(frame, event, arg = None):
    if frame.f_code is foo.__code__:
        frame.f_locals['v'] = 'surprise'
    return my_tracer

settrace(my_tracer)

def foo():
    v = 42
    print(type(v))
    v = 3.14159
    print(type(v))

foo()

输出：

<class 'str'>
<class 'str'>

失败的尝试

那先不考虑 settrace 这种近乎于魔法的东西，我们能不能进行静态优化呢？很久之前有过这方面的尝试。

从字面值常量出发，在函数内尽可能地推断出局部变量的类型，然后为它们的生成一些类型特化之后的指令。比如上面表格第四行这里，如果一个加号左右两边都是 str 类型，那么就用 STR_CONCAT 指令替代 BINARY_ADD，运行时就不必检查类型，直接调用字符串连接过程。但是效果呢？如下面的这个表格所示，在添加了类型推断和字节码特化之后，程序的运行时间消耗和 baseline 不相上下。还有另外几个 benchmark 的结果没有列出来，总之最后的结果是，比 baseline 还差一点点。所以这个尝试算是给了一个历史教训吧，光靠静态推断是没用的。

属性访问

下面先来看用于属性访问的 4 种 opcode 的开销。

它们在 48 个 benchmark 的中位开销是 8.9%，在两个 benchmark 上甚至占了超过一半的开销。其中，又以 LOAD 的开销为主，STORE 开销占比相对少些，DELETE 是几乎不用的。

优化的余地还是很大的，所以 CPython 3.10 加入了 per-opcode cache 机制来加速 LOAD_ATTR 的过程，然后 3.11 又进一步再优化了一点。

可优化的余地那么大，为什么前面那个尝试失败了？请看下图。

我们把所有 benchmark 的 LOAD_ATTR 和 LOAD_METHOD 开销画了出来，分别在横轴上方和下方。然后，又统计了下访问 int 和 str 等这种内建类型属性在其中的次数占比，对应为图中有颜色的区域。这意味着什么？意味着：

就算假设内建类型的单次属性访问耗时和自定义类型一样
然后我们可以推断出所有属于内建类型的 Python 变量类型
并且把它们的属性访问开销降低到 0
整个过程还不带一点副作用

加上这一堆理想化的假设，最后也就是能砍掉图中有颜色这部分的开销。所以，想要降低属性访问开销，还得关注用户自定义的类型。

再来看数学运算符部分的开销。其实它们只在多数 benchmark 上开销并不大，中位数只有 4.6%，不过在少数 benchmark 上还是举足轻重的。

比如 pidigits 上，开销占比 96.5%。不过，这么多开销，并不完全是因为动态类型造成的，我们把其中开销按照性质分为三种组成部分：

第一个是 opcode handling，也就是在前面那个 _PyEval_EvalFrameDefault 函数里面，解释字节码所对应的开销
第三个是 calculation，是以及执行确定类型的底层计算的耗时
夹在中间的第二个 overloading，它的开销就是和动态类型有关的，比如查找类型方法重载，然后执行间接调用这种

可以看到开销主要来自于底层计算，对特定类型的运算符操作添加一些 “捷径”，收效会有，但不会太多。而且，也不要用静态推断的方法来添加这些捷径，因为能推断成功的数量非常有限。CPython 3.11 用动态特化的方法尝试了下优化，官网的数据只说了最好可以加速 10%，没有提到平均效果。

小结

总的来说，从字节码角度分析性能，有以下一些小结论。

寄存器架构是我们后面性能优化部分会讲到的一个尝试。
基于静态类型推断的优化可以认为是一条死胡同。
然后优化一般类型的属性访问以及函数调用开销这方面，CPython 确实在最近几个版本里正在改进它们。

解释器开销

拆解

接下类，从另外一个角度来分析 CPython 的性能，也就是把解释器本身看作一个普通的程序，看看它的哪些模块开销占比最大。

CPython 解释器的构成

先来看 CPython 编译之后的组件构成。

它包括了一个解释器本体，一堆动态链接库，还有一些 Python 写的标准库代码。

然后从解释器虚拟机的视角，标准库 Python 代码和用户 Python 代码其实没多大区别。

而那些二进制的动态链接库，其实一般都是实现一些的特定事务，比如 json 和 pickle 的处理，当然 tensorflow 和 PyTorch 等机器学习库的二进制模块也属于此类。

二进制文件粒度

然后来看前面提到的那几个组件在运行时的开销占比，如图所示：

红色的解释器本体，占比是最大的
绿色的内置动态链接库，只有在与测试 json、pickle、xml 性能有关的 benchmark 上才有所表现
青色的外部动态链接库，因为我们把 C 语言标准库等系统库也算在里面，所以或多或少各个 benchmark 上都占一点
黄色的是系统内核态的开销，只有在一些需要频繁进行系统调用的 benchmark 上比较明显
图里红色网格线部分是 _PyEval_EvalFrameDefault 函数的开销，一个函数占比大概四分之一左右。

源文件粒度

把前面解释器本体的开销进一步分解，从 CPython 的 C 语言源文件粒度来看。这个图是一个小提琴图，表明不同 benchmark 上开销数值的分布，左半部分是局部图，用比较精细的比例尺展开 10% 以内的开销分布。

最突出的是 Python/ceval.c，这是负责解释执行的。
下面几乎全部是 Objects / 目录下的源文件，也就是对各种对象的操作。
这其中另类的一个是一个名为 Modules/gcmodule.c 的源文件，它和 GC 有关。
所有没有列出的源文件汇总在最下面一行，它们单个文件开销中位数没超过 0.1%，加起来也没超过 7.7%。所有如果是优化 CPython 的化，关注列出来的源文件就好了。

函数粒度

然后是函数粒度。这部分其实倒也没什么新发现，也就是印证了前面提到的自定义类型属性访问开销和函数调用上下文开销挺大的。

函数粒度（列出内联函数）

但是如果把内联函数独立出来，那就有意思多了。这里可以看到有两个函数排名第二第三，分别是 _Py_INCREF 和 _PY_DECREF。因为 CPython 使用了引用计数，它们分别负责把引用计数 + 1 或者 - 1。非常简单的两个函数，而且也内联起来了，但是开销占比却不小，我们后面会讨论它们。

语句粒度

最后是语句粒度，也就是 _PyEval_EvalFrameDefault 函数内部的开销分解。这一部分比较琐碎，如果不是专门从事 CPython 优化的开发人员可以不必在意其中细节。不过有一点值得留意，就是这个 dispatch 的开销。什么是 dispatch 呢？CPython 不是需要解释执行各个字节码指令么，然后解释完一个指令，需要取下一个指令，然后解码，再跳转，这就是 dispatch。如下图所示，CPython 就用一个名为 DISPATCH（当然还要 FAST_DISPATH）的宏来实现这一系列操作。它占了整个解释执行过程开销的三分之一。我们后面也会讨论和它有关的问题。

GC 问题

不过，还是先从到前面提到的 GC 问题开始讨论。

各种各样的 GC 算法，不说成千上万也得有成百上千。但是变来变去，归其根本，就两个思路：

一个是基于追踪，它从若干个根对象开始，进行可达性分析，不可达的对象就是垃圾，执行回收。缺点呢，就是不能逐个回收，程序运行一段时间后就要停下来等垃圾回收器运行一遍。
另一个是基于引用计数，每个对象一个计数器，计数器一旦变成 0 就回收。它很简单、也可以逐个回收对象，但是有一点空间成本，而且最为致命的是存在循环引用问题。

CPython 中的 GC

那 CPython 是怎么做的呢？

最古老的版本，Python 1.x，只有引用计数，如果有循环引用，不好意思，Python 程序员需要手动解决问题。到了 Python 2，它终于加上了一个基于追踪的 GC 模块了，所以不用再去操心循环引用了。因此，CPython 用的是一种混合的 GC 实现，引用计数有，追踪也有。

那哪个部分对性能的影响最大呢？我们对比了不同 benchmark 上二者的开销的大小，以散点图的形式画了出来。这里的横座标 LOPC，是我们自定义的一个度量，就不展开，只需要知道它代表了 benchmark 自身的某种特性即可。总的来说，可以看到，tracing 的开销处于较低水平，而且不同 benchmark 之间变化不太明显。而引用计数的开销，就大了一个数量级了，而且基本上和这个 LOPC 度量正相关。

引用计数的IPC性能

引用计数，明明就是把一个整型变量 + 1/-1 的事，这么简单的操作为什么会有这么大的开销？很自然地，大家会想到内存访问的速度问题，因为引用计数器在对象结构体里，对象在堆内存中。很可能对象所在的内存并未出现在 CPU 缓存中，然后内存这么一读一写，速度自然就拉下来了。

但事实是么？我们测量了修改引用计数这个两个操作的的 IPC 性能，如果是因为缓存失效的话，CPU 会失速，IPC 应该明显降低。可是拿这两个操作的 IPC 和解释器整个运行周期全局平均的 IPC 对比，发现差异好像没那么明显。

_Py_INCREF 的 IPC 相对整体确实还是偏低了些，所以推测是，还是有一些缓存问题的，虽然不多。
_Py_DECREF 这边，它的 IPC 和整体 IPC 没有统计学差异，说明几乎不存在缓存问题。我们的推测是，一般来说增加引用计数要早于减少引用计数，所以等它减少计数时候，对象已经被 CPU cache 给缓存住了，速度正常。另外，它还要判断引用计数是否为 0，进行有个条件跳转，为 0 的话要发起回收对象的函数调用，一般来说条件跳转和函数调用都是很费时的，但是它们也没有降低 IPC。

总的来说，引用计数费时，主要就是因为使用过于频繁，就这么简单直接的原因。

取消引用计数

在 GC 领域，有一条经验法则是，GC 开销占比超过 10%，就说明用错了方法。引用计数中位数开销是 12.0% 了，最高逼近 20%。因此，我们认为，至少对 CPython 而言，它不是一个好方案，更像是一个历史包袱。而且，因为有引用计数，CPython 里面还存在一个 GIL 的问题，一个全局锁，导致 CPython 的多线程目前只能并发，不能并行。

所以，也许可以考虑直接取消掉引用计数，干脆用纯粹基于追踪的 GC 方案得了。JVM 和 JS 引擎是这么做的，其他 Python 解释器实现比如 PyPy 也是如此。原理上并没有什么问题，问题还是在于历史包袱太多，特别是很多 C 语言写的第三方库，依赖了目前引用计数的方案。不过有个名为 HPy 的项目试图解决这个过渡的问题，也许未来 CPython 真的可以取消引用计数。

调整GC tracing阈值

那么 tracing 这边，有没有问题呢？有的！我们发现有两个 benchmark 的 tracing 开销特别高，具体一看，发现是测试 Python 启动性能的两个 benchmark。所以我们猜测是不是 GC 阈值太低了？调用得过于频繁，明明没有垃圾还反复去收集，浪费时间。所以我们做了个小实验，把 GC 阈值设置成 2 倍、4 倍、8 倍等等，还有 2 的 20 次方倍，这就基本等同于关闭了追踪垃圾回收了。结果发现，整个进程的内存占用基本不变，但是时间消耗都降低了 3% 左右。也就是说，至少对于 CPython 的启动过程来说，tracing-based GC 是徒劳无功地调用得过于频繁了。那么其他 benchmark 呢？不排除也有这种现象。

因为现在 CPython 的 GC 阈值是固定的，所以一个优化建议是：也许可以设计一套方案，让 GC 的阈值变得动态可调节，几次回收发现没有垃圾，那接下来阈值就高一点，别再反反复复调用了。

dispatch问题

GC 问题就分析到这，接下来还是关于 dispatch 问题的。

dispatch

再介绍一遍 dispatch，解释器解释完一个指令后，“取指令、解码、跳转” 等这一流程称为 dispatch。不过可能在有些研究中，dispatch 是指狭义的 dispatch，只包括其中的跳转操作，也就是图中这个 goto 语句。因为在传统的观点中，这个跳转目的地址多变，分支预测很难，是整个过程中最耗时的环节，是解释执行的性能瓶颈，所以关注点都在它这。

threaded code

如果不是专门研究解释器性能的，可能会有人问：为什么要用 goto，用这个 while 循环加一个 switch 不好么，一个指令执行后，break 出去，进入下一次循环然后再次 switch 一下？这是一种最直观的设计，但是过去认为有一些问题。

因为每个指令都从 switch 这里跳转，CPU 根本猜不出来你要 switch 到哪里去，于是，速度就不行了。

反之，如果在每个指令的结束位置分别 goto，就相当于从从原来 switch-case 1-N 的跳转变成了每个指令到下一个指令的 N-N 跳转。CPU 根据跳转发起的位置不同，更有可能猜出来跳转的目的地在哪，速度会高些。

这种方案叫 threaded code，CPython 很早就用上了，并且当时发现可以让解释器速度快个 15-20%。

真的改进很多么？

但是，这一切都发生在很早之前，现在呢？分支预测还是那么容易失误么？threaded code 还是带来了很大收益么？

我们定义了一个度量，MPKC，也就是程序运行 1000 个周期，CPU 分支预测失误了几次。

左下角这个散点图里，红色的散点对比了不同 benchmark 启用和禁用 threaded code 的 MPKC，横座标是启用，纵座标是禁用。回归线斜率 1.227，也就是禁用之后，分支预测错误多了 22.7%，还是有效果的，不过效果有限。然后，从另外一个方面看，我们说，threaded code 的好处是把跳转分散了开来。可是前面我们发现 LOAD_FAST 这个 opcode 的使用频率高达 27.5%，也就是说 27.5% 的 dispatch 跳转还集中在它这。那它的 MPKC 是多少呢？看图中绿色的散点，做一条回归线，斜率是 0.267，也就是它的 MPKC 占比 26.7%，和使用频率 27.5% 基本一致，还小了一点。也就是说，很多 dispatch 跳转都集中在它这，却也没引发什么灾难。反过来其实也印证了，把 dispatch 跳转分散开来，效果也很小。

dispatch——并非瓶颈

除了相对对比，再来看绝对值。

1 个 misprediction 浪费约 CPU 流水线长度个的 CPU 周期，1MPKC 在我们的设备上大致等价于 1.6% 的运行开销。

图中绿色的部分，是由 dispatch 导致的 MPKC 值（黄色部分是由于解释器其他部分引起的，这里不做讨论）。从中位 benchmark 看，dispatch 导致的 mispredition 对应的开销只有 1.1%；最大的 benchmark 上，为 6.2%。整体处于很低水平，因此 threaded code 减少 misprediction 带来的收益更是有限。

再来做一次验证，还是用 IPC 来度量，发现 dispatch 部分的 IPC 性能与整体相比并无统计差异。并不是像很久前的研究中说的那样，dispatch 的跳转部分很难预测，导致 CPU 失速。主要也是因为现在 CPU 越来越先进了，预测得越来越准，哪怕是使用普通的 switch-case 方案也能预测得很准确。所以，现在 dispatch 还是耗时了不少时间，是因为取指、解码、跳转这一系列操作非常冗长，并不单单是因为跳转操作的特殊性。

小结

解释视角的性能分析，大概有这么些结论：

首先是 CPython 的 GC 中，引用计数开销占了上风，高了一个数量级
一个可能的优化是干脆取消引用计数，纯粹使用基于 tracing 的 GC
然后 tracing 这边可以设置自适应阈值来进一步提高性能
最后关于 dispatch，古早的研究都认为它是解释器性能的重中之重，但是现在发现它的意义并没有那么突出。

3 性能优化

RegCPython：寄存器架构的 CPython

前面的都是实证分析，接下来谈谈优化。我们目前实现了一个优化尝试，也就是改造 CPython 为基于寄存器架构，就叫它 RegCPython。

架构之争：栈与寄存器

所谓栈架构，就是运算指令需要从一个栈上取出输入，然后把运算输出放回栈顶。至于变量的读写，则使用专门的 LOAD 和 STORE 指令。寄存器架构呢，每个指令的输入和输出都显式地编码在指令参数中，就不需要经过栈来中转。

两者架构，优缺点正好相反。栈式，设计简单，IR 体积小且生成快，解码速度有更胜一筹。寄存器式，指令数量会少很多，所以速度会快些。

	栈式	寄存器式
设计编写	易	难
IR生成速度	快	慢
IR体积	小	大
解码速度	快	慢
指令数量	多	少
运行速度	慢	快

CPython 用的是栈式，我们想，改成寄存器式的话，这些优点和缺点，会有多大的程度呢？

RegCPython

我们对 CPython 的修改集中在两个部分：

首先是前端，也就是编译器部分，需要修改字节码生成器，AST 还是原来那个 AST，但是现在需要生成寄存器式字节码。
然后式后端，也就是运行时部分，需要修改负责字节码解释的执行器，它需要接受寄存器式字节码。

其他的，诸如词法、语法、语义分析部分，或者 GC 系统和类型系统，都不改变，这样可以在最大程度上保证兼容性。

下面的图 c 展示了 RegCPython 编译出来的字节码，它是一种三地址码结构，并且把原来的 16 条指令缩减到 8 条。

benchmark 特质与分类

最值得关心的，肯定是修改前后的运行速度。不过在这之前我们需要先把所有的 benchmark 分个类。

我们定义了一个度量，叫做 $P / V$ 比，它意思是执行一个字节码指令，平均消耗多少个 CPU 指令。

$P/V=\frac{N_{physical\ instructions}}{N_{virtual\ instructions}}$

$P / V$ 值越低，同样多时间内执行的字节码指令越多，也就是说，字节码指令被密集地执行。这 benchmark 就接近于所谓的 “纯 Python 程序”。比如用纯 Python 进行各自逻辑问题的求解。反之， $P / V$ 值很高的话，一个 Python 指令背后是一大堆机器指令，这基本说明程序主要在调用各种库函数，Python 更多地充当为一种 “胶水语言”。因此，按照 $P / V$ 值，我们把全部 benchmark 平均分为三类，依次是：python-intensive，neutral，以及 binary-intensive。

研究解释执行的性能，自然是 python-intensive 的 benchmark 更为重要。

实验结果

速度对比（相对运行耗时）

下图中横座标是不同的 benchmark，以 CPython 的时间开销为 1，纵座标是相对时间开销。其中有颜色的是 RegCPython 的，没有颜色的是 CPython 的。之所以是一个小提琴图而不是一个点，是因为我们把每个基准都重复运行了很多遍，然后把这么多次重复运行的时间开销分布都画出来了。

在最好的一个 benchmark 上，时间消耗大概减少了 25%。
从所有 Python-intensive 的 benchmark 看，时间消耗平均减少 12.0%。
即使是从包括 binary-intensive 的所有 benchmark 平均看，寄存器架构也是快了 6.2%。
并且，除了在少数几个 benchmark 上会略微慢一点点，绝大多数情况使用寄存器架构都可以让程序运行得更快。

空间代价（相对内存占用）

时间代价之外，是空间代价。我们继续把 CPython 的内存占用视为 1，修改之后的相对内存占用的分布，就是如下直方图。

内存消耗确实大了一点，但是多数的 benchmark 而言，增加的幅度都在 0.2% 到 2.6% 之间。不过有两个例外 mako 和 regex_dna 这两个 benchmark。因为对栈式架构来说，一个临时变量从栈上被弹出，它的引用计数立马会 - 1，然后可以立即被回收。而寄存器架构把变量放在寄存器中，临时变量只有在下一次写入时候才会被覆盖，所以引用计数不会立马减少。这就导致，可能有些对象，在栈式解释器中被回收得很及时，在寄存器式架构中被回收就有延迟。然后这两个 benchmark 刚好就是处理超长字符串的，一个字符串就有 1MB 大小，只要有两三字符串回收的慢点，内存占用就这么多了 10% 左右。

不过值得注意的是，引用计数，并不是 Python 语言的标准，所以前面我们才提出可以尝试使用纯粹基于 tracing-based GC。那如果未来真的没有引用计数的话，这里空间上的相对劣势会小很多。

开发代价（代码复杂度）

然后，是代码复杂度的对比。代码复杂度越低，开发起来越快，维护起来越容易。这里我们使用 C 语言语句数量和 McCabe’s cyclomatic complexity 两个度量，分别对比 CPython 和 RegCPython 的字节码生成器和字节码执行器源文件的复杂度。

结果发现，使用寄存器式架构，RegCPython 字节码生成器的代码复杂度要比原来低很多，也就是说，从同样的 AST 出发，编写一个生成寄存器式字节码的程序要比写一个栈式字节码的生成程序容易一点。这和一般的观点是完全相反的，一般的观点是说栈式更容易设计一些。然后执行器方面，二者复杂度差不多。不过 RegCPython 定义了好几个比较复杂的宏，所以预处理宏展开之后复杂度高一点。但是作为程序员，大家写的都是宏展开之前的代码，所以不必也没有多大问题。

总而言之，就是如果你是一门新语言的解释器开发人员，一开始就不要为了实现方便而选择栈式架构，因为它也没简单多少，寄存器架构也没麻烦到哪里去。

编译速度与 IR 体积

最后一个对比，关于编译的速度和生成的 IR 体积。我们取了 PyPI 仓库里下载量最高的 500 个包做实验。然后对比生成 pyc 文件的速度和 pyc 文件的相对体积。总的来看编译时间消耗小了一点点，文件体积大了一点点，简单概括就是半斤八两。所以一般观点认为的栈式代码体积小生成快，对 Python 解释器这边并不成立。

小结

从 CPython 到 RegCPython，我们定下了四个设计目标，可以说都满足了：

首先是速度要更快
然后内存占用和编译代价等其他方面，没有拖后腿的
再后式兼容性，从 API 到 ABI 都是兼容的
最后是复杂度，它也足够简单，易于维护

其他优化讨论

最后一部分是稍微介绍一下其他 Python 性能优化工作。

JIT

解释器是有极限的，对纯解释器性能做优化，要说精益求精还可以，但要说改头换面基本不可能。最根本的解决方案还得看 JIT。围绕 Python 的 JIT 尝试其实一直都不少，但也一直都不温不火。

最早的尝试应该是 Psyco，04 年的，但是后来维护不下去了，开发者让大家转投 PyPy。
PyPy 可以说是目前实践应用的最多的带 JIT 的 Python 解释器，但是它不兼容 C-API，导致二进制库不能直接移植，所以还差点火候。
Unladen Swallow 曾经可以说是众望所归，它是谷歌赞助的，而且还一度有 PEP 计划把它纳入 CPython 主线，但是最后还是维护不下去了，项目终止。
Pyston 和 Pyjion，这两个命运比较类似，都是开发着开发着就没人继续维护了，然后到了最近的 2020 和 2021 年，又双双复活了，github 上的提交也变得活跃起来。
Numba 的话，专用于科学计算，不能算是普适的 JIT。

总的来说就是，Python 的动态性太强了，导致 JIT 的开发比较困难。然后又要兼顾语言的兼容性和底层二进制接口的兼容性，历史包袱又很重，开发 JIT 属实有些 “劝退”，所以好几个项目做着做着就做不下去了。

Faster CPython与Python 3.11

然后如果是 Python 性能的研究者，个人觉得一定要关注的就是这个 Faster CPython 项目。

它是一个由 CPython 核心开发人员发起和参与的一个旨在改善 CPython 运行速度的项目，计划是四年之内把 CPython 速度提高到 5 倍，而且还不会破坏 Python 兼容性，也不会再极端情况让性能变得更差，甚至准备在 Python 3.13 的时候支持 JIT。

前几天 CPython 3.11 已经发布了第一个 beta 版，应用了来自 Faster CPython 的几个优化方案，速度达到了 CPython 3.10 的 1.25 倍，性能提升幅度比之前的 CPython 版本更新强了不少。不过正式版的话，按照以往的开发节奏，大概是要等到年底。

4 结语

以上就是我关于 CPython 性能分析和优化的全部报告内容，感谢大家的关注和倾听，欢迎进行探讨。

你可能感兴趣的:(技术文章,cpython,解释器,元编程,编程语言社区,技术分享)

店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
python中文版软件下载-Python中文版编程大乐趣
python中文版是一种面向对象的解释型计算机程序设计语言。python中文版官网面向对象编程，拥有高效的高级数据结构和简单而有效的方法，其优雅的语法、动态类型、以及天然的解释能力，让它成为理想的语言。软件功能强大，简单易学，可以帮助用户快速编写代码，而且代码运行速度非常快，几乎可以支持所有的操作系统，实用性真的超高的。python中文版软件介绍：python中文版的解释器及其扩展标准库的源码和编
Rust是否会取代C/C++？Rust与C/C++的较量 AI与编程之窗源码编译与开发 rust c语言 c++内存安全并发编程代码安全性能优化
目录引言第一部分：Rust语言的优势内存安全性并发性性能社区和生态系统的成长第二部分：C/C++语言的优势和地位历史积淀和成熟度广泛的库和工具支持性能优化和硬件控制丰富的行业应用社区和行业支持第三部分：挑战和阻碍学习曲线现有代码库的迁移成本生态系统和工具链的完善度社区和人才培养行业应用和推广法规和标准化第四部分：未来趋势和可能性行业趋势教育和人才培养兼容和共存行业标准化企业支持和应用开源社区和生态
我们一起喵喵喵米菲兴哥
2021-4-16星期五晴天今天忙碌了2件事情，车险和接种疫苗。对比平安的车险，电销的保险是优惠不少，还送电子门锁（不含安装费用），等会儿查核电子门锁的价格。今天在公司接种疫苗，上次公司安排到社区接种，有点心虚，没有去。这次安排到公司的，就接种吧。早晚要接种的，这次安排这么好，上班时间接种疫苗，直接干呢。下次的接种时间已经安排好啦。刚开始还感觉有点怕怕，皮肤消毒过后，就只有凉凉的感觉，护士的手一接
设计模式 23 访问者模式 WineMonk #设计模式设计模式访问者模式
设计模式23创建型模式（5）：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式结构型模式（7）：适配器模式、桥接模式、组合模式、装饰者模式、外观模式、享元模式、代理模式行为型模式（11）：责任链模式、命令模式、解释器模式、迭代器模式、中介者模式、备忘录模式、观察者模式、状态模式、策略模式、模板方法模式、访问者模式文章目录设计模式23访问者模式（VisitorPattern）1定义2结构3
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Go编程语言前景怎么样？参加培训好就业吗 QFdongdong
Go语言专门针对多处理器系统应用程序的编程进行了优化，使用Go编译的程序可以媲美C或C++代码的速度，而且更加安全、支持并行进程。不仅可以开发web,可以开发底层，目前知乎就是用golang开发。区块链首选语言就是go,以-太坊，超级账本都是基于go语言，还有go语言版本的btcd.Go的目标是希望提升现有编程语言对程序库等依赖性(dependency)的管理，这些软件元素会被应用程序反复调用。由
Lua 与 C#交互 z2014z lua c#开发语言
Lua与C#交互前提Lua是一种嵌入式脚本语言，Lua的解释器是用C编写的，因此可以方便的与C/C++进行相互调用。轻量级Lua语言的官方版本只包括一个精简的核心和最基本的库，这使得Lua体积小、启动速度快，也适合嵌入在别的程序里。交互过程C#调用Lua:由C#文件调用Lua解析器底层dll库（由C语言编写），再由dll文件执行相应的Lua文件。Lua调用C#：1、Wrap方式：首先生成C#源文件
UI 自动化的页面对象管理神器 PO-Manager TesterHome
原文由alex发表于TesterHome社区网站，点击原文链接可于作者直接交流。做UI自动化的同学都知道，UI自动化一个难点就是页面元素的变化，让自动化维护成为一个痛点。在此，为了减轻这个痛点，我在基于Page-Object模式的基础上开发了页面对象维护的工具。该工具为vscode的一个插件，可以通过vscode插件市场搜索PO-Manager来下载安装本文中的页面对象库文件基于json.一个元素
由于直接在一个回答中提供完整且多语言的游戏商城代码是不现实的（因为每种语言都有其独特的语法和库），我将为你概述一个游戏商城的核心概念，并提供几种不同编程语言的基本框架或示例代码段。 uthRaman 游戏 python 开发语言
商城系统概述hailiangwang.com游戏商城系统通常包含以下部分：用户系统（登录、注册、用户信息）商品列表（游戏、DLC、虚拟货币等）购物车系统支付系统订单系统2.示例框架（伪代码）首先，我们给出一个伪代码框架，描述商城的核心逻辑。plaintextclassUser:deflogin(username,password):#验证用户登录passdefregister(username,p
陪伴营||报名参加啦～千允
迎新班在七月份时举办了七月营活动，我参加了，通过活动对社区有了更多了解，也跟几个超有缘的同学建立了更紧密的联系，可以说是收获颇丰。所以，我一直期待着迎新班开启新的活动，如果有的话我一定参加。这是出于对“迎新班”这个团队的信任，也是对七月班班的信任和拥护，凡她组织的活动都会让人不虚此行。终于，迎新班•一年陪伴营的活动发布了公告，分为上下两个半学期。越来越像在学校读书的时候了，真是令人无限怀念的时光啊
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
odoo 开源版/企业版/社区版的对比分析 lijianhua_9712 odoo odoo
odoo的三个版本1开源版开发者odoo限制功能版本优点功能稳定，bug少缺点限制功能，进销存勉强可用2企业版开发者odoo中型企业功能优点功能稳定，bug少缺点授权费用昂贵3社区版开发者社区(1700余名专家）大型企业功能优点功能丰富，社区不受odoo公司控制，社区开发者基本都是资深erp技术专家，增加了大量细致功能缺点存在一些bug为什么用odoo社区版，不用odoo企业版呢1odoo企业版是
真的猛士梭梭柴
鲁迅先生说过：真的猛士，敢于直面惨淡的人生，敢于正视淋漓的鲜血。如今，每天看到媒体上奋战在一线的医生、环卫工人、志愿者、社区工作者……他们的身影或纤瘦柔弱，或高大魁梧，疲惫却坚定！谁不怕牺牲呢？谁没有亲人呢？谁不被疼爱呢？或许，猛士的含义因他们而更加富有内涵。感恩我们的英雄，为他们祈祷，也努力做好自己能做的一切。
mysql 隐秘后门_【技术分享】CVE-2016-5483：利用mysqldump备份可生成后门 Toby Dai mysql 隐秘后门
预估稿费：100RMB投稿方式：发送邮件至linwei#360.cn，或登陆网页版在线投稿前言mysqldump是用来创建MySQL数据库逻辑备份的一个常用工具。它在默认配置下可以生成一个.sql文件，其中包含创建/删除表和插入数据等。在导入转储文件的时候，攻击者可以通过制造恶意表名来实现任意SQL语句查询和shell命令执行的目的。另一个与之相关的漏洞利用场景可以参考。攻击场景攻击者已经能够访问
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p