编程语言Lab

基于语义的编译器测试

原文来自微信公众号：编程语言Lab- 基于语义的编译器测试
搜索关注编程语言Lab 公众号：HW-PLLab获取编程语言更多技术内容
如果读者想了解更多有关 类型系统相关的技术内容，欢迎加入 编程语言社区 SIG-程序分析。
加入方式：文末有小助手微信，添加并备注加入 SIG-程序分析。

视频回顾：

SIG-程序分析技术沙龙回顾｜Semantic-based Compiler Testinghttps://www.bilibili.com/video/BV1zY411b7uG?

# 研究背景及意义 #

今天的题目是编译器的测试，我先解释一下为什么这个题目本身有意义。

第一点，这个问题很重要。之前的讲座讲到了很多程序上面的漏洞，但这些只是单个程序的问题。如果编译器本身是有漏洞的话，那么理论上所有的程序都有可能有漏洞。因为所有的程序最终是在编译器上运行，如果编译器本身运行会出错，那么你没法保证这个程序的正确性。也就是说，所有程序正确性的分析是先基于这个编译器本身的正确性来做的。

第二点，现在很多新的语言层出不穷，比如智慧合约、Rust、Kotlin 等等。而且就算是传统的程序，比如像 C 或者 C++，一般认为 C 和 C++ 这种程序用了这么多年，几百万的程序员都写了各种各样的 C 程序，那么 GCC 或者 LLVM 这些编译器本身应该是比较正确了。但实际并不是，这几年大家发现这些编译器里面还是有存在很多漏洞。像刚才说的，这些漏洞理论上有可能会造成很大的麻烦。

最后一点，Tony Hoare，一个很知名的计算机科学家（大家学习过的 Quick Sort 就是他发明的），在 2003 年的时候给大家提了一系列的 Grand Challenges。他当时认为计算机科学，主要是指软件工程，形式化方法这些，缺少一些大的目标。就是说我们发了很多文章做了很多工具，但确实解决了很多很大的问题吗？好像并没有我们想象的那样。他就提了几个特别远大的目标，意思是说你们做计算机科学的最好像做物理的一样，如果有一些远大的目标，那么我们就可以保证这个领域不断的向前迈进。他其中提出的一个目标，就是我们要验证我们的编译器。如果我们连自己写的编译器，这是作为我们所有程序的基础，都做不到可以验证它的正确性，那么你要说我们可以验证别的大的系统的正确性，这个事情他觉得有可能需要打一个问号。

总的来说，我想说的是编译器的正确性这个问题本身很有意义。同时，为了解决这个问题，我们发展了一系列方法。这些方法本身也可能对解决别的问题有帮助。

# 问题定义 #

现在我们就来定义这个问题：一个编译器，你可以想象它就是一个函数，这个函数的输入就是你的源代码。比如说它可以是一个 Java 程序，或者你对智慧合约有些了解的话，它就可以是一个 Solidity 的程序。它的输出就是对应的机器码，对于 Java 来说是 JVM 上的 bytecode，对于 Solidity 来说，就是 EVM 上的 opcode。

那么我们的问题就是，给定任意一个程序，比如说 Java 程序，我们要保证原程序和通过编译器编译出来的程序，他们俩的行为是一致的。这个就是我们想要解决的问题。这个问题本身很难，因为给定一个语言以后，比如说 Java 或者 Solidity，你能写的程序有无穷多个，而我们要求任意一个程序进来，我们都能保证最后编译出来的程序是对的。

具体到怎么解决这个问题，我们需要解决三个比较小的问题。

我要怎么定义原程序的语义是什么？程序员用某一种语言来写某一个程序的时候，肯定是想达到某种目标的，肯定是基于对这个程序语言的某种理解来写的这个程序。这个理论上你可以理解为这就是我的这个程序想要的语义。
同时编译出来的那个程序，比如说 Java 的 bytecode、EVM 的 opcode，它本身也是有语义的，它的语义实际就代表了机器去执行这个东西，它应该执行出来什么效果。问题是我们要怎么定义这些编译完了的程序的语义？
如果我可以很好地定义原程序的语义和编译完的程序的语义。接下来问题就是我们要怎么证明给定任何一个程序，原程序的语义和对应的编译完的程序的语义是一样的？这里就要定义一个等价关系。这个等价关系要怎么定义，也是一个很大的问题。这个问题有很长很长的历史，很多人提出过很多不同的等价关系。

因为编译器是个很重要的东西。这么多年大家还是花了不少的精力想解决这个问题的。特别是 Tony Hoare 2003 年提出这个 Grand Challenge 以后的几年里，还是有不少的科学家做了很多尝试的。当然最后的效果不是特别好，过了几年以后大家慢慢就转战别的问题了。

# 编译器测试 #

# 方法

编译器的正确性的研究可以粗略的分成两类，形式化的证明，和测试。

## 形式化的方法

其中一个比较乌托邦的做法是，用一个很形式化的方法来很严谨的解决这个问题。比如说用形式化的方法来定义一个形式化的程序的语义，同时用一个同样的形式化的方法来定义对应的机器语言的语义，然后用一个理论证明的方法来证明这两个东西永远是一致的。当然这种做法代价很大。因为你需要：

第一步，把语言的语义完整地定义出来；

第二步，把机器语言的语义完整地定义出来；

第三步，通过人工的方法去证明对于任何程序，这俩都是等价的。

比较成功的一个例子是 CompCert verified compiler，它可以定义一个小小的 C 的子集叫 Clight。然后你给我任意一个 Clight 里面写的程序，或者说你只用某一部分 C 里面的语言特性的话，同时如果对应的出来的机器码是运行在 PowerPC assembly code 上面的，那么我可以保证这个结果是对的。

这已经是做的最好的一个结果了。比较苛刻一点地说，这个东西实际上很难有用。因为就算你可以做到这种程度，但程序语言是一个不断发展的东西。比如说 Java，这几年它发展很快，各种新的版本层出不穷。如果你通过这种方法来证明 JVM 的正确性的话，那么基本没法做。因为每次 Java 语言有些改动，你都要把这个东西重新做一遍。这是基本没法做到的。

## 测试

另一种做法是放弃这个理想，转而用一些简单的方法来找一些编译器里面的漏洞。最简单的做法就是手动测试。像 C 语言的编译器就有很多手写的测试用例，比如 SuperTest，包含了好几万个测试用例。如果你要用 GCC 或者 LLVM，或者写了一个新的 C 的编译器，你就应该跑一遍所有的这些测试用例。当然这些测试集不是免费的。这种做法的缺点在于维护这个测试集本身很难，同时很难说这个测试集本身有多全。

还有一种做法是自动生成测试用例。当然因为我们是在测试一个编译器，一个测试用例本身就是一个程序。比如说 C 的程序、Java 的程序，然后把这些程序扔到 GCC、JVM 里面跑，看它的结果对不对。这个也有 CSmith、EMI 等等一系列的工作。

# 如何自动测试

我们主要关注的是在自动测试，因为手动测试本身可做的不多，完全是一个人力的问题。具体到怎么做自动测试编译器，和自动测试任何系统一样，主要有 4 个问题我们要解决。

怎么运行这个测试用例？这个一般比较容易理解，比如说你要测试 Java
程序，那么 jUnit 就是帮你解决这个问题的。具体到测试编译器，就是说我们要怎么去运行一个测试用例。比如说测试 C 的话，就用 GCC、LLVM 去编译这个程序，让它跑一下看结果对不对就完了。
要怎么生成这些测试用例？理论上可以有无穷多个不同的程序，那么我们根据什么标准挑选我们认为更有意义的测试用例。
给定任意一个，比如说 C 的程序或者 Java 的程序，扔给 GCC 或者 JVM 去跑，我们怎么知道它出来的结果是对还是不对？这个叫 oracle 的问题。
test adequacy 问题。就是说怎么知道测试够了，比如我们现在要写一个新的编译器，我们怎么确定我们测试的够了，意思是我们能不能有办法说测试到这个程度这个编译器就不会有太大问题了。这个问题很难。

这些问题在现有的工作里是怎么解决的，我给大家举一个例子 EMI (Compiler Validation via Equivalence Modulo Inputs) [1]。他们做法是这样的，比如他们测试的是 GCC。

要怎么跑这些测试用例？很简单，就是用 GCC 来编译这个 C 程序，然后让它去跑。
怎么生成测试用例？他们做法也比较简单，就是假设已经存在一系列的现有的 C 程序。把这些现有的 C 程序拿过来，在里面随机地加一些死代码。死代码，简单来说就是不会运行到的代码，比如说原程序里有一个 if-then-else 语句, 这时候我们加个 else if(false) { …}。这部分新的代码肯定是不会被执行的，那么就是说加了这段代码以后，这个代码还是等价的。
怎么知道跑完以后，它的结果对不对？这很好理解，因为我们加的这个代码本身就是不会去影响原来的程序的运行的。那么我知道原来程序运行什么结果，现在这个程序运行还应该是什么结果。如果它的结果忽然变了，那么肯定就是编译器有问题。比如说一个可能的原因就是编译器做了一堆乱七八糟的优化，可能某个优化实现的地方是有问题的。加了这个代码以后，实际它不应该改变，结果它改变了，那么就是有问题。
怎么知道测试够了？这个问题他们是没有答案的。就我看到的所有文章来说，都没有提供一个答案。

这个 EMI 的工作本身做的还是很好的，也发现了很多 GCC 和 LLVM 里面的 bug。但我想说的是这个东西虽然很有用，但离我们想要的测试编译器正确性这个目标还是差的比较远。为什么这么说呢？我举个简单的例子，就 EMI 的例子来说，如果它做的只是加死代码然后看结果有没有变的话，那么就算那个程序算出 3+4=8，这个编译器的错你也是找不到的。它只能测试加了死代码不会影响你的结果，只是这样一个属性而已。

我们这边的想法是，如果你想要去测试编译器的正确性的话，那么理论上你一定要基于正确性来做。那么正确性是什么？编译器的正确性应该是它正确地实现了这个语言的语义。如果我们做编译器的测试的时候根本就没有用到这个语言的语义，那么这件事情我感觉肯定是没法做到很好的。这就是为什么我们提出了基于语义的编译器测试。

# 基于语义的编译器测试 #

#测试方法

我们这边提出的基于语义的编译器测试，具体怎么做呢？

第一步，我们要回答怎么运行测试用例？这个和原来的稍微有点区别。我们除了要用编译器编译运行一个测试程序，我们还要有一个办法来执行我们的语言的语义（这样我们才知道编译运行的结果对不对）。你可以想象我如果是一个很好的程序员的话，我对这个语言理解很透彻，那么给我一个简单的程序，我可以在我的脑子里根据它的语义运行一遍，预测它的结果是什么样。那么我就可以判断编译运行的结果对不对了。

第二步，生成哪些程序作为测试用例？虽然这个理论上有更好的办法，现在我们做到的程度还是基于变异。给我一堆现有的 C 程序也好、Java 程序也好、Solidity 程序也好，我们在上面定义了很多种不同的变异。比如说变异可以是我在这边加一个 if-then-else，或者在那边加一个函数调用等等。当然我们变异的时候要保证这个变异的结果还是一个合法的程序。

第三步，我要怎么知道最后执行的结果是对还是错？这个在有语义的情况下就比较容易了。就是说，我已经知道这个语言的语义了，那么根据这个语义我是确切的知道它应该的结果是什么。具体来说，我用一个可以执行的语义出来的结果去比对通过编译器编译完了运行出来的结果。如果两个结果是一样的话，那么说明这个编译器经过编译以后出来的程序，至少在这个程序的情况下是正确的执行了我要的语义的。

最后一个问题我们也有很好的答案。最后一个问题是说我怎么知道我测试够了？这个很容易理解，如果我已经把所有语言的语义给写出来了，既然一个编译器最终的目标是把该语言的所有语义正确的实现出来，那么只要做到每一条语义都正确的测试过了，至少我们可以有某种程度的保证说这个编译器是正确的。

# 具体的难点

第一个难点，也是这一系列工作最难的部分是怎么定义一个程序语言的语义？如果你问我的话，理论上作为一个计算机科学家，我认为如果你要定义一个新的语言，那么你一定要考虑它的语义是什么。最好就是你应该有一个办法可以用形式化的方法，把这个语言的语义到底是什么写出来。如果你写不出来，你当然也可以通过，比如说一些例子、一些文档来说明这个语义，但更好的还是把语义很明确的写出来。具体到怎么写，里面有很多的细节。比如说有各种各样的定义语义方法，最常见的是叫 operational semantics。就是大家学语言的时候最常用的一种语义。比如说你是怎么学 if-then-else 的，老师告诉你如果这个条件成立，执行这个 then branch；如果这个条件不成立，就执行 else。这就是 operational semantics。当然这不是唯一的定义语言语义的方法，还有一些另外的定义方法，比如说 axiomatic semantics。什么是 axiomatic semantics，举个例子。我们怎么定义自然数？我们可以用两个 axiom 来定义。第一条，1 是个自然数。第二条，任何一个自然数加 1 它还是个自然数。这样你就定义了所有的自然数。具体到程序语义，你也可以用这种 axiomatic semantics 来定义它的语义。还有一种是 denotational semantics，同样可以用来定义程序语言的语义。这边我就不展开讲了。这里有个问题是，如果我们的目标是想要测试编译器，那么用哪一种语义比较好？

其次，我怎么把这个语义变得可执行？这个本身也很难。如果你了解 C 语言的话，历史上有很多次尝试去定义它的语义。因为 C 刚开始没有一个很好的语义，有很多 C 程序的行为是未定义的，就是说它的语义没有定义好。虽然历史上尝试了好几次去定义 C 的语义，但是很多次定义出来的都不是一个可执行的语义。如果这个语义不可执行，实际上这个语义就很难用。因为它只是一些规则，人要去理解这个东西本身就很难。一个可执行的语义对于做程序的测试也好验证也好是很有意义的。

当然还有一个很实际的问题是说，定义一个语言的语义大概要花多少的功夫？大家一般都认为定义语义很难，因为一个复杂的语言像 Java，你要整个定义它的语义本身是很困难。比如说 C，大家花了几十年才慢慢把它的语义给总结出来。而最后就算你定义了这个语义，如果这个语言本身一直是在改进的（比如加了一个新的语言特性），那么我要去改这个语义多难。如果太难的话，那么你这个语义就算写出来也没用，因为很可能过了几天就没有用。

第二个难点，我们要做测试生成的时候，怎么去变异这个程序？就像我刚才说的，变异的时候，我们可以随机的加 if-then-else，或者随机的加个函数调用。但我们怎么保证这样得来的程序是有意义的。比如说加 if-then-else，那么里面你要填什么布尔表达式？同时你要保证这个表达式里面所有的变量都预先被声明并且可见。保证这些不容易。理论上这部分信息在编译器里面都是有的。就是说编译器里面肯定是做了各种各样的检查的，告诉你哪些是合法的程序，哪些是不合法的，但是要怎么系统的知道并利用这些信息是个难点。

第三个难点，我怎么知道我运行的这个程序和它的语义是相符的？假设我们的语义是可执行的，那么理论上我是知道它的结果的，然后我去比对 GCC 编译运行出来的结果是不是一样的。这个理论很简单，但实际操作的时候也会有一定的难点。比如说这个程序里面本身可能有一些不确定性。举个简单的例子，TensorFlow 里面有个函数 dropout。dropout 这个东西它本身是一个概率的行为，就是说它会随机的去掉 10% 的神经元，那么理论上就是说每次运行你有可能出来结果都会不一样。也就是说，只要它确实是去掉了 10% 的神经元，不同的结果都是正确的。那么问题就是，在有这些不确定性的情况下，我要怎么比对这个结果？还有更简单的例子，浮点数运算经常会有精度损失，那么很可能有时候结果稍微不一样，在这种情况下你要去决策，这个结果是对还是不对？

# 三个实验

## 实验 1: 测试 JVM

上面都是一些比较高层的讨论，具体到怎么做，我下面给大家讲三个例子。第一个是测试的 Java 的 JVM。第二个是测试 Solidity 的 EVM。如果大家知道智慧合约，就会知道 EVM 是现在很流行的一个编译器。第三个是测试 TensorFlow。对神经网络来说，我们认为 TensorFlow 相当于是一个编译器的角色。

我们先来讨论怎么测试 JVM，具体的流程如图所示。

第一步，我们先收集一堆 Java 程序，这个在 OpenJDK 或者 GitHub 上面很容易就找到了。同时我们会去做一些程序变异，生成一些新的程序。

第二步，我们利用现有的 Java 的测试工具，就可以对这些 Java 程序生成一堆的测试用例。然后我们同时跑 JVM 和 Java 的一个现有的可执行语义。之后去比对结果，如果结果是一样的，那么我们认为测试通过，如果结果不一样，我们认为测试不通过。同时，因为这个现有的 Java 的语义是由一堆规则来定义的，我们监测哪些规则被覆盖了，哪些规则没有被覆盖。如果一条规则没有被覆盖，那么我们试图通过变异生成一些新的程序来增加覆盖这些规则的几率。比如说我们发现很多特殊的赋值语句，比如说 *=、/= 这些，测试的不太够，我们做的就是去变异我们的测试程序，加了很多 *=、/= 语句。这个工作相对比较容易是因为 Java 语言的可执行语义已经有人写过了。15 年 POPL 上有一篇文章，UIUC 有个组花了很大力气写了一个基于 K 逻辑的 Java 语义 [7]。K 逻辑的好处在于，在 K 逻辑里面写了以后，你是可以执行的。可以理解为，在 K 逻辑里写完一个语言的语义以后，K 提供了一个解释器。就是说，K 可以一步步根据写的规则往下跑，那么就相当于去执行你这个语言的语义。具体到在 K logic 里面程序语义是怎么定义的，大家可以看下面这个例子。这个有点复杂，我就不具体讲了。定义这个东西本身还是不容易的。这也很好理解，因为 Java 这种比较复杂的语言，它本身语义已经很复杂了。我要确切的知道一个 Java 程序怎么运行，我要考虑很多很多的东西，比如说各种各样的环境变量、各种各样的包结构等等。

然后具体到做程序变异怎么做？这个就是我刚才说到的，比如说加一些新的语句，或者是说挑一个程序里原有的表达式，可以通过一定的变异的方法去把它改成一个新的表达式。只要保证这个新的表达式的类型是对的，基本上就没有问题。

举个简单的例子，假设我们发现 ++ 这个操作，在原来的 openjdk 里面的测试用例里测试的不够多。再假设原来的程序是 int a=2; a*=1。那么我们把右边的 1 做个简单的变异。比如把 1 变成 1+a++。因为变异完了以后这个表达式的类型是一样的，那么这还是个合法的程序。然后我们就可以通过比对这个程序在语义上执行的结果和在通过编译器执行的结果来测试编译器是不是有问题。

最后我们怎么确定我们的测试是不是足够了？就像我刚才说的，我们就是简单地去看是不是每条 K 逻辑里面的规则都被覆盖到了。也包括覆盖到了多少次，然后我们用这个次数来排序，那些最多被覆盖到的规则，我们认为最有可能是最正确的。这个也很好理解，如果大家经常用这种程序，那么一般来说不会有问题的。如果有问题的话早就被人修复了。如果有些规则没有被很好的测试到，那么我们根据这个规则看它描述的是什么语句相关的语义，再想办法把这个语句再加到我们要测试的那些程序里面。比如说我们发现 *= 在原来的 openjdk 的测试集里面就测试的很少，那我们就加了一堆 *= 在原来的这些程序里面。

## 实验 2: 测试 EVM

第二个实验我们测试的是 Solidity 的编译器 EVM。如果大家对智慧合约有一定了解的话，就知道智慧合约的正确性本身很重要。因为智慧合约里面都是钱，如果一个智慧合约里面出现一个错误的话，那么很可能造成很大的经济损失。

这边有个简单的 Solidity 程序的例子，这里面有个很小的溢出的错误。这个小错误让发这个币的人大概损失了 20 亿美元。但这只是这个智慧合约本身的一个错误。如果 Solidity 的编译器 EVM 有问题的话，那可能就不是一个两个合约有问题了。实际情况是，EVM 里面是有很多错误的。比如说我们组就发现了一些 bug。这也很好理解，相对于 C 和 Java 来说，Solidity 是一个很新的语言，它一共就没几年，大家也一直在更新，里面有 bug 那是很好理解了。

我们测试 EVM 的实验和测试 JVM 的方法基本是一样的。

第一步我们要有一个可执行的语义。Solidity 是一个相对比 Java 简单的多的语言。那么理论上定义它的语义比较容易。基于我们之前的经验，我们天真的认为用 K 逻辑来定义 Solidity 语义应该不难。具体就是照着 K 逻辑里的 Java 的语义写一堆类似的规则。这里面的细节我就不展开了。如果你确实感兴趣，欢迎联系我。我们刚开始很乐观地估计，大概三个月，两个博士生应该可以把这个事情搞定。我们这么有信心是因为 Solidity 确实不是一个很复杂的语言，同时我们和 UIUC 搞 K 逻辑那个组有合作。我们认为他们有经验，我们有时间，有基础，三个月应该够了。实际最后花了大概一年，中间有一度甚至觉得有点做不下去。同时我们发现定义出来的语言语义也会有问题。这个也很好理解，就是说所有的东西到最后都是人写的，人写的肯定是会有问题的。扯远一句的话，正确性这个东西本身是一个虚的概念，实际只存在一致性，不存在正确性。回到定义 Solidity 语义这部分，我们花了一年，把这个语义大概写完了（Solidity 里面主要的那些语言的 feature 我们都支持的）。因为这个工作量比较大，我们中途决定写几篇文章发表，结果还是不错的（见 [2]、[3]）。

这部分语义做完以后，接下来这几步都和 Java 那边差不多。比如说程序变异，和 Java 那边就完全一样。那我们怎么去看结果对不对？这个和实验 1 那边也基本是一样。唯一的区别在于 Solidity 里面用一堆很大的 Hashmap，它所有的变量实际都是存在一个巨大的 Hashmap 上。那么问题就是要怎么比对两个 Hashmap，这个稍微麻烦一点。最后怎么知道我们测试完全够了？这个和之前也是一样的，我们就是去看是不是所有的定义的 K 的那些规则都被覆盖到了。

具体这两个实验的结果是这样的。实验 1 我们测试的是 openjdk 13 的 JVM。我们大概有 700 多个种子测试程序。这些是 openjdk 里面自带的一些测试用例。我们写的用来变异 Java 程序的工具大概有 6000 多行。Java 的语义一共有 1385 条规则。Java 的语义还是比较复杂的。然后我们跑了 3 万多个测试用例，大概跑了一个星期。实验 2 我们测试的是 Solidity version 0.5.13。一共就 37 个种子测试程序。种子少的原因在于我们虽然花了很多精力去写它的语义，还是有不少 Solidity 的语言特征很难支持。我们写的 Solidity 的变异器有 5300 行。Solidity 的语义比较简单，一共有 304 条规则。我们跑了 5 万多个测试用例，大概跑了两个星期。

如上表所示，我们还是找到了一些问题的。比如说，我们找到了 4 个 Solidity 编译器里的 bug，和两个 JVM 的 bug。Java 本身测试的比较完备，然后就跑了一星期，找到 2 个 bug，我们还是相对比较开心的。有意思的是我们发现语义本身很容易出错，比如 K Java（Java 在 K 逻辑里的语义）是在 15 年的 POPL 上发表的，中间也经过了很多迭代，但我们发现在里面还是有很多的 bug。也就是说，定义语义本身也是个很难的问题。

至于我们找到的 bug 是什么样的，我给大家举几个例子。下面是一个 Java 的程序。

long a = 1L+0.1*3L //error: incompatible type

long b = 1L; b += 0.1*3L; //no error

这两行代码，理论上它们的效果应该是完全一样的。但实际上你用 JDK 来跑的话，你会发现第一行它是会报错的（incompatible type）。因为 0.1*3L 的类型是 float，这个和 1L 的类型（long）是不兼容的。但是如果你把它拆成两句，就没有出错了。这肯定是不合理的。

int a =2; a *= 1+a++; //the result is 9 but should be 6

上面的一个我们发现的 Solidity 里面的 bug。这个结果应该是 6，但是 Solidity 当时的版本运行出来的结果是 9。有鉴于 Solidity 里的算术大多是跟钱相关的，这种错误还是让人有点担心的。当然这些 bug 我们都报上去了。新的版本里面应该都已经被改过来了。具体的实验细节大家可以在 [5] 里找到。

通过这两个实验，我们得到结论是。第一，你要完整地写出一个可执行的程序语义还是挺困难的。第二，我们这两个工作都是基于 K 框架来做。首先 K 框架本身能支持多大的程序是个问题，因为 K 的运行速度比较慢。其次还有一个问题是，我们在 K 里面定义 Solidity 的语义的时候就发现，感觉我们又把 Solidity 的编译器又实现了一遍。因为我们实现的 Solidity 的语义是 operational。这个不是太好。因为编译器实现的也是 operational semantics。如果实现原来编译器的那个人对这个语言的语义这部分理解有误差的话，而我们这边又有相同的误差，那么很可能我们在实现这个语义的时候，也会有同样的 bug。结果就是这个 bug 不会被发现。最后一个结论就是变异程序本身很难。变异程序需要考虑各种各样的东西，比如这个程序变异完了以后是不是有合法，是不是意义等等。

## 实验 3：测试 AI 框架

最后一个实验是这样的，AI 特别是神经网络现在比较火。我们认为神经网络相当于是一种新的形式的程序。然后神经网络都是在比如说 TensorFlow、PyTorch 之类的框架上运行的。那么 TensorFlow、PyTorch 这些就相当于扮演了原来的传统程序的编译器的角色。那么上面提到的关于传统编译器的观点对这些 AI 框架也适用，就是说如果 TensorFlow 或者 PyTorch 这些框架里面是有 bug 的话，那么所有在上面跑的那些神经网络很可能都有问题。而且神经网络相对于传统的程序来说，就算里面有问题你都不容易发现，因为里面就是训练出来的一堆数字。

我们想要做最后这个实验，还有一个原因是这个做起来比较容易。相对于传统的程序，神经网络的语义相对来说很简单。不管是什么样的神经网络，CNN 也好、RNN 也好、CapsNet 也好，神经网络里面用到的数学函数实际就那么几种。那么理论上我把这些数学函数应该达到什么效果写出来是很容易的，也就是说神经网络本身的语义是很容易的。同时，如果我们可以把它的语义准确的描述出来，那么我们不只是可以做测试，还可以做另外的东西，比如说去做一些神经网络的自动修复（见 [4]），如果大家感兴趣后续也可以给大家讲。

我们具体怎么做的？第一步还是一样，我们需要写神经网络的语义。这次我们没有用 K 逻辑，而是用了 Prolog。大家如果没有学过 Prolog 的话，它是一种传统的 logic programming 的语言。Logic programming 和主流的 Java，C# 这些不太一样。比如要把一个 list 加和的话，那么在 Prolog 里就写两条规则就够了。

sumlist([], 0).

sumlist([H|T], N) :- sumlist(T, N1), N is N1+H

第一条，如果这个 list 是空，那就返回 0。第二条，如果是非空的话，那把第一个数字拿出来，和后面剩下的那些 list 里面的和加起来就是它的结果。大家可以看到这个程序和 Java,C# 之类的程序不太一样。换句话说，用这种程序来描述的语义更接近于我刚才说的 axiomatic semantics，就是通过一些规则来描述语义。

我们系统的在 Prolog 里定义了所有的神经网络里面经常用到的那些函数的语义到底是什么。比如说 dense layer 的语义，大概就是一些加权操作。用 Prolog 来写这个语义，我们发现很容易。比如我们刚才提到了程序里会有不确定性的问题，用传统的 operational semantics 是很难解决这个问题的，但在 Prolog 里就很容易，因为它是 axiomatic 的。我给大家举个简单的例子。比如说 dropout，它是一个概率的行为，就是说它只要随机的，比如说丢掉 10% 的神经元就可以了，到底丢掉哪些实际不重要。那么在这种情况下，我用 Prolog 来写也就很容易，我只要去数一下它到底丢掉了多少，然后算一下它的比例看是不是 10% 就好了，不需要去真正的说它到底丢掉哪一个。

总的来说，写 TensorFlow 的语义很容易。TensorFlow 里面一共就只有 79 个不同的 layer，其中 72 个我们都很快写出来了。大概也就花了一两个月时间。剩下的 7 个都有些特殊的地方，相对麻烦一点，当然现在也基本支持了。麻烦主要是因为它有很多跟 TensorFlow 框架本身相关的一些东西。

我们也发现绝大多数的 layer 还是比较容易写的。比如说下面这个表展示的是我们需要多少行 Prolog 语句来描述一个 layer 的语义，你可以看到绝大多数在 40 行以内，只有很少数需要 40 行以上来描述它的语义。这个说明它的语义还是比较简单的。然后我们同时发现 TensorFlow 虽然很多人用，实际它的语义还是有很多地方是没有明确的。我们在这个过程中发现了不少问题，也反馈了，他们也确实改了一些东西。

刚才是说怎么写语义，下面来说说怎么去变异神经网络。变异神经网络就很容易了，因为在神经网络里面，实际你可以做的就是加减各种各样的 layer，或者改 layer 间的互相关系，这个还是很容易的。举个比较有意思的例子，比如说我们随机生成了下面这个神经网络，里面用到了 cropping。Cropping 简单来说就是说把某一些维度给去掉。

我们发现了一个很有意思的问题。我们在 cropping 的时候，因为我们已经有语义了，我们知道 cropping 里的这几个系数需要满足什么样的条件。比如说第二个系数和第三个系数是互相有关系的，这个关系是不能违反的，不然就会有问题。比如在这个例子里，第二个和第三个系数是一样的，它实际把所有的维度都 crop 掉了。结果就变成了空的。我们发现 TensorFlow 在这种情况下它不会报错，而根据我们的语义，我们就发现这是有问题的。

具体来说，我们测试 TensorFlow 的流程大概是这样的。首先就是我们自动生成了一些神经网络，也在网上收集了一些神经网络。然后开始变异，就是在这边加一个 layer，在那边加一个 layer。再去跑我们的语言的语义，然后去跑 TensorFlow，最后看出来结果是不是符合语义的预期。因为我们有语义，我们确定的知道，比如说神经网络里面这些系数它应该满足什么样的条件，根据这些条件我们就很容易生成合法的神经网络。我们大概算了一下，我们生成的 99% 的神经网络都是合法的。比较而言，当时最好的做法实际也就大概只有 25%。最后我们是怎么确定我们生成的测试用例够了呢？我们用 Prolog 自带的工具统计每条规则的覆盖度。刚才提到的用 K 来运行这些语义速度比较慢。我们换成 Prolog 以后，我们做的第一件事情就是去试验一下 Prolog 是不是更快。我们发现确实是这样的，Prolog 作为一个程序语言，它的效率还是相对比较好的。比如我们跑了一个有 50 个 layer 的神经网络（已经不算太小了），也就是几秒钟到分钟就可以跑完。当然网络越复杂的，每一层 layer 越多，花的时间也越久。

这个实验的结果大概是这样的。我们发现了 TensorFlow 里面三个比较严重的问题。其中两个已经被修复，还有一个正在被审查。同时我们发现了 TensorFlow 里面的出错信息不是很好。有时候明明是同样的原因，在不同的情况下，它的出错信息不一致。我们就又额外的生成了很多有错的神经网络，去看 TensorFlow 输出的信息到底有多少情况下是有意义的。是否有意义还是根据我们的语义来判断的，因为根据语义我们是确定的知道为什么这个东西是有问题的。我们发现 TensorFlow 的出错信息经常性的和它的真正原因关系不是特别大。具体的实验细节大家可以在 [6] 里找到。

# 总结 #

我这边通过这三个实验，主要想说明的这个问题是：如果我们想很好的去解决一个问题，那么我们一定要把这个问题定义的很清楚。比如很多工作都在讨论程序正确性的问题，那么我们认为一定要先说明什么是程序正确性，那么很多程序分析的工作才是有意义的。回到编译器的正确性问题，语言的语义正好定义了编译器的正确性。如果缺少这个正确性的标准，那么我感觉这个问题你再怎么试图去解决，离真正的目标都会差的比较远。

如果我们要做一个新的语言，做一个新的编译器，那么手动测试是一定会做的，但很可能就是远远不够的。就按 GCC、LLVM 最近的测试结果来看，GCC、LLVM 那么多人用了那么几十年，还是可以被找到很多 bug。很大程度上就说明这些编译器里面实现的这个语义本身还有很多的问题，那么结论就是我们一定要用一个系统的方法来检查，是不是语言的语义都被完整的正确的实现了。

参考

[1] Compiler Validation via Equivalence Modulo Inputs https://www.vuminhle.com/pdf/pldi14-emi.pdf

[2] Jiao Jiao, Shuanglong Kan, Shangwei Lin, David Sanan, Yang Liu and Jun Sun: “Semantic Understanding of Smart Contracts: Executable Operational Semantics of Solidity”, S&P 2020.

[3] Jiao Jiao, Shang-Wei Lin, and Jun Sun: “A General Formal Semantic Framework for Smart Contracts”. FASE 2020.

[4] Bing Sun, Jun Sun, Pham Hong Long and Jie Shi: “Causality-based Neural Network Repair”, ICSE 2022.

[5] Richard Schumi and Jun Sun: “SpecTest: Specification-Based Compiler Testing”, FASE 2021. EASST “Best Paper at ETAPS 2021”.

[6] Richard Schumi, and Jun Sun: “ExAIs: Executable AI Semantics”, ICSE 2022.

[7] Denis Bogdanas, Grigore Rosu: K-Java: A Complete Semantics of Java. POPL 2015.

你可能感兴趣的:(技术文章,编译器测试,程序分析,技术分享,编程语言社区)

软件测试基础知识必备之浅谈单元测试程序员阿沐软件测试软件测试单元测试
什么是单元测试？单元测试是指，对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作，这里的最小可测试单元通常是指函数或者类。单元测试都是以自动化的方式执行，所以在大量回归测试的场景下更能带来高收益。单元测试代码里提供函数的使用示例，因为单元测试的具体表现形式就是对函数以各种不同输入参数组合进行调用。如何做好单元测试？1）代码的基本特征与产生错误的原因无论是开发语言还是脚本语言
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
202年充电计划——自学手册网络安全（黑客技术）网安康sir web安全安全网络 php 开发语言
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
美团-测开陈陈爱java postman
【软件测试】白盒测试与黑盒测试_白盒测试和黑盒测试-CSDN博客软件测试理论与实践：涵盖数据库、网络、自动化测试-CSDN博客对测开的理解通过技术手段来测试和优化软件，测试功能是否能正常运行，存在哪些漏洞，提高系统的稳定性。而且思维要活跃，能够构建一些测试体系。分析产品需求，参考技术方案，指定合理高效的测试方案，编写清晰的测试用例发现、定位、跟踪产品缺陷，协同开发解决问题开发高效的自动化测试工具
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
02自动化测试常用函数不会算法的笨小孩测试前端 javascript html 测试
一、元素定位1、查找元素①find_element(方式,"元素")//查找一个元素②find_elements(方式,"元素")//查找多个元素code：find_elements的使用，返回值是一个列表importtimefromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefromseleni
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
使用Truffle进行智能合约测试 25号底片t 智能合约区块链网络
1、Vscode下安装Solidity插件，change到指定的solidity编译器的版本下2、Truffle开发框架的安装：npminstall-gtruffle3、在workspace下新建一个truffle-test的项目目录，执行truffleinit初始化项目D:\WorkSpace\4、在migrations目录下新建一个js文件：1_deploy_contracts.js（注意文件
MyBatis学习：基本使用 Landy_Jay mybatis 学习 java
学习之前：MyBatis是一款优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。2.1向SQL语句传参2.1.1mybatis日志输出配置MyBatis配置文件详解：官方文档：mybatis–MyBatis3|简介标签：用于选择MyBatis配置环境的标签，如开发、测试和生产环境需要不同的配置。更换环境，只需更开标
c++类和对象(中篇)上朽棘不雕 c++学习 c++开发语言
在上一篇博客中学习了一些类和对象的基础,下面让我们一起来看看这部分比较难以理解的重点部分吧.在中篇我主要学习了默认成员函数以及其中包含的运算符重载.在这篇中主要分享下默认成员函数的前三个.赋值函数以及其中包含的运算符重载的知识见下.类和对象的默认成员函数默认成员函数就是指在一个类中,就算用户没有显示实现,编译器也会自动生成的成员函数.在一个类中,编译器会默认生成6个成员函数.分别是构造函数,析构函
MDK（Keil μVision 5）的编译过程及文件类型全解 froxy 工具 arm stm32
MDK（KeilμVision5）的编译过程及文件类型全解一、编译过程MDK的编译过程主要分为预处理、编译、汇编、链接、生成可执行文件、格式转换六个阶段。以下是详细流程：预处理（Preprocessing）工具:armcc（ARMC/C++编译器）输入文件:.c（C源文件）、.h（头文件）输出文件:.i（预处理后的临时文件，默认不保存）作用:展开宏、处理条件编译指令（如#ifdef）、合并头文件到
Jira获取story信息更新子任务状态脚本技术实现吾爱乐享 w w w w .f e n
title:Jira获取story信息更新子任务状态脚本技术实现tags:-Jiracategories:-Jira一、项目背景在Jira项目管理系统中，当story主任务处于特定状态（如“READYFORPM”或“已关闭”）时，需要对其所有子任务的状态进行更新。为了实现这一自动化操作，编写了一个Python脚本，以提高工作效率和准确性。二、技术选型编程语言：Python，因其简洁易读的语法和丰富
元数据驱动的设想吾爱乐享 python
title:元数据驱动的设想tags:pythoncategories:python文章目录1.背景针对相似结构的表单，为了提高ui自动化编写效率，减少以减少重复工作，设想是否可以设计一个针对neoUI2.0通过元数据驱动的方式适应不同业务对象的测试框架2.设计元数据模型-字段名-字段类型-是否必填-是否只读-默认值-业务逻辑（可选，后期扩展）3.构建自动化测试框架利用现有的RF框架已实现的功能，
基于32单片机的无人机直流电机闭环调速系统设计赵谨言论文毕业设计经验分享
标题:基于32单片机的无人机直流电机闭环调速系统设计内容:1.摘要本文针对无人机直流电机调速需求，设计了基于32单片机的无人机直流电机闭环调速系统。背景在于无人机应用场景不断拓展，对电机调速精度和稳定性要求日益提高。目的是开发一套高精度、响应快的闭环调速系统，以提升无人机飞行性能。方法上，采用32单片机作为控制核心，结合编码器反馈电机转速信息，运用PID控制算法实现闭环调速。通过实验测试，结果表明
解锁区块链智能合约的未来：构建支持仿真测试的MySQL环境墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术快速发展的今天，智能合约作为其核心组件之一，正在改变我们处理交易、管理资产乃至构建商业逻辑的方式。然而，对于许多开发者而言，在正式部署之前如何有效地测试和验证智能合约的行为仍然是一个不小的挑战。本文将详细介绍如何设计并实现一个基于MySQL的支持智能合约仿真执行的环境，使您能够在传统的关系型数据库中体验到智能合约的强大功能。一、为什么选择MySQL？尽管以太坊等平台提供了专门用于编写和
嵌入式硬件设计 — 智能设备背后的隐形架构大师 m0_74825238 面试学习路线阿里巴巴嵌入式硬件架构
目录引言?一、嵌入式硬件设计概述（一）需求分析（二）硬件选型（三）电路设计（四）PCB制作与焊接（五）硬件调试与测试（六）软件移植与开发二、嵌入式硬件选型（一）微控制器（MCU）/微处理器（MPU）（二）存储器（三）传感器与执行器（四）电源管理芯片（五）通信接口芯片三、嵌入式硬件代码开发（一）开发环境搭建（二）底层驱动程序开发引言嵌入式系统已经渗透到我们生活的方方面面，从智能手机、智能家居到工业自
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
Spring Boot 外部化配置 (Externalized Configuration) 超详解：灵活管理应用配置，打造可移植、可扩展的应用无眠_ spring boot 数据库 oracle
引言在SpringBoot应用开发中，配置管理是至关重要的环节。不同的环境(开发、测试、生产)通常需要不同的配置参数，例如数据库连接、端口号、日志级别、第三方API密钥等等。SpringBoot外部化配置(ExternalizedConfiguration)提供了一套强大的机制，允许我们将应用的配置从代码中解耦出来，并通过多种外部来源进行灵活管理，从而打造出可移植、可扩展、易于维护的SpringB
Kotlin代码示例及详细解析（Kotlin 1.3.11）淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明//1.基础变量声明//声明实例变量AAA1，类型为Int，初始值为0，类似C语言先声明后初始化的习惯varAAA1:Int=0//声明实例变量AAA2，类型为Double，初始值为0.0varAAA2:Double=0.0//声明实例变量AAA3，类型为String，初始值为空字符串varAAA3:String=""//2.静态变量声明//声明静
原创LabVIEW与台达EtherCAT运动控制卡完整测试程序代码 LabVIEW热爱者 labview
利用LabVIEW调用台达提供的库函数，控制台达EtherCAT运动控制卡，实现初始化、IO、运动控制、模拟量读取等功能。LabVIEW2013以上版本可以打开。可实现单轴、多轴运动控制。
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
API 测试承悦不会玩 API
前提概要本文章主要用于分享API测试基础学习，以下是对API测试的一些个人解析，请大家结合参考其他文章中的相关信息进行归纳和补充。API测试描述什么是API？API是应用程序编程接口（ApplicationProgrammingInterface）的缩写。它是一组定义、协议和工具，用于让不同的软件应用程序之间进行交互和通信。以下从几个方面为你详细介绍API：功能：1.提供服务接口2.数据交互工作原
Gone v2 使用 Gone Viper 组件进行本地配置 dapeng-大鹏 Gone框架介绍 Gone框架配置管理 Viper配置组件多格式配置文件配置自动加载机制环境变量配置覆盖层级化配置结构 Go应用配置注入
发现gone-io/gone：一个优雅的Go依赖注入框架！它让您的代码更简洁、更易测试。框架轻量却功能强大，完美平衡了灵活性与易用性。⭐如果您喜欢这个项目，请给我们点个星！您的支持是我们前进的动力！欢迎贡献代码或提出建议，一起让gone变得更好！‍#golang#依赖注入#开源github.com/gone-io/gone本文原地址：https://github.com/gone-io/goner
kotlin基础淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明importkotlin.experimental.ExperimentalUnsignedTypes//定义数据类A1，类型前置dataclassA1(valrepresentation:UInt){//这里可以添加数据类的其他方法或属性，但当前仅包含一个属性}funmain(){//1.集中声明变量，类型前置，符合C语言风格的变量声明习惯//无
1，Kotlin代码案例：决属性与方法冲突的类和对象操作演示淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1classA1{//定义静态变量BBB，类似C语言中的全局静态变量companionobject{varBBB:Int=0//初始化静态变量BBB为0}//定义实例变量AAA，包含整数和字符串类型，类似C语言中的结构体成员变量varAAA_int:Int=0//整数类型的实例变量，初始化值为0varAAA_s
6，Kotlin代码案例，并按照要求对变量、类、方法等进行了改写淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1，类似一个简单的控制器类，用于处理Web请求相关操作classA1{//定义静态变量BBB，这里模拟一个可能的全局配置相关的静态变量companionobject{varBBB:Int=0}//实例方法CCC，模拟处理"/helloworld"和"/"路径的请求funCCC():Any{//返回一个字符串，模
Angular 单元测试中的 Mock 技巧 t0_54program 编程问题解决手册 angular.js 单元测试 log4j 个人开发
在Angular应用开发中，单元测试是确保代码质量的重要环节。特别是当我们使用依赖注入时，测试变得更加复杂。最近，我在处理一个Angular项目时，遇到了一些问题：如何正确地在单元测试中Mock一个服务类，尤其是在使用了Standalone组件的情况下。下面我将详细介绍如何解决这个问题。背景介绍假设我们有一个名为TestDialogComponent的组件，它使用了Ionic的ModalContr
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option