Evan_Gu

【深入理解计算机系统】程序是如何运行的

程序是如何运行的

现代计算机存储和处理的信息以二值信号表示，程序对于计算机而言就是一串二进制数据流，以流水线的方式进入CPU进行运算。主要在;CPU与内存之间进行数据传递。本文将从程序源码的结构与表现形式开始，到编译生成可执行文件，再到执行文件的加载，最终到执行文件的运行整个过程进行梳理。

1 程序的结构与表现形式

大多数计算使用8位的块，即字节（byte)，作为最小的可寻址的内存单元。程序对象，即程序数据、指令和控制信息的字节集合，编译器和系统运行时将存储空间划分成更可管理的单元来存储程序对象。

计算机执行机器代码，用字节序列编码低级的操作，包括处理数据、管理内存、读写存储设备上的数据、以及利用网络通信。程序源码会经过编译器生成机器代码，编译器基于编程语言的规则、目标机器的指令集合和操作系统遵循的惯例，经过一系列的阶段生成机器代码。汇编代码是机器代码的文本表示，给出程序中的每一条指令。

计算机系统使用了多种不同形式的抽象，利用抽象模型来隐藏实现的细节。对于机器级编程来说，两个重要的抽象：
1. 指令集架构（Instruction Set Architecture, ISA）定义机器级别格式和行为，处理器状态、指令的格式，以及每条指令对状态的影响。
2. 虚拟内存地址，程序使用的内存地址是虚拟地址，提供内存模型看上去是一个非常打的字节数组。实际上又许多个硬件存储器和操作系统软件组合起来。

以C语言为例，编写程序mstore.c

long mult2(long, long);

void multistore(long x, long y, long *dest) {
    long t = mult2(x, y);
    *dest = t;
}

经过gcc编译器，产生一个汇编文件mstore.s

multstore:
    pushq %rbx
    movq %rdx, %rbx
    call mult2
    movq %rax, (%rbx)
    popq %rbx
    ret

上面代码中每行对于一条机器指令，比如, pushq指令应该将%rbx的内容压入程序栈中。

再将改mstore.c编译并汇编成目标代码文件mstore.o，该二进制文件中，又一段14个字节的序列，它的十六进制表示为：

53 48 89 d3 e8 00 00 00 00 48 89 03 5b c3

为了弄清这些14个字节表示的含义，可以通过objdump 反汇编该mstore.o 文件

可以看到，这14个字节分成若干组，左边是一条指令，右边是等价的汇编语言。

程序中包含过程、控制

过程
是软件中一种重要的抽象。它提供了一种封装代码的方式，用一组制定的参数和一个可选的返回值实现了某一功能。然后，可以再程序中不同的地方调用这个函数。设计良好的软件用过程作为抽象机制，隐藏某个行为的具体实现，同时又提供清晰简洁的接口定义，说明计算的是哪些值，过程会对程序状态产生什么样的影响。不同编程语言中，过程的形式多样；函数（funciton）、方法（method）、子例程（subroutine）、处理函数（handler）等等。

要提供对过程的机器级支持，必须要处理许多不同的属性。为了讨论方便，假设过程P调用过程Q，Q执行后返回到P。这些动作包括一下一个或多个机制：

传递控制。再进入过程Q的时候，程序计数器必须被设置位Q的代码的起始地址，然后在返回时，要把程序计数器设置位P中调用Q后面那条指令的地址。
传递数据。P必须能够向Q提供一个或多个参数，Q必须能够向P返回一个值
分配和释放内存。在开始时，Q可能需要为局部变量分配空间，而在返回前，又必须释放这些存储空间。

x86-64的过程实现包括一组特殊的指令和一些对机器资源（寄存器和程序内存）使用的约定规则。

控制
程序中的控制逻辑，例如条件语句if else，循环for do-while等。机器级指令的执行，有两种方式实现条件控制，一种将控制条件进行传递，一种是将不同条件计算结构进行传递。后一种方式在现代计算机中能提高程序运行的效率，代码中的指令都是按照在程序中出现的次序，顺序执行的，使用jump指令可以改变一组机器代码指令的执行顺序，从而实现条件操作。

为了实现条件控制，CPU中维护了一组单个位的条件码（condition code） 寄存器，它们描述了最近的算数或逻辑操作的属性。可以通过检测这些寄存器来执行条件分支指令，通常条件码有，CF:进位标志；ZF:零标志。SF: 符号标志；OF：溢出标志。

运行时调用栈

大多数语言过程调用机制采用栈数据结构提供的后进先出的内存管理原则。过程P调用过程Q的过程，如果上图所示。

2 程序代码的编译过程

预处理阶段，主要是修改原始程序，例如将#include 命令告诉预处理读取系统stdio.h的文件，并将它直接插入到程序文本中。结果得到的另一个C程序，以.i作为扩展名；
编译阶段，编译器ccl将文本hello.i翻译成文本hello.s，它包含一个汇编语言程序；
汇编阶段，汇编器将.s文件编译成一个二进制的文件，把这些指令打包成一种叫做可重定位的目标程序的格式，并将结果保存在目标文件.o文件中。
链接阶段，将各种代码和数据片段手机并组合并成可以执行的目标文件，简称可执行文件，可以被加载到内存中，由系统执行。

本节主要讨论链接阶段。链接可以执行与编译时，即将源代码翻译成机器代码时；可以执行与加载时，即程序被加载器加载到内存时；可以执行与运行时，也就是由应用程序来执行。

链接器是的分离编译（separate compilation）成为可能。我们不用将一个大型的应用程序组织成一个巨大的源文件，而时可以把它分解为更小、更好管理的模块。理解链接的工作原理可以帮助我们避免一些危险的编程错误、理解语言的作用域规则、理解一些重要概念（加载、运行程序、虚拟内存、分页、内存映射）、有助于理解共享库。

为了构造可执行的文件，链接器必须完成两个主要任务：

符号解析（symbol resolution）。目标文件定义和引用符号，每个符号对应于一个函数、一个全局变量或一个静态变量。符号解析的目的时将每个符号引用正好和一个符号定义关联起来；
重定位(relocaiotn)。编译器和汇编器生成从地址0开始的代码和数据节。链接器通过把每个符号定义与一个内存位置关联起来，从而重定位这些节，然后修改所有对这些符号的引用，使得他们指向内存这个内存位置。链接器使用汇编器产生的重定位条目（relocation entry）的详细指令，不加甄别地执行这样的重定位。

目标文件分为三种：

可重定位目标文件，包含二进制代码和数据，其形式在编译时可以与其他可重定位目标文件合并起来，创建一个可执行目标文件；
可执行目标文件，包含二进制代码和数据，其形式可以被直接复制到内存并执行；
共享目标文件，一种特殊类型的可重定位目标文件，可以在加载或者运行时被动态地加载进内存并链接。

3 执行文件

可执行的目标文件，通过加载器，加载到内存，共CPU调用运行。

进程是执行中程序的一个具体实例，程序总是运行在某个进程的上下文中。

进程提供了给应用程序的关键抽象：

一个独立的逻辑控制流，程序计数器PC值序列叫做逻辑控制流，每个PC值对应可执行目标文件中的指令，或者是包含在运行是动态链接到程序的共享对象中的指令。
一个私有的地址空间，进程位每个程序提供一种假象，好像它独占地使用系统地址空间。例如，在一台64位地址的机器上，地址空间是264 个可能地址的集合。进程为每个程序提供它自己的私有地址空间。一般而言，其他进程是不能访问该进程的地址空间所关联的内存字节。
每个私有地址空间有相同通用的结构，如下图所示

地址空间底部是保留给用户程序的，包括通常的代码、数据、堆和栈段。代码段总是从地址0x00400000开始。地址空间顶部保留给内核（操作系统常驻内存的部分）。地址空间的这部分包含内核在代表进程执行指令时使用的代码、数据和栈。

为了使操作系统内核提供一个无懈可击的进程抽象，处理器必须提供一种机制，限制一个应用可以执行的指令以及它可以访问的地址空间范围。处理器通常是用某个控制寄存器的一个模式为来提供这种功能，该寄存器描述了进程当前享有的特权。

进程运行有两种模式：
1. 内核模式（超级用户模式）
2. 用户模式

当设置了模式位时，进程就运行在内核模式中（超级用户模式）。一个运行在内核模式的进程可以执行指令集中的任何指令，并且可以访问系统的任何内存位置。

没有设置模式位时，进程运行在用户模式中。用户模式中的进程不允许执行特权指令（privileged instruction）,比如停止处理器、改变模式位、或者发起一个I/O操作。也不允许用户模式中的进程直接引用地址空间中内核区内的代码和数据。任何这样的尝试都会导致致命的保护故障。反之，用户程序必须通过系统调用接口间接地访问内核代码和数据。

操作系统内核使用一种称为上下文切换的较高层形式的异常控制流来实现多任务。内核为每个进程维持一个上下文明。上下文就是内核重新启动一个被抢占的进程所需状态。进程切换包含三个操作

保存当前进程的上下文
恢复某个先前被抢占的进程被保存的上下文
将控制传递给这个新恢复的进程

当进程A开始读取磁盘文件时，会通过执行系统调用read陷入到内核。内核中的陷进处理程序请求来自磁盘控制器的DMA传输，并且安排在磁盘控制器完成从磁盘到内存的数据传输后，磁盘终端处理器。

每个执行的程序，即系统中的进程，进程总可以处于下面三种状态：

运行，进程要么在CPU上执行，要么在等待被执行且最终会被内核调度；
停止，进程的执行被挂起，且不会被调度，当收到SIGSTOP、SIGTSTP、SIGTTIN或者SIGTTOU信号时，进制就会停止，并且保持停止知道它收到一个SIGCONT信号，在这个时刻，进程再一次开始运行。
终止，进程永远地停止了。进程会因为三种原因终止：1）收到进程终止的信号，2）从主程序返回；3）调用exit函数。

加载并运行程序

当使用execve函数在当前进程的上下文中加载并运行一个新程序。
（fork是在父进程下，创建一个新的上下文运行子进程）

#include 
int execve(const char *filename, const char *argv[], const char *envp[]);

当使用execve加载filename之后，启动代码设置栈，并将控制传递给新程序的主函数。
用户栈的典型组织结构：

信号
除了操作系统利用异常来支持进程上下文切换的异常控制流形式，另外一种更高层次的软件形式的异常，成为Linux信号，它运行进程和内核中断其他进程。

一个信号就是一条小消息，它通知进程系统中发生了一个某种类型的事件。每种信号类型都对应于某种系统事件。底层的硬件异常是由内核异常处理程序处理的，正常情况下，对于用户进程而言是不可见的。信号提供了一种机制，通知用户进程发生了这些异常。比如，当进程在前台运行时，你键入Ctrl+C，那么内核就会发送一个SIGINT信号强制终止它。当一个子进程终止或者停止时，内核会发送一个SIGCHLD信号给父进程。

传送一个信号到目的进程是由两个不同步骤组成的

发送信号，内核通过更新目的进程上下文种的某个状态，发送一个信号给目的进程。发送信号可以由如下两种原因：1）内核检测到一个系统事件，比如除零错误。2）一个进程调用kill，显示要求内核发送一个信号给目的进程。一个进程可以发送信号给它自己
接受信号，当目的进程被内核强波以某种方式对信号的发送做出反应时，它就接收了信号。进程可以忽略这个信号，终止或者通过之心一个称为信号处理程序的用户曾函数捕获这个信号。

一个发出而没有被接收的信号，叫做处理信号，在任何时刻，一种类型至多只会由一个待处理信号。重复发送在等待的信号，将会被内核抛弃。
linux 提供两种阻塞机制，隐式和显式

隐式，即内核默认会阻塞当前处理程序接受到的待处理信号，正好与该待处理信号类型相同的信号已经被该处理程序所捕获。
显示阻塞机制，应用程序可以使用singprocmask函数和它的辅助函数，明确地阻塞和解除阻塞选定的信号。

通过本文我们阐述了，程序在计算机种运行的一些基本概念、逻辑流、内存等。然后，系统种程序往往不是独立运行的，不仅仅是包含最小限度的输入和输出。在现实世界中，应用程序利用操作系统提供的服务来与I/O设备以及其他程序通信。

下一篇，详细探讨Unix操作系统提供的基本I/O服务，以及如何用这些服务来构造应用程序，例如Web客户端和服务器。

你可能感兴趣的:(软件系统架构与开发环境)

Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p