数据结构与算法之美（二）：数组

本章内容源于笔者对极客时间《数据结构与算法之美》以下章节的学习笔记：

数组：为什么很多编程语言中数组都从0开始编号？

开篇思考题：为什么数组要从 0 开始编号，而不是从 1 开始呢？

数组的定义

数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。

关键词1：线性表

线性表：就是数据排成一条线一样的结构，每个线性表上的数据最多只有前和后两个方向。数组、链表、队列、栈都是线性表结构。
非线性表：与线性表对立的概念，数据之间并不是简单的前后关系。二叉树、堆、图都是非线性表结构。

关键词2：连续的内存空间和相同类型的数据

利：支持随机访问。
弊：为了保证连续性，删除、插入操作非常低效，因为需要做大量的数据搬移工作。

随机访问

数组的随机访问要用到元素在数组中的下标，那么这是怎么实现的？我们知道计算机会给每个内存单元分配一个地址，通过地址来访问内存中的数据，寻址公式：

// base_address为内存块首地址
// data_type_size为数组中每个元素的大小
a[i]_address = base_address + i * data_type_size

补充：很多人在回答数组和链表的区别时认为数组适合查找，查找的时间复杂度为 O(1)。这种表述不准确，数组是适合查找操作，但是查找的时间复杂度并不是 O(1)，即便是排好序的数组，利用二分查找，时间复杂度也是 O(logn)。准确的说法是，数组支持随访问，根据下标随机访问的时间复杂度是 O(1)。

低效的插入和删除

插入操作

由于数组要保证内存连续性，当要在第k个位置插入一个数据，那么k~n这部分数据都要按顺序往后挪一位。假如插入的位置是数组的末尾，那么数组中原来的元素无需搬移，只需要进行1次操作；假如插入的位置是数组的的首位，那么数组中原来的元素都要往后挪一位，需要操作n次。所以数组中插入元素的时间复杂：

最好情况时间复杂度：O(1)
最坏情况时间复杂度：O(n)
平均情况时间复杂度：(1/n)1 + (1/n)2 + ... + (1/n)*n = O(n)

特定情况：当数组只是被当做一个存储集合，插入第k个位置时，可以先将原本第k个位置的数据搬移到数组元素的最后，再把新的元素直接放入第k个位置。这样时间复杂度就会降为 O(1)。

删除操作

同样为了保证内存的连续性，数组中的删除操作也需要数据搬移，时间复杂度同插入操作。

特定情况：实际操作并不一定非要追求数组的连续性，要删除数组中元素时，可以先将该元素标记为已删除，当数组没有更多空间存储数据时，再触发一次真正的删除操作，这样就能大大减少删除操作导致的数据搬移。

这恰恰就是JVM标记清除垃圾回收算法的核心思想。不管是软件开发还是架构设计，总能找到算法与数据结构的影子。

数据越界

分析以下C语言代码的运行结果：

int main(int argc, char* argv[]){
    int i = 0;
    int arr[3] = {0};
    for(; i<=3; i++){
        arr[i] = 0;
        printf("hello world\n");
    }
    return 0;
}

结果是出现无限循环，一直打印“hello world”。

解析：由于for循环的边界条件是i<=3，而不是i<3，当i增长至3时数组arr[3]访问越界。申明变量时i和arr并列且i在前，arr长度为3，64位操作系统下默认会进行8字节对其，4个整数刚好满足，arr[3]越界后访问到i。arr[3]=0，也就是i=0，于是进入无限循环。

很多计算机病毒正是利用到了代码中的数组越界访问非法地址的漏洞，来攻击系统，编写代码时应当警惕数组越界。
很多语言会做越界检查，抛出异常。

数组与容器

很多语言针对数组类型提供了容器类，这些容器类不仅封装了很多数组操作的细节，还支持动态扩容。例如Java中的ArrayList，每次存储空间不够时，会自动扩容为原来的1.5倍大小。

相对容器，何时使用数组更合适？

例如Java ArrayList无法存储int、long等基本类型，需要封装为Integer、Long类，希望使用基本类型时就可以用数组。
数据大小事先已知且操作简单可以直接用数组。
表示多维数组时，用数组更直观。如Object[][] array。

总结：对于业务开发，直接使用容器就足够了，省时省力。毕竟损耗一丢丢性能，完全不会影响到系统整体的性能。但如果是做一些非常底层的开发，比如开发网络框架，性能的优化需要做到极致，这个时候数组就会优于容器，成为首选。

解答开篇：

为什么大多数编程语言中，数组要从0开始编号，而不是从1开始呢？

答：下标其实就是元素相对数组首地址的偏移量。数组从0开始编号，a[k]表示元素的内存地址就是：

a[k]_address = base_address + k * type_size

如果数组从1开始编号，a[k]表示元素的内存地址就是：

a[k]_address = base_address + (k-1)*type_size

对比发现，如果数组编号从1开始，每次随机访问元素就多了一次减法运算，CPU就多了一次减法指令。另外就是历史原因了。

思考题一：前面提到JVM，说说你所理解的标记清除垃圾回收算法。

参考回答：大多数主流虚拟机采用可达性分析算法来判断对象是否存活，在标记阶段，会遍历所有GC ROOTS，将所有GC ROOTS可达的对象标记为存活。只有当标记工作完成后，清理工作才会开始。不足：1.效率问题。标记和清理效率都不高，但是当知道只有少量垃圾产生时会很高效。2.空间问题。会产生不连续的内存空间碎片。

思考题二：思考一下二维数组的内存寻址公式。

参考回答：对于m*n的二位数组，a[i]j的内存地址为：

address = base_address + ( i * n + j) * type_size