Java数据结构和算法（四）数组

1、什么是数组？

是一种线性表数据结构，用连续的内存空间，来存储一串相同类型的数据。

2、为什么数组可以做到随机访问？

1）、线性表数据结构

线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。其实除了数组，链表、队列、栈等也是线性表结构。

而与它相对立的概念是非线性表，比如二叉树、堆、图等。之所以叫非线性，是因为，在非线性表中，数据之间并不是简单的前后关系。

2）、连续的内存空间和相同类型的数据

优点：随机访问缺点：为了保证数据的连续性，需要做大量数据的迁移工作，所以插入、删除效率低下；

数组通过寻址公式来找到所访问的数据：a[i]_address = base_address + i * data_type_size；

3、容器相对于数组的优越性：

以ArrayList为例，最大的优势就是可以将很多数组操作的细节封装起来。比如前面提到的数组插入、删除数据时需要搬移其他数据等。另外，它还有一个优势，就是支持动态扩容（当空间不足时，自动扩容1.5倍）。

注意：如果在创建ArrayList是能事先确定大小，可以省掉很多次内存申请和数据搬移操作；

4、数组的优越性：

1）、Java ArrayList 无法存储基本类型，比如 int、long，需要封装为 Integer、Long 类，而 Autoboxing、Unboxing 则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。

2）、如果数据大小事先已知，并且对数据的操作非常简单，用不到 ArrayList 提供的大部分方法，也可以直接使用数组。

3）、当要表示多维数组时，用数组往往会更加直观。比如 Object[][] array；而用容器的话则需要这样定义：ArrayList > array。

5、JVM标记清除垃圾回收算法的核心思想

标记清除，内存不足时一次集体的真正删除，大大减少了删除操作，导致的数据搬迁。

6、为什么数组的下标是从0开始，而不是从1开始？

从数组存储的内存模型上来看，“下标”最确切的定义应该是“偏移（offset）”。前面也讲到，如果用 a 来表示数组的首地址，a[0] 就是偏移为 0 的位置，也就是首地址，a[k] 就表示偏移 k 个 type_size 的位置，所以计算 a[k] 的内存地址只需要用这个公式：

a[k]_address = base_address + k * type_size

但是，如果数组从 1 开始计数，那我们计算数组元素 a[k] 的内存地址就会变为：

a[k]_address = base_address + (k-1)*type_size

我们不难发现，从 1 开始编号，每次随机访问数组元素都多了一次减法运算，对于 CPU 来说，就是多了一次减法指令。

总结：

数组看起来简单基础，但是很多人没有理解这个数据结构的精髓。带着为什么数组要从0开始编号，而不是从1开始的问题，进入主题。

1. 数组如何实现随机访问

1）数组是一种线性数据结构，用连续的存储空间存储相同类型数据

I）线性表：数组、链表、队列、栈非线性表：树图

II）连续的内存空间、相同的数据，所以数组可以随机访问，但对数组进行删除插入，为了保证数组的连续性，就要做大量的数据搬移工作

a) 数组如何实现下标随机访问。

引入数组再内存种的分配图，得出寻址公式

b) 纠正数组和链表的错误认识。数组的查找操作时间复杂度并不是O(1)。即便是排好的数组，用二分查找，时间复杂度也是O（logn）。

正确表述：数组支持随机访问，根据下标随机访问的时间复杂度为O（1）

2. 低效的插入和删除

1）插入：从最好O(1) 最坏O(n) 平均O(n)

2）插入：数组若无序，插入新的元素时，可以将第K个位置元素移动到数组末尾，把心的元素，插入到第k个位置，此处复杂度为O(1)。作者举例说明

3）删除：从最好O(1) 最坏O(n) 平均O(n)

4）多次删除集中在一起，提高删除效率

记录下已经被删除的数据，每次的删除操作并不是搬移数据，只是记录数据已经被删除，当数组没有更多的存储空间时，再触发一次真正的删除操作。即JVM标记清除垃圾回收算法。

3. 警惕数组的访问越界问题

用C语言循环越界访问的例子说明访问越界的bug。此例在《C陷阱与缺陷》出现过，很惭愧，看过但是现在也只有一丢丢印象。翻了下书，替作者加上一句话：如果用来编译这段程序的编译器按照内存地址递减的方式给变量分配内存，那么内存中的i将会被置为0，则为死循环永远出不去。

4. 容器能否完全替代数组

相比于数字，java中的ArrayList封装了数组的很多操作，并支持动态扩容。一旦超过村塾容量，扩容时比较耗内存，因为涉及到内存申请和数据搬移。

数组适合的场景：

1） Java ArrayList 的使用涉及装箱拆箱，有一定的性能损耗，如果特别管柱性能，可以考虑数组

2）若数据大小事先已知，并且涉及的数据操作非常简单，可以使用数组

3）表示多维数组时，数组往往更加直观。

4）业务开发容器即可，底层开发，如网络框架，性能优化。选择数组。

5. 解答开篇问题

1）从偏移角度理解a[0] 0为偏移量，如果从1计数，会多出K-1。增加cpu负担。为什么循环要写成for(int i = 0;i<3;i++) 而不是for(int i = 0 ;i<=2;i++)。第一个直接就可以算出3-0 = 3 有三个数据，而后者 2-0+1个数据，多出1个加法运算，很恼火。

2）也有一定的历史原因