文章来源于极客时间前google工程师−王争专栏。
什么是数组?
数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。
数组如何实现根据下标随机访问数组?
以int[] a = new int[10]来举例。计算机给数组a,分配了一块连续的内存空间1000~1039,其中内存块的首地址为base_address = 1000。
我们知道,计算机会给每个内存单元分配一个地址,计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时,它会受限通过下面的寻址公式,计算出该元素存储的内存地址:
a[i]_address = base_address + i*data_type_size
错误纠正
数组为了保持内存数据的连续性,会导致插入、删除两个操作比较低效。
假设数组的长度为n,现在,如果我们需要将一个数据插入到数组中的第k个位置。为了把第k个位置腾出来,给新来的数据,需要将第k~n这部分的元素都顺序地往后挪一位。
图上处理,会将第k个位置插入一个元素的时间复杂度降为O(1)。这个处理思想在快排中也会用到。
实际上,在某些特殊场景下,并不一定非得追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行,删除的效率会不会提高很多呢?
每次的删除操作并不是真正地搬移数据,只是记录数据已经被删除。当数组中没有更多空间存储数据时,我们再触发执行一次真正地删除操作,这样就大大减少了删除操作导致的数据搬移。
这就是JVM标记清除垃圾回收算法的核心思想。
如下c语言代码运行结果:
int main(int argc,char* argv[]){
int i = 0;
int arr[3] = {0};
for(;i<=3;i++){
arr[i] = 0;
printf("hello world");
}
return 0;
}
在 C 语言中,只要不是访问受限的内存,所有的内存空间都是可以自由访问的。根据我们前面讲的数组寻址公式,a[3]也会被定位到某块不属于数组的内存地址上,而这个地址正好是存储变量i的内存地址,那么 a[3]=0 就相当于i=0,所以所以就会导致代码无限循环。
数组为什么要从0开始编号,而不是从1开始呢?
a[k]_address = base_address+k*data_type_size
a[k]_address = base_address+(k-1)*data_type_size
通过比较发现,如果从1开始编号,每次随机访问数组元素都会多一次减法运算,对于CPU来说,就是多了一次减法指令。
很多语言也并不是从0开始计数的,比如Matlab。甚至支持负数下标,比如Python。
a[][] array = int[m][n];
(i