算法入门:由一个小Case意识到时间复杂度的重要性

曾经听说过这样一句话,“程序=算法+数据结构”。当时感触真心不是很深。但是,随着工作的深入越来越意识到这个公式是有道理的。最近在实际工作中碰到了一些问题,其实是一个很简单的case。对于两个文件里有两类手机号,需要进行去重(在文件1中去掉文件2中存在的手机号)。其实是一个很简单的case,但是让我纠结了很长时间,其实是工作量和效率的抉择,我想到了以下解决方案。
1.暴力排重:将文件1中的手机号进行排序去重,之后依次去文件2中进行查找,其实这样的方法是很慢的。但是,在Linux下是不需要复杂的编程的。
(1).遍历文件一中的每一行,去文件2中grep,但是这样是十分低效的。
(2).awk遍历两个文件,以手机号为数组索引,进行计数,数量>=2的为重复的手机号,去掉!。
其实上面两种办法是可行的,但是效率很低,文件一50W,文件二5000左右,跑了近一个小时。
2.Hash的方法,我主要是java和python栈的程序员,java不多说,写时间长了,编译和打包的过程是比较痛苦的,利用java的HashMap或者py的dic可以解决这个问题,估计也是绝大多数人的选择。效率其实还是很高的,毕竟hash的结构还是很高效的。但是需要写程序,各种io,put等。
3.位运算,这种方法是在编程珠玑里面学到的,主要是节省空间,同时也比较快,但是对于位的控制也是比较困难。但是对于对于数据量比较大的case十分可观。但是如果数据都是字符串而不是数字,那么位运算就不能用了,由此我又想到了bloom filter。但是bloom filter的开发成本比较高,我也是用github上的开源版实现了一下。如果不是数据量很大,那么用这种方法真心有点入不敷出啊。

通过这个事情,我也意识到了,算法离我这个小码农并不远。

说一下我对算法的时间复杂度的理解:
算法的时间复杂度在我看来就是一个算法执行的时间随着输入量级增加而变化的趋势。主要用大O表示法进行衡量,主要是反映算法运行时间随着输入量级的变化关系。

以一个小Case说一下自己的见解——冒泡排序

冒泡排序基本是每一个学过C语言或者其他编程语言都学过的一个排序算法了,众所周知,它是很低效的。为什么低效,简单的理解就是它遍历了n次,时间复杂度为指数级的。
先贴一下代码:

public class Sort {
   public static void DataSort(int b[]) {
       for (int i = 0; i < b.length; i++) {
           for (int j = 0; j < b.length - i - 1; j++) {
               int temp = 0;
               if (b[j] > b[j + 1]) {
                   temp = b[j];
                   b[j] = b[j + 1];
                   b[j + 1] = temp;
               }
           }
       }
       PrintSort(b);
   }
   public static void PrintSort(int c[]) {
       for (int k = 0; k < c.length; k++) {
           System.out.println(c[k]);
       }
   }
   public static void main(String[] args) {
       int a[] = { 12, 34, 5, 65, 87, 45, 565, 8, 4, 3, 56, 65 };
       DataSort(a);
   }
}

我们可以粗略的看一下它整个排序过程中会运行多少次,假设我们输入数据量大小是n。那么我们有双重循环:
第一次:内层循环为n-1
第二次:因为第一层循环的i增加了,也就意味着下一层循环的次数会减小,为n-2
第三次:和第二次一样,次数为n-2
....
第n-1次:内层循环只进行了一次1

综上,我们可以计算出总的循环次数为n-1+n-2+n-3.....+1.
其实这是个等差数列,结果为:n^2/2+n/2
学过高数的大家知道,这是一个以n为自变量的二次函数的曲线:

算法入门:由一个小Case意识到时间复杂度的重要性_第1张图片
Paste_Image.png

可以看出来,随着n的增加,输出的增长十分迅速,所以这是一种很不好的算法,对于大规模的输入,计算的复杂度大大增加。

回头来看这个公式:n^2/2+n/2 对于n的逐渐增大,那么后面一次方的影响将会越来越小,同时秉着时间复杂度是反映算法运算趋势的原则,那么我们将冒泡排序的时间复杂度记为O(n^2)。

冒泡排序确实不是一个很好的排序算法,它的时间复杂度为平方级别的,同时还是有很多优秀的算法像堆排,快排和归并等。后续也会一一系统学习。

你可能感兴趣的:(算法入门:由一个小Case意识到时间复杂度的重要性)