贪心算法
在会有多次处理得出结果的情况下,对于每一次处理,都选最接近目标的解。也就是对于每一次的局部,都选择最优解。
譬如: 你有 1、2、5、10 元各五张,你要给别人四十七块钱,如何使给的钞票最少?
就是4张十块,1张五块,1张两块。
【注意:贪心算法虽然每次都是最最优解,但是对于整体不一定就是最优解。因为它都是针对每一次的局部】
贪心算法是对结果没有严格要求,甚至说不能提前预知结果,上一次选择对下一次有影响,是一个动态的算法,确保每次的动态中都能选择最好的,已达到最终结果尽可能更好。
分治算法
分治算法(divide and conquer)的核心思想其实就是四个字,分而治之 ,也就是将原问题划分成 n 个规模较小,并且结构与原问题相似的子问题,递归地解决这些子问题,然后再合并其结果,就得到原问题的解。
这里可以看出,分治和递归其实是差不多的,那么他们到底有啥区别呢?
分治算法是一种处理问题的思想,递归是一种编程技巧。也就是递归是一种编程层面的落地方案。
分治思想在海量数据处理中的应用
当我们面临大数据量的时候,文件比内存大,又需要进行运算。此时我们可以将大文件分割成多个小文件,对小文件进行运算,再合并小文件的结果,再对结果进行运算。
从上述操作来变种,那我们是不是可以分布到多台机器上运算。这种思想就能把一个大问题,分解到很多个小解上。让很多机器来跑每一个小解,然后组合成最终解。
如果我们要处理的数据是 1T、10T、100T 这样子的,那一台机器处理的效率肯定是非常低的。而对于谷歌搜索引擎来说,网页爬取、清洗、分析、分词、计算权重、倒排索引等等各个环节中,都会面对如此海量的数据(比如网页)。所以,利用集群并行处理显然是大势所趋。
一台机器过于低效,那我们就把任务拆分到多台机器上来处理。如果拆分之后的小任务之间互不干扰,独立计算,最后再将结果合并。这不就是分治思想吗?
实际上,MapReduce 框架只是一个任务调度器,底层依赖 GFS 来存储数据,依赖 Borg 管理机器。它从 GFS 中拿数据,交给 Borg 中的机器执行,并且时刻监控机器执行的进度,一旦出现机器宕机、进度卡壳等,就重新从 Borg 中调度一台机器执行。
这种思想设计出来的处理方案也就是并行计算框架。
回溯算法
对需要多次处理的情况下,对每一次的可能性都进行尝试。所以就是从最外层开始往里尝试。最终就对所有可能都有进行尝试。其实也就是穷举了所有情况。比如说图的深度优先搜索。
对于具体业务的回溯,我们其实是可以根据业务情况对回溯进行优化的,有某些情况是明显不会符合业务要求的,我们可以不回溯。
回溯算法的思想非常简单,大部分情况下,都是用来解决广义的搜索问题,也就是,从一组可能的解中,选择出一个满足要求的解。回溯算法非常适合用递归来实现,在实现的过程中,剪枝操作是提高回溯效率的一种技巧。利用剪枝,我们并不需要穷举搜索所有的情况,从而提高搜索效率。
动态规划
动态规划实际上就是每次执行都记录执行要素和执行结果,维系一个执行记录表,每一次执行的时候先跟执行记录表进行对照,有就直接利用其结果,对结果进行判断,进而确定之后该怎么执行。这样就能舍弃很多错误执行过程。因为执行记录表是动态的,所以这种方式叫动态规划。
其实也就是 把问题分解成很多子问题,且子问题具有包含性,例如,当求出子子问题的最优解的时候,求子问题的最优解时,就只需要把当前问题的节点数据与子子问题的最优解进行处理,就可以了。
动态规划比较适合用来求解最优问题,比如求最大值、最小值等等。它可以非常显著地降低时间复杂度,提高代码的执行效率。
动态规划能解决的问题有什么规律可循呢?
1.问题的解决可以分解为多阶段处理,且是求解最优解。多阶段决策最优解模型。
2.每个阶段互不影响。
3.问题的最优解包含子问题的最优解。
4.不同的决策序列,到达某个相同的阶段时,可能会产生重复的状态。