数据结构与算法之美-学习笔记(一)

文章目录

    • 01|为什么要学习数据结构和算法?
    • 02|如何抓住重点,系统高效地学习数据结构与算法?
    • 05|数组:为什么很多编程语言中数组都从0开始编号?
    • 06|链表(上):如何实现LRU缓存淘汰算法?
      • 单链表
      • 循环链表
      • 双向链表
      • 如何基于链表实现LRU缓存淘汰算法
      • 留言
    • 07|链表(下):如何轻松写出正确的链表代码?
      • 哨兵简化实现难度
      • 留言板
    • 08|栈:如何实现浏览器的前进和后退功能?
    • 09|队列:队列在线程池等有限资源池中的应用
      • 循环队列
    • 阻塞队列和并发队列
      • 留言
    • 10|递归:如何用三行代码找到“最终推荐人”?
    • 11|排序(上):为什么插入排序比冒泡排序更受欢迎?
      • 冒泡排序
      • 插入排序
      • 选择排序(Selection Sort)
      • 小结
      • 精选留言
    • 12|排序(下):如何用快排思想在O(n)内查找第K大元素?
      • 归并排序的原理
      • 快速排序的原理
    • 13|线性排序:如何根据年龄给100万用户数据排序?
      • 桶排序(Bucket sort)
      • 计数排序(Counting sort)
      • 基数排序(Radix sort)
    • 14|排序优化:如何实现一个通用的、高性能的排序函数?
    • 15|二分查找(上):如何用最省内存的方式实现快速查找功能?
      • 思考题
    • 16|二分查找(下):如何快速定位IP对应的省份地址?
      • 变体一:查找第一个值等于给定值的元素
      • 变体二:查找最后一个值等于给定值的元素
      • 变体三:查找第一个大于等于给定值的元素
      • 变体四:查找最后一个小于等于给定值的元素
      • 小结
      • 课后思考

01|为什么要学习数据结构和算法?

如果不知道这些类库背后的原理,不懂得时间、空间复杂度分析,你如何能用好、用对它们?存储某个业务数据的时候,你如何知道应该用ArrayList,还是Linked List呢?调用了某个函数之后,你又该如何评估代码的性能和资源的消耗呢?

我曾经面试过很多大龄候选人,简历能写十几页,经历的项目有几十个,但是细看下来,每个项目都是重复地堆砌业务逻辑而已,完全没有难度递进,看不出有能力提升。久而久之,十年的积累可能跟一年的积累没有任何区别。这样的人,怎么不会被行业淘汰呢?

我们学习数据结构和算法,并不是为了死记硬背几个知识点。我们的目的是建立时间复杂度、空间复杂度意识,写出高质量的代码,能够设计基础架构,提升编程技能,训练逻辑思维,积攒人生经验,以此获得工作回报,实现你的价值,完善你的人生

为什么学习数据结构和算法?我认为有3点比较重要

1.直接好处是能够有写出性能更优的代码。
2.算法,是一种解决问题的思路和方法,有机会应用到生活和事业的其他方面。
3.长期来看,大脑思考能力是个人最重要的核心竞争力,而算法是为数不多的能够有效训练大脑思考能力的途径之一

遇到不会的上 Google,懒了就上 GitHub 找框架。所以写了这么多年代码,一直是个菜鸟。
或许是时候修炼自己的内功了。一直 CURD 有意思么?把设计模式,网络原理,数据结构和算法捡起来,或许就没那么容易菜鸟了。怼人也更加自信了。跳槽也不用畏畏缩缩的了。

学习算法并不是为了记住几个排序、二分查找、二叉树遍历,他还能锻炼你的逻辑思维、性能意识,而且,如果你写代码能力还有欠缺,你还可以通过把学到的数据结构和算法都实现一遍,这是一种很好很好的锻炼编程能力的方法。所以不要过度追求一定要在项目里手写快排、手写二叉树才能算是用上

一、数据结构和算法是什么
1、数据结构是指一组数据的存储结构
2、算法就是操作数据的方法
3、数据结构和算法是相辅相成的,数据结构是为算法服务的,而算法要作用在特定的数据结构之上
二、学习的重点在什么地方
数据结构和算法解决的是如何更省、更快地存储和处理数据的问题,因此,我们就需要一个考量效率和资源消耗的方法,这就是复杂度分析方法。在学习数据结构和算法的过程中,要学习它的「来历」、「自身的特点」、「适合解决的问题」以及「实际的应用场景」。

1、数据结构和算法学习的精髓-复杂度分析
2、最常用的、最基础的数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie 树
3、最常用的算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法

02|如何抓住重点,系统高效地学习数据结构与算法?

从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法。
数据结构和算法是相辅相成的。数据结构是为算法服务的,算法要作用在特定的数据结构之上

10个数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie树;
10个算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法

05|数组:为什么很多编程语言中数组都从0开始编号?

数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。
其实除了数组,链表、队列、栈等也是线性表结构
而与它相对立的概念是非线性表,比如二叉树、堆、图等。之所以叫非线性,是因为,在非线性表中,数据之间并不是简单的前后关系

第二个是连续的内存空间和相同类型的数据。正是因为这两个限制,它才有了一个堪称“杀手锏”的特性:“随机访问”。但有利就有弊,这两个限制也让数组的很多操作变得非常低效,比如要想在数组中删除、插入一个数据,为了保证连续性,就需要做大量的数据搬移工作。

我们知道,计算机会给每个内存单元分配一个地址,计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时,它会首先通过下面的寻址公式,计算出该元素存储的内存地址

a[i]_address = base_address + i * data_type_size

我在面试的时候,常常会问数组和链表的区别,很多人都回答说,“链表适合插入、删除,时间复杂度O(1);数组适合查找,查找时间复杂度为O(1)”。
实际上,这种表述是不准确的。数组是适合查找操作,但是查找的时间复杂度并不为O(1)。即便是排好序的数组,你用二分查找,时间复杂度也是O(logn)。所以,正确的表述应该是,数组支持随机访问,根据下标随机访问的时间复杂度为O(1)

数组为了保持内存数据的连续性,会导致插入、删除这两个操作比较低效

容器能否完全替代数组?

扩容操作涉及内存申请和数据搬移,是比较耗时的。所以,如果事先能确定需要存储的数据大小,最好在创建ArrayList的时候事
先指定数据大小。

1.Java ArrayList无法存储基本类型,比如int、long,需要封装为Integer、Long类,而Autoboxing、Unboxing则有一定的性能消耗,所以如果特别关注性能,或者希望使用基本类型,就可以选用数组。
2.如果数据大小事先已知,并且对数据的操作非常简单,用不到ArrayList提供的大部分方法,也可以直接使用数组。
3.还有一个是我个人的喜好,当要表示多维数组时,用数组往往会更加直观。比如Object[][] array;而用容器的话则需要这样定义:ArrayList array。
我总结一下,对于业务开发,直接使用容器就足够了,省时省力。毕竟损耗一丢丢性能,完全不会影响到系统整体的性能。但如果你是做一些非常底层的开发,比如开发网络框架,性能的优化需要做到极致,这个时候数组就会优于容器,成为首选。

在这里插入图片描述

数组作为非常基础的数据结构,通过下标随机访问数组元素又是其非常基础的编程操作,效率的优化就要尽可能做到极致。所以为了减少一次减法操作,数组选择了从0开始编号,而不是从1开始

C语言设计者用0开始计数数组下标,之后的Java、JavaScript等高级语言都效仿了C语言,或者说,为了在一定程度上减少C语言程序员学习Java的学习成本,因此继续沿用了从0开始计数的习惯。实际上,很多语言中数组也并不是从0开始计数的,比如Matlab。甚至还有一些语言支持负数下标,比如Python

突然想到了垃圾桶。
生活中,我们扔进屋里垃圾桶的垃圾,
并没有消失,只是被 ‘‘标记’’ 成了垃圾,
只有垃圾桶塞满时,才会清理垃圾桶。
再次存放垃圾

06|链表(上):如何实现LRU缓存淘汰算法?

缓存是一种提高数据读取性能的技术,在硬件设计、软件开发中都有着非常广泛的应用,比如常见的CPU缓存、数据库缓存、浏览器缓存等等。

缓存的大小有限,当缓存被用满时,哪些数据应该被清理出去,哪些数据应该被保留?这就需要缓存淘汰策略来决定。常见的策略有三种:先进先出策略FIFO(First In,First Out)、最少使用策略LFU(Least Frequently Used)、最近最少使用策略LRU(Least Recently Used)。

这些策略你不用死记,我打个比方你很容易就明白了。假如说,你买了很多本技术书,但有一天你发现,这些书太多了,太占书房空间了,你要做个大扫除,扔掉一些书籍。那这个时候,你会选择扔掉哪些书呢?对应一下,你的选择标准是不是和上面的三种策略神似呢?

数组需要一块连续的内存空间来存储,对内存的要求比较高。如果我们申请一个100MB大小的数组,当内存中没有连续的、足够大的存储空间时,即便内存的剩余总可用空间大于100MB,仍然会申请失败。
而链表恰恰相反,它并不需要一块连续的内存空间,它通过“指针”将一组零散的内存块串联起来使用,所以如果我们申请的是100MB大小的链表,根本不会有问题。

单链表

链表通过指针将一组零散的内存块串联在一起。其中,我们把内存块称为链表的“结点”。为了将所有的结点串起来,每个链表的结点除了存储数据之外,还需要记录链上的下一个结点的地址。如图所示,我们把这个记录下个结点地址的指针叫作后继指针next
在这里插入图片描述

头结点用来记录链表的基地址。有了它,我们就可以遍历得到整条链表。而尾结点特殊的地方是:指针不是指向下一个结点,而是指向一个空地址NULL,表示这是链表上最后一个结点。

我们知道,在进行数组的插入、删除操作时,为了保持内存数据的连续性,需要做大量的数据搬移,所以时间复杂度是O(n)。而在链表中插入或者删除一个数据,我们并不需要为了保持内存的连续性而搬移结点,因为链表的存储空间本身就不是连续的。所以,在链表中插入和删除一个数据是非常快速的。

你可以把链表想象成一个队伍,队伍中的每个人都只知道自己后面的人是谁,所以当我们希望知道排在第k位的人是谁的时候,我们就需要从第一个人开始,一个一个地往下数。所以,链表随机访问的性能没有数组好,需要O(n)的时间复杂度。

循环链表

循环链表是一种特殊的单链表。实际上,循环链表也很简单。它跟单链表唯一的区别就在尾结点。我们知道,单链表的尾结点指针指向空地址,表示这就是最后的结点了。而循环链表的尾结点指针是指向链表的头结点。从我画的循环链表图中,你应该可以看出来,它像一个环一样首尾相连,所以叫作“循环”链表
数据结构与算法之美-学习笔记(一)_第1张图片
和单链表相比,循环链表的优点是从链尾到链头比较方便。当要处理的数据具有环型结构特点时,就特别适合采用循环链表。比如著名的约瑟夫问题。尽管用单链表也可以实现,但是用循环链表实现的话,代码就会简洁很多。

双向链表

单向链表只有一个方向,结点只有一个后继指针next指向后面的结点。而双向链表,顾名思义,它支持两个方向,每个结点不止有一个后继指针next指向后面的结点,还有一个前驱指针prev指向前面的结点。
数据结构与算法之美-学习笔记(一)_第2张图片
双向链表需要额外的两个空间来存储后继结点和前驱结点的地址。所以,如果存储同样多的数据,双向链表要比单链表占用更多的内存空间。虽然两个指针比较浪费存储空间,但可以支持双向遍历,这样也带来了双向链表操作的灵活性。

那相比单链表,双向链表适合解决哪种问题呢?

在这里插入图片描述
对于第二种情况,我们已经找到了要删除的结点,但是删除某个结点q需要知道其前驱结点,而单链表并不支持直接获取前驱结点,所以,为了找到前驱结点,我们还是要从头结点开始遍历链表,直到p->next=q,说明p是q的前驱结点。但是对于双向链表来说,这种情况就比较有优势了。因为双向链表中的结点已经保存了前驱结点的指针,不需要像单链表那样遍历。所以,针对第二种情况,单链表删除操作需要O(n)的时间复杂度,而双向链表只需要在O(1)的时间复杂度内就搞定了!

同理,如果我们希望在链表的某个指定结点前面插入一个结点,双向链表比单链表有很大的优势。双向链表可以在O(1)时间复杂度搞定,而单向链表需要O(n)的时间复杂度。

如果你熟悉Java语言,你肯定用过LinkedHashMap这个容器。如果你深入研究LinkedHashMap的实现原理,就会发现其中就用到了双向链表这种数据结构。

缓存实际上就是利用了空间换时间的设计思想。如果我们把数据存储在硬盘上,会比较节省内存,但每次查找数据都要询问一次硬盘,会比较慢。但如果我们通过缓存技术,事先将数据加载在内存中,虽然会比较耗费内存空间,但是每次数据查询的速度就大大提高了

数据结构与算法之美-学习笔记(一)_第3张图片

链表VS数组性能大比拼
数据结构与算法之美-学习笔记(一)_第4张图片

数组简单易用,在实现上使用的是连续的内存空间,可以借助CPU的缓存机制,预读数组中的数据,所以访问效率更高。而链表在内存中并不是连续存储,所以对CPU缓存不友好,没办法有效预读。
数组的缺点是大小固定,一经声明就要占用整块连续内存空间。如果声明的数组过大,系统可能没有足够的连续内存空间分配给它,导致“内存不足(out ofmemory)”。如果声明的数组过小,则可能出现不够用的情况。这时只能再申请一个更大的内存空间,把原数组拷贝进去,非常费时。链表本身没有大小的限制,天然地支持动态扩容,我觉得这也是它与数组最大的区别

我举一个稍微极端的例子。如果我们用ArrayList存储了了1GB大小的数据,这个时候已经没有空闲空间了,当我们再插入数据的时候,ArrayList会申请一个1.5GB大小的存储空间,并且把原来那1GB的数据拷贝到新申请的空间上。听起来是不是就很耗时?

除此之外,如果你的代码对内存的使用非常苛刻,那数组就更适合你。因为链表中的每个结点都需要消耗额外的存储空间去存储一份指向下一个结点的指针,所以内存消耗会翻倍。而且,对链表进行频繁的插入、删除操作,还会导致频繁的内存申请和释放,容易造成内存碎片,如果是Java语言,就有可能会导致频繁的GC(Garbage Collection,垃圾回收)。

所以,在我们实际的开发中,针对不同类型的项目,要根据具体情况,权衡究竟是选择数组还是链表

如何基于链表实现LRU缓存淘汰算法

我的思路是这样的:我们维护一个有序单链表,越靠近链表尾部的结点是越早之前访问的。当有一个新的数据被访问时,我们从链表头开始顺序遍历链表。

1.如果此数据之前已经被缓存在链表中了,我们遍历得到这个数据对应的结点,并将其从原来的位置删除,然后再插入到链表的头部。

2.如果此数据没有在缓存链表中,又可以分为两种情况:
如果此时缓存未满,则将此结点直接插入到链表的头部;
如果此时缓存已满,则链表尾结点删除,将新的数据结点插入链表的头部。

这样我们就用链表实现了一个LRU缓存,是不是很简单?
现在我们来看下缓存访问的时间复杂度是多少。因为不管缓存有没有满,我们都需要遍历一遍链表,所以这种基于链表的实现思路,缓存访问的时间复杂度为O(n)。

实际上,我们可以继续优化这个实现思路,比如引入散列表(Hash table)来记录每个数据的位置,将缓存访问的时间复杂度降到O(1)。

除了基于链表的实现思路,实际上还可以用数组来实现LRU缓存淘汰策略。如何利用数组实现LRU缓存淘汰策略呢?我把这个问题留给你思考

方式一:首位置保存最新访问数据,末尾位置优先清理
当访问的数据未存在于缓存的数组中时,直接将数据插入数组第一个元素位置,此时数组所有元素需要向后移动1个位置,时间复杂度为O(n);当访问的数
据存在于缓存的数组中时,查找到数据并将其插入数组的第一个位置,此时亦需移动数组元素,时间复杂度为O(n)。缓存用满时,则清理掉末尾的数据,时
间复杂度为O(1)。
方式二:首位置优先清理,末尾位置保存最新访问数据
当访问的数据未存在于缓存的数组中时,直接将数据添加进数组作为当前最有一个元素时间复杂度为O(1);当访问的数据存在于缓存的数组中时,查找到数
据并将其插入当前数组最后一个元素的位置,此时亦需移动数组元素,时间复杂度为O(n)。缓存用满时,则清理掉数组首位置的元素,且剩余数组元素需整
体前移一位,时间复杂度为O(n)。(优化:清理的时候可以考虑一次性清理一定数量,从而降低清理次数,提高性能。)

留言

数组简单易用,在实现上使用的是连续的内存空间,可以借助 CPU 的缓存机制,预读数组中的数据,所以访问效率更高。而链表在内存中并不是连续存储,所以对 CPU 缓存不友好,没办法有效预读。” 这里的CPU缓存机制指的是什么?为什么就数组更好了?

CPU在从内存读取数据的时候,会先把读取到的数据加载到CPU的缓存中。而CPU每次从内存读取数据并不是只读取那个特定要访问的地址,而是读取一个数据块(这个大小我不太确定。。)并保存到CPU缓存中,然后下次访问内存数据的时候就会先从CPU缓存开始查找,如果找到就不需要再从内存中取。这样就实现了比内存访问速度更快的机制,也就是CPU缓存存在的意义:为了弥补内存访问速度过慢与CPU执行速度快之间的差异而引入。
对于数组来说,存储空间是连续的,所以在加载某个下标的时候可以把以后的几个下标元素也加载到CPU缓存这样执行速度会快于存储空间不连续的链表存储

07|链表(下):如何轻松写出正确的链表代码?

我们知道,有些语言有“指针”的概念,比如C语言;有些语言没有指针,取而代之的是“引用”,比如Java、Python。不管是“指针”还是“引用”,实际上,它们的意思都是一样的,都是存储所指对象的内存地址

实际上,对于指针的理解,你只需要记住下面这句话就可以了:
将某个变量赋值给指针,实际上就是将这个变量的地址赋值给指针,或者反过来说,指针中存储了这个变量的内存地址,指向了这个变量,通过指针就能找到这个变量

p->next=p->next->next。这行代码表示,p结点的next指针存储了p结点的下下一个结点的内存地址。

哨兵简化实现难度

单链表的插入和删除操作。如果我们在结点p后面插入一个新的结点,只需要下面两行代码就可以搞定。

new_node->next = p->next;
p->next = new_node;

数据结构与算法之美-学习笔记(一)_第5张图片

针对链表的插入、删除操作,需要对插入第一个结点和删除最后一个结点的情况进行特殊处理。这样代码实现起来就会很繁琐,不简洁,而且也容易因为考虑不全而出错。如何来解决这个问题呢?

技巧三中提到的哨兵就要登场了。哨兵,解决的是国家之间的边界问题。同理,这里说的哨兵也是解决“边界问题”的,不直接参与业务逻辑

技巧三中提到的哨兵就要登场了。哨兵,解决的是国家之间的边界问题。同理,这里说的哨兵也是解决“边界问题”的,不直接参与业务逻辑

还记得如何表示一个空链表吗?head=null表示链表中没有结点了。其中head表示头结点指针,指向链表中的第一个结点。如果我们引入哨兵结点,在任何时候,不管链表是不是空,head指针都会一直指向这个哨兵结点。我们也把这种有哨兵结点的链表叫带头链表。相反,没有哨兵结点的链表就叫作不带头链表

哨兵结点是不存储数据的

数据结构与算法之美-学习笔记(一)_第6张图片

我经常用来检查链表代码是否正确的边界条件有这样几个:
如果链表为空时,代码是否能正常工作?
如果链表只包含一个结点时,代码是否能正常工作?
如果链表只包含两个结点时,代码是否能正常工作?
代码逻辑在处理头结点和尾结点的时候,是否能正常工作?

你只要把这几个操作都能写熟练,不熟就多写几遍,我保证你之后再也不会害怕写链表代码。
单链表反转
链表中环的检测
两个有序的链表合并
删除链表倒数第n个结点
求链表的中间结点

留言板

建议大家在实现之前的思考时间不要太长。一是先用自己能想到的暴力方法实现试试。另外就是在一定时间内(比如半个到一个小时)实在想不到就要在网上搜搜答案。有的算法,比如链表中环的检测,的最优解法还是挺巧妙的,一般来说不是生想就能想到的

08|栈:如何实现浏览器的前进和后退功能?

关于“栈”,我有一个非常贴切的例子,就是一摞叠在一起的盘子。我们平时放盘子的时候,都是从下往上一个一个放;取的时候,我们也是从上往下一个一个地 依次取,不能从中间任意抽出。后进者先出,先进者后出,这就是典型的“栈”结构。

栈主要包含两个操作,入栈和出栈,也就是在栈顶插入一个数据和从栈顶删除一个数据

实际上,栈既可以用数组来实现,也可以用链表来实现。用数组实现的栈,我们叫作顺序栈,用链表实现的栈,我们叫作链式栈

顺序栈

package beautifulAlgorithm;

/**
 * Created by 此生辽阔 on 2021/7/12 13:51
 */
public class ArrayStack {
    private String []items;//数组
    private int count;//栈中元素个数
    private int n;//栈的大小

    //初始化数组,申请一个大小为n的数组空间
    public ArrayStack(int n)
    {
        this.items=new String[n];
        this.count=0;
        this.n=n;
    }
    //入栈操作
    public  boolean push(String item)
    {
        if(this.count==n)  return false;//栈满。不能插入
        items[count++]=item;
        return true;
    }
    //出栈操作
    public String pop()
    {
        if(count==0) return null;//栈为空的情况
        String tmp= items[count-1];
        count--;
        return tmp;
    }
}

测试

package beautifulAlgorithm;

/**
 * Created by 此生辽阔 on 2021/7/12 13:59
 */
public class testStack {
    public static void main(String[] args) {
        ArrayStack stack=new  ArrayStack(5);
        System.out.println(stack.push("a"));
        System.out.println(stack.push("b"));
        System.out.println(stack.push("c"));
        System.out.println(stack.push("d"));
        System.out.println(stack.push("e"));
        System.out.println(stack.push("f"));
        String tmp="0";
        while(tmp!=null)
        {
          tmp=stack.pop();
          System.out.println(tmp);
        }
    }
}

数据结构与算法之美-学习笔记(一)_第7张图片

支持动态扩容的顺序栈

刚才那个基于数组实现的栈,是一个固定大小的栈,也就是说,在初始化栈时需要事先指定栈的大小。当栈满之后,就无法再往栈里添加数据了。尽管链式栈的大小不受限,但要存储next指针,内存消耗相对较多那我们如何基于数组实现一个可以支持动态扩容的栈呢?

当数组空间不够时,我们就重新申请一块更大的内存,将原来数组中数据统统拷贝过去。这样就实现了一个支持动态扩容的数组。

所以,如果要实现一个支持动态扩容的栈,我们只需要底层依赖一个支持动态扩容的数组就可以了。当栈满了之后,我们就申请一个更大的数组,将原来的数据搬移到新数组中

链栈实现思路

插入元素的时候就把元素插入到链表的头结点,这样弹出 元素的时候直接弹出头结点就是了,很方便
java利用链表实现栈

操作系统给每个线程分配了一块独立的内存空间,这块内存被组织成“栈”这种结构,用来存储函数调用时的临时变量。每进入一个函数,就会将临时变量作为一个栈帧入栈,当被调用函数执行完成,返回之后,将这个函数对应的栈帧出栈。

栈在表达式求值中的应用

在这里插入图片描述
实际上,编译器就是通过两个栈来实现的。其中一个保存操作数的栈,另一个是保存运算符的栈。我们从左向右遍历表达式,当遇到数字,我们就直接压入操作数栈;当遇到运算符,就与运算符栈的栈顶元素进行比较

如果比运算符栈顶元素的优先级高,就将当前运算符压入栈;如果比运算符栈顶元素的优先级低或者相同,从运算符栈中取栈顶运算符,从操作数栈的栈顶取2个操作数,然后进行计算,再把计算完的结果压入操作数栈,继续比较。

数据结构与算法之美-学习笔记(一)_第8张图片
栈在括号匹配中的应用

除了用栈来实现表达式求值,我们还可以借助栈来检查表达式中的括号是否匹配。
我们同样简化一下背景。我们假设表达式中只包含三种括号,圆括号()、方括号[]和花括号{},并且它们可以任意嵌套。比如,{[{}]}或[{()}([])]等都为合法格式,
而{[}()]或[({)]为不合法的格式。那我现在给你一个包含三种括号的表达式字符串,如何检查它是否合法呢?
这里也可以用栈来解决。我们用栈来保存未匹配的左括号,从左到右依次扫描字符串。当扫描到左括号时,则将其压入栈中;当扫描到右括号时,从栈顶取出一
个左括号。如果能够匹配,比如“(”跟“)”匹配,“[”跟“]”匹配,“{”跟“}”匹配,则继续扫描剩下的字符串。如果扫描的过程中,遇到不能配对的右括号,或者栈中没
有数据,则说明为非法格式。
当所有的括号都扫描完成之后,如果栈为空,则说明字符串为合法格式;否则,说明有未匹配的左括号,为非法格式。

思考

  1. 我们在讲栈的应用时,讲到用函数调用栈来保存临时变量,为什么函数调用要用“栈”来保存临时变量呢?用其他数据结构不行吗?
  2. 我们都知道,JVM内存管理中有个“堆栈”的概念。栈内存用来存储局部变量和方法调用,堆内存用来存储Java中的对象。那JVM里面的“栈”跟我们这里说的“栈”是不是一回事呢?如果不是,那它为什么又叫作“栈”呢?

精选留言

内存中的堆栈和数据结构堆栈不是一个概念,可以说内存中的堆栈是真实存在的物理区,数据结构中的堆栈是抽象的数据存储结构。
内存空间在逻辑上分为三部分:代码区、静态数据区和动态数据区,动态数据区又分为栈区和堆区

代码区:存储方法体的二进制代码。高级调度(作业调度)、中级调度(内存调度)、低级调度(进程调度)控制代码区执行代码的切换。

静态数据区:存储全局变量、静态变量、常量,常量包括final修饰的常量和String常量。系统自动分配和回收。

栈区:存储运行方法的形参、局部变量、返回值。由系统自动分配和回收。

堆区:new一个对象的引用或地址存储在栈区,指向该对象存储在堆区中的真实数据

为什么函数调用要用“栈”来保存临时变量呢?用其他数据结构不行吗?

其实,我们不一定非要用栈来保存临时变量,只不过如果这个函数调用符合后进先出的特性,用栈这种数据结构来实现,是最顺理成章的选择。
从调用函数进入被调用函数,对于数据来说,变化的是什么呢,是作用域。所以根本上,只要能保证每进入一个新的函数,都是一个新的作用域就可以。而要实现这个,用栈就非常方便。在进入被调用函数的时候,分配一段栈空间给这个函数的变量,在函数结束的时候,将栈顶复位,正好回到调用函数的作用域内。

当某个数据集合只涉及在某端插入和删除数据,且满足后进者先出,先进者后出的操作特性时,我们应该首选栈这种数据结构

leetcode上关于栈的题目大家可以先做20,155,232,844,224,682,496

函数调用之所以用栈,是因为函数调用中经常嵌套,栗子:A调用B,B又调用C,那么就需要先把C执行完,结果赋值给B中的临时变量,B的执行结果再赋值给A的临时变量,嵌套越深的函数越需要被先执行,这样刚好符合栈的特点,因此每次遇到函数调用,只需要压栈,最后依次从栈顶弹出依次执行即可

09|队列:队列在线程池等有限资源池中的应用

CPU资源是有限的,任务的处理速度与线程个数并不是线性正相关。相反,过多的线程反而会导致CPU频繁切换,处理性能下降。所以,线程池的大小一般都是综合考虑要处理任务的特点和硬件环境,来事先设置的。

数据结构与算法之美-学习笔记(一)_第9张图片

作为一种非常基础的数据结构,队列的应用也非常广泛,特别是一些具有某些额外特性的队列,比如循环队列、阻塞队列、并发队列。它们在很多偏底层系统、框架、中间件的开发中,起着关键性的作用。比如高性能队列Disruptor、Linux环形缓存,都用到了循环并发队列;Java concurrent并发包利用ArrayBlockingQueue来实现公平锁等。

对于栈来说,我们只需要一个栈顶指针就可以了。但是队列需要两个指针:一个是head指针,指向队头;一个是tail指针,指向队尾

数据结构与算法之美-学习笔记(一)_第10张图片

当我们调用两次出队操作之后,队列中head指针指向下标为2的位置,tail指针仍然指向下标为4的位置
数据结构与算法之美-学习笔记(一)_第11张图片

随着不停地进行入队、出队操作,head和tail都会持续往后移动。当tail移动到最右边,即使数组中还有空闲空间,也无法继续往队列中添加数据了这个问题该如何解决呢?

实际上,我们在出队时可以不用搬移数据。如果没有空闲空间了,我们只需要在入队时,再集中触发一次数据的搬移操作。借助这个思想,出队函数dequeue()保持不变,我们稍加改造一下入队函数enqueue()的实现,就可以轻松解决刚才的问题了。下面是具体的代码:

// 入队操作,将item放入队尾
 public boolean enqueue(String item) {
 // tail == n表示队列末尾没有空间了
 if (tail == n) {
 // tail ==n && head==0,表示整个队列都占满了
 if (head == 0) return false;
 // 数据搬移
 for (int i = head; i < tail; ++i) {
 items[i-head] = items[i];
 }
 // 搬移完之后重新更新head和tail
 tail -= head;
 head = 0;
 }
 
 items[tail] = item;
 ++tail;
 return true

循环队列

我们刚才用数组来实现队列的时候,在tail==n时,会有数据搬移操作,这样入队操作性能就会受到影响。那有没有办法能够避免数据搬移呢?我们来看看循环队列的解决思路
数据结构与算法之美-学习笔记(一)_第12张图片

通过这样的方法,我们成功避免了数据搬移操作。看起来不难理解,但是循环队列的代码实现难度要比前面讲的非循环队列难多了。要想写出没有bug的循环队列 的实现代码,我个人觉得,最关键的是,确定好队空和队满的判定条件。

在用数组实现的非循环队列中,队满的判断条件是tail == n,队空的判断条件是head == tail。那针对循环队列,如何判断队空和队满呢?
队列为空的判断条件仍然是head == tail。但队列满的判断条件就稍微有点复杂了。我画了一张队列满的图,你可以看一下,试着总结一下规律。
数据结构与算法之美-学习笔记(一)_第13张图片

就像我图中画的队满的情况,tail=3,head=4,n=8,所以总结一下规律就是:(3+1)%8=4。多画几张队满的图,你就会发现,当队满时,(tail+1)%n=head。
你有没有发现,当队列满时,图中的tail指向的位置实际上是没有存储数据的。所以,循环队列会浪费一个数组的存储空间。

循环队列要么浪费一个空间。要么用一个变量来计数。也是浪费空间。但是少用一个空间比每次都要判断变量来的好记。

对于循环队列中,为什么有一个存储空间被浪费的原理
这篇文章说得挺好的,大概意思就是尾指针是为了告诉系统这里有空位,可以继续放元素,但是,如果最后一个空位满了,尾指针跑到头指针去,告诉系统这里有空位吗?显然不行,所以当尾指针到达最后一个空位的时候,就判为循环队列满了

循环队列的数组实现

package beautifulAlgorithm;

/**
 * Created by 此生辽阔 on 2021/7/13 17:20
 */
public class recycleQueue {
    private int items[];
    private int head;
    private int tail;
    public recycleQueue(int n)
    {
     items=new int[n];
     head=0;
     tail=0;
    }
    public boolean  push(int n)
    {
       if((tail+1)%items.length==head) return false;//队满,不能再添加元素
        items[tail]=n;
        tail=(tail+1)%items.length;//尾指针后移
        return true;
    }
    public int pop(){
        if(tail==head) return -1;//当前队列为空
        int result=items[head];
        head=(head+1)% items.length;//头指针后移
        return result;
    }
    public int getHead()
    {
        return head;
    }
    public int getTail()
    {
        return  tail;
    }
}

测试

package beautifulAlgorithm;

/**
 * Created by 此生辽阔 on 2021/7/13 17:32
 */
public class testCircularQueue {
    public static void main(String[] args) {
        recycleQueue recycleQueue = new recycleQueue(5);
        System.out.println("head:"+recycleQueue.getHead());
        System.out.println("tail:"+recycleQueue.getTail());
        System.out.println(recycleQueue.pop());

        System.out.println(recycleQueue.push(1));
        System.out.println(recycleQueue.push(2));
        System.out.println(recycleQueue.push(3));
        System.out.println("head:"+recycleQueue.getHead());
        System.out.println("tail:"+recycleQueue.getTail());
        System.out.println(recycleQueue.push(4));
        System.out.println(recycleQueue.push(5));
        System.out.println(recycleQueue.push(6));

        System.out.println("head:"+recycleQueue.getHead());
        System.out.println("tail:"+recycleQueue.getTail());

        System.out.println(recycleQueue.pop());
        System.out.println("head:"+recycleQueue.getHead());
        System.out.println("tail:"+recycleQueue.getTail());
        System.out.println(recycleQueue.push(5));
        System.out.println(recycleQueue.push(6));
        System.out.println("head:"+recycleQueue.getHead());
        System.out.println("tail:"+recycleQueue.getTail());
    }
}


数据结构与算法之美-学习笔记(一)_第14张图片

王争老师的代码

public class CircularQueue {
 // 数组:items,数组大小:n
 private String[] items;
 private int n = 0;
 // head表示队头下标,tail表示队尾下标
 private int head = 0;
 private int tail = 0;
 // 申请一个大小为capacity的数组
 public CircularQueue(int capacity) {
 items = new String[capacity];
 n = capacity;
 }
 // 入队
 public boolean enqueue(String item) {
 // 队列满了
 if ((tail + 1) % n == head) return false;
 items[tail] = item;
 tail = (tail + 1) % n;
 return true;
 }
 // 出队
 public String dequeue() {
 // 如果head == tail 表示队列为空
 if (head == tail) return null;
 String ret = items[head];
 head = (head + 1) % n;
 return ret;
 }
}

阻塞队列和并发队列

阻塞队列其实就是在队列基础上增加了阻塞操作。简单来说,就是在队列为空的时候,从队头取数据会被阻塞。因为此时还没有数据可取,直到队列中有了数据才能返回;如果队列已经满了,那么插入数据的操作就会被阻塞,直到队列中有空闲位置后#再插入数据,然后再返回

你应该已经发现了,上述的定义就是一个“生产者-消费者模型”!是的,我们可以使用阻塞队列,轻松实现一个“生产者-消费者模型”!

线程池没有空闲线程时,新的任务请求线程资源时,线程池该如何处理?各种处理策略又是如何实现的

我们一般有两种处理策略。第一种是非阻塞的处理方式,直接拒绝任务请求;另一种是阻塞的处理方式,将请求排队,等到有空闲线程时,取出排队的请求继续处理。那如何存储排队的请求呢?

基于链表的实现方式,可以实现一个支持无限排队的无界队列(unbounded queue),但是可能会导致过多的请求排队等待,请求处理的响应时间过长。所以,针对响应时间比较敏感的系统,基于链表实现的无限排队的线程池是不合适的。
而基于数组实现的有界队列(bounded queue),队列的大小有限,所以线程池中排队的请求超过队列大小时,接下来的请求就会被拒绝,这种方式对响应时间敏感的系统来说,就相对更加合理。不过,设置一个合理的队列大小,也是非常有讲究的。队列太大导致等待的请求太多,队列太小会导致无法充分利用系统资源、发挥最大性能。

实际上,对于大部分资源有限的场景,当没有空闲资源时,基本上都可以通过“队列”这种数据结构来实现请求排队。

留言

循环队列的数组实现,在您的代码中,入队时会空留出一个位置,定义一个记录队列大小的值size,当这个值与数组大小相等时,表示队列已满,当tail达到最底时,size不等于数组大小时,tail就指向数组第一个位置。当出队时,size—,入队时size++

循环队列的链表实现

public class LinkedQueue {
//定义一个节点类
private class Node{
String value;
Node next;
}
//记录队列元素个数
private int size = 0;
//head指向队头结点,tail指向队尾节点
private Node head;
private Node tail;
//申请一个队列
public LinkedQueue(){}
//入队
public boolean enqueue(String item){
Node newNode = new Node();
newNode.value = item;
if (size == 0) head = newNode; 
else tail.next = newNode;
tail = newNode;
size++;
return true;
}
//出队
public String dequeue(){
String res = null;
if(size == 0) return res;
if(size == 1) tail = null;
res = head.value;
head = head.next;
size--;
return res;
}
}

三、队列有哪些常见的应用?

1.阻塞队列
1)在队列的基础上增加阻塞操作,就成了阻塞队列。
2)阻塞队列就是在队列为空的时候,从队头取数据会被阻塞,因为此时还没有数据可取,直到队列中有了数据才能返回;如果队列已经满了,那么插入数据的操作就会被阻塞,直到队列中有空闲位置后再插入数据,然后再返回。
3)从上面的定义可以看出这就是一个“生产者-消费者模型”。这种基于阻塞队列实现的“生产者-消费者模型”可以有效地协调生产和消费的速度。当“生产者”生产数据的速度过快,“消费者”来不及消费时,存储数据的队列很快就会满了,这时生产者就阻塞等待,直到“消费者”消费了数据,“生产者”才会被唤醒继续生产。不仅如此,基于阻塞队列,我们还可以通过协调“生产者”和“消费者”的个数,来提高数据处理效率,比如配置几个消费者,来应对一个生产者。

2.并发队列
1)在多线程的情况下,会有多个线程同时操作队列,这时就会存在线程安全问题。能够有效解决线程安全问题的队列就称为并发队列。
2)并发队列简单的实现就是在enqueue()、dequeue()方法上加锁,但是锁粒度大并发度会比较低,同一时刻仅允许一个存或取操作。
3)实际上,基于数组的循环队列利用CAS原子操作,可以实现非常高效的并发队列。这也是循环队列比链式队列应用更加广泛的原因

10|递归:如何用三行代码找到“最终推荐人”?

递归需要满足的三个条件
1 一个问题的解可以分解为几个子问题的解
何为子问题?子问题就是数据规模更小的问题。比如,前面讲的电影院的例子,你要知道,“自己在哪一排”的问题,可以分解为“前一排的人在哪一排”这样一个子问题。

2 这个问题与分解之后的子问题,除了数据规模不同,求解思路完全一样

3.存在递归终止条件

写递归代码的关键就是找到如何将大问题分解为小问题的规律,并且基于此写出递推公式,然后再推敲终止条件,最后将递推公式和终止条件翻译成代码

对于递归代码,这种试图想清楚整个递和归过程的做法,实际上是进入了一个思维误区。很多时候,我们理解起来比较吃力,主要原因就是自己给自己制造了这种理解障碍那正确的思维方式应该是怎样的呢?

因此,编写递归代码的关键是,只要遇到递归,我们就把它抽象成一个递推公式,不用想一层层的调用关系,不要试图用人脑去分解递归的每个步骤。

递归代码要警惕重复计算

为了避免重复计算,我们可以通过一个数据结构(比如散列表)来保存已经求解过的f(k)。当递归调用到f(k)时,先看下是否已经求解过了。如果是,则直接从散列表中取值返回,不需要重复计算,这样就能避免刚讲的问题了

 if (n == 1) return 1;
 if (n == 2) return 2;
 
 // hasSolvedList可以理解成一个Map,key是n,value是f(n)
 if (hasSolvedList.containsKey(n)) {
 return hasSovledList.get(n);
 }
 
 int ret = f(n-1) + f(n-2);
 hasSovledList.put(n, ret);
 return ret;
}

怎么将递归代码改写为非递归代码?

递归的优缺点?
1.优点:代码的表达力很强,写起来简洁。
2.缺点:空间复杂度高、有堆栈溢出风险、存在重复计算、过多的函数调用会耗时较多等问题。

11|排序(上):为什么插入排序比冒泡排序更受欢迎?

数据结构与算法之美-学习笔记(一)_第15张图片

对于要排序的数据,有的接近有序,有的完全无序。有序度不同的数据,对于排序的执行时间肯定是有影响的

基于比较的排序算法的执行过程,会涉及两种操作,一种是元素比较大小,另一种是元素交换或移动。所以,如果我们在分析排序算法的执行效率的时候,应该把比较次数和交换(或移动)次数也考虑进去。

排序算法的稳定性

仅仅用执行效率和内存消耗来衡量排序算法的好坏是不够的。针对排序算法,我们还有一个重要的度量指标,稳定性

在这里插入图片描述

为什么要考察排序算法的稳定性呢?

数据结构与算法之美-学习笔记(一)_第16张图片

冒泡排序

冒泡排序只会操作相邻的两个数据。每次冒泡操作都会对相邻的两个元素进行比较,看是否满足大小关系要求。如果不满足就让它俩互换。一次冒泡会让至少一个元素移动到它应该在的位置,重复n次,就完成了n个数据的排序工作。

冒泡排序是稳定的排序算法吗?
在冒泡排序中,只有交换才可以改变两个元素的前后顺序。为了保证冒泡排序算法的稳定性,当有相邻的两个元素大小相等的时候,我们不做交换,相同大小的数据在排序前后不会改变顺序,所以冒泡排序是稳定的排序算法。

冒泡排序的时间复杂度是多少?
数据结构与算法之美-学习笔记(一)_第17张图片

插入排序

首先,我们将数组中的数据分为两个区间,已排序区间和未排序区间。初始已排序区间只有一个元素,就是数组的第一个元素。插入算法的核心思想是取未排序区间中的元素,在已排序区间中找到合适的插入位置将其插入,并保证已排序区间数据一直有序。重复这个过程,直到未排序区间中元素为空,算法结束

插入排序也包含两种操作,一种是元素的比较,一种是元素的移动。当我们需要将一个数据a插入到已排序区间时,需要拿a与已排序区间的元素依次比较大小,找到合适的插入位置。找到插入点之后,我们还需要将插入点之后的元素顺序往后移动一位,这样才能腾出位置给元素 插入。

数据结构与算法之美-学习笔记(一)_第18张图片
插入排序代码实现

public void insertionSort(int[] a, int n) {
 if (n <= 1) return;
 for (int i = 1; i < n; ++i) {
 int value = a[i];
 int j = i - 1;
 // 查找插入的位置
 for (; j >= 0; --j) {
 if (a[j] > value) {
 a[j+1] = a[j]; // 数据移动
 } else {
 break;
 }
 }
 a[j+1] = value; // 插入数据
 }
}

插入排序是原地排序算法吗?
插入排序算法的运行并不需要额外的存储空间,所以空间复杂度是O(1),也就是说,这是一个原地排序算法。

插入排序是稳定的排序算法吗?
在插入排序中,对于值相同的元素,我们可以选择将后面出现的元素,插入到前面出现元素的后面,这样就可以保持原有的前后顺序不变,所以插入排序是稳定的排序算法

第三,插入排序的时间复杂度是多少?

如果要排序的数据已经是有序的,我们并不需要搬移任何数据。如果我们从尾到头在有序数据组里面查找插入位置,每次只需要比较一个数据就能确定插入的位置。所以这种情况下,最好是时间复杂度为O(n)。注意,这里是从尾到头遍历已经有序的数据。
如果数组是倒序的,每次插入都相当于在数组的第一个位置插入新的数据,所以需要移动大量的数据,所以最坏情况时间复杂度为O(n2)。

还记得我们在数组中插入一个数据的平均时间复杂度是多少吗?没错,是O(n)。所以,对于插入排序来说,每次插入操作都相当于在数组中插入一个数据,循环执行n次插入操作,所以平均时间复杂度为O(n2)

选择排序(Selection Sort)

选择排序算法的实现思路有点类似插入排序,也分已排序区间和未排序区间。但是选择排序每次会从未排序区间中找到最小的元素,将其放到已排序区间的末尾。

数据结构与算法之美-学习笔记(一)_第19张图片

首先,选择排序空间复杂度为O(1),是一种原地排序算法。选择排序的最好情况时间复杂度、最坏情况和平均情况时间复杂度都为O(n2)。

鄙人来推一下 第一个数需要比较n-1次,第二个数需要比较n-2次。。。。。
0+1+。。。n-1等差数列求和就是n方级别的时间复杂度了,选择排序的时间复杂度跟数据的有序程度没有关系

那选择排序是稳定的排序算法吗?

选择排序是一种不稳定的排序算法。从我前面画的那张图中,你可以看出来,选择排序每次都要找剩余未排序元素中的最小值,并和前面的元素交换位置,这样破坏了稳定性

比如5,8,5,2,9这样一组数据,使用选择排序算法来排序的话,第一次找到最小元素2,与第一个5交换位置,那第一个5和中间的5顺序就变了,所以就不稳定了。正是因此,相对于冒泡排序和插入排序,选择排序就稍微逊色了。

虽然冒泡排序和插入排序在时间复杂度上是一样的,都是O(n2),但是如果我们希望把性能优化做到极致,那肯定首选插入排序。插入排序的算法思路也有很大的优化空间,我们只是讲了最基础的一种。如果你对插入排序的优化感兴趣,可以自行学习一下希尔排序。

数据结构与算法之美-学习笔记(一)_第20张图片

小结

数据结构与算法之美-学习笔记(一)_第21张图片
今天讲的这三种排序算法,实现代码都非常简单,对于小规模数据的排序,用起来非常高效。但是在大规模数据排序的时候,这个时间复杂度还是稍微有点高,所以我们更倾向于用下一节要讲的时间复杂度为O(nlogn)的排序算法。

精选留言

如果数据存储在链表中,这三种排序算法还能工作吗?如果能,那相应的时间、空间复杂度又是多少呢?

对于老师所提课后题,觉得应该有个前提,是否允许修改链表的节点value值,还是只能改变节点的位置。一般而言,考虑只能改变节点位置,冒泡排序相比于数组实现,比较次数一致,但交换时操作更复杂;插入排序,比较次数一致,不需要再有后移操作,找到位置后可以直接插入,但排序完毕后可能需要倒置链表;选择排序比较次数一致,交换操作同样比较麻烦。综上,时间复杂度和空间复杂度并无明显变化,若追求极致性能,冒泡排序的时间复杂度系数会变大,插入排序系数会减小,选择排序无明显变化。

三种排序算法不涉及随机读取,所以链表是可以实现的,而且时间复杂度空间空间复杂度和数组一样

买什么数据结构与算法,这里有:动态图解十大经典排序算法(含JAVA代码实现)

12|排序(下):如何用快排思想在O(n)内查找第K大元素?

归并排序和快速排序。这两种排序算法适合大规模的数据排序,比上一节讲的那三种排序算法要更常用

归并排序的原理

归并排序的核心思想还是蛮简单的。如果要排序一个数组,我们先把数组从中间分成前后两部分,然后对前后两部分分别排序,再将排好序的两部分合并在一起,这样整个数组就都有序了

归并排序使用的就是分治思想。分治,顾名思义,就是分而治之,将一个大问题分解成小的子问题来解决。小的子问题解决了,大问题也就解决了

归并排序的性能分析
第一,归并排序是稳定的排序算法吗?
在合并的过程中,如果A[p…q]和A[q+1…r]之间有值相同的元素,那我们可以像伪代码中那样,先把A[p…q]中的元素放入tmp数组。这样就保证了值相同的元素,在合并前后的先后顺序不变。所以,归并排序是一个稳定的排序算法

归并排序的执行效率与要排序的原始数组的有序程度无关,所以其时间复杂度是非常稳定的,不管是最好情况、最坏情
况,还是平均情况,时间复杂度都是O(nlogn)。

实际上,递归代码的空间复杂度并不能像时间复杂度那样累加。刚刚我们忘记了最重要的一点,那就是,尽管每次合并操作都需要申请额外的内存空间,但在合并完成之后,临时开辟的内存空间就被释放掉了。在任意时刻,CPU只会有一个函数在执行,也就只会有一个临时的内存空间在使用。临时内存空间最大也不会超过n个数据的大小,所以空间复杂度是O(n)

快速排序的原理

13|线性排序:如何根据年龄给100万用户数据排序?

桶排序、计数 排序、基数排序。因为这些排序算法的时间复杂度是线性的,所以我们把这类排序算法叫作线性排序(Linear sort)。之所以能做到线性的时间复杂度,主要原因是,这三个算法是非基于比较的排序算法,都不涉及元素之间的比较操作

这几种排序算法理解起来都不难,时间、空间复杂度分析起来也很简单,但是对要排序的数据要求很苛刻,所以我们今天学习重点的是掌握这些排序算法的适用场景

桶排序(Bucket sort)

核心思想是将要排序的数据分到几个有序的桶里,每个桶里的数据再单独进行排序。桶内排完序之后,再把每个桶里的数据按照顺序依次取出,组成的序列就是有序的了

如果要排序的数据有n个,我们把它们均匀地划分到m个桶内,每个桶里就有k=n/m个元素。每个桶内部使用快速排序,时间复杂度为O(k * logk)。m个桶排序的时间复杂度就是O(m * k * logk),因为k=n/m,所以整个桶排序的时间复杂度就是O(n*log(n/m))。当桶的个数m接近数据个数n时,log(n/m)就是一个非常小的常量,这个时候桶排序的时间复杂度接近O(n)。

数据结构与算法之美-学习笔记(一)_第22张图片
针对这些划分之后还是比较大的文件,我们可以继续划分,比如,订单金额在1元到1000元之间的比较多,我们就将这个区间继续划分为10个小区间,1元到100元,101元到200元,201元到300元…901元到1000元。如果划分之后,101元到200元之间的订单还是太多,无法一次性读入内存,那就继续再划分,直到所有的文件都能读入内存为止。

计数排序(Counting sort)

我个人觉得,计数排序其实是桶排序的一种特殊情况。当要排序的n个数据,所处的范围并不大的时候,比如最大值是k,我们就可以把数据划分成k个桶。每个桶内的数据值都是相同的,省掉了桶内排序的时间

计数排序的算法思想就是这么简单,跟桶排序非常类似,只是桶的大小粒度不一样计数排序的算法思想就是这么简单,跟桶排序非常类似,只是桶的大小粒度不一样

不过,为什么这个排序算法叫“计数”排序呢?“计数”的含义来自哪里呢?

数组里面存放的是个数

数据结构与算法之美-学习笔记(一)_第23张图片

数据结构与算法之美-学习笔记(一)_第24张图片
计数排序代码

// 计数排序,a是数组,n是数组大小。假设数组中存储的都是非负整数。
public void countingSort(int[] a, int n) {
 if (n <= 1) return;
 // 查找数组中数据的范围
 int max = a[0];
 for (int i = 1; i < n; ++i) {
 if (max < a[i]) {
 max = a[i];
 }
 }
 int[] c = new int[max + 1]; // 申请一个计数数组c,下标大小[0,max]
 for (int i = 0; i <= max; ++i) {
 c[i] = 0;
 }
 // 计算每个元素的个数,放入c中
 for (int i = 0; i < n; ++i) {
 c[a[i]]++;
 }
 // 依次累加
 for (int i = 1; i <= max; ++i) {
 c[i] = c[i-1] + c[i];
 }
 // 临时数组r,存储排序之后的结果
 int[] r = new int[n];
 // 计算排序的关键步骤,有点难理解
 for (int i = n - 1; i >= 0; --i) {
 int index = c[a[i]]-1;
 r[index] = a[i];
 c[a[i]]--;
 }
 // 将结果拷贝给a数组
 for (int i = 0; i < n; ++i) {
 a[i] = r[i];
 }
}

计数排序只能用在数据范围不大的场景中,如果数据范围k比要排序的数据n大很多,就不适合用计数排序了。而且,计数排序只能给非负整数排序,如果要排序的数据是其他类型的,要将其在不改变相对大小的情况下,转化为非负整数。

比如,还是拿考生这个例子。如果考生成绩精确到小数后一位,我们就需要将所有的分数都先乘以10转化成整数,然后再放到9010个桶内。再比如,如果要排序的数据中有负数,数据的范围是[-1000, 1000],那我们就需要先对每个数据都加1000,转化成非负整数

基数排序(Radix sort)

假设我们有10万个手机号码,希望将这10万个手机号码从小到大排序,你有什么比较快速的排序方法呢?

我们之前讲的快排,时间复杂度可以做到O(nlogn),还有更高效的排序算法吗?桶排序、计数排序能派上用场吗?手机号码有11位,范围太大,显然不适合用这两种排序算法。针对这个排序问题,有没有时间复杂度是O(n)的算法呢?现在我就来介绍一种新的排序算法,基数排序。

基数排序对要排序的数据是有要求的,需要可以分割出独立的“位”来比较,而且位之间有递进的关系,如果a数据的高位比b数据大,那剩下的低位就不用比较了。除此之外,每一位的数据范围不能太大,要可以用线性排序算法来排序,否则,基数排序的时间复杂度就无法做到O(n)了。

https://pan.baidu.com/s/1gP0b2Nj_jUN2rbxLbLZQHg
用两个指针a、b:a指针从头开始往后遍历,遇到大写字母就停下,b从后往前遍历,遇到小写字母就停下,交换a、b指针对应的元素;重复如上过程,直到a、b指针相交。对于小写字母放前面,数字放中间,大写字母放后面,可以先将数据分为小写字母和非小写字母两大类,进行如上交换后再在非小写字母区间内分为数字和大写字母做同样处理

利用桶排序思想,弄小写,大写,数字三个桶,遍历一遍,都放进去,然后再从桶中取出来就行了。相当于遍历了两遍,复杂度O(n)

14|排序优化:如何实现一个通用的、高性能的排序函数?

数据结构与算法之美-学习笔记(一)_第25张图片

15|二分查找(上):如何用最省内存的方式实现快速查找功能?

今天我们讲一种针对有序数据集合的查找算法:二分查找(Binary Search)算法,也叫折半查找算法

实际的开发场景中。假设有1000条订单数据,已经按照订单金额从小到大排序,每个订单金额都不同,并且最小单位是元。我们现在想知道是否存在金额等于19元的订单。如果存在,则返回订单数据,如果不存在则返回null。

二分查找针对的是一个有序的数据集合,查找思想有点类似分治思想。每次都通过跟区间的中间元素对比,将待查找的区间缩小为之前的一半,直到找到要查找的元素,或者区间被缩小为0

O(logn)惊人的查找速度

数据结构与算法之美-学习笔记(一)_第26张图片在这里插入图片描述

因为logn是一个非常“恐怖”的数量级,即便n非常非常大,对应的logn也很小。比如n等于2的32次方,这个数很大了吧?大约是42亿。也就是说,如果我们在42亿
个数据中用二分查找一个数据,最多需要比较32次。

二分查找的非递归实现

public int bsearch(int[] a, int n, int value) {
 int low = 0;
 int high = n - 1;
 while (low <= high) {
 int mid = (low + high) / 2;
 if (a[mid] == value) {
 return mid;
 } else if (a[mid] < value) {
 low = mid + 1;
 } else {
 high = mid - 1;
 }
 }
 return -1;
}

实际上,mid=(low+high)/2这种写法是有问题的。因为如果low和high比较大的话,两者之和就有可能会溢出。改进的方法是将mid的计算方式写成low+(highlow)/2。更进一步,如果要将性能优化到极致的话,我们可以将这里的除以2操作转化成位运算low+((high-low)>>1)。因为相比除法运算来说,计算机处理位运算要快得多

二分查找的递归实现

// 二分查找的递归实现
public int bsearch(int[] a, int n, int val) {
 return bsearchInternally(a, 0, n - 1, val)
 }
private int bsearchInternally(int[] a, int low, int high, int value) {
 if (low > high) return -1;
 int mid = low + ((high - low) >> 1);
 if (a[mid] == value) {
 return mid;
 } else if (a[mid] < value) {
 return bsearchInternally(a, mid+1, high, value);
 } else {
 return bsearchInternally(a, low, mid-1, value);
 }
}

二分查找应用场景的局限性

首先,二分查找依赖的是顺序表结构,简单点说就是数组

二分查找算法需要按照下标随机访问元素,所以不适用于链表,链表的随机访问时间复杂度是o(n)

其次,二分查找针对的是有序数据

二分查找只能用在插入、删除操作不频繁,一次排序多次查找的场景中。针对动态变化的数据集合,二分查找将不再适用。那针对动态数据集合,如何在其中快速查找某个数据呢?别急,等到二叉树那一节我会详细讲。

太大的数据用数组存储就比较吃力了,也就不能用二分查找了。因为数组是需要连续的内存空间的,如果有1Gb数组,但是正好没有连续的1Gb内存,即使有2G剩余空间,内存中也是没办法装下这些数据的

数据结构与算法之美-学习笔记(一)_第27张图片
二分查找虽然性能比较优秀,但应用场景也比较有限。底层必须依赖数组,并且还要求数据是有序的。对于较小规模的数据查找,我们直接使用顺序遍历就可以了,二分查找的优势并不明显。二分查找更适合处理静态数据,也就是没有频繁的数据插入、删除操作

思考题

  1. 如何编程实现“求一个数的平方根”?要求精确到小数点后6位。
  2. 我刚才说了,如果数据使用链表存储,二分查找的时间复杂就会变得很高,那查找的时间复杂度究竟是多少呢?如果你自己推导一下,你就会深刻地认识
    到,为何我们会选择用数组而不是链表来实现二分查找了。

数据结构与算法之美-学习笔记(一)_第28张图片

16|二分查找(下):如何快速定位IP对应的省份地址?

数据结构与算法之美-学习笔记(一)_第29张图片

变体一:查找第一个值等于给定值的元素

数据结构与算法之美-学习笔记(一)_第30张图片

public int bsearch(int[] a, int n, int value) {
 int low = 0;
 int high = n - 1;
 while (low <= high) {
 int mid = low + ((high - low) >> 1);
 if (a[mid] > value) {
 high = mid - 1;
 } else if (a[mid] < value) {
 low = mid + 1;
 } else {
 if ((mid == 0) || (a[mid - 1] != value)) return mid;
 else high = mid - 1;
 }
 }
 return -1;
}

变体二:查找最后一个值等于给定值的元素

public int bsearch(int[] a, int n, int value) {
 int low = 0;
 int high = n - 1;
 while (low <= high) {
 int mid = low + ((high - low) >> 1);
 if (a[mid] > value) {
 high = mid - 1;
 } else if (a[mid] < value) {
 low = mid + 1;
 } else {
 if ((mid == n - 1) || (a[mid + 1] != value)) return mid;
 else low = mid + 1;
 }
 }
 return -1;
}

变体三:查找第一个大于等于给定值的元素

比如,数组中存储的这样一个序列:3,4,6,7,10。如果查找第一个大于等于5的元素,那就是6。

public int bsearch(int[] a, int n, int value) {
 int low = 0;
 int high = n - 1;
 while (low <= high) {
 int mid = low + ((high - low) >> 1);
 if (a[mid] >= value) {
 if ((mid == 0) || (a[mid - 1] < value)) return mid;
 else high = mid - 1;
 } else {
 low = mid + 1;
 }
 }
 return -1;
}

如果a[mid]小于要查找的值value,那要查找的值肯定在[mid+1, high]之间,所以,我们更新low=mid+1。对于a[mid]大于等于给定值value的情况,我们要先看下这个a[mid]是不是我们要找的第一个值大于等于给定值的元素。如果a[mid]前面已经没有元素,或者前面一个元素小于要查找的值value,那a[mid]就是我们要找的元素。这段逻辑对应的代码是第7行。

变体四:查找最后一个小于等于给定值的元素

public int bsearch7(int[] a, int n, int value) {
 int low = 0;
 int high = n - 1;
 while (low <= high) {
 int mid = low + ((high - low) >> 1);
 if (a[mid] > value) {
 high = mid - 1;
 } else {
 if ((mid == n - 1) || (a[mid + 1] > value)) return mid;
 else low = mid + 1;
 }
 }
 return -1;
}

小结

当我们要查询某个IP归属地时,我们可以先通过二分查找,找到最后一个起始IP小于等于这个IP的IP区间,然后,检查这个IP是否在这个IP区间内,如果在,我们就取出对应的归属地显示;如果不在,就返回未查找到。

课后思考

如果有序数组是一个循环有序数组,比如4,5,6,1,2,3。针对这种情况,如何实现一个求“值等于给定值”的二分查找算
法呢?

这个题是leetcode33 33. 搜索旋转排序数组
数据结构与算法之美-学习笔记(一)_第31张图片
数据结构与算法之美-学习笔记(一)_第32张图片

你可能感兴趣的:(数据结构与算法)