第一章 Caché 算法和数据结构 基础和概念
基本概念
数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。
数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。
程序设计 = 数据结构 + 算法
数据:是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。
数据元素:是组成数据的,有一定意义的基本单位,在计算机中通常作为整体处理。也被成为记录。
数据项:一个数据元素可以由若干个数据项组成。
数据项是数据不可分割的最小单位。
对局对象:是性质相同的数据元素的集合,是数据的子集。
逻辑结构概念
逻辑结构:是指数据对象中数据元素之间的相互关系。
集合结构:集合结构中的数据元素除了同属于一个集合外,他们之间没有其他关系。
线性结构:线性结构中的数据元素之间是一对一的关系。
树形结构:树形结构中的数据元素之间存在一种一对多的层次关系。
图形结构:图形结构的数据元素是多对多的关系
物理结构概念
物理结构:是指数据的逻辑结构在计算机中的储存形式。
顺序储存结构:是把数据元素放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的。
链式存储结构:是把数据元素存放在任意的储存单元里,这组存储单元可以是连接的,也可以是不连续的。
数据类型概念
数据类型:是指一组性质相同的值的结合及定义在此集合上的一些操作的总称。
- 原子类型:是不挂科再分解的基本类型,包括整形,字符串。
- 结构类型:是若干个类型组成而成,是可以再分解的。例如整形数组是由若干整形数据组成的。
抽象:是指抽取出事物具有的普遍性的本质。它是抽出问题的特征而忽略非本质的细节,是对具体事物的一个概括。抽象是一种思考问题的方式,它隐藏了繁杂的细节,只保留实现目标所必须的信息。
抽象数据类型:是指一个数学模型及定义在该模型上的一组操作。
抽象的意义在于数据类型的数学抽象特性。
抽象数据类型体现了程序设计中的问题分解,抽象和信息隐藏的特性。
什么是数据结构
- 线性结构:包括数组,链表,以及由他们衍生出来的栈,队列,哈希表。
- 树:二叉树
- 图
- 其他数据结构:跳表,哈希链表,位图。
数据结构瑟吉欧数据的组织,管理和存储格式,其使用目的是为了高效地访问复杂数据结构。
什么是时间复杂度
时间复杂度是对一个算法运行时间长短的量度,用大O表示,记作T(n)=O(f(n))。
常见的时间复杂度按照从低到高的顺序,包括O(1),O(logn),O(n),O(nlogn),O(n^2)
什么是空间复杂度
空间复杂度对一个算法在运行过程中临时占用存储空间大小的量度,用大O表示,记作S(n)=O(f(n))。
常见的空间复杂度按照从低到高的顺序,包括O(1),O(n),O(n^2)等。其中递归算法的空间复杂度和递归深度成正比。
算法
- 算法,对应单词algorithm。
- 算法有高效的,也有低效的。
- 运算
- 查找
- 排序
- 最优决策
- 面试
算法:算法是解决特定问题求解步骤的描述,在计算机表现为指令的有限序列,并且每条指令表示一个或多个操作,
在计算机领域,算法是一系列程序指令,用于处理特定的运算和逻辑问题。衡量算法的两个标准,时间复杂度(运行时间),空间复杂度(占用内存)。
算法的特性
- 输入,输出 算法具有零个或多个输入。至少有一个或多个输出。
- 又穷性 指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成。
- 确定性 算法的每一步骤具有确认的含义,不会出现二义性。
- 可行性 算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限的次数完成。
算法的设计要求
正确性:算法的正确性是指算法至少应该具有输入,输出和加工处理无歧义性能正确反映问题的需求,能够得到问题的正确答案。
可读性:算法设计的另一目的是为了便于阅读,理解和交流。
健壮性:当输入数据不合法时,算法也能处理相关处理,而不是产生异常或莫名奇妙的结果。
设计算法应该尽量满足时间效率高和存储量低的需求。
算法效率的度量方法
事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
-
事先分析估算方法 在计算机程序编制钱,依据统计方法对算法进行估算。
- 算法采用的策略,方法。
- 编译产生的代码质量。
- 问题的输入规模。
- 机器执行指令的速度。
一个程序的运行时间,依赖于算法的好坏和问题的输入规模,所谓问题输入规模是指输入量多少。
/// 第一种累加求和算法
/// w ##class(PHA.TEST.Arithmetic).FirstAdd()
ClassMethod FirstAdd()
{
s n = 100
s sum = 0
f i = 1 : 1 :n d
.s sum = sum + i /* 执行n次 */
q sum
}
/// 第二种累加求和算法
/// w ##class(PHA.TEST.Arithmetic).SecondAdd()
ClassMethod SecondAdd()
{
s n = 100
s sum = 0
s sum = (1 + n) * n / 2 /* 执行1次 */
q sum
}
/// 第三种累加求和算法
/// w ##class(PHA.TEST.Arithmetic).ThirdAdd()
ClassMethod ThirdAdd()
{
s n = 10
s sum = 0
s x = 0
f i = 1 : 1 :n d
.f j = 1 : 1 : n d
..s x = x + 1 /* 执行n * n次 */
..s sum = sum + x
q sum
}
最终,在分析程序的运行时间时,最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤。
我们把 第一种成为 f(n) = n
, 第二种 f(n) = 1
,第三种 f(n) = n^2
时间效率上 f(1) > f(n) > f(n^2)
某个算法,随着n的增大,它会越来约优于另一个算法,或者越来越差与另一个算法。
算法时间复杂度
在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n)=O(f(n))。它表示岁问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐进时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数。
这样大写O来体现算法时间复杂度的记法,我们称之为大O记法。
一般情况下,随着n的增大,T(n)增长最慢的算法为最优算法。
我们的三个求和算法的时间复杂度分别 O(n),O(1),O(n^2)
- O(1) 常数阶
- O(n) 线性阶
- O(n^2) 平方阶
推导大O阶:
- 用常数1取代运行时间中的所有加法常数。
- 在修改后的运行次数函数中,只保留最高阶项。
- 如果得到最高阶存在且不是1,则去除与这个项相乘的常数。
- 得到的结果就是大O阶。
常数阶
s n = 100 /* 执行1次 */
s sum = 0 /* 执行1次 */
s sum = (1 + n) * n / 2 /* 执行1次 */
q sum /* 执行1次 */
f(n)= 4,根据推导,时间复杂度记作O(1)
线性阶
f i = 1 : 1 :n d
.s sum = sum + i /* 执行n次 */
时间复杂度记作O(n)
对数阶
/// w ##class(PHA.TEST.Arithmetic).Log()
ClassMethod Log()
{
s count = 1
s num = 1
while (count < 2 ** num)
{ s num = num +1
s count = count * 2
}
q num
}
2^x=n
x=log_2n
时间复杂度记作O(logn)
平方阶
f i = 1 : 1 :n d /* 执行n次 */
.f j = 1 : 1 : n d /* 执行n次 */
时间复杂度记作O(n^2)
常见的时间复杂度
O(1)
我们查找一个有n个随机数字的数组的某个数字,最好情况是第一个数字就是,那么空间复杂度为O(1),但也有可能这个数字就在最后一个位置上。那么算法复杂度就是O(n)。
算法的空间复杂度
空间复杂度对一个算法在运行过程中临时占用存储空间大小的量度,用大O表示,记作S(n)=O(f(n))。
常见的空间复杂度按照从低到高的顺序,包括O(1),O(n),O(n^2)等。其中递归算法的空间复杂度和递归深度成正比。
空间复杂度的计算
常量空间
线性空间
二维空间
递归空间