本章将介绍一个新概念:数据结构。数据结构是以某种方式(如通过编号)组合起来的数据元素(如数、字符乃至其他数据结构)集合。在Python中,最基本的数据结构为序列(sequence)。序列中的每个元素都有编号,即其位置或索引,其中第一个元素的索引为0,第二个元素的索引为1,依此类推。在有些编程语言中,从1开始给序列中的元素编号,但从0开始指出相对于序列开头的偏移量。
Python内置了多种序列,本章重点讨论其中最常用的两种:列表和元组。另一种重要的序列是字符串,将在下一章更详细地讨论。
列表和元组的主要不同在于,列表是可以修改的,而元组不可以。这意味着列表适用于需要中途添加元素的情形,而元组适用于出于某种考虑需要禁止修改序列的情形。禁止修改序列通常出于技术方面的考虑,与Python的内部工作原理相关,这也是有些内置函数返回元组的原因所在。
在需要处理一系列值时,序列很有用。在数据库中,你可能使用序列来表示人,其中第一个元素为姓名,而第二个元素为年龄。如果使用列表来表示(所有元素都放在方括号内,并用逗号隔开),将类似于下面这样
序列还可包含其他序列,因此可创建一个由数据库中所有人员组成的列表:
有几种操作适用于所有序列,包括索引、切片、相加、相乘和成员资格检查。另外,Python还提供了一些内置函数,可用于确定序列的长度以及找出序列中最大和最小的元素。
序列中的所有元素都有编号——从0开始递增。你可像下面这样使用编号来访问各个元素:
当你使用负数索引时,Python将从右(即从最后一个元素)开始往左数,因此1是最后一个元素的位置
对于字符串字面量(以及其他的序列字面量),可直接对其执行索引操作,无需先将其赋给变量。这与先赋给变量再对变量执行索引操作的效果是一样的
除使用索引来访问单个元素外,还可使用切片(slicing)来访问特定范围内的元素。为此,可使用两个索引,并用冒号分隔:
如你所见,切片适用于提取序列的一部分,其中的编号非常重要:第一个索引是包含的第一个元素的编号,但第二个索引是切片后余下的第一个元素的编号。简而言之,你提供两个索引来指定切片的边界,其中第一个索引指定的元素包含在切片内,但第二个索引指定的元素不包含在切片内
事实上,执行切片操作时,如果第一个索引指定的元素位于第二个索引指定的元素后面(在这里,倒数第3个元素位于第1个元素后面),结果就为空序列。
执行切片操作时,你显式或隐式地指定起点和终点,但通常省略另一个参数,即步长。在普通切片中,步长为1。这意味着从一个元素移到下一个元素,因此切片包含起点和终点之间的所有元素
如果指定的步长大于1,将跳过一些元素。例如,步长为2时,将从起点和终点之间每隔一个元素提取一个元素
显式地指定步长时,也可使用前述简写。例如,要从序列中每隔3个元素提取1个,只需提供步长4即可
当然,步长不能为0,否则无法向前移动,但可以为负数,即从右向左提取元素
可使用加法运算符来拼接序列。不能拼接列表和字符串,虽然它们都是序列。一般而言,不能拼接不同类
型的序列
将序列与数x相乘时,将重复这个序列x次来创建一个新序列
空列表是使用不包含任何内容的两个方括号([])表示的。如果要创建一个可包含10个元素的列表,但没有任何有用的内容,可像前面那样使用[42]*10。但更准确的做法是使用[0]*10,这将创建一个包含10个零的列表。然而,在有些情况下,你可能想使用表示“什么都没有”的值,如表示还没有在列表中添加任何内容。在这种情况下,可使用None。在Python中,N
要检查特定的值是否包含在序列中,可使用运算符in。这个运算符与前面讨论的运算符(如乘法或加法运算符)稍有不同。它检查是否满足指定的条件,并返回相应的值:满足时返回True,不满足时返回False。这样的运算符称为布尔运算符,而前述真值称为布尔值。
内置函数len、min和max很有用,其中函数len返回序列包含的元素个数,而min和max分别返回序列中最小和最大的元素
前面的示例大量地使用了列表,你明白了它们很有用,但本节主要讨论列表不同于元组和字符串的地方——列表是可变的,即可修改其内容。另外,列表有很多特有的方法。
注意:字符串和元祖不可以修改内容,列表可以修改内容
鉴于不能像修改列表那样修改字符串,但是在有些情况下使用字符串来创建列表很有帮助。为此,可使用函数list①
字符列表(如前述代码中的字符列表)转换为字符串,可使用下面的表达式:''.join(somelist)
可对列表执行所有的标准序列操作,如索引、切片、拼接和相乘,但列表的有趣之处在于它是可以修改的。本节将介绍一些修改列表的方式:给元素赋值、删除元素、给切片赋值以及使用列表的方法。(请注意,并非所有列表方法都会修改列表。)
修改列表很容易,只需使用第1章介绍的普通赋值语句即可,但不是使用类似于x = 2这样的赋值语句,而是使用索引表示法给特定位置的元素赋值,如x[1] = 2。
不能给不存在的元素赋值,因此如果列表的长度为2,就不能给索引为2元素赋值。
从列表中删除元素也很容易,只需使用del语句即可
切片是一项极其强大的功能,而能够给切片赋值让这项功能显得更加强大。
使用切片赋值还可在不替换原有元素的情况下插入新元素,替换”了一个空切片,相当于插入了一个序列。你可采取相反的措施来删除
切片
方法是与对象(列表、数、字符串等)联系紧密的函数。通常,像下面这样调用方法:object.method(arguments)
方法调用与函数调用很像,只是在方法名前加上了对象和句点
列表包含多个可用来查看或修改其内容的方法
3.3.1 append
方法append用于将一个对象附加到列表末尾
append也就地修改列表。这意味着它不会返回修改后的新列表,而是直接修改旧列表。
方法clear就地清空列表的内容。这类似于切片赋值语句a[:] = []。
方法 copy 复制列表。前面说过,常规复制只是将另一个名称关联到列表,要让a和b指向不同的列表,就必须将b关联到a的副本。
方法count计算指定的元素在列表中出现了多少次
方法extend让你能够同时将多个值附加到列表末尾,为此可将这些值组成的序列作为参数提供给方法extend。换而言之,你可使用一个列表来扩展另一个列表。
注意:extend是添加一个列表,而append是添加一项
方法index在列表中查找指定值第一次出现的索引
注意:若所查找指定值不存在于列表中,则返回报错
方法insert用于将一个对象插入列表。
3.3.8. pop
方法pop从列表中删除一个元素(末尾为最后一个元素),并返回这一元素
注意 pop是唯一既修改列表又返回一个非None值的列表方法
使用pop可实现一种常见的数据结构——栈(stack)。栈就像一叠盘子,你可在上面添加盘子,还可从上面取走盘子。最后加入的盘子最先取走,这被为后进先出(LIFO)
push和pop是大家普遍接受的两种栈操作(加入和取走)的名称。Python没有提供push,但可使用append来替代。方法pop和append的效果相反,因此将刚弹出的值压入(或附加)后,得到的栈将与原来相同。
3.3.9. remove
方法remove用于删除第一个为指定值的元素。
如你所见,这只删除了为指定值的第一个元素,无法删除列表中其他为指定值的元素
方法reverse按相反的顺序排列列表中的元素
方法sort用于对列表就地排序①。就地排序意味着对原来的列表进行修改,使其元素按顺序排列,而不是返回排序后的列表的副本。
前面介绍了多个修改列表而不返回任何值的方法,在大多数情况下,这种行为都相当自然(例如,对append来说就如此)。需要强调sort的行为也是这样的,因为这种行为给很多人都带来了困惑。在需要排序后的列表副本并保留原始列表不变时,通常会遭遇这种困惑。
正确的方式之一是先将y关联到x的副本,再对y进行排序,如下所示:
另一种方式是使用函数sorted。
方法sort接受两个可选参数:key和reverse。这两个参数通常是按名称指定的,称为关键字参数。参数key类似于参数cmp:你将其设置为一个用于排序的函数。然而,不会直接使用这个函数来判断一个元素是否比另一个元素小,而是使用它来为每个元素创建一个键,再根据这些键对元素进行排序。因此,要根据长度对元素进行排序,可将参数key设置为函数len
函数sorted也接受参数key和reverse。在很多情况下,将参数key设置为一个自定义函数很有用。
与列表一样,元组也是序列,唯一的差别在于元组是不能修改的(你可能注意到了,字符串也不能修改)。元组语法很简单,只要将一些值用逗号分隔,就能自动创建一个元组
如你所见,元组还可用圆括号括起(这也是通常采用的做法)
空元组用两个不包含任何内容的圆括号表示
你可能会问,如何表示只包含一个值的元组呢?这有点特殊:虽然只有一个值,也必须在它后面加上逗号
逗号至关重要,仅将值用圆括号括起不管用:(3,)与(3)完全等效。但仅仅加上一个逗号,就能完全改变表达式的值
你可能意识到了,元组并不太复杂,而且除创建和访问其元素外,可对元组执行的操作不多。元组的创建及其元素的访问方式与其他序列相同
元组的切片也是元组,就像列表的切片也是列表一样。
为何要熟悉元组呢?原因有以下两个。
它们用作映射中的键(以及集合的成员),而列表不行。映射将在第4章详细介绍。
有些内置函数和方法返回元组,这意味着必须跟它们打交道。只要不尝试修改元组,与元组“打交道”通常意味着像处理列表一样处理它们(需要使用元组没有的index和count等方法时例外)。一般而言,使用列表足以满足对序列的需求
序列:序列是一种数据结构,其中的元素带编号(编号从0开始)。列表、字符串和元组都属于序列,其中列表是可变的(你可修改其内容),而元组和字符串是不可变的(一旦创建,内容就是固定的)。要访问序列的一部分,可使用切片操作:提供两个指定切片起始和结束位置的索引。要修改列表,可给其元素赋值,也可使用赋值语句给切片赋值。
成员资格:要确定特定的值是否包含在序列(或其他容器)中,可使用运算符in。将运算符in用于字符串时情况比较特殊——这样可查找子串
方法:一些内置类型(如列表和字符串,但不包括元组)提供了很多有用的方法。方法有点像函数,只是与特定的值相关联。方法是面向对象编程的一个重要方面,这将在第7章介绍