说明:

·类似于数学中学的集合,Python中的集合可以实现去重的功能,通过set()函数来实现:

·sets支持x in set, len(set)和 for x in set;

·作为一个无序的集合,sets 不记录元素位置或者插入点,因此,sets不支持indexing, slicing,或其它类序列(sequence-like)的操作;

·学习集合,主要是学习集合的一系列标准操作:集合创建、集合添加、集合删除、交并差集等;




1.创建集合:set()


>>> a = range(10)
>>> a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> a.insert(3,8)
>>> a.insert(3,6)
>>> a
[0, 1, 2, 6, 8, 3, 4, 5, 6, 7, 8, 9]
>>> set(a)
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> set('boy')
set(['y', 'b', 'o'])




2.集合添加:add()与update


--add()

·功能:把要添加的元素作为一个整体添加到集合中;

·演示如下:

>>> a = set('boy')
>>> a
set(['y', 'b', 'o'])
>>> a.add('xpleaf')
>>> a
set(['y', 'b', 'xpleaf', 'o'])

·add()的参数不能为列表和字典,但是可以为元组:

>>> b = set('Hello')
>>> b
set(['H', 'e', 'l', 'o'])
>>> b.add(('xpleaf','CL'))
>>> b
set(['H', ('xpleaf', 'CL'), 'e', 'l', 'o'])


--update()

·功能:把要添加的元素拆分(如果不是单个字符),再一个一个地添加到集合中;

·演示如下:

>>> a
set(['y', 'b', 'xpleaf', 'o'])
>>> a.update('Python')
>>> a
set(['b', 'h', 'xpleaf', 'n', 'P', 'o', 'y', 't'])
>>> a.update([1,2,3])
>>> a
set([1, 2, 'b', 'h', 'xpleaf', 'n', 'P', 3, 'o', 'y', 't'])

·前面讲集合是不支持indexing的,所以这里看到新添加的元素在集合中是无序排列的;




3.集合删除:remove(),discard()与pop()


--remove()

·功能:从set中删除元素,如果不存在则引发KeyError;

·演示如下:

>>> a
set([1, 2, 'b', 'h', 'xpleaf', 'n', 'P', 3, 'o', 'y', 't'])
>>> a.remove('b')
>>> a
set([1, 2, 'h', 'xpleaf', 'n', 'P', 3, 'o', 'y', 't'])
>>> a.remove('KeyError')
Traceback (most recent call last):
  File "", line 1, in 
KeyError: 'KeyError'


--discard()

·功能:如果在set中存在该元素,则删除,无论存在与否,都没有提示;

·演示如下:

>>> a
set([1, 2, 3, 'h', 'xpleaf', 'n', 'P', 'o', 'y', 't'])
>>> import tab
>>> a.discard('xpleaf')
>>> a
set([1, 2, 3, 'h', 'n', 'P', 'o', 'y', 't'])
>>> a.discard('CL')
>>> a
set([1, 2, 3, 'h', 'n', 'P', 'o', 'y', 't'])


--pop()

·功能:删除并返回set中一个不确定的元素;

·演示如下:

>>> a.pop()
1
>>> a
set([2, 3, 'h', 'n', 'P', 'o', 'y', 't'])
>>> a.pop()
2
>>> a.pop()
3
>>> a
set(['h', 'n', 'P', 'o', 'y', 't'])




4.集合数学操作


·进行数学操作需要了解一些集合操作符号和数学符号:

数学符号 Python符号
含义
-或\ - 差集,相对补集

&
交集

|
并集
取∩的补 ^ 对称差集

!=

不等于

= == 等于

in
属于

not in
不属于


--差集,相对补集:-

>>> a = set(range(10))
>>> b = set(range(15))
>>> a
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])
>>> b - a
set([10, 11, 12, 13, 14])
>>> a - b
set([])


--交集:&

>>> a & b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

·也可以用intersection()函数实现:

>>> a.intersection(b)
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


--并集:|

>>> a | b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

·也可以用union()函数实现:

>>> a.union(b)
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])


--对称差集:^

set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])
>>> a ^ b
set([10, 11, 12, 13, 14])

·也可以用symmetric_difference()函数实现:

>>> a.symmetric_difference(b)
set([10, 11, 12, 13, 14])
>>> b.symmetric_difference(a)
set([10, 11, 12, 13, 14])


--等于与不等于:==与!=

>>> a == b
False
>>> a != b
True


--属于与不属于:in与not in

>>> a
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])
>>> a in b
False
>>> b in a
False
>>> a not in b
True
>>> 0 in a
True

·指的是元素是否属于集合,而不是集合之间的包含;

·集合之间的包含(子集)可用:>、>=、<、<=等表示

>>> a >= b
False
>>> a <= b
True

·<=相当于函数issubset():

>>> a <= b
True
>>> a.issubset(b)    ===>a是b的子集
True

·>=相当于函数issuperset():

>>> a >= b
False
>>> a.issuperset(b)    ===>a不是b的超集,即a不包含b
False
>>> b.issuperset(a)    ===>b是a的超集,即b包含a
True




5.其它操作


--len()

·功能:测定集合的长度;

·演示如下:

>>> len(a)
10
>>> len(b)
15


--copy()

·功能:浅复制;

·前面已有提及,不再重复;


--hash()

·功能:返回参数的哈希值;

·演示如下:

>>> a
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> b
set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])
>>> hash(a)
Traceback (most recent call last):
  File "", line 1, in 
TypeError: unhashable type: 'set'

·可以看到普通hash()函数的参数不能为set类型(列表也不行),但可以为字符串类型:

>>> hash('CL')
8576051523077447

·只要数据量足够大,hash是有可能产生相同的hash值,更安全的为md5类型的hash值计算:

>>> import hashlib
>>> a = 'hello'
>>> a = hashlib.md5()
>>> a.hexdigest()
'd41d8cd98f00b204e9800998ecf8427e'

·可以看到产生的hash值中还包含有字母等字符,因此破解的难度会更大。