集合是一个无序的,不重复的数据组合,它的主要作用如下:
集合(set):把不同的元素组成一起形成集合,是python基本的数据类型。
集合元素(set elements):组成集合的成员(不可重复)
li=[1,2,'a','b']
s =set(li)
print(s) # {1, 2, 'a', 'b'}
li2=[1,2,1,'a','a']
s=set(li2)
print(s) #{1, 2, 'a'}
集合对象是一组无序排列的可哈希的值:集合成员可以做字典的键
li=[[1,2],'a','b']
s =set(li) #TypeError: unhashable type: 'list'
print(s)
集合分类:可变集合、不可变集合
可变集合(set):可添加和删除元素,非可哈希的,不能用作字典的键,也不能做其他集合的元素
不可变集合(frozenset):与上面恰恰相反
li=[1,'a','b']
s =set(li)
dic={s:'123'} #TypeError: unhashable type: 'set'
集合的相关操作
1、创建集合
由于集合没有自己的语法格式,只能通过集合的工厂方法set()和frozenset()创建
s1 = set('alvin')
s2= frozenset('yuan')
print(s1,type(s1)) #{'l', 'v', 'i', 'a', 'n'}
print(s2,type(s2)) #frozenset({'n', 'y', 'a', 'u'})
2、访问集合
由于集合本身是无序的,所以不能为集合创建索引或切片操作,只能循环遍历或使用in、not in来访问或判断集合元素。
s1 = set('zhang')
print('a' in s1)
print('b' in s1)
for i in s1:
print(i)
#
# True
# False
# z
# h
# a
# n
# g
3、更新集合
可使用以下内建方法来更新:
s.add()
s.update()
s.remove()
注意只有可变集合才能更新:
# s1 = frozenset('zhang')
# s1.add(0) #AttributeError: 'frozenset' object has no attribute 'add'
s2=set('zhang')
s2.add('mm')
print(s2) #{'n', 'g', 'mm', 'z', 'a', 'h'}
s2.update('HO')#添加多个元素
print(s2) #{'n', 'z', 'H', 'O', 'h', 'a', 'g'}
s2.remove('h')
print(s2) #{'z', 'n', 'g', 'a'}
del:删除集合本身
** 四、集合类型操作符**
s1 = set([1, 2, 3, 4, 5])
s2 = set([4, 5, 6, 7, 8])
print(2 in s1) # True
print(s1 < s2) # False
s1 = set([1, 2, 3, 4, 5])
s2 = set([4, 5, 6, 7, 8])
print(s1 | s2) #{1, 2, 3, 4, 5, 6, 7, 8}
print(s1.union(s2)) #{1, 2, 3, 4, 5, 6, 7, 8}
与集合and等价,交集符号的等价方法是intersection()
s1 = set([1, 2, 3, 4, 5])
s2 = set([4, 5, 6, 7, 8])
print(s1 & s2) #{4, 5}
print(s1.intersection(s2)) #{4, 5}
s1 = set([1, 2, 3, 4, 5])
s2 = set([4, 5, 6, 7, 8])
print(s1 - s2) #{1, 2, 3}
print(s2 - s1) #{8, 6, 7}
print(s1.difference(s2)) #{1, 2, 3}
对称差分是集合的XOR(‘异或’),取得的元素属于s1,s2但不同时属于s1和s2.其等价方法symmetric_difference()
s1 = set([1, 2, 3, 4, 5])
s2 = set([4, 5, 6, 7, 8])
print(s1 ^ s2) #{1, 2, 3, 6, 7, 8}
print(s1.symmetric_difference(s2)) #{1, 2, 3, 6, 7, 8}
**应用:
'''最简单的去重方式'''
lis = [1,2,3,4,1,2,3,4]
print list(set(lis)) #[1, 2, 3, 4]