python的set在大数据分析中的应用

1.python中set数据结构说明

set(集合)是一个无序不重复元素的集,并且这些元素不需要是相同类型的数据。其基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和sysmmetric difference(对称差集)等数学运算。

2.set基本用法

  1. 初始化一个set变量:
>>> x = set('spam')  
>>> y = set(['h','a','m'])  
>>> x, y  
(set(['a', 'p', 's', 'm']), set(['a', 'h', 'm']))  
  1. 来一些基本的操作:
#计算出两个集合的交集
>>> x.intersection(y)
set(['a', 'm'])

#计算两个几个的并集
>>>x.union(y)
set(['a', 'p', 's', 'h', 'm'])

#计算两个集合的差
>>>x.difference(y)
set(['p', 's'])

#对称差集
>>>>print x.symmetric_difference(y)
set(['h', 's', 'p'])

#去重
>>>t = set("Hello")
>>>>t
set(['H', 'e', 'l', 'o'])  #注意返回结果里只有一个"l"

#添加元素
>>>t.add("ss")
>>>t
set(['ss', 'H', 'e', 'l', 'o'])

#删除元素
>>>>t.discard("ss")
>t
set(['H', 'e', 'l', 'o'])

3.总结

在数据分析中,对于百万级别的数据,有时候我们选择用python直接进行分析,那么应用set这种数据结构可以很好地对数据进行去重,删除,数据碰撞等操作。

你可能感兴趣的:(Python,数据挖掘和机器学习)