-集合类型与数学中的集合概念一致
-集合元素之间无序,每个元素唯一,不存在相同元素
-集合元素不可更改,不能是可变数据类型
-集合用大括号{}表示,元素用逗号分隔
-建立集合类型用{}或set()
-建立空集合类型,必须使用set()
举例
A = {"python",123,("python",123)}
print(A)
B = set("pypy123")#使用set()建立 元素唯一 无序
print(B)
输出
{'python', 123, ('python', 123)}
{'3', 'y', '2', 'p', '1'}
1)集合操作符
操作符及应用 | 描述 |
---|---|
S|T | 返回一个新的集合,包括在集合S和T中的所有元素 |
S-T | 返回一个新的集合,包括在集合S但不在T中的元素 |
S&T | 返回一个新的集合,包括同时在集合S和T中的元素 |
S^T | 返回一个新的集合,包括在集合S和T中的非相同元素 |
S<=T或 S < T | 返回True/False,判断S和T的子集关系 |
S>=T或 S > T | 返回True/False,判断S和T的包含关系 |
2)4个增强操作符: S|=T S-=T S&=T S^=T
举例
A = {"p","y",123}
B = set("pypy123")
print(A - B)
输出
{123}
操作函数或方法 | 描述 |
---|---|
S.add(X) | 如果x不在集合S中,将x增加到S |
S.discard() | 移除S中元素x,如果x不在集合S中,不报错 |
S.remove() | 移除S中元素x,如果x不在集合S中,产生KeyError异常 |
S.clear() | 移除S中所有元素 |
S.pop() | 随机返回S的一个元素,更新s,若S为空,产生KeyError异常 |
S.copy() | 返回集合S的一个副本 |
len(S) | 返回集合S的元素个数 |
x in S | 返回True\False |
x not in S | 返回True\False |
set(x) | 将其它类型变量转化为集合类型 |
-包含关系比较
-数据去重
数据去重举例
ls =["p","p","y","y",123]
s = set(ls) #去重
lt = list(s)
print(lt)
输出
['y', 123, 'p']
-序列是一维元素向量,元素类型可以不同
-类似数学元素蓄力
-元素间由序号引导,通过下标访问序列的特定元素
-序列类型是一个基类类型
-字符串类型
-元组类型
-列表类型
操作符及应用 | 描述 |
---|---|
x in s | 如果x是序列S的元素,返回True,否则返回False |
x not in s | 同上类似 |
S + T | 连接两个序列S和T |
Sn 或 nS | 将序列S复制n次 |
S[i] | 索引,返回S中的第i个元素,i是序列的序号 |
S[i:j]或S[i:j:k] | 切片,返回序列S中第i到j以k为步长的元素序列 |
函数和方法 | 描述 |
---|---|
len(S) | 返回序列S的长度 |
min(S)或max(S) | 返回序列S的最小或最大元素,需要S中元素可比较 |
S.index(x)或S.index(x,i,j) | 返回序列S从i开始到j位置中第一次出现元素x的位置 |
S.count(x) | 返回序列S中x出现的总次数 |
-元组是一种序列,一旦创建就不能修改
-使用小括号()或tuple()创建,元素间用逗号分隔
-可以使用或不使用小括号
例如
#返回元组的情况
def func():
return 1,2
-列表是一种序列类型,创建后可以随意被修改
-使用方括号[]或list()创建,元素用逗号分隔
-列表中各元素类型可以不同,无长度限定
-使用[]或list()才是真正的创建了列表,如果仅仅只是使用赋值只是将一个列表付给了新的名字
例表类型操作函数和方法:
函数或方法 | 描述 |
---|---|
ls[i] = x | 替换列表ls第i元素为x |
ls[i:j:k] = lt | 用列表lt替换ls切片后对应的元素子列表 |
del ls[i] | 删除列表ls中第i元素 |
del ls[i:j:k] | 删除列表中第i到第j以k为步长的元素 |
ls += lt | 更新列表ls,将列表lt元素增加到列表ls中 |
ls *= n | 更新列表ls,其元素重复n次 |
ls.append(x) | 在列表ls最后增加一个元素x |
ls.clear() | 删除列表中所有元素 |
ls.copy() | 生成一个新的列表,赋值ls中所有元素 |
ls.insert(i,x) | 在列表ls的第i位置增加X |
ls.pop(i) | 在列表ls中第i个位置元素取出并删除该元素 |
ls.remove(x) | 将列表ls中出现的第一个元素x删除 |
sorted(ls) | 对列表ls元素进行排序 |
les.sort(cmp=None, key=None, reverse=False) | cmp – 可选参数, 如果指定了该参数会使用该参数的方法进行排序;key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序;reverse – 排序规则,reverse = True 降序, reverse = False 升序(默认) |
1、定义空列表lt
lt = []
2、向lt新增5个元素
lt += [1,2,3,4,5]
3、修改lt中的第2个元素
lt[2] = 6
4、向lt中第2个位置增加一个元素
lt.insert(2,7)
5、从lt中第1个位置删除一个元素
del lt[1]
6、删除lt中1-3位置元素
del lt[1:4]
7、判断lt中是否包含数字0
0 in lt
8、向lt新增数字0
lt.append(0)
9、返回数字0所咋lt中的索引
lt.index(0)
10、lt的长度
len(lt)
11、lt中最大元素
max(lt)
12、清空lt
lt.clear()
-元组用于元素不改变的应用场景,更多用于固定搭配
-列表更加灵活,它是最常用的序列类型
-最主要作用:表示一组有序数据,进而操作它们。元素遍历
-映射是一种建(索引)和值(数据)的对应
-键值对:建是数据索引的扩展
-字典是键值对的集合,键值之间是无序的
-采用大括号{}和dict()创建,键值对用冒号:表示
-字典的一个元素是一对键值对
函数或方法 | 描述 |
---|---|
del d[k] | 删除字典的中键k对应的数据值 |
k in d | 判断键k是否在字典d中,如果在返回True,否则False |
d.keys() | 返回字典d中所有的键的信息 |
d.value() | 返回字典d中所有的值的信息 |
d.items() | 返回字典d中所有的键值对信息 |
d.get(k,) | 键k存在,则返回相应值,不在则返回default值 |
d.pop(k,) | 键k存在,则取出相应值,不在则返回default值 |
d.popitem() | 随机从字典d中取出一个键值对,以元组形式返回 |
d.clear() | 删除所有键值对 |
len(d) | 返回字典d中元素的个数 |
-jieba是优秀的中文分词第三方库,需要pip安装
-中文文本需要通过分词获取单个的词语
-jieba库提供三种分词模式,最简单只需掌握一个函数
-jiba分词依靠中文词库
-利用一个中文词库,确定汉字之间的关联概率
-汉字键概率大的组成词库,形成分词效果
-除了分词,用户还可以添加自定义的词组
-精确模式:把文本精确的切分开,不存在冗余单词
-全模式:把文本中所有可能的词语°扫描出来,有冗余
-收索引擎模式:在精确模式基础上,对长词再次切分
jieba库常用函数
函数 | 描述 |
---|---|
jieba.lcut(S) | 精确模式,返回一个列表的分词结果。举例 jieba.lcut(“中国是一个伟大的国际”);输出:[‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘国家’] |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表类型的分词结果,存在冗余。举例:ieba.lcut(“中国是一个伟大国家”,cut_all = True) ;输出:[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘大国’, ‘国家’] |
jieba.lcut_for_search(S) | 收索引擎模式,返回一个列表类型的分词结果,存在冗余。举例:jieba.lcut_for_search(“中华人民共和国万岁”) ;输出:[‘中华’, ‘华人’, ‘人民’, ‘共和’, ‘共和国’, ‘中华人民共和国’, ‘万岁’] |
jieba.add_word(w) | 向分词词典增加新词w |