有时,我们需要从一个数字列表中取一些具有特定特征的数。比如:最大数、最小数、出现次数最多的数、中位数等等。这时,我们就需要用到一些特定的函数来实现我们的目的了。
lst = [1, 3, 3, 4, 5]
max_num = max(lst)
min_mim = min(lst)
如果求平均数要用到statistics这个内置的函数
from statistics import *
lst = [1, 3, 3, 4, 5]
print(average(lst))
数字列表中有很多数是重复的,如何找到这些数中谁出现的次数最多呢?下面介绍两种方法
第一种:用set去重,用max取最大值,key值取元素的数量,代码如下:
lst = [1, 3, 3, 4, 5]
print(max(set(ls),key=ls.count))
第二种:用statistics中的mode
from statistics import *
lst = [1, 3, 3, 4, 5]
print(mode(lst))
这时我们要用到一个heapq的模块。Python中的heapq模块提主要用于实现优先级队列,但也可以用于对数值数据列表进行排序。heap是一种非常高效而有趣的数据结构,常用于排序、找到最小/最大的N个数等场景。详细见我之前的文章:
代码样例如下:
import heapq
lst = [1, 3, 3, 4, 5]
largest = heapq.nlargest(3, lst) # 求列表中最大的三个数
smallest = heapq.nsmallest(3, lst) # 求列表中最小的三个数
print(largest)
依然是用Python内置的statistics模块,这次用其中的median,median也分median_low和median_high两种情况。
from statistics import *
lst = [1, 3, 3, 4, 5]
print(median(lst)) # 样本偶数个时,取中间两个数的平均数
print(median_low(lst)) # 样本偶数个时,取中间两个较小的那个数
print(median_high(lst)) # 样本偶数个时,取中间两个较大的那个数