十种常见排序算法的总结与实现

  • 一、算法概述
      • 1.1、算法分类
      • 1.2、算法复杂度
      • 1.3、相关概念
  • 二、分类
      • 2.1、冒泡排序(Bubble Sort)
      • 2.2、选择排序(Selection Sort)
      • 2.3、插入排序(Insertion Sort)
      • 2.4、希尔排序(Shell Sort)
      • 2.5、归并排序(Merge Sort)
      • 2.6、快速排序(Quick Sort)
      • 2.7、堆排序(Heap Sort)
      • 2.8、计数排序(Counting Sort)
      • 2.9、桶排序(Bucket Sort)
      • 2.10、基数排序(Radix Sort)

一、算法概述

常用的算法已用python转换过来

1.1、算法分类

十种常见排序算法可以分为两大类:

                         非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此称为非线性时间比较类排序。
                         线性时间非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此称为线性时间非比较类排序。

这里写图片描述

1.2、算法复杂度

这里写图片描述

1.3、相关概念

                         稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面。
                         不稳定:如果a原本在b的前面,而a=b,排序之后 a 可能会出现在 b 的后面。
时间复杂度:对排序数据的总的操作次数。反映当n变化时,操作次数呈现什么规律。
                         空间复杂度:是指算法在计算机内执行时所需存储空间的度量,它也是数据规模n的函数。

二、分类

2.1、冒泡排序(Bubble Sort)

                         冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。

2.1.1、算法描述
● 比较相邻的元素。如果第一个比第二个大,就交换它们两个;
● 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对,这样在最后的元素应该会是最大的数;
● 针对所有的元素重复以上的步骤,除了最后一个;
● 重复步骤1~3,直到排序完成。

2.1.2 动图演示
这里写图片描述

2.1.3、代码部分

list1 = [4,1,3,7,5,9,6,2]
for i in range(len(list1)):
    for j in range(len(list1)-1):
        if list1[i]

2.2、选择排序(Selection Sort)

                         选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。

2.2.1 算法描述
n个记录的直接选择排序可经过n-1趟直接选择排序得到有序结果。具体算法描述如下:
● 初始状态:无序区为R[1..n],有序区为空;
● 第i趟排序(i=1,2,3…n-1)开始时,当前有序区和无序区分别为R[1..i-1]和R(i..n)。该趟排序从当前无序区中-选出关键字最小的记录 R[k],将它与无序区的第1个记录R交换,使R[1..i]和R[i+1..n)分别变为记录个数增加1个的新有序区和记录个数减少1个的新无序区;
● n-1趟结束,数组有序化了。

2.2.2 动图演示
这里写图片描述

2.2.3 代码实现

#选择排序
list1 = [4,1,3,7,5,9,6,2]
for i in range(len(list1)):
    for  j in range(i,len(list1)):
        if list1[i]>list1[j]:
            list1[i],list1[j]=list1[j],list1[i]
list1

2.2.4、算法分析
                         表现最稳定的排序算法之一,因为无论什么数据进去都是O(n2)的时间复杂度,所以用到它的时候,数据规模越小越好。唯一的好处可能就是不占用额外的内存空间了吧。理论上讲,选择排序可能也是平时排序一般人想到的最多的排序方法了吧。

2.3、插入排序(Insertion Sort)

插入排序(Insertion-Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。

2.3.1 算法描述
一般来说,插入排序都采用in-place在数组上实现。具体算法描述如下:
● 从第一个元素开始,该元素可以认为已经被排序;
● 取出下一个元素,在已经排序的元素序列中从后向前扫描;
● 如果该元素(已排序)大于新元素,将该元素移到下一位置;
● 重复步骤3,直到找到已排序的元素小于或者等于新元素的位置;
● 将新元素插入到该位置后;
● 重复步骤2~5。

2.3.2 动图演示
这里写图片描述

2.3.2 代码实现

list1 = [4,1,3,7,5,9,6,2]
for i in range(len(list1)):
    for j in range(i+1,len(list1)):
        if list1[i]>list1[j]:
            list1[i],list1[j] = list1[j],list1[i]
list1

2.3.4 算法分析
                            插入排序在实现上,通常采用in-place排序(即只需用到O(1)的额外空间的排序),因而在从后向前扫描过程中,需要反复把已排序元素逐步向后挪位,为最新元素提供插入空间。

2.4、希尔排序(Shell Sort)

                            1959年Shell发明,第一个突破O(n2)的排序算法,是简单插入排序的改进版。它与插入排序的不同之处在于,它会优先比较距离较远的元素。希尔排序又叫缩小增量排序。

2.4.1 算法描述
                            先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,具体算法描述:

                            选择一个增量序列t1,t2,…,tk,其中ti>tj,tk=1;
● 按增量序列个数k,对序列进行k 趟排序;
● 每趟排序,根据对应的增量ti,将待排序列分割成若干长度为m 的子序列,分别对各子表进行直接插入排序。仅增量因子为1 时,整个序列作为一个表来处理,表长度即为整个序列的长度。
2.4.2 动图演示
这里写图片描述
4.3 代码实现

def shell_sort(alist):
    """希尔排序"""
    n = len(alist)
    gap = n // 2
    while gap >= 1:
        for j in range(gap, n):
            i = j
            while (i - gap) >= 0:
                if alist[i] < alist[i - gap]:
                    alist[i], alist[i - gap] = alist[i - gap], alist[i]
                    i -= gap
                else:
                    break
        gap //= 2


if __name__ == '__main__':
    alist = [54, 26, 93, 17, 77, 31, 44, 55, 20]
    print("原列表为:%s" % alist)
    shell_sort(alist)
    print("新列表为:%s" % alist)


# 结果如下:
# 原列表为:[54, 26, 93, 17, 77, 31, 44, 55, 20]
# 新列表为:[17, 20, 26, 31, 44, 54, 55, 77, 93]

4.4 算法分析
                         希尔排序的核心在于间隔序列的设定。既可以提前设定好间隔序列,也可以动态的定义间隔序列。动态定义间隔序列的算法是《算法(第4版)》的合著者Robert Sedgewick提出的。

2.5、归并排序(Merge Sort)

                         归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为2-路归并。

2.5.1 算法描述
● 把长度为n的输入序列分成两个长度为n/2的子序列;
● 对这两个子序列分别采用归并排序;
● 将两个排序好的子序列合并成一个最终的排序序列。

2.5.2 动图演示
这里写图片描述
2.5.3 代码实现

def merge(a, b):
    c = []
    h = j = 0
    while j < len(a) and h < len(b):
        if a[j] < b[h]:
            c.append(a[j])
            j += 1
        else:
            c.append(b[h])
            h += 1

    if j == len(a):
        for i in b[h:]:
            c.append(i)
    else:
        for i in a[j:]:
            c.append(i)

    return c


def merge_sort(lists):
    if len(lists) <= 1:
        return lists
    middle = len(lists)/2
    left = merge_sort(lists[:middle])
    right = merge_sort(lists[middle:])
    return merge(left, right)


if __name__ == '__main__':
    a = [4, 7, 8, 3, 5, 9]
    print merge_sort(a)

2.5.4 算法分析
                         归并排序是一种稳定的排序方法。和选择排序一样,归并排序的性能不受输入数据的影响,但表现比选择排序好的多,因为始终都是O(nlogn)的时间复杂度。代价是需要额外的内存空间。

2.6、快速排序(Quick Sort)

                         快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序,以达到整个序列有序。

2.6.1 算法描述
                         快速排序使用分治法来把一个串(list)分为两个子串(sub-lists)。具体算法描述如下:
● 从数列中挑出一个元素,称为 “基准”(pivot);
● 重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作;
● 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。

2.6.2 动图演示
这里写图片描述

2.6.3 代码实现

def quick_sort(array, l, r):
    if l < r:
        q = partition(array, l, r)
        quick_sort(array, l, q - 1)
        quick_sort(array, q + 1, r)

def partition(array, l, r):
    x = array[r]
    i = l - 1
    for j in range(l, r):
        if array[j] <= x:
            i += 1
            array[i], array[j] = array[j], array[i]
    array[i + 1], array[r] = array[r], array[i+1]
    return i + 1

2.7、堆排序(Heap Sort)

                         堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

2.7.1 算法描述
● 将初始待排序关键字序列(R1,R2….Rn)构建成大顶堆,此堆为初始的无序区;
● 将堆顶元素R[1]与最后一个元素R[n]交换,此时得到新的无序区(R1,R2,……Rn-1)和新的有序区(Rn),且满足R[1,2…n-1]<=R[n];
● 由于交换后新的堆顶R[1]可能违反堆的性质,因此需要对当前无序区(R1,R2,……Rn-1)调整为新堆,然后再次将R[1]与无序区最后一个元素交换,得到新的无序区(R1,R2….Rn-2)和新的有序区(Rn-1,Rn)。不断重复此过程直到有序区的元素个数为n-1,则整个排序过程完成。

2.7.2 动图演示

2.7.3 代码实现

import random

def MAX_Heapify(heap,HeapSize,root):#在堆中做结构调整使得父节点的值大于子节点

    left = 2*root + 1
    right = left + 1
    larger = root
    if left < HeapSize and heap[larger] < heap[left]:
        larger = left
    if right < HeapSize and heap[larger] < heap[right]:
        larger = right
    if larger != root:#如果做了堆调整则larger的值等于左节点或者右节点的,这个时候做对调值操作
        heap[larger],heap[root] = heap[root],heap[larger]
        MAX_Heapify(heap, HeapSize, larger)

def Build_MAX_Heap(heap):#构造一个堆,将堆中所有数据重新排序
    HeapSize = len(heap)#将堆的长度当独拿出来方便
    for i in xrange((HeapSize -2)//2,-1,-1):#从后往前出数
        MAX_Heapify(heap,HeapSize,i)

def HeapSort(heap):#将根节点取出与最后一位做对调,对前面len-1个节点继续进行对调整过程。
    Build_MAX_Heap(heap)
    for i in range(len(heap)-1,-1,-1):
        heap[0],heap[i] = heap[i],heap[0]
        MAX_Heapify(heap, i, 0)
    return heap

if __name__ == '__main__':
    a = [30,50,57,77,62,78,94,80,84]
    print a
    HeapSort(a)
    print a
    b = [random.randint(1,1000) for i in range(1000)]
    print b
    HeapSort(b)
    print b

2.8、计数排序(Counting Sort)

                         计数排序不是基于比较的排序算法,其核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。 作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。

2.8.1 算法描述

● 找出待排序的数组中最大和最小的元素;
● 统计数组中每个值为i的元素出现的次数,存入数组C的第i项;
● 对所有的计数累加(从C中的第一个元素开始,每一项和前一项相加);
● 反向填充目标数组:将每个元素i放在新数组的第C(i)项,每放一个元素就将C(i)减去1。
2.8.2 动图演示
这里写图片描述

2.8.3 代码实现

'''
三个步骤:
1.找出最大最小值  
2.根据最大最小值差制造抽屉,把元素放进“抽屉”
3.把“抽屉”里面的元素拿出来重新排列
'''
import time
def count_sort(nums):
    start = time.time()    
    mmax, mmin = nums[0], nums[0]

    #第一个for循环找到最大值和最小值
    for i in range(1, len(nums)):
        if (nums[i] > mmax): 
            mmax = nums[i]
        elif (nums[i] < mmin): 
            mmin = nums[i]
    print('最大值:',mmax)
    print('最小值:',mmin)

    #“发抽屉”,制造多少个抽屉
    drawer = mmax - mmin + 1

    #刚开始抽屉里全部都是0
    counts = [0] * drawer
    print('抽屉数:',counts)   

    #通过index把元素往抽屉里面放
    for i in range (len(nums)):
        counts[nums[i] - mmin] = counts[nums[i] - mmin] + 1

    #把抽屉里面的元素拿出来重新排列
    #第一个for循环为抽屉的大小,第二个为抽屉里每个元素的个数,所以时间复杂度实为O(n)
    pos = 0
    for i in range(drawer):      
        for j in range(counts[i]):
            nums[pos] = i + mmin
            pos += 1

    t = time.time() - start
    return nums, t

2.8.4 算法分析

                         计数排序是一个稳定的排序算法。当输入的元素是 n 个 0到 k 之间的整数时,时间复杂度是O(n+k),空间复杂度也是O(n+k),其排序速度快于任何比较排序算法。当k不是很大并且序列比较集中时,计数排序是一个很有效的排序算法。

2.9、桶排序(Bucket Sort)

                         桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。桶排序 (Bucket sort)的工作的原理:假设输入数据服从均匀分布,将数据分到有限数量的桶里,每个桶再分别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排)。

2.9.1 算法描述

● 设置一个定量的数组当作空桶;
● 遍历输入数据,并且把数据一个一个放到对应的桶里去;
● 对每个不是空的桶进行排序;
● 从不是空的桶里把排好序的数据拼接起来。
2.9.2 图片演示
这里写图片描述
2.9.3 代码实现

#!/usr/bin/env python
# coding:utf-8
def bucketSort(nums):
  max_num = max(nums)   # 选择一个最大的数
  bucket = [0]*(max_num+1)   # 创建一个元素全是0的列表, 当做桶
  for i in nums:   # 把所有元素放入桶中, 即把对应元素个数加一
    bucket[i] += 1   # 存储排序好的元素
  sort_nums = [] # 取出桶中的元素
  for j in range(len(bucket)):
    if bucket[j] != 0:
      for y in range(bucket[j]):
        sort_nums.append(j)
  return sort_nums
nums = [5,6,3,2,1,65,2,0,8,0]
print "结果:"
print bucketSort(nums)
"""
[0, 0, 1, 2, 2, 3, 5, 6, 8, 65]
"""

2.9.4 算法分析

                         桶排序最好情况下使用线性时间O(n),桶排序的时间复杂度,取决与对各个桶之间数据进行排序的时间复杂度,因为其它部分的时间复杂度都为O(n)。很显然,桶划分的越小,各个桶之间的数据越少,排序所用的时间也会越少。但相应的空间消耗就会增大。

2.10、基数排序(Radix Sort)

                         基数排序是按照低位先排序,然后收集;再按照高位排序,然后再收集;依次类推,直到最高位。有时候有些属性是有优先级顺序的,先按低优先级排序,再按高优先级排序。最后的次序就是高优先级高的在前,高优先级相同的低优先级高的在前。

2.10.1 算法描述

● 取得数组中的最大数,并取得位数;
● arr为原始数组,从最低位开始取每个位组成radix数组;
● 对radix进行计数排序(利用计数排序适用于小范围数的特点);
2.10.2 动图演示
这里写图片描述

2,10.3 代码实现

from random import randint
def main():
  A = [randint(1, 99999999) for _ in xrange(9999)]
  for k in xrange(8):
    S = [ [] for _ in xrange(10)]
    for j in A:
      S[j / (10 ** k) % 10].append(j)
    A = [a for b in S for a in b]
  for i in A:
    print i
main()

2.10.4 算法分析
                         基数排序基于分别排序,分别收集,所以是稳定的。但基数排序的性能比桶排序要略差,每一次关键字的桶分配都需要O(n)的时间复杂度,而且分配之后得到新的关键字序列又需要O(n)的时间复杂度。假如待排数据可以分为d个关键字,则基数排序的时间复杂度将O(d*2n) ,当然d要远远小于n,因此基本上还是线性级别的。

                         基数排序的空间复杂度为O(n+k),其中k为桶的数量。一般来说n>>k,因此额外空间需要大概n个左右。

你可能感兴趣的:(机器学习,算法)