Python后端技术栈(二)

每日分享

Darkness cannot drive out darkness; only light can do that. Hate cannot drive out hate; only love can do that.

黑暗无法驱除黑暗; 只有光可以做到这一点。 仇恨无法驱走仇恨; 只有爱才能做到这一点。

小闫笔记

不知你苦难,无法劝你向善。但你要知道,爱会让你过的更轻松。最后送给大家泰戈尔的《飞鸟集》中的一句『世界以痛吻我,我要回报以歌』。

1.2算法与数据结构

上篇文章对本系列整体情况作了说明。并且回顾了 Python 语言基础部分。美中不足的是上篇文章的结构有些混乱,从这篇文章开始,严格按照导航的编号进行编写。

本篇文章将要开始 Python 算法与数据结构相关知识的总结回顾。废话少说,开始吧....

1.2.1 Python 内置数据结构算法

常用内置数据结构和算法

线性结构

语言内置:list(列表)、tuple(元组)

内置库:array(数组,不常用)、collections.namedtuple

链式结构

语言内置:无

内置库:collections.deque(双端队列)

字典结构

语言内置:dict(字典)

内置库:collections.Counter(计数器)、OrderedDict(有序字典)

集合结构

语言内置:set(集合)、frozenset(不可变集合)

内置库:无

排序算法

语言内置:sorted

内置库:无

二分算法

语言内置:无

内置库:bisect模块

堆算法

语言内置:无

内置库:heapq模块

缓存算法

语言内置:无

内置库: functools.lru_cache(Least Recent Used, python3)

1.2.2 collections 模块

collections 模块提供了一些内置数据结构的扩展

name

description

namedtuple()

factory function for creating tuple subclasses with named fields

deque

list-like container with fast appends and pops on either end

Counter

dict subclass for counting hashable objects

OrderedDict

dict subclass that remembers the order entries were added

defaultdict

dict subclass that calls a factory function to supply missing values

namedtuple

作用:让 tuple 属性可读。

示例:

In [1]: import collections

In [2]: Point = collections.namedtuple('Ponint', 'x, y') In [3]: p = Point(1, 2) In [4]: p.x Out[4]: 1 In [5]: p.y Out[5]: 2 In [6]: p[0] Out[6]: 1 In [7]: p[1] Out[7]: 2 In [8]: p.x == p[0] Out[8]: True

deque

deque 可以方便的实现 queue 以及 stack(堆栈)

示例:

In [9]: de = collections.deque() In [10]: de.append(1) In [11]: de.appendleft(0) In [12]: de Out[12]: deque([0, 1]) In [13]: de.pop() Out[13]: 1 In [14]: de.popleft() Out[14]: 0

Counter

需要计数器的地方可以使用 Counter

示例:

In [15]: c = collections.Counter() In [16]: c = collections.Counter('abcab') In [17]: c Out[17]: Counter({'a': 2, 'b': 2, 'c': 1}) In [18]: c['a'] Out[18]: 2 In [19]: c.most_common() Out[19]: [('a', 2), ('b', 2), ('c', 1)]

OrderedDict

OrderedDict 的 key 顺序是第一次插入的顺序。使用它实现 LRUCache(最近最少使用算法)

它是如何实现有序的呢?大家感兴趣可以通过源码了解一下。其实它底层实现了一个循环双端链表保存 key 记录循序。

示例:

In [20]: od = collections.OrderedDict() In [21]: od['c'] = 'c' In [22]: od['a'] = 'a' In [23]: od['b'] = 'b' In [25]: list(od.keys()) Out[25]: ['c', 'a', 'b']

defaultdict

带有默认值的字典

示例:

In [26]: dd = collections.defaultdict(int) In [27]: dd['a'] Out[27]: 0 In [28]: dd['b'] Out[28]: 0 In [29]: dd['b'] += 1 In [30]: dd Out[30]: defaultdict(int, {'a': 0, 'b': 1})

1.2.3 Python dict 底层结构

为了支持快速查找使用了哈希表作为底层结构。哈希表平均查找时间复杂度可以达到 O(1),以至于我们根据 key 能非常快的查找到 value 值。同时 CPython 解释器使用二次探查解决了哈希冲突的问题。

哈希冲突和扩容需要格外注意。哈希冲突的解决办法有链接法和探查法,探查法又分为线性探查和二次探查。

简单的解释一下哈希冲突。我们首先在元素的关键字 K 和元素的位置 P 之间建立一个对应关系 f,使得 P=f(K),其中 f 就是哈希函数。创建哈希表的时候,将关键字 K 的元素直接存入 f(K) 的单元,查找的时候也简单,就是利用哈希函数计算出该元素的存储位置 P=f(K) 。当关键字集合很大的时候,有可能出现一种现象,就是关键字不同的元素映射到哈希表的相同地址上,这就是哈希冲突。

也许这么说你不理解,那么就用人话来说一遍:不同的 value 通过哈希计算,得出的 key 一样,也就相当于俩人的身份证号重了。

简单的说一下线性探查法和二次探查法。在发生哈希冲突的时候,我们自动往下一个位置放,也就是加1,加2......直到后面的位置由空,然后插入。二次探查法就是平方操作,加1^2,2^2......直到后面的位置为空,进行插入。探查法也就是利用一个探测算法,当某个槽位已经被占的时候,继续查找下一个可以使用的槽位。而链表法则是将相同的 hash 值的对象组织成一个链表(同义词链)放在 hash 值对应的槽位。

同时为了减少冲突的概率,当哈希表的数组长度到一个临界值的时候就会触发扩容,把所有的元素 rehash 再放入到扩容后的容器中。临界值由加载因子和当前容器的容量大小来确定:

DEFAULT_INITIAL_CAPACITY*DEFAULT_LOAD_FACTOR

默认情况下是 16 x 0.75 = 12 时触发。也许你会问为什么加载因子是0.75。这个不是平白无故的定的,而是有依据。使用随机哈希码,节点出现的频率在 hash 桶中遵循泊松分布,根据桶中元素个数和频率,我们可以知道当桶中元素到达8个时,概率非常小,也就是用 0.75 作为加载因子,每个碰撞位置的链表长度超过8个是几乎不可能的。

Python后端技术栈(二)_第1张图片

1.2.4 Python list/tuple 区别

它们都是线性结构,支持下标访问。但是 list 是可变对象, tuple 保存的引用是不可变的。

也许你会想 tuple 是不可变对象,但是有一种情况,tuple 保存的元素中有一个列表,那么列表可变,它也可变。利用代码进行说明:

In [31]: t = ([1], 2, 3) In [32]: t[0] Out[32]: [1] In [33]: t[0].append(1) In [34]: t Out[34]: ([1, 1], 2, 3)

保存的引用不可变指的是你没法替换掉这个对象,但是如果对象本身是可变对象,那么是可以修改这个引用指向的可变对象的。

list 不能作为字典的 key ,但是 tuple 是可以的(可变的对象是不可 hash 的)

1.2.5什么是 LRUCache

Least-Recently-Used 替换掉最近最少使用的对象。

1.缓存剔除策略,当缓存空间不够用的时候,需要一种方式剔除 key。

2.常见的有 LRU、LFU(剔除最近使用次数最少的对象)。一个是从使用的次数,一个是从使用时间两个角度来考虑。

3.LRU 通过使用一个循环双端队列不断把最新访问的 key 放在表头实现。

原理:首先我们需要有一个链表,每次访问其中一个对象的时候,我们将其移动到链表的最前边,这样我们不断的将最近使用的放到链表的最前边,不常使用的留到链表的最尾端,每次我们只需要剔除尾部的对象即可。

1.2.6如何实现 LRUCache

字典用来缓存,循环双端链表用来记录访问顺序。

1.利用 Python 内置的 dict + collections.OrderedDict 实现。

2.dict 用来当做 k/v 键值对的缓存。

3.OrderedDict 用来实现更新最近访问的 key

实现:

from collections import OrderedDict


class LRUCache(object): def __init__(self, capacity=128): self.od = OrderedDict() self.capacity = capacity def get(self, key): # 每次访问更新最新使用的 key if key in self.od: val = self.od[key] self.od.move_to_end(key) return val else: return -1 def put(self, key, value): # 更新 k/v if key in self.od: del self.od[key] self.od[key] = value # 更新 key 到表头 else: self.od[key] = value # 判断当前容量是否已经满了 if len(self.od) > self.capacity: self.od.popitem(last=False)

1.2.7 Python 常用算法

排序 + 查找,重中之重。

1.排序算法:冒泡排序、快速排序、归并排序、堆排序。

2.线性查找,二分查找

能独立实现代码(手写),能够分析时间空间复杂度。

1.2.8常用排序算法的时空复杂度

排序算法

最差时间分析

平均时间复杂度

稳定度

空间复杂度

冒泡排序

O(n^2)

O(n^2)

稳定

O(1)

选择排序

O(n^2)

O(n^2)

不稳定

O(1)

插入排序

O(n^2)

O(n^2)

稳定

O(1)

快速排序

O(n^2)

O(n*log2n)

不稳定

O(log2n)~O(n)

堆排序

O(n*log2n)

O(n*log2n)

不稳定

O(1)

1.2.9 Python web后端数据结构总结

1.常见的数据结构链表、队列、栈、二叉树、堆

2.使用内置结构实现高级数据结构,比如内置的 list/deque 实现栈

3.可以多看一下 LeetCode 或者 《剑指 offer》上的经典题

1.2.10链表

链表有单链表、双链表、循环双端链表。大家要掌握的是如下:

1.如何使用 Python 来表示链表结构

2.实现链表常见操作,比如插入节点,反转链表,合并多个链表

3.LeetCode 练习常见链表题目

单链表倒序

class Solution(object):
    def reverseList(self, head): """ :type head: ListNode :rtype: ListNode """ pre = None cur = head while cur: nextnode = cur.next cur.next = pre pre = cur cur = nextnode return pre

删除链表节点:

# Definition for singly-linked list.
# class ListNode: # def __init__(self, x): # self.val = x # self.next = None class Solution(object): def deleteNode(self, node): """ :type node: ListNode :rtype: void Do not return anything, modify node in-place instead. """ nextnode = node.next after_next_node = node.next.next node.val = nextnode.val node.next = after_next_node

因为题目中只给我们传了一个节点,没有前面的节点。为了实现删除的操作。我们可以将传入的节点用下一个节点的值替换掉,然后将指针指向下一个的下一个节点。相当于删除此节点。

合并两个有序的链表:

# Definition for singly-linked list.
class ListNode: def __init__(self, x): self.val = x self.next = None class Solution(object): def mergeTwoLists(self, l1, l2): """ :type l1: ListNode :type l2: ListNode :rtype: ListNode """ root = ListNode(None) cur = root while l1 and l2: if l1.val < l2.val: node = ListNode(l1.val) l1 = l1.next else: node = ListNode(l2.val) l2 = l2.next cur.next = node cur = node # l1 或者 l2 可能还有剩余元素 cur.next = l1 or l2 return root.next

1.2.11队列

队列(queue)是先进先出结构

1.使用 Python 实现队列

2.实现队列的 apend 和 pop 操作,如何做到先进先出

3.使用 Python 的 list 或者 collections.deque 实现队列

双端队列可以非常方便的从队列两端进行追加值或者弹出值。

示例:

# 使用deque实现队列
from collections import deque


class Queue(object): def __init__(self): self.items = deque() def append(self, val): return self.items.append(val) def pop(self): return self.items.popleft() def empty(self): return len(self.items) == 0

1.2.12栈(stack)

栈是后进先出的结构

1.如何使用 Python 实现栈?

2.实现栈的 push 和 pop 操作,如何做到后进先出。

3.同样可以用 Python list 或者 collections.deque 实现栈

借助内置的数据结构非常容易实现一个栈(stack),后入先出:

from collections import deque
class Stack(object): def __init__(self): self.deque = deque() def push(self, value): self.deque.append(value) def pop(self): return self.deque.pop()

如何用两个栈实现队列

LeetCode真题实现:

from collections import deque

# python 里面没有栈,我们先来手动实现一个
class Stack(object): def __init__(self): self.items = deque() def push(self, val): return self.items.append(val) def pop(self): return self.items.pop() def top(self): """返回栈顶值""" return self.items[-1] def empty(self): return len(self.items) == 0 class MyQueue(object): def __init__(self): """ Initialize your data structure here """ self.s1 = Stack() self.s2 = Stack() def push(self, x): """ Push element x to the back of queue :type x: int :rtype: void """ self.s1.push(x) def pop(self): """ Removes the element from in front of queue and returns that element. :rtype: int """ if not self.s2.empty(): return self.s2.pop() while not self.s1.empty(): val = self.s1.pop() self.s2.push(val) return self.s2.pop() def peek(self): """ Get the front element. :rtype: int """ if not self.s2.empty(): return self.s2.top() while not self.s1.empty(): val = self.s1.pop() self.s2.push(val) return self.s2.top() def empty(self): """ Returns whether the queue is empty. :rtype: bool """ return self.s1.empty() and self.s2.empty()

另一种:

class QueueWithTwoStacks(object):
    def __init__(self): self._stack1 = [] self._stack2 = [] def appendTail(self,x): self._stack1.append(x) def deleteHead(self): if self._stack2: return self._stack2.pop() else: if self._stack1: while self._stack1: self._stack2.append(self._stack1.pop()) return self._stack2.pop() else: return None

两个队列实现一个栈

class StackWithTwoQueues(object):
    def __init__(self): self._stack1 = [] self._stack2 = [] def push(self,x): if len(self._stack1) == 0: self._stack1.append(x) elif len(self._stack2) == 0: self._stack2.append(x) if len(self._stack2) == 1 and len(self._stack1) >= 1: while self._stack1: self._stack2.append(self._stack1.pop(0)) elif len(self._stack1) == 1 and len(self._stack2) > 1: while self._stack2: self._stack1.append(self._stack2.pop(0)) def pop(self): if self._stack1: return self._stack1.pop(0) elif self._stack2: return self._stack2.pop(0) else: return None

实现获取最小值的栈 MinStack

class MinStack(object):
    def __init__(self): # do some intialize if necessary self.s = [] self.m = [] def push(self, number): # write yout code here self.s.append(number) if len(self.m) == 0: self.m.append(number) else: self.m.append(min(number, self.m[-1])) def pop(self): # pop and return the top item in stack self.m.pop() return self.s.pop() def min(self): # return the minimum number in stack return self.m[-1]

1.2.13字典和集合

Python dict/set 底层都是哈希表

1.哈希表的实现原理:底层其实就是一个数组

2.根据哈希函数快速定位一个元素,平均查找 O(1) ,非常快

3.不断加入元素会引起哈希表重新开辟空间,拷贝之前元素到新数组。

1.2.14哈希表如何解决冲突

前面我们简单的提了一下解决冲突的方法,此处我们详细解释一下。

1.链接法和开放寻址法:元素 key 冲突之后使用一个链表填充相同 key 的元素(既然你们的 key 相同,那么你们统一组成一个链表,然后把这个链表放在 key 的元素位置)。

2.开放寻址法:开放寻址法是冲突之后根据一种方式(二次探查)寻找下一个可用的槽。

CPython 其实使用的就是二次探查

1.2.15二叉树

先序、中序、后序遍历

1.先(根)序:先处理根,之后是左子树,然后是右子树。

2.中(根)序:先处理左子树,然后是根,然后是右子树。

3.后(根)序:先处理左子树,然后是右子树,然后是根。

先序遍历

class BinTreeNode(object):
    def __init__(self, data, left=None, right=None): self.data, self.left, self.right = data, left, right class BinTree(object): def __init__(self, root=None): self.root = root def preorder_trav(self, subtree): """先(根)序遍历""" if subtree is not None: # 递归先处理根 print(subtree.data) # 递归处理左子树 self.preorder_trav(subtree.left) # 递归处理右子树 self.preorder_trav(subtree.right)

中序遍历

def inorder(self, root):
      """递归实现中序遍历""" if root == None: return self.inorder(root.left) print(root.data) self.inorder(root.right)

后序遍历

def postorder(self, root):
    if root == None: return self.postorder(root.left) self.postorder(root.right) print(root.data)

二叉树的操作很多都可以用递归的方式解决

二叉树的镜像

# Definition for a binary tree node.
class TreeNode:
    def __init__(self, x): self.val = x self.left = None self.right = None class Solution(object): def invertTree(self, root): """ :type root: TreeNode :rtype: TreeNode """ if root: root.left, root.right = root.right, root.left self.invertTree(root.left) self.invertTree(root.right) return root

如何层序遍历二叉树(广度优先搜索)

# Definition for a binary tree node.
class TreeNode:
    def __init__(self, x): self.val = x self.left = None self.right = None class Solution(object): def invertTree(self, root): """ :type root: TreeNode :rtype: List[List[int]] """ if not root: # 注意: root 可能为空 return [] res = [] cur_nodes = [root] next_nodes = [] res.append([i.val for i in cur_nodes]) while cur_nodes or next_nodes: for node in cur_nodes: if node.left: next_nodes.append(node.left) if node.right: next_nodes.append(node.right) if next_nodes: res.append( [i.val for i in next_nodes] ) cur_nodes = next_nodes next_nodes = [] return res

扩展

输出左右视角的二叉树结果。也就是从左边看二叉树只能看到最左边的一列。

可以通过层序遍历,然后将每一层的最左侧或者最右侧的元素进行输出即可。

1.2.16堆

堆其实就是完全二叉树,有最大堆和最小堆

1.最大堆:对于每个非叶子节点 V,V 的值都比它的两个孩子大。

2.最大堆支持每次 pop 操作获取最大的元素,最小堆获取最小元素。

常见问题:用堆来完成 topk 问题,从海量数字中寻找最大的 k 个。示例代码如下:

import heapq


class TopK(object): """获取大量元素 topk 大个元素,固定内存 思路: 1. 先放入元素前 k 个建立一个最小堆 2. 迭代剩余元素: 如果当前元素小于堆顶元素,跳过该元素(肯定不是前 k 个) 否则替换堆顶元素,并重新调整堆。 """ def __init__(self, iterable, k): self.minheap = [] self.capacity = k self.iterable = iterable def push(self, val): if len(self.minheap) >= self.capacity: min_val = self.minheap[0] if val < min_val: # 当然你可以直接 if val > min_val 操作,这里我们只是显示指出跳过这个元素 pass else: # 返回并且 pop 堆顶最小值,推入新的 val 值并调整堆。 heapq.heapreplace(self.minheap, val) else: # 前面 k 个元素直接放入最小堆 heapq.heapreplace(self.minheap, val) def get_topk(self): for val in self.iterable: self.push(val) return self.minheap

LeetCode:merge-k-sorted-list

合并 k 个有序链表:使用堆来实现

# Definition for singly-linked list.
class ListNode: def __init__(self, x): self.val = x self.next = None from heapq import heapify, heappop class Solution: def mergeKList(self, lists): """ :type lists: List[ListNode] :rtype: ListNode """ # 读取所有节点值 h = [] for node in lists: while node: h.append(node.val) node = node.next # 构建一个最小堆 if not h: return None heapify(h) # 转换成最小堆 # 构造链表 root = ListNode(heappop(h)) curnode = root while h: nextnode = ListNode(heappop(h)) curnode.next = nextnode curnode = nextnode return root

1.2.17白板编程

传说中的手写算法题,白纸或者白板上手写代码

1.如果参加过大学的 ACM/蓝桥杯之类算法竞赛的同学来说会好一点。

2.可以通过刷题来提高能力。LeetCode,《剑指offer》,看 github 等等。

3.对于算法要经常练习保持手感。

很多人其实会问,工作中又用不到,为什么经常见一些公司面试考算法?这个原因就是多方面的了,比如一些公司为了筛选一些编程能力强的同学。而且近几年互联网的发展,更多的是对代码的优化,而非是写业务逻辑了。针对一些刚毕业的大学生来说,没有工程经验,只能通过算法来辨别能力。近来互联网行业竞争日益激烈,公司裁员等等,那么如何在大家水平差不多的情况下挑选出一些人才呢?那就是考算法了。所以,一定要重视这一块的内容。

1.2.18字符串

我们需要了解常用的字符串操作:

1.Python 内置了很多字符串操作,比如 split(分割)、upper(大写)、replace(替换)等等。

《剑指offer》上的原题:

反转一个字符串:

# 题目:输入一个字符串数组,输出一个反转的字符串数组,不能占用额外的空间
# 方法一:
list.reverse()
# 方法二:可以使用两个指针,一个从前往后移,一个从后往前移,然后交换字符位置,当两个指针重合的时候,退出。
class Solution: def reverseString(self, s): """ :type s: List[str] :rtype: void Do not return anything, modify s in-place instead. """ beg = 0 end = len(s) - 1 while beg < end: s[beg], s[end] = s[end], s[beg] beg += 1 end -= 1

判断一个数字是否是回文数

class Solution:
    def isPalindrome(self, x): """ :type x: int :rtype: bool """ if x < 0: return False s = str(x) beg, end = 0, len(s)-1 while beg < end: if s[beg] == s[end]: beg += 1 end -= 1 else: return False return True

你可能感兴趣的:(Python后端技术栈(二))