MapReduce(分治算法的应用) 是 Google 大数据处理的三驾马车之一,另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。尽管开发一个 MapReduce 看起来很高深,感觉遥不可及。实际上,万变不离其宗,它的本质就是分治算法思想,分治算法。
分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。
注意使用分治算法其中一个要求是,子问题合并的代价不能太大,否则就起不了降低时间复杂度的效果了。
def divide_conquer(problem, paraml, param2,...):
# 不断切分的终止条件
if problem is None:
print_result
return
# 准备数据
data=prepare_data(problem)
# 将大问题拆分为小问题
subproblems=split_problem(problem, data)
# 处理小问题,得到子结果
subresult1=self.divide_conquer(subproblems[0],p1,..…)
subresult2=self.divide_conquer(subproblems[1],p1,...)
subresult3=self.divide_conquer(subproblems[2],p1,.…)
# 对子结果进行合并 得到最终结果
result=process_result(subresult1, subresult2, subresult3,...)
有序度:表示一组数据的有序程度;
逆序度:表示一组数据的无序程度。
假设我们有 n 个数据,我们期望数据从小到大排列,那完全有序的数据的有序度就是 n ( n − 1 ) / 2 n(n-1)/2 n(n−1)/2,逆序度等于0;相反,倒序排列的数据的有序度就是 0,逆序度是 n ( n − 1 ) / 2 n(n-1)/2 n(n−1)/2。
一般通过计算有序对或者逆序对的个数,来表示数据的有序度或逆序度。
LeetCode传送门
在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数。0 <= 数组长度 <= 50000
示例 :
思路1: 暴力
思路2: 分治
如何在归并排序的合并过程中记录逆序数: 假设现要合并 L L L 和 R R R 两个有序数组,
代码:
class Solution:
def mergeSort(self, nums, tmp, l, r):
if l >= r:
return 0
mid = (l + r) // 2
inv_count = self.mergeSort(nums, tmp, l, mid) + self.mergeSort(nums, tmp, mid + 1, r)
i, j, pos = l, mid + 1, l
while i <= mid and j <= r:
if nums[i] <= nums[j]:
tmp[pos] = nums[i]
i += 1
inv_count += (j - (mid + 1))
else:
tmp[pos] = nums[j]
j += 1
pos += 1
for k in range(i, mid + 1):
tmp[pos] = nums[k]
inv_count += (j - (mid + 1))
pos += 1
for k in range(j, r + 1):
tmp[pos] = nums[k]
pos += 1
nums[l:r+1] = tmp[l:r+1]
return inv_count
def reversePairs(self, nums: List[int]) -> int:
n = len(nums)
tmp = [0] * n
return self.mergeSort(nums, tmp, 0, n - 1)
LeetCode传送门
给定一个大小为 n 的数组,找到其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n / 2 ⌋ \lfloor n/2 \rfloor ⌊n/2⌋ 的元素。
你可以假设数组是非空的,并且给定的数组总是存在多数元素。
示例 :
思路:
1. 确定切分的条件:
直到所有的子问题都是长度为 1 的数组,停止切分。
2. 准备数据,将大问题切分为小问题:
递归地将原数组二分为左区间与右区间,直到最终的数组只剩下一个元素,将其返回。
3. 处理子问题得到子结果,并合并:
代码:
class Solution:
def majorityElement(self, nums: List[int]) -> int:
if not nums:
return None
if len(nums)==1:
return nums[0]
left=self.majorityElement(nums[:len(nums)//2])
right=self.majorityElement(nums[len(nums)//2:])
if left==right:
return left
if nums.count(left)>nums.count(right):
return left
else:
return right
LeetCode传送门
给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。
示例:
思路:
1. 确定切分的条件:
直到所有的子问题都是长度为 1 的数组,停止切分。
2. 准备数据,将大问题切分为小问题:
递归地将原数组二分为左区间与右区间,直到最终的数组只剩下一个元素,将其返回。
3. 处理子问题得到子结果,并合并:
代码:
class Solution:
def maxSubArray(self, nums: List[int]) -> int:
n=len(nums)
if n==1:
return nums[0]
left=self.maxSubArray(nums[:len(nums)//2])
right=self.maxSubArray(nums[len(nums)//2:])
# 从右到左计算左边的最大子序和
max_l=nums[len(nums)//2-1]
tmp=0
for i in range(len(nums)//2-1,-1,-1):
tmp+=nums[i]
max_l=max(tmp,max_l)
# 从左到右计算右边的最大子序和
max_r =nums[len(nums)//2]
tmp=0
for i in range(len(nums)//2,len(nums)):
tmp+=nums[i]
max_r=max(tmp,max_r)
return max(left,right,max_l+max_r)
LeetCode传送门
实现 pow(x, n) ,即计算 x 的 n 次幂函数。
思路:
x n = { ( x ∗ x ) n / 2 , n % 2 = = 0 x ∗ ( x ∗ x ) ( n − 1 ) / 2 , n % 2 = = 1 x^n=\begin{cases} (x*x)^{n/2},\qquad\qquad n\%2==0\\ x*(x*x)^{(n-1)/2},\quad n\%2==1 \end{cases} xn={(x∗x)n/2,n%2==0x∗(x∗x)(n−1)/2,n%2==1
1. 确定切分的条件:
对 n n n 不断除以2,并更新 n n n,直到为0,终止切分。
2. 准备数据,将大问题切分为小问题:
对 n n n 不断除以2,更新。
3. 处理子问题得到子结果,并合并:
最终返回 p p p。
代码:
class Solution:
def myPow(self, x: float, n: int) -> float:
if n<0:
x=1/x
n=-n
if n==0:
return 1
if n%2==1:
p=x*self.myPow(x,n-1)
return p
return self.myPow(x*x,n/2)
LeetCode传送门
给定两个大小为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。
请你找出这两个正序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。
你可以假设 nums1 和 nums2 不会同时为空。
思路:
在任意位置 i i i 将 A A A 划分成两个部分:由于 A A A 中有 m m m 个元素,所以有 m + 1 m+1 m+1 种划分的方法( i ∈ { 0 , ⋯ , m } i\in \{0,\cdots,m\} i∈{0,⋯,m});
在任意位置 j j j 将 B B B 划分成两个部分:由于 B B B 中有 n n n 个元素,所以有 n + 1 n+1 n+1 种划分的方法( j ∈ { 0 , ⋯ , n } j\in \{0,\cdots,n\} j∈{0,⋯,n});
将 l e f t _ A left\_A left_A 和 l e f t _ B left\_B left_B 放入一个集合,并将 r i g h t _ A right\_A right_A 和 r i g h t _ B right\_B right_B 放入另一个集合。 再把这两个新的集合分别命名为 l e f t _ p a r t left\_part left_part 和 r i g h t _ p a r t right\_part right_part,
1.当 A A A 和 B B B 的总长度是偶数时,如果:
那么, { A , B } \{A,B\} {A,B} 中的所有元素已经被划分为相同长度的两个部分,且前一部分中的元素总是小于或等于后一部分中的元素。中位数就是前一部分的最大值和后一部分的最小值的平均值:
m e d i a n = l e n ( l e f t p a r t ) + l e n ( r i g h t p a r t ) 2 median=\frac{len(left_part)+len(right_part)}{2} median=2len(leftpart)+len(rightpart)
2.当 A A A 和 B B B 的总长度是奇数时,如果:
那么, { A , B } \{A,B\} {A,B} 中的所有元素已经被划分为两个部分,前一部分比后一部分多一个元素,且前一部分中的元素总是小于或等于后一部分中的元素。中位数就是前一部分的最大值:
m e d i a n = l e n ( l e f t _ p a r t ) median=len(left\_part) median=len(left_part)
对于两种情况的第一个条件,
{ m + n 是 偶 数 : l e n ( l e f t _ p a r t ) = l e n ( r i g h t _ p a r t ) ⇔ i + j = m − i + n − j ⇔ i + j = m + n 2 m + n 是 奇 数 : l e n ( l e f t _ p a r t ) = l e n ( r i g h t _ p a r t ) + 1 ⇔ i + j = m − i + n − j + 1 ⇔ i + j = m + n + 1 2 \begin{cases} m+n是偶数:len(left\_part)=len(right\_part)\Leftrightarrow i+j=m-i+n-j\Leftrightarrow i+j=\frac{m+n}{2}\\ m+n是奇数:len(left\_part)=len(right\_part)+1\Leftrightarrow i+j=m-i+n-j+1\Leftrightarrow i+j=\frac{m+n+1}{2} \end{cases} {m+n是偶数:len(left_part)=len(right_part)⇔i+j=m−i+n−j⇔i+j=2m+nm+n是奇数:len(left_part)=len(right_part)+1⇔i+j=m−i+n−j+1⇔i+j=2m+n+1
可以统一写成: i + j = ⌊ m + n + 1 2 ⌋ i+j=\lfloor \frac{m+n+1}{2}\rfloor i+j=⌊2m+n+1⌋
不妨设 A A A 的长度小于 B B B 的长度,即 m ≤ n m\leq n m≤n。对于任意的 i ∈ { 0 , ⋯ , m } i\in \{0,\cdots,m\} i∈{0,⋯,m} ,有
0 = ⌊ n + n + 1 2 ⌋ − n ≤ j = ⌊ m + n + 1 2 ⌋ − i ≤ ⌊ n + n + 1 2 ⌋ ≤ n 0=\lfloor \frac{n+n+1}{2}\rfloor-n \leq j=\lfloor \frac{m+n+1}{2}\rfloor-i\leq\lfloor \frac{n+n+1}{2}\rfloor\leq n 0=⌊2n+n+1⌋−n≤j=⌊2m+n+1⌋−i≤⌊2n+n+1⌋≤n
因此,只需要在 { 0 , ⋯ , m } \{0,\cdots,m\} {0,⋯,m} 内枚举 i i i,并令 j = ⌊ m + n + 1 2 ⌋ − i j=\lfloor \frac{m+n+1}{2}\rfloor-i j=⌊2m+n+1⌋−i,这样得到的 i , j i,j i,j一定满足第一个条件。
对于两种情况的第二个条件,由于 A A A 和 B B B 是有序的,因此这等价于
B [ j − 1 ] ≤ A [ i ] a n d A [ i − 1 ] ≤ B [ j ] B[j-1]\leq A[i] \quad and \quad A[i-1]\leq B[j] B[j−1]≤A[i]andA[i−1]≤B[j]
这里需要注意,对于 i = 0 , i = m , j = 0 , j = n i=0,i=m,j=0,j=n i=0,i=m,j=0,j=n 这样的边界点,只需规定 A [ − 1 ] = B [ − 1 ] = − ∞ , A [ m ] = B [ m ] = + ∞ A[-1]=B[-1]=-\infty,A[m]=B[m]=+\infty A[−1]=B[−1]=−∞,A[m]=B[m]=+∞。这也是比较直观的:当一个数组不出现在前一部分时,对应的值为负无穷,就不会对前一部分的最大值产生影响;当一个数组不出现在后一部分时,对应的值为正无穷,就不会对后一部分的最小值产生影响。
所以我们需要做的是:
在 { 0 , ⋯ , m } \{0,\cdots,m\} {0,⋯,m} 中找到 i i i ,使得: B [ j − 1 ] ≤ A [ i ] a n d A [ i − 1 ] ≤ B [ j ] B[j-1]\leq A[i] \quad and \quad A[i-1]\leq B[j] B[j−1]≤A[i]andA[i−1]≤B[j],其中 j = ⌊ m + n + 1 2 ⌋ − i j=\lfloor \frac{m+n+1}{2}\rfloor-i j=⌊2m+n+1⌋−i。
现在证明这等价于:
在 { 0 , ⋯ , m } \{0,\cdots,m\} {0,⋯,m} 中找到满足 A [ i − 1 ] ≤ B [ j ] A[i-1]\leq B[j] A[i−1]≤B[j] 的最大的 i i i,其中 j = ⌊ m + n + 1 2 ⌋ − i j=\lfloor \frac{m+n+1}{2}\rfloor-i j=⌊2m+n+1⌋−i。
这是显然的,因为 i i i 是满足条件的最大的,意味着 i + 1 i+1 i+1 不满足,即 A [ i ] > B [ j − 1 ] A[i]>B[j-1] A[i]>B[j−1]。
因此只需要找到满足 A [ i − 1 ] ≤ B [ j ] A[i-1]\leq B[j] A[i−1]≤B[j] 的最大的 i i i来划分数组(二分),进而求中位数。
代码:
class Solution:
def findMedianSortedArrays(self, nums1: List[int], nums2: List[int]) -> float:
if len(nums1)>len(nums2):
return self.findMedianSortedArrays(nums2,nums1)
infty=2**40
m,n=len(nums1),len(nums2)
left,right,ansi=0,m,-1
median1,median2=0,0 # 前一部分最大值,后一部分最小值
while left<=right:
i=(left+right)//2
j=(m+n+1)//2-i
nums_im1=-infty if i==0 else nums1[i-1]
nums_i=infty if i==m else nums1[i]
nums_jm1=-infty if j==0 else nums2[j-1]
nums_j=infty if j==n else nums2[j]
if nums_im1<=nums_j:
ansi=i
median1,median2=max(nums_im1,nums_jm1),min(nums_i,nums_j)
left=i+1
else:
right=i-1
return (median1+median2)/2 if (m+n)%2==0 else median1
LeetCode传送门
对于某些固定的 N,如果数组 A 是整数 1, 2, …, N 组成的排列,使得:
对于每个 i < j,都不存在 k 满足 i < k < j 使得 A[k] * 2 = A[i] + A[j]。
那么数组 A 是漂亮数组。
给定 N,返回任意漂亮数组 A(保证存在一个)。
示例:
思路:
漂亮数组的性质: 如果数组 [ a 1 , a 2 , . . . , a n ] [a_1,a_2,...,a_n] [a1,a2,...,an]是漂亮的,那么对这个数组进行仿射变换,得到的数组 [ k a 1 + b , k a 2 + b , . . . , m a n + b ] [ka_1+b,ka_2+b,...,ma_n+b] [ka1+b,ka2+b,...,man+b]也是漂亮的( k ≠ 0 k\neq0 k=0)。
证明: 倘若 [ k a 1 + b , k a 2 + b , ⋯ , k a n + b ] [ka_1+b,ka_2+b,\cdots,ka_n+b] [ka1+b,ka2+b,⋯,kan+b]不是漂亮的,则存在 m m m 满足 i ≤ m ≤ j i\leq m\leq j i≤m≤j, ( k a m + b ) ∗ 2 = ( k a i + b ) + ( k a j + b ) (ka_m+b)*2=(ka_i+b)+(ka_j+b) (kam+b)∗2=(kai+b)+(kaj+b) ,进而有 a m ∗ 2 = a i + a j a_m*2=a_i+a_j am∗2=ai+aj,这与 [ a 1 , a 2 , ⋯ , a n ] [a_1,a_2,\cdots,a_n] [a1,a2,⋯,an]是漂亮数组矛盾。
构造思路: 将数组分成两部分 l e f t left left 和 r i g h t right right,分别求出一个漂亮的数组,然后将它们进行仿射变换,使得不存在满足下面条件的三元组:
可以发现,等式 A [ m ] ∗ 2 = A [ i ] + A [ j ] A[m]*2=A[i]+A[j] A[m]∗2=A[i]+A[j] 的左侧是一个偶数,右侧的两个元素分别来自两个部分。要想等式恒不成立,一个简单的办法就是让 l e f t left left 部分的数都是奇数, r i g h t right right 部分的数都是偶数。因此我们将所有的奇数放在 l e f t left left 部分,所有的偶数放在 r i g h t right right 部分,这样可以保证等式恒不成立。
下面考虑如何在两部分 l e f t left left 和 r i g h t right right分别求出漂亮数组。
对于 { 1 , 2 , ⋯ , N } \{1,2,\cdots ,N\} {1,2,⋯,N} 的排列, l e f t left left 部分包括 ⌊ ( N + 1 ) / 2 ⌋ \lfloor (N+1)/2\rfloor ⌊(N+1)/2⌋ 个奇数, r i g h t right right 部分包括 ⌊ N / 2 ⌋ \lfloor N/2\rfloor ⌊N/2⌋个偶数:
经过映射, l e f t left left 和 r i g h t right right 部分变成了和原问题一样,但规模减少一半的子问题,这样就可以使用分治算法解决了。
代码:
class Solution:
def beautifulArray(self, N: int) -> List[int]:
memo={1:[1]}
def f(N):
if N not in memo:
odds=f((N+1)//2)
evens=f(N//2)
memo[N]=[2*x-1 for x in odds]+[2*x for x in evens]
return memo[N]
return f(N)
Datawhale社区开源教程之leetcode编程实践
LeetCode题解