RSA算法实现与蒙哥马利算法

姓名：李浩然

学号：16030410020

转自：http://blog.csdn.net/Dreaming_My_Dreams/article/details/48469269（有删改）

【嵌牛导读】：RSA是目前最有影响力和最常用的公钥加密算法，它能够抵抗到目前为止已知的绝大多数密码攻击，已被ISO推荐为公钥数据加密标准。蒙哥马利(Montgomery)幂模运算是快速计算a^b%k的一种算法，是RSA加密算法的核心之一。今天，借助这篇文章，让我们了解一下这两种算法

【嵌牛鼻子】：非对称秘钥、欧几里得方程、模幂运算、移位操作

【嵌牛提问】：RSA算法原理是什么？蒙哥马利算法？这两种算法是怎么实现的？他们都有哪些好处？

【嵌牛正文】：RSA应用：

RSA主要用于PKI身份认证系统，详细说有数字证书、数字签名、数字签章、数字水印、数字信封等。目前最贴近生活的一些案例如：银行的u盾、银行卡的刷卡机、淘宝和12306的数字证书。另外现在随着电子商务电子政务的铺开，登陆认证权限管理越来越贴近生活，RSA的空间越来越大。

RSA 原理：

选取两个不同的大素数p、q，并计算N=p*q，选取小素数d，并计算e，使d*e % (p-1)(q-1)=1，

对于任意A

若B=A**d % N

则A=B**e % N

可见d、e形成了非对称秘钥关系，加密者用公钥d加密，解密者可用私钥e解密，第三者即使拦截了密文B、公钥d和N，在不知道p、q的前提下，无法推算出e，从而无法获得明文A。当N取非常大的值时，将其因式分解成p、q是非常困难的，例如当N为1024 bit时，据分析，需动用价值数千万美金的大型计算机系统并耗费一年的时间。

RSA 密钥的选取和加解密过程都非常简洁，在算法上主要要实现四个问题：

1、如何处理大数运算

2、如何求解同余方程 XY % M = 1

3、如何快速进行模幂运算

4、如何获取大素数

实际上，在实现RSA 算法的过程中大家会发现后三个问题不是各自独立的，它们互有关联，环环相套，相信届时你会意识到：RSA算法是一种“优美”的算法！

大数存储：

RSA 依赖大数运算，目前主流RSA 算法都建立在1024位的大数运算之上。而大多数的编译器只能支持到64位的整数运算，即我们在运算中所使用的整数必须小于等于64位，即：0xffffffffffffffff，也就是18446744073709551615，这远远达不到RSA 的需要，于是需要专门建立大数运算库来解决这一问题。

最简单的办法是将大数当作数组进行处理，数组的各元素也就是大数每一位上的数字，通常采用最容易理解的十进制数字0—9。然后对“数字数组”编写加减乘除函数。但是这样做效率很低，因为二进制为1024位的大数在十进制下也有三百多位，对于任何一种运算，都需要在两个有数百个元素的数组空间上多次重循环，还要许多额外的空间存放计算的进退位标志及中间结果。另外，对于某些特殊的运算而言，采用二进制会使计算过程大大简化，而这种大数表示方法转化成二进制显然非常麻烦，所以在某些实例中则干脆采用了二进制数组的方法来记录大数，当然这样效率就更低了。

一个有效的改进方法是将大数表示为一个n 进制数组，对于目前的32位系统而言n 可以取值为2 的32次方，即 0x100000000，假如将一个二进制为1024位的大数

转化成0x10000000进制，就变成了32位，而每一位的取值范围不再是二进制的0—1或十进制的0—9，而是0-0xffffffff，我们正好可以用一个32位的DWORD （如：无符号长整数，unsigned long）类型来表示该值。所以1024位的大数就变成一个含有32个元素的 DWORD数组，而针对 DWORD数组进行各种运算所需的循环规模至多32次而已。而且0x100000000 进制与二进制，对于计算机来说，几乎是一回事，转换非常容易。

例如大数18446744073709551615，等于 0xffffffff ffffffff，就相当于十进制的99：有两位，每位都是0xffffffff。而18446744073709551616等于0x00000001 00000000 00000000，就相当于十进制的100：有三位，第一位是1 ，其它两位都是0 ，如此等等。在实际应用中，“数字数组”的排列顺序采用低位在前高位在后的方式，这样，大数A 就可以方便地用数学表达式来表示其值：

A=Sum[i=0 to n](A[i]*r**i)，r=0x100000000，0<=A

任何整数运算最终都能分解成数字与数字之间的运算，在0x100000000 进制下其“数字”最大达到0xffffffff，其数字与数字之间的运算，结果也必然超出了目前32位系统的字长。在VC++中，存在一个__int64 类型可以处理64位的整数，所以不用担心这一问题，而在其它编译系统中如果不存在64位整形，就需要采用更小的

进制方式来存储大数，例如16位的WORD类型可以用来表示0x10000 进制。但效率更高的办法还是采用32位的 DWORD类型，只不过将0x100000000 进制改成0x40000000进制，这样两个数字进行四则运算的最大结果为 0x3fffffff * 0x3fffffff，小于0xffffffffffffff，可以用一个双精度浮点类型（double，52位有效数字）来储存这一中间结果，只是不能简单地用高位低位来将中间结果拆分成两个“数字”。

大数加减乘除：

设有大数A、B和C，其中A>=B：

A=Sum[i=0 to p](A[i]*r**i)

B=Sum[i=0 to q](B[i]*r**i)

C=Sum[i=0 to n](C[i]*r**i)

r=0x100000000(32位)，0<=A[i],B[i],C[i]=q(A[i],B[i],C[i]都是32位的数)

则当C=A+B、C=A-B、C=A*B时，我们都可以通过计算出C来获得C：

1.加法

C=A+B，显然C[i]不总是等于A[i]+B[i]，因为A[i]+B[i]可能>0xffffffff，而C[i]必须<=0xffffffff，这时就需要进位，当然在计算C[i-1]时也可能产生了进位，所以计算C[i]时还要加上上次的进位值。如果用一个64位变量result来记录和（64位是为乘法准备的，实际加减法只要33位即可），另一个32位变量carry来记录进位(为什么要32位？为乘法准备的，实际加减法进位只有1)，则有：

carry=0;

for(i=0;i<=p;i++) ｛//i从0到p 因为A>B

result=A[i]+B[i]+carry;

C[i]=result%0x100000000 ;//从这里看result应该大于64位，至少65位

carry=result/0x100000000;

｝

if(carry=0) n=p;

else n=p+1;

2.减法

C=A-B，同理C[i]不总是等于A[i]-B[i]，因为A[i]-B[i]可能<0，而C[i]必须>=0，这时就需要借位，同样在计算C[i-1]时也可能产生了借位，所以计算C时还要减去上次的借位值：

carry=0

for(i=0;i<=p;i++) {//i从0到p 因为A>B

if((A[i]-B[i]-carry)>=0){

C[i]=A[i]-B[i]-carry;

carry=0;

}

else{

C[i]=0x100000000+A[i]-B[i]-carry;

carry=1;

}

n=p;

while (C[n]==0) n=n-1;//将前边的0去掉

3.乘法

C=A*B，首先我们需要观察日常做乘法所用的“竖式计算”过程：

A3 A2 A1 A0

* B2 B1 B0

------------------------------------------

= A3B0 A2B0 A1B0 A0B0

+ A3B1 A2B1 A1B1 A0B1

+ A3B2 A2B2 A1B2 A0B2

------------------------------------------

= C5 C4 C3 C2 C1 C0

可以归纳出：C[i]=Sum[j=0 to q](A[i-j]*B[j])(注意是C[i])，其中i-j必须>=0且<=p。

当然这一结论没有考虑进位，虽然计算A[i-j]*B[j]和Sum的时候都可能发生进位，显然这两种原因产生的进位可以累加成一个进位值。最终可用如下算法完成乘法：

C = Sum[i= 0 to n](C[i]*r**i) = Sum[i= 0 to n] ( Sum[j=0 to q](A[i-j]*B[j]) *r**i).(这里的n=p+q-1，但当第n位的运算有进位时n应加1)

C也可以表示成 C= Sum[i= 0 to q](A*B[i] *r**i)

n=p+q-1

carry=0

for(i=0;i<=n;i++){

result=carry;

for(j=0;j<=q;j++){

if (0<=i-j<=p ){

result=result+A[i-j]*B[j];

C[i]=result%0x100000000;

carry=result/0x100000000;

}

if(carry!=0) {

n=n+1;

C[n]=carry

}

4.除法

对于C=A/B，由于无法将B 对A“试商”，我们只能转换成B[q]对A[p]的试商来得到一个近似值，所以无法直接通过计算C来获得C，只能一步步逼近C。由于：

B*(A[p]/B[q]-1)*0x100000000**(p-q)

令：X=0，重复A=A-X*B，X=X+(A[p]/B[q]-1)*0x100000000**(p-q)，(为什么？)直到A

则：X=A/B，且此时的A=A%B

注意对于任意大数A*0x100000000**k，都等价于将A 的数组中的各元素左移k 位，

不必计算；同样，A/0x100000000**k则等价于右移。

欧几里得方程：

在RSA 算法中，往往要在已知A、N的情况下，求 B，使得 (A*B)%N=1。即相当于求解B、M都是未知数的二元一次不定方程 A*B-N*M=1 的最小整数解。

而针对不定方程ax-by=c 的最小整数解，古今中外都进行过详尽的研究，西方有著名的欧几里德算法，即辗转相除法，中国有秦九韶的“大衍求一术”。事实上二元一次不定方程有整数解的充要条件是c为a、b的最大公约数。即当c=1时，a、b必须互质。而在RSA算法里由于公钥d为素数，素数与任何正整数互质，所以可以通

过欧几里德方程来求解私钥e。

欧几里德算法是一种递归算法，比较容易理解：

例如：11x-49y=1，求x

（a） 11 x - 49 y = 1 49%11=5 ->

（b） 11 x - 5 y = 1 11%5 =1 ->

（c） x - 5 y = 1

令y=0 代入（c）得x=1

令x=1 代入（b）得y=2

令y=2 代入（a）得x=9

同理可使用递归算法求得任意 ax-by=1（a、b互质）的解。实际上通过分析归纳将递归算法转换成非递归算法就变成了大衍求一术：

x=0,y=1

WHILE a!=0

i=y

y=x-y*a/b

x=i

i=a

a=b%a

b=i

IF x<0 x=x+b

RETURN x

模幂运算

模幂运算是RSA 的核心算法，最直接地决定了RSA 算法的性能。针对快速模幂运算这一课题，西方现代数学家提出了大量的解决方案，通常都是先将幂模运算转化为乘模运算。

例如求D=C**15 % N，由于：a*b % n = (a % n)*(b % n) % n，所以：

C1 =C*C % N =C**2 % N

C2 =C1*C % N =C**3 % N

C3 =C2*C2 % N =C**6 % N

C4 =C3*C % N =C**7 % N

C5 =C4*C4 % N =C**14 % N

C6 =C5*C % N =C**15 % N

即：对于E=15的幂模运算可分解为6 个乘模运算，归纳分析以上方法可以发现对于任意E，都可采用以下算法计算D=C**E % N：

D=1

WHILE E>=0

IF E%2=0

C=C*C % N

E=E/2

ELSE

D=D*C % N

E=E-1

RETURN D

继续分析会发现，要知道E 何时能整除 2，并不需要反复进行减一或除二的操作，只需验证E 的二进制各位是0 还是1 就可以了，从左至右或从右至左验证都可以，从左至右会更简洁，设E=Sum[i=0 to n](E*2**i)，0<=E<=1，则：

D=1

FOR i=n TO 0

D=D*D % N

IF E[i]=1 D=D*C % N

RETURN D

这样，模幂运算就转化成了一系列的模乘运算。

模乘运算

对于乘模运算 A*B%N，如果A、B都是1024位的大数，先计算A*B，再% N，就会产生2048位的中间结果，如果不采用动态内存分配技术就必须将大数定义中的数组空间增加一倍，这样会造成大量的浪费，因为在绝大多数情况下不会用到那额外的一倍空间，而采用动态内存分配技术会使大数存储失去连续性而使运算过程中的循

环操作变得非常繁琐。所以模乘运算的首要原则就是要避免直接计算A*B。

设A=Sum[i=0 to k](A[i]*r**i)，r=0x10000000，0<=A

C = A*B = Sum[i=0 to n](A*B*r**i) （应该为Sum[i= 0 to n] ( Sum[j=0 to q](A[i-j]*B[j]) *r**i)，其中n=p+q-1）

可以用一个循环来处理：

C=0;

FOR i=n to 0

C=C*r

C=C+A*B//A*B应该是Sum[j=0 to q](A[i-j]*B[j]) 与上述的大数乘法实质是一样的。

RETURN C

这样将一个多位乘法转换成了一系列单位乘法和加法，由于：

a*b %n = (a%n * b%n) %n

a+b %n = (a%n + b%n) %n

所以，对于求C=A*B %N，我们完全可以在求C的过程中完成：

C=0;

FOR i=n to 0

C=C*r %N

C=C+A*B %N//A*B应该是Sum[j=0 to q](A[i-j]*B[j])

RETURN C

这样产生的最大中间结果是A*B 或C*r，都不超过1056(1024+32)位，空间代价会小得多，但是时间代价却加大了，因为求模的过程由一次变成了多次。对于孤立的乘模运算而言这种时间换空间的交易还是值得的，但是对于反复循环的乘模运算，这种代价就无法承受，必须另寻出路。

蒙哥马利模乘要解决的问题：

｛注：蒙哥马利模乘实际上是解决了这样一个问题，即不使用除法（用移位操作）而求得模乘运算的结果。时刻注意是模运算而且是大数运算的基础上的。例如：假设进制 R=10 一个数(大数表示)23 =2*10^1+3*10^0 若求 23 * 10^-k mod 5的值不使用乘法我们可以采取下面的办法就是将 23+5*q 这时不影响模运算的结果当23+5*q 是10的倍数时就可以用移位操作除以10，一般k的值取23（大数）的位数（在进制R的基础上）一直移位，最后剩下一个大于模5 小于2*5的数在减去一个5 就是最后的结果了。这样求出的是23 * 10^-k mod 5 的结果，我们想求23 mod 5的结果只需要先将23*10^k mod 5 = Z即可在去求 z*10^-k mod 5 即可。其他进制同理。

•蒙哥马利约减表达式： Mon =（S+qM）/R = （S+qM）*1/R （S为其中S表示被归约数，M表示模数，R = 2^n（二进制情况下），n表示指定0的个数。）。S+qM实际表示模M的S所在的剩余类的所有数•看做剩余类的运算：M(S)*M(1) = M(S)*M(R)*M(R^(-1))所以Mon mod M = S*R^(-1) mod M （所以想求S*R^(-1) mod M的值可以用Mon mod M来计算，找到q使得S+qM是R的倍数，这样被除数就是整数了）•Montgomery乘法：Z = X*Y*R^(-1) mod M•(R与M要互素，当R是2^n时，M是奇数即可)｝蒙哥马利模乘器可用硬件实现，在配合软件实现RSA运算，以加快运算速度。

蒙哥马利模乘(下列表述不是很容易理解，可以参考上面的注)

由于RSA 的核心算法是模幂运算，模幂运算又相当于模乘运算的循环，要提高RSA 算法的效率，首要问题在于提高模乘运算的效率。不难发现，模乘过程中复杂度最高的环节是求模运算，因为一次除法实际上包含了多次加法、减法和乘法，如果在算法中能够尽量减少除法甚至避免除法，则算法的效率会大大提高。

设A=Sum[i=0 to k](A[i]*2**i)，0<=A<=1，则：

C= A*B = Sum[i=0 to k](A*B*2**i)//B应该是B=Sum[i=0 to k](B[i]*2**i)，0<=B<=1；C= A*B = Sum[i=0 to k](A*B[i]*2**i)

可用循环处理为：

C=0

FOR i FROM k TO 0

C=C*2

C=C+A*B //此处应为C=C+A*B[i]

RETURN C

若令 C'= A*B *2**(-k)则：{C'= C*2**(-k)=A*B *2**(-k)=Sum[i=0 to k](A*B[i]*2**(i-k))，}

C'= Sum[i=0 to k](A*B*2**(i-k))

用循环处理即：

C'=0

FOR i FROM 0 TO k

C'=C'+A*B

C'=C'/2

RETURN C'

通过这一算法求A*B*2**(-k)是不精确的，因为在循环中每次除以2都可能有余数被舍弃了，但是可以通过这一算法求A*B*2**(-k) %N的精确值，方法是在对C'除

2之前，让C'加上C'[0]*N。由于在RSA中N是两个素数的积，总是奇数，所以当C'是奇数时，C'[0]=1，C'+C'[0]*N 就是偶数，而当C'为偶数时C'[0]=0，C'+C'[0]*N还是偶数，这样C'/2 就不会有余数被舍弃。又因为C'+N %N = C' %N，所以在计算过程中加若干次N，并不会影响结果的正确性。可以将算法整理如下：

C'=0

FOR i FROM 0 TO k

C'=C'+A*B

C'=C'+C'[0]*N

C'=C'/2

IF C'>=N C'=C'-N

RETURN C'

由于在RSA中A、B总是小于N，又0<=A,C'[0]<=1，所以：

C' = (C'+A*B+C'[0]*N)/2

C' < (C'+2N)/2

2C' < C'+2N

C' < 2N

既然C'总是小于2N，所以求C' %N 就可以很简单地在结束循环后用一次减法来完成，即在求A*B*2**(-k) %N的过程中不用反复求模，达到了我们避免做除法的目

的。当然，这一算法求得的是A*B*2**(-k) %N，而不是我们最初需要的A*B %N。但是利用A*B*2**(-k)我们同样可以求得A**E %N。

设R=2**k %N，R'=2**(-k) %N，E=Sum[i=0 to n](E[i]*2**i)：

A'=A*R %N//这一步是怎么求的？

X=A'

FOR i FROM n TO 0

X=X*X*R' %N

IF E[i]=1 X=X*A'*R' %N

X=X*1*R' %N

RETURN X

最初：

X = A*R %N，

开始循环时：

X = X*X*R' %N

= A*R*A*R*R' %N

= A**2*R %N

反复循环之后：

X = A**E*R %N

最后：

X = X*1*R' %N

= A**E*R*R' %N

= A**E %N

如此，我们最终实现了不含除法的模幂算法，这就是著名的蒙哥马利算法，而X*Y*R' %N 则被称为“蒙哥马利模乘”。以上讨论的是蒙哥马利模乘最简单，最容

易理解的二进制形式。蒙哥马利算法的核心思想在于将求A*B %N转化为不需要反复取模的A*B*R' %N，（移位即可，因为R是2^K,总之R是与进制相关的数），但是利用二进制算法求1024位的A*B*R' %N，需要循环1024次之多，我么必然希望找到更有效的计算A*B*R' %N的算法。

考虑将A表示为任意的r进制：

A = Sum[i=0 to k](A*r**i) 0<=A<=r

我们需要得到的蒙哥马利乘积为：

C'= A*B*R' %N R'=r**(-k)

则以下算法只能得到C'的近似值

C'=0

FOR i FROM 0 TO k

C'=C'+A*B

C'=C'/r

IF C'>=N C'=C'-N

RETURN C'

因为在循环中每次C'=C'/r 时，都可能有余数被舍弃。假如我们能够找到一个系数 q，使得(C' + A*B + q*N) %r =0，并将算法修改为：

C'=0

FOR i FROM 0 TO k

C'=C'+A*B+q*N

C'=C'/r

IF C'>=N C'=C'-N

RETURN C'

则C'的最终返回值就是A*B*R' %N的精确值，所以关键在于求q。由于：

(C' + A*B + q*N) %r =0

==> (C' %r + A*B %r + q*N %r) %r =0

==> (C'[0] + A*B[0] + q*N[0]) %r =0

若令N[0]*N[0]' %r =1，q=(C'[0]+A*B[0])*(r-N[0]') %r，则：

(C'[0] + A*B[0] + q*N[0]) %r

= (C'[0]+A*B[0] - (C'[0]+A*B[0])*N[0]'*N[0]) %r) %r

= 0

于是我们可以得出r为任何值的蒙哥马利算法：

m=r-N[0]'

C'=0

FOR i FROM 0 TO k

q=(C'[0]+A*B[0])*m %r

C'=(C'+A*B+q*N)/r

IF C'>=N C'=C'-N

RETURN C'

如果令 r=0x100000000，则 %r 和 /r 运算都会变得非常容易，在1024位的运算中，循环次数k 不大于32，整个运算过程中最大的中间变量C'=(C'+A*B+q*N)

< 2*r*N < 1057位，算法效率就相当高了。唯一的额外负担是需要计算 N[0]'，使N[0]*N[0]' %r =1，而这一问题前面已经用欧几里德算法解决过了，而且在模幂运算转化成反复模乘运算时，N是固定值，所以N[0]'只需要计算一次，负担并不大。

素数测试方法

数论学家利用费马小定理研究出了多种素数测试方法，目前最快的算法是拉宾米勒测试算法，其过程如下：

（1）计算奇数M，使得N=(2**r)*M+1

（2）选择随机数A

（3）对于任意i

（4）或者，若A**M % N = 1，则N通过随机数A的测试

（5）让A取不同的值对N进行5次测试，若全部通过则判定N为素数

若N 通过一次测试，则N 不是素数的概率为 25%，若N 通过t 次测试，则N 不是素数的概率为1/4**t。事实上取t 为5 时，N 不是素数的概率为 1/128，N 为素数的概率已经大于99.99%。

在实际应用中，可首先用300—500个小素数对N 进行测试，以提高拉宾米勒测试通过的概率，从而提高整体测试速度。而在生成随机素数时，选取的随机数最好让r=0，则可省去步骤（3）的测试，进一步提高测试速度。

素数测试是RSA 选取秘钥的第一步，奇妙的是其核心运算与加解密时所需的运算完全一致：都是模幂运算。而模幂运算过程中中所需求解的欧几里德方程又恰恰

正是选取密钥第二步所用的运算。可见整个RSA 算法具有一种整体的和谐。

RSA算法实现与蒙哥马利算法

你可能感兴趣的:(RSA算法实现与蒙哥马利算法)