短链接实现

经常能看到某些站点会使用一些短链接,例如:t.cn/RyG7nlE这样形式的链接。

短链接有以下好处:
1、短小精悍,方便推广,记忆(实际应该没什么人去记忆吧);
2、可收集站点访问数据,用作数据分析等用途;
3、做了一层中转,可以做各种个性化定制,如设置链接开放日期等访问控制的逻辑判断;
4、节约空间,如微博会有字数限制;


短链接一般会有两种做法:

一、

自增序列算法,也叫永不重复算法,用到的其实就是多进制,让一个整型用多进制表示,根据这个id查找对应的长链接。
用数字100000000为例,以不同进制表示:

进制 结果 元素
2 101111101011110000100000000 [0-1]
8 575360400 [0-7]
10 100000000 [0-9]
16 0x5f5e100 [0-9a-f]
26 ikvozw [a-z]
36 1njchs [0-9a-z]
52 nJkmW [a-zA-Z]
62 6LAze [0-9a-zA-Z]

62进制 [0-9a-zA-Z] 表示10000只需要3个字符,长度大大缩短。
可以估算一下,
232 < (25.5) 6 < 45.56 < 466 < 626

264 < (210 * 22/3) 6 < 16266 < 19326 < (62 * 625/6) 6 < 6211
由此可见,32位二进制数字可用6位62进制字符表示,64位二进制数字可用11位62进制字符表示,264 = 9,223,372,036,854,775,807,就是9百京,这个数量就非常足够了。(原来比不上黄金弗利萨的战斗力,有一个垓)

缺点:根据自增id生成,长短可能会不一,这个也可以通过填充特定字符来解决。

二、

1、将长链接md5,获取32位字符串;
2、32位字符串按分8字节4份,循环处理,作为16进制数字和0x3fffffff(30个1)进行位与操作(超过30位忽略);
3、30位分6段,每5位数字作为一个索引获取集合[a-z0-9]中对应的字符,最后获得4个长度为6的字符串;
4、4个字符串中任意取一个作为短链接

缺点:

1、生成的短链接可能会产生碰撞,据说微博是使用这种算法(上面的文字是我搬运过来的,这个算法我不太懂它设计的原理。。。);
2、需要用字符串作为查询条件去获取长链接,容易数据库索引建立不连续,降低查询效率;


我使用的是第一种,恰好我们的长链接中的信息也都是整型,只要转化一下,再拼凑起来组成短链接就可以了,这样就连数据库hash表都可以不用建立。

你可能感兴趣的:(短链接实现)