微博短链接生成算法与简单实现

自从twitter推出短网址(shorturl),国内也有很多互联网公司推出短网址链接,比如微博等。
下面是从网上找到了一些算法总结:

算法一:

最容易想到的算法可能是利用md5类的加密算法,然后针对加密后的字符串进行处理。

1)将长网址md5生成32位签名串,分为4段, 每段8个字节;
2)对这四段循环处理, 取8个字节, 将他看成16进制串与0x3fffffff(30位1)与操作, 即超过30位的忽略处理;
3)这30位分成6段, 每5位的数字作为字母表的索引取得特定字符, 依次进行获得6位字符串;
4)总的md5串可以获得4个6位串; 取里面的任意一个就可作为这个长url的短url地址。

算法二:
a-zA-Z0-9 这64位取6位组合,可产生500多亿个组合数量。把数字和字符组合做一定的映射,就可以产生唯一的字符串,如第62个组合就是aaaaa9,第63个组合就是aaaaba,再利用洗牌算法,把原字符串打乱后保存,那么对应位置的组合字符串就会是无序的组合。
把长网址存入数据库,取返回的id,找出对应的字符串,例如返回ID为1,那么对应上面的字符串组合就是bbb,同理 ID为2时,字符串组合为bba,依次类推,直至到达64种组合后才会出现重复的可能,所以如果用上面的62个字符,任意取6个字符组合成字符串的话,你的数据存量达到500多亿后才会出现重复的可能。

下面自己简单模拟了一个返回8位随即码的短网址算法,算法实现基于算法一。
public class ShortUrlUtil {

	static char hexDigits[] = { '0', '1', '2', '3', '4', '5', '6', '7', '8',
			'9', 'a', 'b', 'c', 'd', 'e', 'f' };

	public static String shortUrl(String url) throws Exception {
		MessageDigest messagedigest = MessageDigest.getInstance("MD5");
		messagedigest.update(url.getBytes());
		String result = bufferToHex(messagedigest.digest());
		String resUrl = new String("");
		for (int i = 0; i < 8; i++) {
			String tmpString = result.substring(i * 4, i * 4 + 4);
			long hexLong = 0x3FFFFFFF & Long.parseLong(tmpString, 16);
			resUrl += hexDigits[Integer.valueOf((hexLong % 16) + "")] + "";
		}
		return resUrl;
	}

	private static String bufferToHex(byte bytes[]) {
		return bufferToHex(bytes, 0, bytes.length);
	}

	private static String bufferToHex(byte bytes[], int m, int n) {
		StringBuffer stringbuffer = new StringBuffer(2 * n);
		int k = m + n;
		for (int l = m; l < k; l++) {
			appendHexPair(bytes[l], stringbuffer);
		}
		return stringbuffer.toString();
	}

	private static void appendHexPair(byte bt, StringBuffer stringbuffer) {
		char c0 = hexDigits[(bt & 0xf0) >> 4];
		char c1 = hexDigits[bt & 0xf];
		stringbuffer.append(c0);
		stringbuffer.append(c1);
	}
	
	public static void main(String[] args) {
		String sLongUrl = "http://weibo.com/taobaotianshui?wvr=5&wvr=5&lf=reg";
		String shortUrl;
		try {
			shortUrl = shortUrl(sLongUrl);
			System.out.println(sLongUrl + " ===> " + shortUrl);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

当生成短网址链接之后,只需要在表中(数据库或者类NoSql的K-V存储)存储原始链接与短链接的映射关系即可。


你可能感兴趣的:(微博短链接生成算法与简单实现)