在网盘上传大文件,一个G的文件有可能几秒中就上传完了。称为极速秒传,请问它是怎么做到的?

( Java 面试题 )

这个涉及到 MD5码,具体原理参考《项目应用篇》之"数据的校验"章节。

 

每个文件都要以生成一个MD5码,用公式表示为:

    output = MD5 ( input File )

其中,输入input为文件数据,输出MD5码是一个16字节的数组 byte[16]

需要注意以下两条结论:

(1) 无论输入数据有多大,是10K还是10G,输出都是16字节

(2) 不同的文件,生成的MD5码是不同的。如果发现MD5相同,则认为原文件相同。

 

因此,当一个文件上传到网盘上后,网盘后台会增加一条记录:

    ( file,  size, md5Code )

在上传文件之前,由客户端先对文件做MD5运算,得到MD5码。。然后交给后台查找是否有相同文件,后台如果发现有个文件的MD5码与之相同,则认为要上传的文件已经存在库里,不再重复上传。

 

举例来说,

小王上传一个 1G 的大视频,于是网盘后台记录下了这个文件的MD5值。

你拿到了这个视频文件,想上传到自己的网盘里,由于MD5值相同,后台判断此文件已经存在库中。于是你的上传过程省略(极速秒传), 后台直接引用了小王上传的那个文件。

你可能感兴趣的:(Java面试题)