哈希文件

 在讨论哈希文件之前,先简单介绍哈希表的有关概念
    在日常生活和工作中,经常会遇到查找操作,如在列车时刻表中查找某次列车的开车时间、在学生成绩表中查找某位学生的成绩等等。在大多数查找方法中(如顺序查找、折半查找、分块查找等),其查找的过程中都需要依据关键字进行若干次的比较判断,最后确定在数据集合中是否存在关键字等于某个给定值的记录以及该记录在数据所形成的表中的位置,查找的效率与比较次数密切相关。在查找时需要不断进行比较的原因是在建立数据集合的存储结构时,没有考虑记录在存储结构中的位置和其关键字之间的直接关系。如果在建立数据集合的存储结构时利用记录的关键字进行某种运算后直接确定记录的存储位置,从而在记录的存储位置和其关键字之间建立某种直接关系,那么在进行查找时,就无须作比较或作很少次的比较而按照这种关系可以直接由关键字找到相应的记录。哈希(HASH)表查找正是基于这种思想。
    哈希表中数据记录是这样组织的:某一个关键字为key的数据记录在放入哈希表时,根据key确定该数据记录在哈希表中的位置。从数学的观点看就是产生一个函数变换:
                  D=H(key)
其中,key是数据记录的关键字,D是数据记录在哈希表中的存储位置,H称为哈希函数。
    在建立一个哈希表之前需要解决两个主要问题:
   (1) 构造一个合适的哈希函数
    分析数据记录的关键字集合之特性,找出适当的函数H,使得计算出的存储地址尽可能均匀分布在哈希表中,同时也希望函数H尽量简单,以提高关键字到存储地址的转换速度。常用的哈希函数构造方法有数字分析法、平方取中法、折叠移位法、除留余数法和直接定址法等。
   (2) 冲突的处理
    在哈希法中,不同的关键字值对应到同一个存储位置的现象称为冲突。即有K1≠K2,但H(K1)=H(K2)。K2和K1发生冲突时,就是在存放关键字为K2的数据记录时,同一存储位置已经存放了关键字为K1的数据元素,解决的办法只有重新为关键字是K2的数据记录寻找新的存储地址,这就是冲突处理要完成的工作。利用哈希法建立哈希表时,发生冲突是不可避免的。所以如何处理冲突是建立哈希表不可缺少的一个方面。处理冲突的方法多种多样,常用的方法有开放地址法、链地址法、哈希法和公共溢出区法等。
    设哈希函数 H(K)=K mod 7,哈希表长为7,对关键字序列(32、13、49、55、22、38、21)按线性探测再散列和链地址法两种解决冲突的方法构造出哈希表如图5.23。
    

          图5.23按线性探测再散列和链地址法处理冲突的方法构造的哈希表

    线性探测再散列属于开放地址法的一种,其处理冲突的基本思想是:若数据记录在存储地址D(即H(key))发生冲突,则放到存储地址(D +1) mod m;若又发生冲突则放到存储地址(D+2) mod m;若再发生冲突则放到存储地址(D +3) mod m;…。直到碰到第一个为空的存储地址(D+i) mod m,则将数据记录存放在该存储空间。
    而链地址法处理冲突的基本思想是:将所有具有相同哈希地址(H(K1)=H(K2)=H(K3)= … =H(Ki))的i个数据元素存储在同一个单链表中。

    哈希文件是利用哈希函数法组织的文件,它类似于哈希表,即根据文件记录的关键字的特点设计一种哈希函数和处理冲突的方法从而将记录散列到外存储器上。由于哈希文件中通过计算来确定一个记录在存储设备上的存储位置,因而逻辑顺序的记录在物理地址上不是相邻的,因此哈希文件不宜使用磁带存储,只适宜使用磁盘存储;并且哈希文件这种结构只适用于定长记录文件和按记录键随机查找的访问方式。
    哈希文件的组织方法与哈希表的组织方法相比有一点不同。对于哈希文件来说,磁盘上的文件记录通常是成组存放的,若干个记录组成一个称为桶的存储单位。假若一个桶能存放m个记录,即m个哈希函数值相同的记录可以存放在同一个桶中,而当第m+1个哈希函数值相同的记录出现时才发生冲突。
    哈希文件中处理冲突的方法也可采用哈希表中处理冲突的各种方法,但链地址法是哈希文件处理冲突的首选方法。链地址法解决冲突的方法是:当某个桶中的哈希函数值相同的记录超过m个(可以形象地称作“溢出”)时,动态生成一个桶以存放那些溢出的哈希函数值相同的记录。通常把存放前m个哈希函数值相同的记录的桶称为基桶,把存放溢出记录的桶称为溢出桶。基桶和溢出桶的结构相同,均为m个记录的数组加一个桶地址指针。当某个基桶未溢出时,基桶中的指针为空;当基桶溢出时,动态生成一个溢出桶存放溢出记录,基桶中的指针置为指向该溢出桶;若溢出桶中的哈希函数值相同的记录再溢出时,再动态生成第二个溢出桶存放溢出记录,第一个溢出桶中的指针置为指向第二个溢出桶。这样就构成了一个链接溢出桶。
    在哈希文件中查找某一记录时,首先根据待查记录的关键字值求得哈希地址(即基桶地址),将基桶的记录读入内存进行顺序查找,若找到某记录的关键字等于待查记录的关键字,则查找成功;若基桶内无待查记录且基桶内指针为空,则文件中没有待查记录,查找失败;若基桶内无待查记录且基桶内指针不空,则将溢出桶中的记录读入内存进行顺序查找,若在某个溢出桶中查找到待查记录,则查找成功;若所有溢出桶链内均未查找到待查记录,则查找失败。

 

 

 

Hash,一般翻译做“散列”,也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。

简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

HASH主要用于信息安全领域中加密算法,他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值. 也可以说,hash就是找到一种数据内容和数据存放地址之间的映射关系

了解了hash基本定义,就不能不提到一些著名的hash算法,MD5 和 SHA1 可以说是目前应用最广泛的Hash算法,而它们都是以 MD4 为基础设计的。那么他们都是什么意思呢?
这里简单说一下:

1) MD4
MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年设计的,MD 是 Message Digest 的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于 32 位操作数的位操作来实现的。

2) MD5
MD5(RFC 1321)是 Rivest 于1991年对MD4的改进版本。它对输入仍以512位分组,其输出是4个32位字的级联,与 MD4 相同。MD5比MD4来得复杂,并且速度较之要慢一点,但更安全,在抗分析和抗差分方面表现更好

3) SHA1 及其他
SHA1是由NIST NSA设计为同DSA一起使用的,它对长度小于264的输入,产生长度为160bit的散列值,因此抗穷举(brute-force)性更好。SHA-1 设计时基于和MD4相同原理,并且模仿了该算法。

那么这些Hash算法到底有什么用呢?
Hash算法在信息安全方面的应用主要体现在以下的3个方面:

1) 文件校验
我们比较熟悉的校验算法有奇偶校验和CRC校验,这2种校验并没有抗数据篡改的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。
MD5 Hash算法的"数字指纹"特性,使它成为目前应用最广泛的一种文件完整性校验和(Checksum)算法,不少Unix系统有提供计算md5 checksum的命令。
2) 数字签名
Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢,所以在数字签名协议中,单向散列函数扮演了一个重要的角色。 对 Hash 值,又称"数字摘要"进行数字签名,在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
3) 鉴权协议
如下的鉴权协议又被称作"挑战--认证模式:在传输信道是可被侦听,但不可被篡改的情况下,这是一种简单而安全的方法。

以上就是一些关于hash以及其相关的一些基本预备知识。那么在emule里面他具体起到什么作用呢?

什么是文件的hash值呢?

大家都知道emule是基于P2P (Peer-to-peer的缩写,指的是点对点的意思的软件), 它采用了“多源文件传输协议”(MFTP,the Multisource FileTransfer Protocol)。在协议中,定义了一系列传输、压缩和打包还有积分的标准,emule 对于每个文件都有md5-hash的算法设置,这使得该文件独一无二,并且在整个网络上都可以追踪得到。

MD5-Hash-文件的数字文摘通过Hash函数计算得到。不管文件长度如何,它的Hash函数计算结果是一个固定长度的数字。与加密算法不同,这一个Hash算法是一个不可逆的单向函数。采用安全性高的Hash算法,如MD5、SHA时,两个不同的文件几乎不可能得到相同的Hash结果。因此,一旦文件被修改,就可检测出来。

当我们的文件放到emule里面进行共享发布的时候,emule会根据hash算法自动生成这个文件的hash值,他就是这个文件唯一的身份标志,它包含了这个文件的基本信息,然后把它提交到所连接的服务器。当有他人想对这个文件提出下载请求的时候,这个hash值可以让他人知道他正在下载的文件是不是就是他所想要的。尤其是在文件的其他属性被更改之后(如名称等)这个值就更显得重要。而且服务器还提供了,这个文件当前所在的用户的地址,端口等信息,这样emule就知道到哪里去下载了.

一般来讲我们要搜索一个文件,emule在得到了这个信息后,会向被添加的服务器发出请求,要求得到有相同hash值的文件。而服务器则返回持有这个文件的用户信息。这样我们的客户端就可以直接的和拥有那个文件的用户沟通,看看是不是可以从他那里下载所需的文件。

对于emule中文件的hash值是固定的,也是唯一的,它就相当于这个文件的信息摘要,无论这个文件在谁的机器上,他的hash值都是不变的,无论过了多长时间,这个值始终如一,当我们在进行文件的下载上传过程中,emule都是通过这个值来确定文件。

那么什么是userhash呢?

道理同上,当我们在第一次使用emule的时候,emule会自动生成一个值,这个值也是唯一的,它是我们在emule世界里面的标志,只要你不卸载,不删除config,你的userhash值也就永远不变,积分制度就是通过这个值在起作用,emule里面的积分保存,身份识别,都是使用这个值,而和你的 id和你的用户名无关,你随便怎么改这些东西,你的userhash值都是不变的,这也充分保证了公平性。其实他也是一个信息摘要,只不过保存的不是文件信息,而是我们每个人的信息。

那么什么是hash文件呢?

我们经常在emule日至里面看到,emule正在hash文件,这里就是利用了hash算法的文件校验性这个功能了,文章前面已经说了一些这些功能,其实这部分是一个非常复杂的过程,目前在ftp,bt等软件里面都是用的这个基本原理,emule里面是采用文件分块传输,这样传输的每一块都要进行对比校验,如果错误则要进行重新下载,这期间这些相关信息写入met 文件,直到整个任务完成,这个时候part文件进行重新命名,然后使用move命令,把它传送到incoming文件里面,然后met文件自动删除,所以我们有的时候会遇到hash文件失败,就是指的是met里面的信息出了错误不能够和part文件匹配,另外有的时候开机也要疯狂hash,有两种情况一种是你在第一次使用,这个时候要hash提取所有文件信息,还有一种情况就是上一次你非法关机,那么这个时候就是要进行排错校验了。

Hash函数简介

hash函数就是把任意长的输入字符串变化成固定长的输出字符串的一种函数。通俗得说,hash函数用来生成信息的摘要。输出字符串的长度称为hash函数的位数

目前应用最为广泛的hash函数是SHA-1MD5,大多是128位和更长。

hash函数在现实生活中应用十分广泛。很多下载网站都提供下载文件的MD5码校验,可以用来判别文件是否完整。另外,比如在WordPress的数据库,所有密码都是保存的MD5码,这样即使数据库的管理员也无法知道用户的原始密码,避免隐私泄露(很多人在不同地方都是用的同一个密码)。

如果两个输入串的hash函数的值一样,则称这两个串是一个碰撞(Collision)。既然是把任意长度的字符串变成固定长度的字符串,所以,必有一个输出串对应无穷多个输入串,碰撞是必然存在的。

一个“优良”的hash函数 f 应当满足以下三个条件:

  • 任意y,找x,使得f(x)=y,非常困难。
  • 给定x1,找x2,使得f(x1)=f(x2),非常困难。
  • 找x1,x2,使得f(x1)=f(x2),非常困难。

上面的“非常困难”的意思是除了枚举外不可能有别的更快的方法。比如第3条,根据生日定理,要想找到这样的x1,x2,理论上需要大约2^(n/2)的枚举次数。

几乎所有的hash函数的破解,都是指的破坏上面的第三条性质,即找到一个碰撞(前两条都能被破坏的hash函数也太弱了点,早就被人抛弃了)。在密码学上还有一个概念是理论破解,指的是提出一个算法,使得可以用低于理论值得枚举次数找到碰撞。

王小云的主要工作是给出了MD5,SHA-0的碰撞,以及SHA-1的理论破解,她证明了160位SHA-1,只需要大约2^69次计算就能找出来,而理论值是2^80次。她的寻找MD5碰撞的方法是极端高效的。传说王小云当时在会议上把碰撞写出来,结果被下面的人验证发现不对,原来她把MD5算法的一个步骤弄错了。但是她立马联系她的当时留在中国的学生,修正算法,并找到一个新的碰撞。这一个是对的。

看到这里,那些认为中国国安局应该将这些结果封存作为秘密武器甚至幻想用这些成果来袭击美国之徒可以停住你们的YY了。这种形式上的破解,在大多数情况下没有实际性的作用。更别提MD5早就被美国人抛弃了。

但是,说这种破解一点实际意义都没有,那就侮辱了广大密码学家的智商,密码学家不会无缘无故的弄出碰撞这么一个概念来。下面简单的介绍一下在特定情况下,怎么利用给定的碰撞来做坏事(翻译自Attacking Hash Functions):

Caesar给实习生Alice叫写了一封推荐信(letter)。同一天,Alice叫Caesar在推荐信上数字签名,并提供了一份推荐信的电子板。Caesar打开文件,发现和原件一模一样。所以他在文件上签了名。

几个月后,Caesar发现他的秘密文件被非法察看。这到底是怎么回事呢?

哈希文件_第1张图片哈希文件_第2张图片
哈希文件_第3张图片
a25f7f0b 29ee0b39 68c86073 8533a4b9

事实上,Alice要求Caesar签名的文件letter已经被Alice做了手脚,准确地说,Alice还准备了另外一个文件order,它们的MD5码完全一致。而Caesar的数字签名还依赖于MD5算法,所以Alice用order文件替换Letter文件之后,Caesar的数字签名依然有效。那封order给Alice提供了察看秘密文件的权限。

具体的实现方法可见Hash Functions and the Blind Passenger Attack。我在这里简单的解释一下(只是大致思路,具体实现方式,需要对文件结构信息有所了解):

letter文件的内容是:

if(x1==x1) show "letter" else show "order"

order文件的内容是:

if(x2==x1) show "letter" else show "order"

其中字符串"letter"和"order"代表两封信实际显示的内容。x1,x2是一个MD5的碰撞。

上面的方法,只供参考和学术用途,实际使用所引起的后果概不负责。




弹性Hash

是由Gluster研发出的一种新的具体存储算法。它负责决定数据保存的位置,是摆脱metadada的关键。

实现的核心有两个关键特性:

这种算法可以保证在添删服务器时不丢失对已存在的数据的追踪。这种算法工作在文件层,而不是块层。

这种添删服务器的能力并不是一种典型的算法。大多数功能的实现是基于一个事实,即位置数据的量保持不变。在存储中,添加存储通常是通过抽象层(逻辑卷)实现,所以不需要对特定的文件系统进行修改。然而Gluster中的多个文件系统互相粘合在一起,通过metadada来追踪每个信息的位置。而在长期应用中metadata不需要可扩展性。

第二个特性的特点很显著:从块层向文件层的转变,加上抛弃了metadata,Gluster有了可以扩展到非凡水平的能力。

弹性的Hash使得对文件的存放位置的选择在host层决定,然后系统再把完成的文件发到选定的存储中。通过管理员的设定,多个文件的多个副本可以被放置到不同的host上去。这意味着,host以及所有与其相关的磁盘可以因为任何原因而下线,而由其它弄得host来担任文件的完整副本(例如网络分割,甚至只是系统维护)。

弹性的Hash使这些得到更进一步的推进。在优化选择的时候不仅基于可用性,更基于性能。所以在读取文件时,系统会选择离用户更近的副本。这种特性为系统提供了一种天然的复制机制,因为存储服务器集群可以分散把同样的文件副本分发到两个站点,并让用户选择离他们最近的站点。

当系统中出现永久性损坏的时候(如一台服务器的磁盘发生故障,导致本地文件无法读取),系统会更换主机并将其加入集群,并自动开始恢复过程。


 

你可能感兴趣的:(哈希文件)