文件搜索工具—everything,相关原理

如果觉得我的技术文章还有点让列为看官汲取之处,

请给我投上宝贵的一篇,以兹鼓励呵,多谢,多谢!!

本人ID:m13666368773

投票地址:http://vote.blog.csdn.net/item/blogstar/m13666368773

凡投票的朋友,

请第一时间在文章下方评论:“当前票数:XXX+已投票+邮箱:[email protected]

稍后会将 PPT版本,发给您。

请稍花点时间,为我投上您手中宝贵的一票,

敬告:我这能看到您的投票“用户名”,请勿虚报!多谢,多谢!!

截至时间:2012-12-30

 

 

最近由高手介绍一个新的搜索软件,果然高效的工具带来高效的工作,特地了解了下其实现原理

一,介绍

名称:Everything
类别:硬盘搜索
语言:多语言(包括中文)
官网:[url]http://xbeta.info/everything-search-tool.htm[/url]
介绍:
   Everything(官网|中文主页|教程)是速度最快的文件搜索软件。其速度之快令人震惊,百G硬盘几十万个文件,可以在几秒钟之内完成索引;文件名搜索瞬间呈现结果。它小巧免费,支持中文,支持正则表达式,可以通过HTTP或FTP分享搜索结果。如果不满意Windows自带的搜索工具、Total Commander的搜索、Google 桌面搜索或百度硬盘搜索,如果正在使用或放弃了Locate32,都值得推荐这款体积小巧、免安装、免费、速度极快(比Locate32更快)的文件搜索工具Everything!

但注意如下几点:
- 只搜索文件名,不能搜索文件内容;
- 只适用NTFS文件系统,不适合FAT32;
- 完美支持中文,但必须使用V1.2.x及更高版本

 

原理:

    根据Everything的官网所说,它1分钟可以索引100万个文件。48万多个文件,建立索引需要的时间也只有几秒,索引无需逐一扫描硬盘文件,而是直接读取NTFS文件系统的USN日志,Everything由于核心原理建立在NTFS的底层机制上,NTFS文件系统中的 USN 日志记录了系统对NTFS分区中的文件所做的所有更改。对于每一卷,NTFS 都使用 USN 日志来跟踪有关添加、删除和修改的文件的信息。直接读取NTFS文件系统的USN日志,是能做到很快的,但就只能按文件名来处理。如果要做内容的索引,那就不是一秒两秒的事了。而且还要考虑文件格式,需要索引的信息等。也就是说你如果需要搜寻你所有的分区,那么你所有的分区都需要时NTFS格式的,这是由软件的工作原理决定的。

二,原理知识

USN日志:

   USN是Update Service Number Journal or Change Journal的英文缩写,直译为“更新序列号”,是对NTFS卷里所修改过的信息进行相关记录的功能。当年微软发布Windows 2000时,建立NTFS 5.0的同时,加入了一些新功能和改进了旧版本的文件系统,为它请来了一位可靠的秘书,它可以在分区中设置监视更改的文件和目录的数量,记录下监视对象修改时间和修改内容。没错,它就是USN日志。当这个功能启用时,对于每一个NTFS卷,当发生有关添加、删除和修改文件的信息时,NTFS都使用USN日志记录下来; 这个就是版本管理svn的功能一个子集啊,看来对操作系统实现的理解,对于应用软件的效率有很大帮助

如何开启:在NTFS分区的图标上右击选择“属性”,勾选允许索引服务;这就带来一个问题:如果没有索引服务,软件是否不能正常运行?

查看方法:

   要了解有关变动日志功能的摘要信息,我们只需在命令行下运行“fsutil usn queryjournal DriveDesignator”命令即可,其中DriveDesignator的我们要查询的卷。例如我们要查看C盘的变动日志摘要,可运行命令“fsutil usn queryjournal c:”。

C:\Documents and Settings\zhuyong>fsutil usn queryjournal c:
Usn Journal ID   : 0x01c8e96d59876854
First Usn        : 0x00000000ec280000
Next Usn         : 0x00000000f26acf00
Lowest Valid Usn : 0x0000000000000000
Max Usn          : 0x00000fffffff0000
Maximum Size     : 0x0000000006400000
Allocation Delta : 0x0000000000040000

  “Usn Journal ID”是USN日志ID,这是该变动日志的唯一标识符。“First Usn”是第一个USN,这是日志中的第一个USN。“Next Usn”是下一个USN,这时变动日志下一个可以被写入的USN。“Lowest Valid Usn”是最低有效USN,这是可以被写入变动日志的最低有效USN。“Max Usn”是最大USN,这是可以被分配的最大USN。“Maximum Size ”是最大值,这是变动日志可以使用的字节最大值,如果变动日志超过该值,以前的项目就会被覆盖。“Allocation Delta”是分配差,这是当变动日志装满后,可以被添加到日志的末尾,或者从日志的开头处删除的,被分配的内容空间大小。从这块理解:USN日志的实现是一个限定最大长度和最大空间的链表,所以可能是不完整的

  假如我们要了解某个文件最新的变动日志项,只需在命令行下执行命令“fsutil usn readdate filepath”即可,其中filepath是要查看变动信息的文件的路径和名称。命令的输出结果如下:
C:\>fsutil usn readdata C:\\DFATable.txt

Major Version    : 0x2
Minor Version    : 0x0
FileRef#         : 0x0095000000018bac
Parent FileRef#  : 0x0005000000000005
Usn              : 0x00000000d8bcd058
Time Stamp       : 0x0000000000000000 0:00:00 1601-1-1
Reason           : 0x0
Source Info      : 0x0
Security Id      : 0x173
File Attributes  : 0x20
File Name Length : 0x18
File Name Offset : 0x3c
FileName         : DFATable.txt

   这些数据的开始位置显示了该文件在根文件索引中的索引编号以及父项,同时还显示了该文件当前的USN已经文件属性标记。所有这些有关该文件的最新变动日志,方便了特定的系统服务直接查询,以判断对文件的修改情况,不仅速度更快,而且对系统资源是使用也更高效。看来利用USA也是能实现一些更加复杂的属性搜索

 

附:Everything工具官方下载地址:http://xbeta.info/everything-search-tool.htm

你可能感兴趣的:(工作心得)