网络资源归档标准WARC介绍


 

网络资源归档标准WARC介绍_第1张图片

WARC---Web ARChive

01

● WARC格式概述 

WARC(Web ARChive)格式是网络资源存档中使用的常见文件格式,全称为Web Archive File Format,由互联网保存联盟(International Internet Preservation Consortium,IIPC)资助,互联网档案馆(Internet Archive,IA)等机构负责开发,于2009年5月成为正式国际标准,标准号为ISO 28500:2009 Information and documentation — WARC file format。2017进行过一次修订,标准号为ISO 28500:2017

网络资源归档标准WARC介绍_第2张图片

 

WARC文件格式是唯一面向网络资源长期保存的资源保存格式,在世界各国的图书馆和档案馆得到了广泛的应用(比如美国互联网档案馆、澳大利亚国家图书馆、日本国立图书馆、荷兰国家图书馆、英国国家档案馆等),具有软件生态环境完善、内容丰富、便于管理、易于扩展、支持大容量文件保存等突出优点,同时适合网络资源和数字资源的长期保存使用。由于其广泛而巨大的影响力,该标准于2017年被采标为中国国家标准:GB/T 33994-2017《信息和文献 WARC文件格式》。

网络资源归档标准WARC介绍_第3张图片 

WARC格式是ARC(ARChive)格式的延续。ARC格式由互联网档案馆IA在1996年完成开发,规定了一种将多个数字资源整合到一个存档文件中的方法,用于管理IA所保存的数以亿计的网络文档。

IA在后来的工作中逐渐发现,ARC格式无法满足网络资源存档进一步的要求,因此开始在ARC格式的基础上开发新的格式,后来确定为WARC格式。相对于之前的格式,WARC格式详细记录了HTTP请求的头信息和元数据信息,可以识别保存的资源、冗余的资源、迁移的资源和切割的资源块等;WARC支持更多协议,包括HTTP、FTP等常用网络协议。

02

WARC格式特点

可以说,WARC格式就是为了实现网络资源长期保存而生的。所谓网络资源是指依托互联网等大型网络,以网站、社交媒体等形式发布的信息资源。网络资源存在寿命短、易丢失、不可再生的特点,这意味着如果没有得到及时归档保存,这些宝贵的资源将不复存在。网络资源存档(Web Archiving)的目的就是抢在这些资源消失之前将它们归档保存起来,WARC格式则是网络资源存档保存的封装格式,本质上是一种Web“容器”,用于解决网络资源格式多样、联系复杂等保存问题。

WARC格式可用于构建收割、管理、访问和交换网络资源等各种应用。WARC格式的特点总结如下:

01

具备完善的软件生态环境,易于使用

WARC格式拥有较长的发展时间和较多的使用用户,很多网络存档机构针对WARC格式开发了多种开源软件,覆盖了网络存档流程中的采集、元数据抽取、索引、格式检查、内容回放、管理等各个环节。这些软件降低了网络存档工作的技术门槛,使WARC格式变得简单易用。

02

记录了大量的信息,保留了当时的网络环境

WARC格式是面向网络资源存档的数据格式,记录了大量的数据信息。这些信息主要包括: (1)网络资源被保存时的网络环境,如爬虫信息、服务器信息、协议控制信息及响应信息等;(2)网络资源相互联通的信息,即锚点信息和URL;(3)网络资源的元数据信息,通过这些信息可以重现当时的网络环境,对于网络资源长期保存和未来的使用具有重要意义。

03

支持打包和压缩,便于管理和保存

网络资源本身具有零散的特性,并不便于管理和保存。WARC格式支持压缩和打包操作,可将所采集下来的零散文件进行打包压缩并保存,降低了长期保存的空间开销和处理小文件的计算开销,便于对资源进行管理。

04

支持大容量资源的保存

WARC格式中continuation类型的记录支持将大容量的网络资源进行分割以便保存,并且可以控制分割块的大小,使用灵活,且可以应用于网络资源外的其他类型数字资源的长期保存。

05

易于扩展

WARC标准在很多部分都预留了扩展的空间,如记录类型、截断原因等,可以方便地在不破坏现有功能的基础之上进行扩展。

03

结构与内容 

根据GB/T 33994-2017中的描述,WARC文件格式提供了一个由多个资源记录(数据对象)连接成的一个长文件的协议,其中每个资源记录由一组简单文本头和任意数据内容块构成。文本头信息保存了本WARC记录的管理信息,内容块保存了本WARC记录中的网络资源的内容。

网络资源归档标准WARC介绍_第4张图片 

WARC记录有多种类型,包括warcinfo、response、resource、request、metadata、revisit、conversion、continuation 八种,用于记录采集软件收割网页时的所有信息,包括访问请求、元数据等,尽可能完整地保存网络资源,而不仅仅是网页内容。

1. 管理信息 

对应“warcinfo”类型,是WARC文档中必备的类型,WARC文档中第一个WARC记录类型必须是“warcinfo”类型。其中保存了该WARC文件的相关技术信息,所记录的信息包括生成时间、服务器IP、软件信息、主机信息、WARC格式、代理信息、操作者等。

2. 环境信息

这些信息记录了网络资源在被采集和保存时所处的网络环境的情况,主要包括WARC记录中的“request”“response”类型。

“request”类型的记录包含一个完整的向对方服务器发出的请求信息,内容包括目标URL、日期、长度、网络协议(如HTTP、FTP等)的完整内容等。

“response”类型的记录包含一个来自于对方服务器的完整的响应,主要包括所请求的URL、对方服务器的IP地址、内容摘要算法和摘要值、网络协议内容以及所返回的页面内容HTML代码等。如果所返回的内容是以文件形式存在,例如图片等,则以二进制字符流的形式返回,保存在下文中提到的“resource”、“continuation”等类型中。

2. 内容信息

记录了网络资源的内容,包括元数据和网络资源本身。这种信息包括WARC文档中的“metadata”“resource”“continuation”类型的WARC记录,以及上文提到的“response”类型中的响应内容部分。

“metadata”记录了对于所保存网络资源的进一步描述和解释,即网络资源的元数据,包括所指向的资源URN、内容摘要算法和摘要值、内容长度、采集时间、获取时长等信息。

“resource”类型的记录包括资源的技术信息和资源本身。技术信息包括URL、采集时间、记录ID号、内容类型以及摘要算法和摘要值、内容长度。资源本身以二进制形式保存在文本信息中。

“continuation”类型,用于保存网络中通常存在的较大的文件,例如音视频、高分辨率图像等。当这类资源被采集并保存时,有可能会超出网络爬虫(采集软件)所设置的WARC文件大小限制。这时,需要将较大的文件分段保存,每一段都会保存为一个continuation类型的WARC记录。

4. 结构信息

记录了WARC文档相互之间的逻辑结构信息,包括“revisit”“conversion”类型的WARC文档。

“revisit”类型是为了减少资源冗余而设置的类型。当网络爬虫在进行网络采集的过程中发现某些类型的资源已经进行过存档,则会将当前所采集的资源类型设置为revisit类型。

“conversion”类型的记录包含另一条作为存档过程结果而创建的记录内容的替换版本。在网络中,某些资源的原始内容可能已经被迁移或转换为另一种格式,conversion类型的WARC文档记录新的类型地址以及与原始类型的关联关系。

04

流程与工具

采用WARC格式归档和利用网络资源非常方便,基本的步骤就三步:收割(采集/摄入)打包(存储)浏览(访问)

网络资源归档标准WARC介绍_第5张图片

 

采集过程示意如下图所示:

网络资源归档标准WARC介绍_第6张图片

 

当然,在实际操作过程中没有那么简单,每个步骤都需要借助第三方的工具软件来完成,这就要归功于WARC格式完善的软件生态环境。工具软件主要包括以下四类:

01

采集(摄入)软件

目前最常用的两种采集软件是Heritrix和GNU Wget,面向用户桌面的工具中常用的是WarcCreate软件。

02

文件处理软件

指以保存、交换等应用为目的,对WARC文件进行处理的软件,包括格式验证、切割、组合、元数据抽取等,比如Jhove2、JWAT、Warc tools等软件。

03

索引、检索与访问软件

这类软件可对WARC文件进行索引,用于检索,并提供检索界面,响应用户的检索请求,将检索结果在浏览器中呈现给用户。常用的软件包括NutchWAX、Wayback Machine、Solr和Momento等。

04

综合管理软件

集成了采集、管理、索引和发布等流程,便于保存机构快速开展网络存档活动的软件。其中较知名的是新西兰和英国图书馆开发的Web Curator Tools(WCT)和荷兰图书馆开发的NetArchiveSuite软件。

WARC格式的工具软件生态示意如下图所示:

网络资源归档标准WARC介绍_第7张图片 

WARC格式的设计思路和应用情况反映了目前网络资源长期保存的主要研究方向,WARC格式的特点决定了它可以承担网络资源长期保存的重要职责,它开放的框架可以使本身得到进一步扩展,以适应网络技术的发展。对WARC格式进行进一步的跟踪、研究和应用,势必可以推进我国网络资源存档和数字资源长期保存工作的开展。

对国外数字资源长期保存先进理论、标准、项目进行跟踪研究是数字罗塞塔计划研究任务的重要组成部分。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字信息长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。

你可能感兴趣的:(前端,网络)