------------------------------------重要说明------------------------------------

以下内容有来自华为存储官方教材

具体教材内容请移步华为存储官网进行教材下载

------------------------------------重要说明------------------------------------

① 数据定义

数据数据是对所有事物的数字表示。

SNIA( Storage Networking Industrial Association)关于数据的定义是:“数据是对所有事物的数字表示”。

这个定义看起来比较抽象,但是当你观察当今企业的运营,你会发现一个企业每天都会产生大量的数据。所有的这些数据用以维持业务的运营和盈利。

假设一个企业不使用任何的电子信息系统,比如email系统,比如用于推广其产品的网站,或者用于给客户下单的网店,这将是怎样的场景。再假设一个企业还是使用手写的文档来对部件或原材料来下订单,或者所有的员工都使用传统的手写文档来购买产品,将是怎样的情形。

我们不再使用传统的方法和工具来运营企业,是因为使用数字格式的信息具有非常明显的优势:数字信息更容易保存、修改以及复制。并且,也更容易让更多的人在工作中共享相同的信息。

结构化数据:是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

结构化数据是直接可用的,对于特定的员工提供了非常有效的信息。

结构化数据的典型例子是数据库以及电子表格中存储的数据。 

非结构化数据不方便用数据库二维逻辑表来表现的数据

非结构化数据通常比较杂乱,因为从非结构化数据上通常无法看到数据本身代表的含义,无法直接获取数据中的信息。

典型的非结构化数据如文档、图片、网页、视频等。

比如,文档的内容与企业的关系并不能一眼就看出来,因为需要有人阅读文档的内容,并确定这些内容对企业是否有用。

② 信息定义

信息:是为了满足用户决策的需要而经过加工处理的数据。信息是从已收集到的数据中提取出来的。

当今企业面临的最大的挑战是如何解释每天、每年收集到的海量数据中包含的意义。对于企业是否盈利更重要的不是数据而是从所有数据中提取出来的信息。如果我们只看数据的话,它不会告诉我们是否盈利,而只有当我们将数据进行对比(比如对比本周和上一周的数据),我们才能知道销售是上升还是下降了。从两周的销售数据的对比中,获取到的信息能告诉我们是否盈利。

基于提取到的信息,我们可以分析得到企业收集数据方式,甚至企业内部的组织方式。因此只看数据,我们可能会得出结论:数据越多越好。

关于企业销售情况的信息可能会导致企业的一系列改变,比如运营方式的改变、产品的改变、目标客户的改变以及价格的改变。

因此在大多数的场景下,数据越多越容易找到有用的信息。但是,问题出现了:我们生产的数据太多了,数据的处理产生了新的问题。

③ 信息生命周期管理

每个员工需要什么数据来完成她的工作由这个员工的工作上的角色来决定。因此信息的分类有很多种:市场数据、销售信息、产品成本、人力资源成本、后勤成本和研发成本。企业必须要保证其员工在正确的时间获得正确的信息。

信息/数据保存格式甚至跟拥有信息一样重要。比如,一个员工给其他人发送了一封包含重要信息的邮件,则接收者需要有一台终端、一个邮件程序以及有相应的邮件账号来接收这封邮件。如果我接收了一个文件,但是我的应用软件无法打开这个文件,那么我也无法获得里面的信息。

下一个问题是,数据应该保存多长时间?这个与具体的业务和数据有关,但是通常政府法规规定了企业应该将信息保存多长时间,有些信息甚至需要保存几十年。比如一个桥梁建筑公司,只要修建的桥梁还存在,则该建筑公司需要将该桥梁的图纸或者架构设计文档数据一直保存着。

a.  信息生命周期管理-硬拷贝

这里格式应该被考虑成一个广义的格式含义。尽管当今很多数据都是以数字形式保存的,但仍然还有很多模拟形式的数据,比如照片、有法律效力的纸质文件、传真或者那些从未数字化的归档数据。

所有的文档有其相关性,需要知道要保持多久。有些文档非常敏感而且需要被妥善保存;有些文档只能查看一下,不能被复制。在这些情况下,需要采用特别纸张来防止这些文档被复制,比如可以使复制的信息不可读。同时,对于纸质文件还有版本控制的问题。版本控制,同时也意味着,如果原始的版本被修改,你需要保留不同的版本。

对于纸质文件,如果要做版本控制,那就意味着需要归档保存多个版本的文件。现在的纸张质量比较好,但是以前的纸张质量比较脆弱,容易损坏。同时,纸张上的墨水也会化掉,甚至可能把整个张纸都破坏了。要保留这些旧的文件是一个非常巨大的工作,且花费不小。如今,我们将这些大多数的纸质文档数字化,并且将原件保存在条件非常适合保存的地方。我们现在可以查看扫描件,可以将扫描件放大来查看文件的细节,我们还可以修改图片文件并且方便地将这些扫描件或图片文件共享给其他的用户。

如果信息需要被控制,则需要有一些办法来控制。比如将文档保存在保险箱里,有的归档的文件甚至要保存在保存条件良好的封闭房间中,且需要安全保卫。

a.  信息生命周期管理-数字信息

数字文件通常有它们的限制,我们需要使用相应的软件来打开,读取,或者修改文件。因此在创建时,需要选择一个允许所有相关的使用者都可以访问的文件格式来记录数据。

有三种典型的文件类型:

文本文件:这类文件主要包含了字符(字母或者/和数字)和少量的图片。 Word文档、电子表格、数据库文件是典型的例子。

位图文件:在位图中,所有相关的图元(或像素)都被单独保存。典型的例子是照片和扫描件,因为位图文件需要保存位图的每一位像素,因此需要大量的存储空间。

矢量图文件:矢量图是以数学对象和公式来保存的。典型的例子是AutoCAD等画图软件产生的文档。

当选择文件保存格式时,最好是普遍都可以打开的,而不是只是某一个公司的软件可以打开。这些文件的格式可以存在和支持很多年。比如TIFF格式的位图、 IGES的矢量图或者SGML格式的文件。对于文本格式的文件, ODF(Open Document Format)的文件使用得越来越多了。

当保存位图信息时,常常进行压缩。尽管压缩可以用来减小文件的存储空间, 但是压缩也意味着信息的丢失。有时,将文件以无损模式保存防止了信息的丢失。 TIFF格式就是一种无损格式,而JPG和PNG格式因为内在的压缩技术,就不是无损的。

附: CALS( Computer Aided Logisitcs Support)是美国军方使用的一种文件格式。BASEL是欧洲企业财务部门信息标准。

a.  信息生命周期管理-硬件

对于数字信息,我们就可以使用物理隔离或者软件隔离的方式。物理隔离的方式,比如我们把数据存在与外部网络隔离的环境中,在这样的环境中,只有内部网络可以访问数据,从而隔离外部的非法访问。

类似的隔离也可以用软件来实现,我们可以用ICT基础设施中的技术来防止非法的访问。比如我们可以用防火墙、安全网关、访问控制列表以及交换机中VLAN的划分来进行软件隔离。

在什么情况下,我们需要保证数据的完整性呢?也就是说,保存的数据不允许后面再被修改。比如法律相关的文档,医疗机构的医疗报告,通常就被要求防止非法的修改。对于纸质文档,可以将这些文件存放在特殊的地方以防止篡改。对于数字文档,需要将这些文档存放在WORM( Write Once Read Many)介质中。 WORM技术允许数据写

一次,但是不允许修改,而读数据则不受限制。

如果某些信息需要多个人都访问,一种办法是做多个副本,供多人访问。如果某些文档需要多人修改,则需要他们依次访问依次修改,而不能同时修改。

如果需要多个应用打开和修改相同的文件则需要集群技术。在集群技术中,多个主机和应用可以同时访问同一个文件。集群中的每一个成员都可以修改文件内容,并且修

改的内容在修改后能被正确保存。

a.  信息生命周期管理-保留周期

获取信息重要,但是长时间保存这些信息也非常重要。很多企业将订单、发票、付款信息和票据等保存很多年,以备在后期业务中再次需要用到这些文件的信息。一些生产工具的保修信息和服务协议也需要保存与工具的使用寿命相同的时间。

有时,不同的行业有一些额外的规定。比如,在许多西欧国家,发票、员工合同相关的信息通常要求要保存7年或更长时间。病人的医疗文档要求至少要保存15年,这样医生可以方便查看病人的病史,而且可以帮助他制定更好的医疗计划。基于此,政府可能要求企业长时间保存这些文档,虽然这些文档对企业本身可能没有什么用了。

在数字信息被保留下来后,接下来的问题是:这些以数字形式保存的信息要保存多久?

如果数据存储在磁性介质上(也许还有人记得录像机或者录音机),磁带可能过几年就消磁了。存储在CD或者DVD上的数据也不能无限期的保存下来。比如CD保存了一段时间后,也有可能出现无法读取的情况。我们必须将数据保存在更可靠的介质上,而且要定期维护更新这些介质(比如每隔两年重新生成副本)。

a.  信息生命周期管理-如何销毁废弃数据

在数据超过了保存期限后,就不再有用了,而且企业也不再需要保存这些数据了。问

题是如何销毁这些我们不再需要的数据呢?

首先,有些法规也规定了防止了数据的滥用。比如美国的索克思法案 (SOX:全称为Sarbanes-Oxley Act)就规定了公司有责任保存或者销毁其产生或使用的数据,而且也有责任保证没有人可以复制或者将数据带出企业。

如果信息是以纸件方式归档存放的,则必须要对纸件进行粉粹销毁,或者进行焚烧销

毁。

数字信息不是那么容易销毁。磁盘格式化之类的传统方式并不是非常安全,因为可能还是有技术方法能够恢复希望销毁的数据。基于这种情况,有些专业的软件可以擦除介质上的数据,并向写过旧数据的地方写入随机数据(可能需要写入多次)的方式来保证销毁。对于一些政府机构来说,需从磁盘上擦除数据甚至物理粉粹磁盘,以保证任何人都无法重复使用这些介质。