换个角度认识大数据(上)——何为元数据

什么是元数据?

要理解这个问题,首先要知道“元”是什么。

元数据意味着“有关数据的数据”。虽然“meta”前缀(来自希腊语介词和前缀 μετά-)意味着“之后”或“超越”,但它用于在认识论中表示“约”。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。


先让我们看一些真实的元数据示例:


一张照片

每次用今天的相机拍照时,都会收集并保存一堆元数据:

l  日期和时间,

l  文件名,

l  相机设置,

l  地理位置。


一本书

每本书都有封面和内部的许多标准元数据。这包括:

l  一个标题,

l  作者姓名,

l  出版商和版权细节,

l  背面的描述,

l  目录,

l  指数,

l  页码。


从这些真实的元数据可以看出,元数据是关于数据的描述,存储着关于数据的信息。


下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:

(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!

这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑)。有了这些信息,我们就可以大致想像出瓦莲卡是个什么样的人。

推而广之,只要提供这几类的信息,我们也可以推测出其他人的样子。


为什么会有元数据?

随着网络信息资源的指数级增长,用户如何在浩瀚的信息海洋中找到真正所需的信息?为了应对这种情况,“元数据”作为一个统一概念首次被提出。因特网的爆炸式的发展,使人们一时难以准确地找到自己所需的信息,人们就试图模仿图书馆对图书的管理方式,对网络资源进行编目。

思考一下:如果你必须在最短时间内快速准确找到在一百万本书中的查到一本书,你会选择哪个选项?

1、通过书籍卡片目录寻找

2、一本本寻找

大多数人会选择通过图书卡片目录搜索,只要:

l  只需要知道卡片目录上的ISBN号

l  知道ISBN号代表什么

卡片目录的主题索引是元数据集合,其有利于为人们更方便地检索信息提供了帮助。元数据相当于卡片目录,存储着关于数据的信息,为人们更方便地检索信息提供了帮助,在信息资源组织中扮演着描述、定位、搜寻角色,可以帮助数据平台解决“有哪些数据”、“数据存储有多少”、“数据间的关系”、“如何找到我需要的数据”、“如何使用数据”和“数据的生产进度”问题。

你可能感兴趣的:(换个角度认识大数据(上)——何为元数据)