提高数据管理的效率利器--动态数据集合

 你是否曾经也是这么管理数据的:为了便于组织和查找数据,把做过的方案按照不同的项目建立了不同的文件夹,相关的文件都拖进去。

过几天,领导说整理一下你做过的所有关于某一个产品的方案。这下傻了眼,这些方案可能分布在各个项目文件夹里。你只能再挨个看一遍,把相关的方案Copy到一个新的文件夹;当然,公司的产品不止一个,所以领导又说我们按照......

几次下来,建立的文件夹越来越多,不仅浪费了大量的存储空间,而且一旦某个文件夹的内容变化了,你要记得他关联到哪些其他的文件夹,要挨个更新进去。换做谁都会疯掉!

        

提高数据管理的效率利器--动态数据集合_第1张图片

其实数据还是那些数据,随着我们想要按照不同维度的特征组织这同一批数据,会进行大量的重复性工作。既浪费时间,又浪费空间!

通常,文件系统给我们提供了一种简化管理手段,叫做【快捷方式】。原始文件就放在那里,做个【快捷方式】放进不同的文件夹不就可以了。貌似空间问题解决了,可一旦原始文件发生了位置的变化,文件名称发生了改变,这些链接也就失效了,因此,这绝不是长期有效的完美解决方案。

有没有办法按照不同纬度的特征去做重新整合数据,并且保证即便原始数据发生改变,依然能够无遗漏的被收纳进来呢?

当然可以啊。现在盛行一种黑科技就可以很好的解决这个问题——动态数据集合。

那到底什么是动态数据集合,又是如何实现的,今天我们就来一探究竟。

动态数据集是什么?

我们把动态数据集拆解一下,变成【动态】和【数据集】就好理解多了。

数据集最直观,我们可以把它理解成一个虚拟文件夹,这个文件夹在文件系统中不是真实存在的,是按照使用者的意愿建立的,我们可以把所有相关的内容都挂在这个虚拟文件夹下,就像拎葡萄,拎起来就是一大串;

向虚拟文件夹下挂内容的过程就是组织数据集的过程,就像是我们上文中说的,把相关文件拖到这个文件夹里。但这种方式太老土了,我们有更好的办法。

我们曾经说过,数据管理的对象是数据特征,我们完全可以通过数据特征来组织数据集,而不是傻傻的通过文件名,文件类型。

数据特征为我们创造了更广阔的想象空间,我们可以把所有的文档打上各种标签,作为其特征,需要的时候用特征进行筛选,究竟谁应该被纳入到这个数据集当中。

举个简单的例子,有三个城市,分别为【济南】、【郑州】、【南京】,按照行政区域建立数据集,这三个城市分别属于【山东】、【河南】、【江苏】文件夹。但他们有没有其他特征呢?肯定有的,比如,济南、郑州是黄河流域的城市,南京是长江流域的城市,如果我们把地理位置作为特征标签附加在数据上,就多了一种统计维度,比如,建立一个数据集,条件是【黄河流域城市】,那么你会发现,【济南】和【郑州】已经在里面了,却没有包含【南京】。以【长江流域城市】为条件建立数据集,你会发现只有【南京】被放进来了。

这就是数据集的作用——设定条件,筛选满足条件的数据,放进来。

不知道大家发现没有,上述过程并没有发生数据的拷贝,也就是说,无论以何种维度建立数据集,都不会浪费存储空间。他只是个虚拟的“目录”,方便你使用而已;

接下来说动态,有了上述铺垫,动态就不难了,可以用简单的两句话讲明白;

1.把【南京】从【江苏】这个【真正的文件夹】下挪走,也不会影响【长江流域城市】这个数据集的结果,你会发现,【南京】依然存在其中;

2.添加一个城市【武汉】进来,并且打上地理位置标签,你会发现,【长江流域城市】这个数据集中多了一个成员,除了【南京】还有个【武汉】;

这就是动态的意义,数据集一旦建立,原始数据的位置,变化,就不那么重要了,而且一旦产生了新的符合条件数据,会被自动收纳到数据集当中。

这就是通过数据特征标签化进行数据管理的强大威力~

对于非结构化数据管理,现在市面上其实有很多不一样的方法,但对于非结构化数据来说,除了需要秒查询以外,还可以动态的自由组合自己想要的数据,将会让非结构化数据发挥真正的价值

 

你可能感兴趣的:(大数据,big,data)