华为数据之道|03 差异化的企业数据分类管理框架|③以特征提取为核心的非结构化数据管理

华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。
相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。
因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。



非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。
1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。
2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。

你可能感兴趣的:(华为数据之道|03 差异化的企业数据分类管理框架|③以特征提取为核心的非结构化数据管理)