数据架构——非重复型分析

大数据分为重复型数据和非重复型数据,重复型数据的处理相对容易,而非重复型环境中的每一个数据单元都需要单独进行解释,因此处理相对复杂。

数据架构——非重复型分析_第1张图片

大数据环境中的非重复型数据的例子包括:

  • 电子邮件数据
  • 呼叫中心数据
  • 企业合同
  • 质保索赔
  • 保险索赔

当有文本进入大数据环境时,大数据中存储的数据单元是非重复型的。采用搜索技术是处理非重复型数据的方式之一。搜索技术可以用于完成扫描数据的任务,而搜索技术存在的缺陷在于一方面,搜索技术只是搜索数据,并不能产生一个可以随后用于分析的数据库;另一方面,搜索技术不能查找或者提供当前被分析文本的语境。为了针对非重复型数据进行广泛的分析处理,有必要读取非重复型数据并且将非重复型数据转换成某种标准的数据库格式。有时也会将这个过程视为读取非结构化数据并且将其转换为结构化数据的过程。读取非重复型数据并且将其装换到数据库的过程叫做文本消岐或者文本ETL。使用文本消岐处理大数据环境中非重复型数据的结果就是船舰一个标准数据库。一旦数据以标准数据库的形式进行存放后,就可以使用标准分析技术来对其进行分析,问题消岐的步骤如下:

  • 第一步是查找和读取数据
  • 第二步是价差数据单元并且确定需要处理哪些数据
  • 第三步是解析非重复型数据

 数据架构——非重复型分析_第2张图片

解析了非重复型数据之后,会将数据的属性、数据的键,以及数据记录都识别出来后记录到数据库,之后再利用文本消岐进行处理。文本消岐的核心在于将非重复型数据分析转换成键、属性和记录时所采用的处理逻辑。文本消岐中应用的基本逻辑活动包括以下活动:

  • 语境化:识别和捕获数据的语境
  • 标准化:标准化文本的特定类型
  • 基本编辑功能:对文本进行基本的编辑

有一种形式的语境化叫做内联语境化,只有当文本存在重复和可预测性时,才会采用内联语境化。内联语境化是通过分析一个单词或者短语之前和之后的文本来推断其语境的过程。另一种说明语境的有效方式是借助分类法和本体。分类法可以为语境化做很多重要的工作,首先内联语境化需要应用于文本出现重复且可预测的场合,而分类法则可以应用于任何场合。分类法的第二个重要特征是分类法可以在外部应用,这意味着在选择适用的分类法时,分析师会在很大程度上影响原始文本的解释。在处理数据时,需要将语境作为值传入到记录中。另一种非常有用的语境化的形式是识别所创建的自定义变量,自定义变量就是可以从单词或者短语的格式中完整识别出来的一个单词或者短语。语境化的一种有效形式就是同形异义消解。同形异义消解有以下几个要素:

  • 同形异义词本身
  • 同形异义词类别
  • 同形异义词消解
  • 同形异义词类别的典型词

 另一种相关的消解形式是对缩略语的消解。缩略语是交流的一个标准组成部分,往往围绕着主题,为了能够清晰的理解交流的内容,最好对缩略语进行消解。文本ETL可以用于消解缩略语,当文本ETL读取原始文本并且标记处一个缩略语时,文本ETL会将缩略语替换成文字值。文本ETL通过区分类别来组织消解相关的术语,也可以在与消解相关的术语装载到系统之后对其进行定制。有时文本中说明的时一些并不会发生的,这是文本ETL应该标识出否定。最简单的方式就是创建一个有关否定术语的分类法。另一种有用的语境化形式是数字标注。一个文档中含有多个数值,通常数值表达不同的意义。对于分析文档的分析师而言,标注不同的数值非常有用,分析师可以直接根据含义来查阅数值,通常在进行文本ETL处理时标注数值更加简单。日期标注与数字标注的操作基本相同,唯一的差别只在于数据类型。通过文本ETL进行日期的标准化,会读取数据,将其识别为日期并且将该日期转换成一个标准值,之后将标准值存入分析数据库中。有时文本中会包含一个列表,并且不能作为字符串操作,需要文本ETL可识别这个列表。文档的重复是在结构上而非在词汇或内容方面,在这种情况下必须使用联想式词处理的文本ETL功能。在联想式词处理中,首先为数据创建一个精心定义的结构,然后根据单词的常见含义来定义该结构中的单词。在文本ETL中,最简单的处理就是停用词的处理。所谓的停用词就是那些在正确的语法中必不可少但是在理解文本所表达的含义时却没有作用或者不必要的单词。在做文本ETL时要去除停用词,而且分析师也可以定制停用词列表,去除必要的停用词可以有效降低使用文本ETL处理原始文本的开销。另一种有时很有用的文本ETL编辑处理功能就是提取词根。有时为组织所管理的文档建立索引也很有用。索引的创建可以只是索引本身,也可以将索引与文本ETL中其他的可用功能一起创建,一个文档索引的典型内容包括以下数据:

  • 文档创建的日期
  • 文档最后访问的日期
  • 文档最后更新的日期
  • 文档由谁创建
  • 文档长度
  • 文档标题或者名称

除了收集文档元数据,还可能需要将文档归类到某个索引中。有时分析师需要研究那些相互比较接近的单词或者分类法。因此,在文本ETL中能够完成所谓的相近度分析是很有用的。相近度分析对实际的单词或者分类法进行操作,分析师指定待分析的单词或者分类法,根据文本的需要给出这些单词的相近程度,并且为相近度变量指定名称。对于相近度分析来说,必须要注意,如果查找的相近度变量有很多,将会消耗大量的系统资源。在ETL过程中,对于给定的文档和需要进行的处理而言,各种功能的顺序决定了结果的邮箱行和准确性。为了能够对很多不同的变量和很多不同的关系保持跟踪,文本ETL具有一种复杂的内部结构。为了使文本ETL的任何给定迭代处理都正确执行,必须正确定义内部关系。为了确保所有的内部关系都得以准确定义,在文本ETL运行之前,必须执行验证处理。吐过有任何一个或多个内部关系没有定义或者定义得不合适,那么验证过程就会发送一条消息,识别次序发生错误得关系,并且声明未能正确通过验证过程。

数据架构——非重复型分析_第3张图片

在文本ETL的处理过程中具有很多的复杂性,在大多数情况下,文档可以在文本ETL的边界内得以完全处理,但有时必须要对文档进行预处理或者后处理。文本ETL被设计为在计划范围内尽可能多地进行处理。预处理和后处理之所以并不是工作流程中的一个常规部分,是因为当进行预处理或者后处理时开销会提升,在预处理中可以出现以下活动:

  • 筛选出不想要和不需要的数据
  • 修复数据的模糊逻辑
  • 数据的分类
  • 数据的粗编辑功能

在ETL处理之后,还可能需要对文档进行后处理,后处理中经常需要对即将被清除的索引进行编辑或者对最终用户所需要的数据进行合并。

映射是一个定义规范的过程,规定了使用文本ETL处理一个文档。每一种待处理的文档都对应一个单独的映射,文本ETL的优良性在于:分析师可以基于以前的映射规范来创建新的映射。

数据架构——非重复型分析_第4张图片

文本ETL对于资源消耗很敏感,一般文本ETL是以一种高效的方式运行,当出现以下情况时可能会缓慢或崩溃:

  • 查找的相近度变量超过4~5个
  • 查找多个同形异义词
  • 分类法处理
  • 日期标准化

非重复型数据隐含了许多信息,但是却无法使用传统的方式进行分析,许多信息丰富的环境中,大量的信息财富都蕴含于非重复数据当中,这些非重复型数据包括:

  • 电子邮件
  • 呼叫中心
  • 企业合同
  • 质保索赔
  • 保险索赔
  • 医疗记录

呼叫中心是企业的一种职能,是企业和消费者之间的直接接口。呼叫中心的对话数量很多而且目的各有不同:

  • 有些客户是来抱怨的
  • 有些人是购买产品
  • 有些人是咨询产品信息
  • 有些是闲聊的

通过文本消岐,企业可以了解呼叫中心对话的内容。分析对话的第一步是捕获对话,一般呼叫中心都有录音数据;第二部就是使用语音识别技术将对话转换成文本形式,在转换时应该考虑情绪、声音等因素。从呼叫中心的对话中释放信息的第一步就是对转录副本进行映射,映射就是确定文本消岐如何解释这些对话的过程,典型的映射活动包括:

  • 停用词编辑功能
  • 同形异义词识别
  • 分类法识别
  • 缩略语消解

映射是一个一次性的活动,一旦完成了映射就可以使用文本消岐来处理转录副本。文本消岐的输入是原始文本、映射和分类法;而文本消岐的输出则是一个分析数据库。分析数据库可以采用任何可用于分析处理的标准数据库的形式。文本消岐的输出是一个标准数据库,人们通常认为它应该采用关系数据库的形式。很多时候该数据产生之后,其文本都要经过规范化,在该数据库隐藏的业务关系都是映射所产生的结果。

 数据架构——非重复型分析_第5张图片

当文本消岐过程创建了数据库后就应该选择一种或多种分析工具,分析工具只需要能够处理关系型数据库即可,每一种分析工具都有特色的数据展现方法,通常使用仪表盘展现呼叫中心的活动,分析师可以观察到以下情况:

  • 何时对活动进行处理
  • 处理的是什么样的数据
  • 电话的实际内容
  • 研究对象的统计情况

另一种有价值的非重复型数据是医疗记录。医疗记录通常记录的是病人的治疗过程或者某些医疗护理事件,这些记录对医生、病人、医院和供应商以及研究组织都很有价值。医疗记录中存有大量的叙述性信息,这些叙述性信息必须以标准数据库格式存放在数据库中,所需的工具就是文本ETL。医疗记录的第一部分是标识部分,这里记录着一个或多个身份识别的标准要素;医疗记录的第二部分是叙述性信息,叙述性部分会记录某个医疗事件的一些特征;医疗记录的第三部分是实验测试结果,记录病人治疗的原因。在医疗记录的过程中所使用的技术包括文本ETL处理文本的所有方式。文本ETL处理医疗记录所产生的结果就是一个规范化的数据。

 

 

 

 

你可能感兴趣的:(大数据)