从文本分析到数据仓库

文本分析概述

对于那些不熟悉文本分析的人来说,有必要对文本分析这种技术以及可通过应用文本分析而受益的一些通常的用例作一个简要的概述。如果想了解关于文本分析,尤其是 Unstructured Information Management Architecture (UIMA)中的文本分析的更深入讨论,developerWorks 和 Apache.org 上有一些更详细的文章(参见 参考资料 小节)。

文本分析是指使计算机能够从文本中提取意义的过程。文本分析常被实现为一系列的重复过程,其范围从简单的语言检测、解析和标记,一直到能识别文本所表达的感情等更复杂的过程。UIMA 为这些不同的过程提供一个标准化的输入和输出格式,以支持不同组合的、来自不同供应商的模块的即插即用特性。

文本分析的输出由原始文本和关于文本的附加元数据组成。有很多不同的应用程序可以使用增强的元数据,包括商业智能应用程序、搜索应用程序、企业内容管理系统和文本挖掘应用程序(见 图 1)。


图 1. 文本分析可以增强很多不同的应用程序
文本分析可以增强很多不同的应用程序

OmniFind Analytics Edition 概述

OmniFind Analytics Edition 提供交互式地探索和挖掘文本分析结果以及通常与非结构化文本相关联的结构化数据的功能。如果熟悉商业智能应用程序,您可以将它看作以内容为中心(content-centric)的商业智能,它聚合文本分析的结果,以检测频率、相关性和趋势。通常的用例包括:

  • 分析客户联系信息(电子邮件、聊天、problem ticket、联系中心记录),以洞察质量或满意度问题。
  • 分析博客和 wiki,以了解企业声誉。
  • 分析内部电子邮件,以检查是否违反遵从性或查找专家。

架构

图 2 是整个系统中内容和数据流的一个概要图。首先,原始的文本数据必须是 OmniFind Analytics Edition 能够理解的格式,即一种被称作 Analysis Text Markup Language(ATML)的 XML 格式。OmniFind Analytics Edition 可以自动将使用逗号分隔的文件(.csv)转换成 ATML。

如 图 2 所示,文档中既有结构化部分,也有非结构化部分。您必须指定要在哪些文本字段上运行文本分析(自然语言处理)。


图 2. OmniFind Analytics Edition 架构




本文转自IBM Developerworks中国

        请点击此处查看全文

 

你可能感兴趣的:(从文本分析到数据仓库)