学习《文本分析》之概述

文本分析的意义

在我们日常的系统中,拥有的数据80%是非结构化的数据,而其中,大部分是文本的形式。非结构化的文本数据,包括电子邮件、博客、微博、客户反馈、医疗记录、合同文本等,而这些文本里隐藏着潜在的价值。只有通过适当的的分析方法,才能从中提取这些有价值的信息。
文本分析(Text Analytics)也称为文本挖掘(Text Mining),指的是从文本里分析提取出高质量信息的过程。

文本分析主要任务包括

  • 文本索引与检索(Indexing and Search);
  • 文本分类(Text Classification);
  • 文本聚类(Text Clustering);
  • 文档摘要(Document Summarization);
  • 主题抽取(Topic Theme Extraction);
  • 命名实体识别、概念抽取、关系建模(Named Entity Recognition, Concept Extraction, Relation Modeling);
  • 情感分析(Sentiment Analysis);

使用到的技术与方法包括:

  • 语言学(Linguistics);
  • 统计学(Statistics);
  • 数据挖掘和机器学习(Data Mining & Machine Learning);
  • 自然语言处理(Natural Language Processing, NLP);
  • 信息检索(Infornation Reatrieval);

文本分析的主要步骤

学习《文本分析》之概述_第1张图片
文本分析

了解更多知识: 学习《文本分析》之分词、词性标注及语法树

你可能感兴趣的:(学习《文本分析》之概述)