文本分析(一)

自然语言处理是计算机和自然语言之间人机交互的领域。自然语言处理是数据科学里的一个分支,以智能高效的方式,对文本数据进行分析、理解与信息提取,管理文本大数据,执行大量的自动化任务,解决机器翻译、命名实体识别、关系提取、情感分析和主题分割等。

工业界估计21%的数据是以结构化的形式展现的,数据主要是以文本形式存在,而这种方式却是高度无结构化的。一些高维的数据所表达的信息很难直接获取到,除非已经被人工做了处理。为了从文本数据里得到有意义并且可行的深层信息,需要深入理解自然语言的技术与原理。

文本数据在可用的数据中是无结构的,内部会包含很多不同类型的噪点。文本分析之前需要对文本进行预处理,主要是对文本数据进行清洗与标准化,让数据没有噪声,词汇规范化。

文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

文本分析(一)_第1张图片

你可能感兴趣的:(文本分析(一))