《人工智能基础》17/91天阅读

对于文本的理解与分析,不同于图像处理和音频处理。由于每天产生的文本数据量过于庞大,因此人工标注的代价过于高昂,需要使用无监督学习算法 。

潜在语义分析就是针对文本数据多主题的特点而设计的。这种技术可以通过无监督的方式从文本中分析出多个潜在的主题,完成聚类算法不能完成的任务。

词袋模型:

是用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式。其基本思想是忽略难以建模的词句结构、保留体现主题的词语计数。

中文分词:

首先需要将句子中的词语分开。才能根据词语构建词袋。大多基于匹配与统计学的方法。

停止词:

不携带任何主题信息的高频词称为停止词。

词频率、文档频率、逆文档率。

词频率-逆文档率是对词频率的一种修正,作为文档的特征。

主题模型:

是描述语料库及其中潜在主题的一类数学模型。

你可能感兴趣的:(《人工智能基础》17/91天阅读)