《数据挖掘概念与技术》学习笔记第9-10章_复杂数据类型的挖掘+数据挖掘的应用和发展趋势(9/10)+(10/10)

空间数据

多媒体数据

         例:图像数据

                   基于描述的检索系统:关键字,标题,尺寸等

                   基于内容的检索系统:颜色构成,纹理,形状,对象和小波变换等。

时序数据和序列数据

         趋势分析

                   长期变化(长期趋势)

                   循环变化(周期变化,如果有的话)

                   季节性变化

                   非规则变化

文本数据库挖掘

         潜在语义标引

                   通过潜在语义标引减少词频矩阵的大小,核心技术是奇异值分解。具体步骤如下:

                   1 建立词频矩阵,frequency_matrix.

2 计算frequency_matrix的奇异值分解,方法是把矩阵分裂为三个小的矩阵U,S,V。其中UV是正交矩阵,S是奇异值的对角矩阵。矩阵S的大小为K×K

3 对每一个文档d,用派出了SVD中消除的词的新向量替换原有的向量。

4 保存所有向量的集合,用高级多维索引技术为其创建索引。

 

你可能感兴趣的:(数据库,数据挖掘,文档,Matrix)