待分析数据数值化

常用的一些数据,如地区、关键词、url网址,这些需要进入到数据挖掘系统中进行处理,而由于算法常用会采用距离计算的方式进行采用,这些数据需要从字符数据转换为数值数据,并且逻辑化。

通常建立一个有自递增字段的表,然后将数据去重填充进去,就得到了数值化的数据了

但是这样的数据基本会有一个问题,就是各个数值之间其实基本是不存在逻辑上的关联的,所以在做一些向量化分析的时候得到的数据往往很诡异或者和现实压根不搭边。

通常人会按照层级模式对数据分类,而对待分析数据的数值化可以采用层级编码的方式处理,大类编码在前,次级随后。

比如地区数据的编码,第一位对国家编码,随后的作为地区的编码,然后是更低一级的区域单位。

目前全球有上百个国家,几千个次级区域单位,所以逻辑化后的区域数值在统计分析时,基于最低级的单位的聚类是最易于被识别的,而基于较高级别的区域单位的聚类则需要更多的数据样本和更大的取样区间才能被识别出来。

关键词,尤其是具有层级结构的一系列关键词,被逻辑化后对数据的抽取分析有更大的帮助。

url的数值逻辑化依据的是网站的拓扑结构,但是与之对应的逻辑结构则是网站信息的频道分类。

你可能感兴趣的:(数据挖掘)