UCI数据集中文介绍:Waveform Database Generator (Version 1) Data Set

看论文用到了该数据集,没找到中文描述,且官网上描述非常简洁。所以查阅了原版书,将该数据集的介绍整理如下。

实验数据集:波形数据集(下载网址:UCI Machine Learning Repository: Waveform Database Generator (Version 1) Data Set)

样本数:5000,特征数量:21,用于分类,分为三类。

       该数据集收集的数据来自波形 中任意两种波形的随机凸组合。原始数据集用于分类问题,分为三个类别,每一类都由在添加了噪声的整数处采样的两种波形的随机凸组合组成。(波形图片在后文)

更具体地说,测量向量是21维的: 。要生成第1类向量 ,需要单独生成一个均匀随机数u和21个符合正态分布(均值为0,方差为1)的随机数 。然后设置:

要生成第2类向量,请重复上述操作并设置:

第3类向量由以下公式生成:

附上英文原版书页面,作者是为了讲清楚树状分类法举的这个例子。所以该数据集可以用于分类问题,我看的论文中是将它进行了预处理,做了离群点检测问题(跑了下代码感觉效果一般)。

 

你可能感兴趣的:(数据集,数据库)