一.实验任务
1.学会使用S+Miner访问数据
2.学会使用S+Miner进行数据探索
二.实验内容
1.用S+Miner读入数据的方法读入Excel文件。
2.用S+Miner读入数据的方法查看Excel文件。
三.实验流程
1.数据访问
读Excel文件(Read Excel File (0)) 节点:一种S+Miner读入数据的方法。你可以用数据读入组件读入数据,包括读文本文件、读固定格式文本文件、读SAS文件、读其他类型文件,或者是用读数据库组件。
(1)点击浏览按钮显示打开对话框。
(2)因为曾经点击过例子文件夹图标(在对话框的左下角),打开对话框会显示username/iminer_work_8_0/examples/dukestudy文件夹。
(3)在dukestudy文件夹中,选择数据文件acath.xls,并点击打开 按钮。
(4)在下拉列表中选择sigdz 行。
(5)在设置类型选项组中,点击分类型。
(6)点击确定按钮关闭对话框。
2.数据探索
(1)打开读Excel文件节点的查看器检查你导入的数据。点击读 Excel文件节点,然后点击S+Miner工具栏上的查看器按钮。读Excel文件节点的查看器是一般的节点查看器,它是S+Miner中许多节点的查看器,包括所有的输入输出节点和数据操纵节点。
(2)点击连续型按钮检查这些变量。这个图表显示了数据的一些特征:缺失值个数列显示了cholesterol变量缺失1246个值,tvdlm变量缺失3个值。
(3)点击分类型按钮显示了唯一一个分类型变量sigdz。点击这一行的任意地方,可以看见它的不同水平。
(4)检查完这些数据,点击窗口右上角的按钮关闭节点查看器。
3.清洗数据
接下来用缺失值处理(Miss Vals (1)) 节点去除缺失的行,因为它们对分析没有意义。
(1)右键点击工作表中的缺失值处理节点,选择属性。
(2)点击cholesterol,按住CTRL点击tvdlm选择两列。
(3)点击确定,点击运行到此。
(4)右键点击缺失值处理节点选择查看器。
(5)点击连续型按钮观察对话框底部数据概况。为了得到数据的形象表述,可以对每个连续型变量进行做图。
(6)点击第一行的任何地方来选择列表格的第一行。
(7)按住SHIFT点击列表框中最后一行,来选择数据集中所有连续变量。
(8)从节点查看器窗口顶部菜单中选择图形概括图。
(9)关闭选择的图窗口。
(10)查看完数据后,关闭节点查看器和图形窗口。
四.遇到的问题
1.S+Miner根据开发和应用现实数据挖掘中获取的经验制定了一套数据挖掘的流程,你可以进一步分解这些步骤,以便了解怎样利用S+Miner的先进模型和方析能力,把高度概括的视图转化成解决现实的数据挖掘问题的方法。
2.比较了标准S+Miner模型和一个由S-PLUS提供的附加的GAM模型。这个模型用法与其他模型一样。再者,如果你使用更多的时间来探索数据和交互项,你可能开发出更好的模型。
五.总结
进一步的数据探索,通过查看数据的描述性统计,你可以对数据有更好的理解,你可以删除缺失值并修改列。通过运行描述性统计节点你可以得到均值、标准差和数据极值。在做这些以前,保存更改的数据集把它写入文本文件中。这样做,你以后还可以对数据进行检索。
08/09学年第一学期
管理信息系统实验报告
学号:B05010311
班级:B050103
姓名:陈思默
一.实验任务
1.学会使用S+Miner访问数据
2.学会使用S+Miner进行数据探索
二.实验内容
1.用S+Miner读入数据的方法读入Excel文件。
2.用S+Miner读入数据的方法查看Excel文件。
三.实验流程
1.数据访问
读Excel文件(Read Excel File (0)) 节点:一种S+Miner读入数据的方法。
(1)双击Excel文件节点打开它的属性对话框,点击浏览按钮显示打开对话框。
(2)因为曾经点击过例子文件夹图标(在对话框的左下角),打开对话框会显示username/iminer_work_8_0/examples/dukestudy文件夹。在dukestudy文件夹中,选择数据文件acath.xls,并点击打开按钮。(如果你在Microsoft Windows下操作,且你的选项设定成隐藏文件扩展名,那文件名就显示成acath。)在预览选项组中,点击更新预览来显示前十行数据(默认状态)。因为这个例子的目标是预测显著冠状疾病发病的概率(sigdz),如果想建立一个以sigdz作为因变量的模型,这要求把因变量设定成分类型变量。但它是以连续型或数值型变量形式输入的。
(3)在S+Miner工具栏中,点击运行至此按钮,运行网络到此。
2.数据探索
(1)打开读Excel文件(Read Excel File (0)) 节点的查看器检查你导入的数据,读Excel文件节点的查看器是一般的节点查看器,它是S+Miner中许多节点的查看器,包括所有的输入输出节点和数据操纵节点。
(2)节点查看器由六个选项页组成:第一项显示所有的数据集。第二项到第五项显示四种不同数据类型的数据包括(连续型,分类型,字符串,和日期)。第六项显示其他类型的数据。节点查看器每页的底部都总结了节点输出数据的概况:5个连续型列数(或变量)和3,504个观测样本。
(3)检查完这些数据,点击窗口右上角的按钮关闭节点查看器。
3.清洗数据
(1)右键点击工作表中的缺失值处理节点,选择属性。
(2)点击cholesterol,按住CTRL点击tvdlm选择两列。在选择方法的下拉列表框中选择去除行,点击设置方法。
(3)点击连续型按钮观察对话框底部数据概况。为了得到数据的形象表述,可以对每个连续型变量进行做图。
(4)按住SHIFT点击列表框中最后一行,来选择数据集中所有连续变量。
(5)回到查看器窗口,点击分类型按钮,对数据中变量sigdz重复以上做法。
四.遇到的问题
1.在桌面框下面是信息框,显示节点运行时的状态。S+Miner的警告和错误提示在这个框中显示。当你运行网络时,S+Miner通过S+Miner管道架构传递数据、进行节点计算;它是一个节点接着一个节点来处理数据。
2.为了加快处理进程,S+Miner可以通过临时文件对每个节点以二进制形式建立缓存。在默认情况下,数据一次通过管道10000行,但是也可以用全局的或单个节点调整这个数据值。
五.总结
为了创建cad.dur的log变换,需要用一个表达式创建一个新的变量叫做lcad。同样,用一个表达式创建变量age.chol。你可以用创建新列节点创建两个新的变量。随着新变量的增加,你已具备了创建模型和对因变量sigdz进行预测的所有数据。