【生信课程】08数据挖掘-山东大学-生物信息学

什么是数据挖掘

【生信课程】08数据挖掘-山东大学-生物信息学_第1张图片
image.png

数据库系统

【生信课程】08数据挖掘-山东大学-生物信息学_第2张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第3张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第4张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第5张图片
image.png

--

机器学习:主要任务

【生信课程】08数据挖掘-山东大学-生物信息学_第6张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第7张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第8张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第9张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第10张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第11张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第12张图片
image.png

机器学习:K 次交叉检验

K 次交叉检验(K-fold cross validation)。所谓 K 次交叉检验就是把所有能够搜集到的已知结果的数据,分成 K 份。


【生信课程】08数据挖掘-山东大学-生物信息学_第13张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第14张图片
image.png

机器学习:常见算法

【生信课程】08数据挖掘-山东大学-生物信息学_第15张图片
image.png

所谓贝叶斯法就是基于贝叶斯原理的一种概率统计算法。


【生信课程】08数据挖掘-山东大学-生物信息学_第16张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第17张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第18张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第19张图片
image.png

WEKA:WEKA 中的术语

【生信课程】08数据挖掘-山东大学-生物信息学_第20张图片
image.png

一款做数据挖掘的傻瓜级软件 WEKA(http://www.cs.waikato.ac.nz/ml/weka/)。
WEKA 的全名是怀卡托智能分析环境。WEKA 也是新西兰一种鸟的名字。WEKA 的主要开发者来自新西兰怀卡托大学。WEKA 是免费的,它可以完成各种各样的数据挖掘任务,就像傻瓜相机一样,算法的事儿完全不需要你操心,你只要输入数据,告诉 WEKA 你要完成什么样的挖掘任务,再选择现成的算法,WEKA 就会为你返回想要的结果模型。

要让 WEKA 替你完成挖掘任务,你需要先给 WEKA 你的数据。目前我们大多数人手里的数据可能都存储在 Excel 表格里。非常遗憾,WEKA 不能读取 Excel 数据。WEKA 的数据存储格式是 ARFF 格式。这种格式的文件其实就是一个纯文本文件,可以用写字板或记事本打开。在 WEKA 安装目录下的 data 文件夹里有许多 ARFF 文件。我们用记事本打开其中的weather_numeric.arff。

【生信课程】08数据挖掘-山东大学-生物信息学_第21张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第22张图片
image.png

WEKA 读取 ARFF 文件的重要依据是分行和空格,因此不能在这种文件里随意的断行,以及随意加入空格。空行以及全是空格的行将被忽略。打开一个 ARFF文件,经常会看到大段%开头的内容,这些是关于数据的注释。WEKA 在读取文件时会自动忽略这些行。除去注释后,整个 ARFF 文件可以分为两个部分,第一部分头信息(headinformation)是对关系和属性的定义,第二部分数据信息(data information)就是数据值。

【生信课程】08数据挖掘-山东大学-生物信息学_第23张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第24张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第25张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第26张图片
image.png

WEKA:属性类型及 ARFF 格式转化

【生信课程】08数据挖掘-山东大学-生物信息学_第27张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第28张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第29张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第30张图片
image.png

WEKA:Explorer 界面介绍

【生信课程】08数据挖掘-山东大学-生物信息学_第31张图片
image.png

WEKA:数据预处理

【生信课程】08数据挖掘-山东大学-生物信息学_第32张图片
image.png
【生信课程】08数据挖掘-山东大学-生物信息学_第33张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第34张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第35张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第36张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第37张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第38张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第39张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第40张图片
image.png

【生信课程】08数据挖掘-山东大学-生物信息学_第41张图片
image.png

你可能感兴趣的:(【生信课程】08数据挖掘-山东大学-生物信息学)