山大公开课笔记——数据挖掘

数据挖掘

一、三要素
1. 统计
2. 数据库系统
3. 机器学习
数据库系统 DBS(Database System)
数据库管理系统 DBMS(Database Management System)+ 数据库 DB(Database)= DBS
software for management data storage
二、常用的数据库系统
1. 关系型数据库系统:e.g. MySQL,SQL语言编写(以表格形式存储数据)
2. 面对对象型数据库系统(如XML-DB):e.g. eXist-db,基于Java开发,XQuery语言编写(以==.xml==形式存储数据)

三、机器学习(Machine Learning)

  1. 设计和分析一些让计算机可以自动“学习”的算法,这些算法是一类从数据中获得规律,并利用这些规律对未知数据进行预测的算法。若能主动学习,并能掌握学到的东西,就达到了人工智能

  2. 用多维向量描述物体

  3. 机器学习的任务
    (1)分类(Classification): 背景知识,根据背景知识判断新物体属于哪一类。
    (2)聚类(Clustering): 没有背景知识,对于一组新物体,通过判断其属性,将所有新物体分组。
    (3)回归(Regression)?* 有**背景知识,根据背景知识推导出x1,x2, …, xn与y之间的定量关系,并据此计算新物体的y(e.g.为新房屋定价)

训练组数据、测试组数据的矛盾:K次交叉检验(K-fold cross validation)
将所有训练组数据(有确定结果的数据)分成K份,将其中第一份定义为测试组数据,其余K-1份定义为训练组数据,用选定算法根据训练组数据训练出一个模型,再用测试组数据测试模型准确度;然后将第二份定义为测试组数据,其余K-1份定义为训练组数据,以此类推。

  1. 机器学习的算法
    贝叶斯
    最近邻居法
    遗传算法
    支持向量机(Support vector machine):二类分类模型,但也可以拓展为多类分类。其基于间隔最大化的特点可以使其更加灵活地处理线性或非线性的分类问题。
    决策树(Decision Tree): 一个预测模型,表示对象属性和对象值之间的一种映射,树中的每个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。
    人工神经网络

你可能感兴趣的:(bioinformatics,数据挖掘)