机器学习与数据挖掘概述

前言

本学期学了数据挖掘这个科目(虽然在之前本人就已经学过数据挖掘课程),为了备战期末考试,所以在此将数据挖掘与机器学习内容系统的总结一遍。其中包括机器学习中常用的算法,如线性回归、逻辑回归、贝叶斯、决策树、K-Means等,这是第一篇——机器学习与数据挖掘的概念,这篇博文会有些枯燥,介绍的都是概念性东西。

1、数据挖掘概念

1.1 定义

何为数据挖掘?数据挖掘意指从大量的、不完全的、有噪声的、模糊的、随机的应用数据中(简单理解就是生活中产生的数据),提取出潜在且有用的信息的过程(提取出的信息通常表现为规则、概念、模型模式等)。

1.2 数据挖掘的基本步骤

1) 确定目标:这一步确定我们的挖掘目标,期望得到的结果是怎么样的。例如,医学数据,我们要确定是根据病人的特征预测其患病类型,还要根据关联规则为专家提供某些支持等。
2) 数据采集:这一步利用网络爬取、数据库导出等手段获取我们需要用到的数据。
3) 数据探索:对于采集到的数据,往往是不能直接使用的,需要我们进一步探索数据的基本统计描述、特征间的相似性/相异性等。
4) 数据预处理:拿到数据后我们最重要的一步就是数据预处理(数据决定结果的上限,模型选择只是如何逼进这个上限),包括数据清洗(缺失值、异常值清洗)、数据集成(将有关系的数据结合一起)、数据归约(去掉一些没用或作用不大的数据特征)、数据变幻(归一化、标准化)、连续值离散化等。
5) 模型选择:机器学习模型主要分为有监督(如线性回归、逻辑回归、贝叶斯等)和无监督(K-Means、DBSCAN等)学习,其主要区别就是数据有无标签。
6) 模型评估:分类任务一般使用精度,回归任务一般使用均方误差(MSE)。

2、数据挖掘应用领域举例

1) 电子商务:如淘宝上识别客户购买行为,针对性的为客户推荐商品等。
2) 电信行业:如根据电信运营数据,挖掘分析潜在用户、用户偏好、消费潜力等信息。
3) 金融行业:如根据消费数据或者刷牙数据分析交易是否为盗刷行为等。
4) 医疗行业:如分析肿瘤细胞特点等。
5) 社会网络:如根据用户的特点形成用户画像等。

3、数据挖掘模型介绍

3.1 回归

回归是指分析确定两种或者两种以上的特征间相互依赖的定量关系(一般是用来做预测的)。用我们高中知识来说就是找到y=kx+b中x和y的关系(即确定k和b)。回归算法包括线性回归、逻辑回归(做分类的)、多项式回归(就是x可以有多次方)、岭回归和Lasso(其实就是加入了正则化)等。

3.2 分类

分类如字面理解,就是对某件事情或者某条数据做分类任务。如根据人的外貌特征(头发、衣着等)判断是男还是女等。分类算法包括逻辑回归、决策树(包括ID3算法、C4.5算法、CART算法)、神经网络、k近邻等。

3.3 聚类

聚类是一种理想的多变量统计技术,其对象是大量无标签值样本(即没有先验知识),根据数据特征在无标签情况下进行分类(聚类)。如根据用户的购买行为刻画用户画像特征,再对用户进行聚类,划分不同等级的客户。聚类算法包括K-Means、层次聚类、基于密度聚类、基于网格的聚类等。

3.4 分类与聚类的区别
1、分类是已知“标签”,按照所给定的某种标准进行贴标签(标签即类别)。
2、聚类是没有“标签”,根据数据中特征相似性(或成团原因分析)找出数据聚集原因的过程。
3、分类是提前知道有多少类,比如性别只有“男”和“女”;聚类是不知道多少类,需要我们根据其特点进行归类。

4、数据挖掘的数据类型

4.1数据库

数据库系统是指在计算机系统中引入数据后的系统,即具有数据处理功能的系统,一般由数据库、数据库管理系统、应用系统和用户构成。数据库可以分为关系型(mysql)和非关系型数据库(MongoDB)。

4.2 数据仓库

数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应(如OLTP和OLAP)。

5、总结

以上大概简单总结了数据挖掘与机器的概念,包括数据挖掘的基本步骤、机器学习(数据挖掘)模型介绍及区别等。下面我将开始介绍机器学习常用算法,欢迎大家关注,如有错误,请指出!

你可能感兴趣的:(昌哥的机器学习笔记,机器学习,数据挖掘,分类算法,聚类,逻辑回归)