浅谈数据挖掘（概论）

前言：学习资料的来源均出自，《图解机器学习》－杉山将，中国工信出版集团。《数据挖掘导论》－戴红，清华大学出版书，数据挖掘算法原理与实现。

笔者自述：不知道什么时候就开始有想学习数据挖掘这一块的知识，但是却从来都没有过开始。直到几天前，突然鬼使神差的去了图书馆，找了基本数据挖掘方面的书籍。当读完导论的时候，发现自己已经不能自给，深深的爱上了这个领域的东西。由于已经好久没接触计算机方面的知识了，现在又是一次挑战，我相信我可以的，希望广大走在奋斗道路上的朋友一同加油。我们扬帆起航，驶向远方。当然还有另外一个原因，那就是，因为本人今年大四，可能继续攻读研究生，但是不想把时间浪费在大四这一年无所事事的生活中，于是下定决心去找一份实习，虽然发了很多简历，但是基本上都是被拒了，所以坚定了我想好好学习一门技术的原因。

今天只是一个开始，数据挖掘这个领域的知识很多，以后我会不定时的发布自己的学习进程，与君共勉，我们一同加油，这么做的目的不是想怎么怎么样，只是想大家能很好的监督我。我们一起前进。我们都不是神的孩子，我们都是有梦的孩子。

今天我们来谈谈，数据挖掘的入门，数据挖掘这门技术很深奥，我们以后会慢慢给出。

一、数据挖掘的简单介绍

首先明确一个概念，数据挖掘不是简单的数据处理，他会用到数据库知识，机器学习知识，统计学知识等等。就好比你想追一个你不太熟悉的女孩子，你想知道，她喜欢什么样子的食物，喜欢什么类型的电影、音乐，什么样子的性格等等，那么你又不好意思直接询问，于是，你就打开她的朋友圈，微博，qq等一系列的社交工具。从这里边选取有用的信息进行使用，来判别她是什么类型的姑娘，平时喜欢做一些什么，所以学好数据挖掘，可以使我们能迅速了解一个姑娘，找到女朋友，结束这么多年的单身状态。所以这也是我学习数据挖掘的一个原因。

二、机器学习

机器学习（Machine Learning，ML）是模拟人类的学习方法来解决计算机获取知识问题的方法。我看了很多本关于机器学习的数据，发现里边对于机器学习的分类大体一致，我们这里采用《图解机器学习》里的分类，机器学习按照数据种类的不同，可以分为以下三类，监督学习，非监督学习，强化学习。

表格中的技术和应用我给自己定下的目标就是都进行训练。

接下来就是几种算法的形象化解释和理解

回归：把实函数在样本点附近加以近似的有监督的函数近似问题。

分类：指对于指定的模式进行识别的有监督的模式识别问题。

异常检测：输入样本点中包含异常数据的问题。

聚类：与分类问题相同，也是模式识别问题。

降维：从高纬度的数据中提取关键信息，将其转换为易于计算的低维度问题进而求解的方法。

学习模型而是分为以下三种，线性模型，核模型，层级模型。

三、数据挖掘的过程

数据挖掘的过程说的简单一点就是，从一堆数据中，通过一些算法，限定的条件，找到你需要的数据的过程，那么，数据来自什么地方，面对大量的数据它们存贮在什么地方，他们的数据类型是什么样子的，使用什么样的算法才是最准确的，才能得到我们想要的结果呢，又怎么进行数据模型的检测呢，那当所有的一些都完事了，这个模型又有什么应用呢？所有的一些，你是不是很迫不及待的想要去了解了呢？下面画一个流程示意图：