《机器学习与R语言》读书笔记1:机器学习简介

大数据分析领域得基本技能之一是对数据的探索、分析和预测,而探索和分析数据的基本理论和工具是机器学习和数据挖掘。机器学习的核心是将信息转化为可行动智能的算法,它提供了 应用计算机并把数据转换成可行动的知识的工具集合,它的的研究领域是发明计算机算法,把数据转化为智能行为。
机器学习的一个紧密相关的学科是 数据挖掘,它涉及从大型的数据库中产生新的洞察;机器学习侧重执行一个已知的任务,而数据挖掘侧重寻找有价值的信息。

机器学习定义:
如果机器能够获取经验并且能利用它们,在以后的类似经验中能够提高它的表现,该机器就称为机器学习。

基础的学习过程:
数据输入:利用观察、记忆存储,以及回忆来提供进一步推理的事实依据
抽象化:涉及把数据转换成更宽泛的表现形式
一般化:应用抽象的数据来形成行动的基础

训练:
用一个特定的模型来拟合数据集的过程

将机器学习应用于数据中的步骤:
1.收集数据(文本、表格、数据库等,转为适合分析的电子格式)
2.探索数据和准备数据
3.基于数据训练模型
4.评价模型的性能
5.改进模型的性能

机器学习中最常用的数据形式:矩阵格式的数据(案例、特征)

机器学习算法分类:
1.用来建立 预测模型的有监督学习算法(分类)
2.用来建立 描述模型的无监督学习算法(聚类)

机器学习算法类型:
(模型           任务)
有监督学习算法:
最近邻          分类
朴素贝叶斯   分类
决策树          分类
分类器          分类
线性回归       数值预测
回归树          数值预测
模型树          数值预测
神经网络      双重用处
支持向量机   双重用处
无监督学习:
关联规则      模式识别
k均值聚类    聚类
(任务:分类、数值预测、模式识别、聚类)






你可能感兴趣的:(机器学习)