python机器学习应用-北京理工大学 -笔记1

这属于我个人的一个学习笔记,让自己思路清晰,我没有吸收的是什么而做的笔记。所以可能会有点简单。

1.1.机器学习的目的

实现人工智能的手段,主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能。广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易、医疗诊断。

    推荐系统:推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。

1.2.机器学习的分类

监督学习 (SupervisedLearning)无监督学习 (Unsupervised Learning) 强化学习(Reinforcement Learning,增强学习)(可参考这个视频理解)、半监督学习(Semi-supervised Learning)(介于监督和无监督学习之间)、深度学习 (Deep Learning)(利用深层神经网络抽象得表示数据特征的一种方法)

1.3.Python Scikit-learn

官网首页: http://scikit-learn.org/stable/

• Machine Leaning in Python

• 一组简单有效的工具集

• 依赖Python的NumPy,SciPy和matplotlib库

• 开源、可复用

本课程也主要注重于sklearn的使用方法,对于算法的原理不做过多深究

常用函数:4标

python机器学习应用-北京理工大学 -笔记1_第1张图片

了解基本的机器学习原理及算法、学习利用机器学习算法解决应用问题的能力、掌握sklearn库中常用机器学习算法的基本调用方法,避免重复造车。

1.5.推荐书籍与课程

1、西瓜书,周志华《机器学习》

2、《PRML》-Bishop民间评价:“早知此书,PhD早毕业2年”

3、《MachineLearning》-Andrew Ng(机器学习入门)

主页: http://cs229.stanford.edu/

Coursera版: https://www.coursera.org/learn/machine-learning

Stanford手书版: http://open.163.com/special/opencourse/machinelearning.html

    4、《CS231n:Convolutional Neural Networks for Visual Recognition》-Fei-Fei Li(深度学习)

主页: http://cs231n.stanford.edu/

《Reinforcement Learning》- David Silver(增强学习)

主页:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

在线观看:https://www.youtube.com/watch?v=2pWv7GOvuf0

1.6.sklearn库中的标准数据集及基本功能

python机器学习应用-北京理工大学 -笔记1_第2张图片

总览如上,小数据集可直接使用,大数据集要再调用时程序自动下载(一次即可)

 

举例:

(1)  波士顿房价数据集

介绍:波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋

周、围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。

属性描述:

python机器学习应用-北京理工大学 -笔记1_第3张图片

部分数据:

python机器学习应用-北京理工大学 -笔记1_第4张图片

使用方法:

使用sklearn.datasets.load_boston即可加载相关数据集,其重要参数为:
• return_X_y: 表示是否返回target(即价格),默认为False,只返回data(即属性)

python机器学习应用-北京理工大学 -笔记1_第5张图片

(2)  鸢尾花数据集

介绍:鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。

测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。类别共分为三类:IrisSetosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题

部分数据:

python机器学习应用-北京理工大学 -笔记1_第6张图片

使用方法:

使用sklearn.datasets. load_iris即可加载相关数据集,其重要参数有:
• return_X_y: 若为True,则以(data,target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target)。

使用举例:

python机器学习应用-北京理工大学 -笔记1_第7张图片

(3)  手写数字数据集

介绍:手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。

部分数据:

python机器学习应用-北京理工大学 -笔记1_第8张图片

数字0的样本

使用方法:

使用sklearn.datasets.load_digits即可加载相关数据集,其参数包括:

• return_X_y:若为True,则以(data, target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target) ;

• n_class:表示返回数据的类别数,如:n_class=5,则返回0到4的数据样本。

使用举例:

python机器学习应用-北京理工大学 -笔记1_第9张图片

输出:

python机器学习应用-北京理工大学 -笔记1_第10张图片

1.7.sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理

python机器学习应用-北京理工大学 -笔记1_第11张图片

 python机器学习应用-北京理工大学 -笔记1_第12张图片

python机器学习应用-北京理工大学 -笔记1_第13张图片

python机器学习应用-北京理工大学 -笔记1_第14张图片

 

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习)