麦子学习关于深度学习基础介绍和基本概念笔记,用来方便自己以后的复习。
1、机器学习
概念:专门研究计算机怎么模拟或实现人类的学习行为,以获取新知识和技能,重新组织已有知识结构使不断改善自身性能。
学科定位:人工智能(Artificial Intelligence,AI)核心。
定义:探究和开发算法使计算机不需要外部明显指示,可以自己通过数据来学习、建模,利用建好的模型和输入新的数据进行预测。
学习:针对经验E(experience)和一系列任务T(tasks)和一定表现的衡量P,如果随着经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。
例子:下棋,语音识别,自动驾驶汽车等。
监督学习(Supervised Learning):分类(Classification)
决策树(Decision Tree):银行信用自动评估系统
临近取样(Nearest Neighbor):人脸识别
支持向量机(Support Vector Machine):图片中的红眼检测,结肠癌早晚期分类
神经网络算法(Neural Network):手写数字识别,图片分类
监督学习(Supervised Learning):回归(Regression)
线性回归(Linear Regression):销量预测,价格预测
非线性回归(Non-linear Regression):销量预测,价格预测
非监督学习(Unsupervised Learning)
用K-mean算法聚类(Clustering):人脸识别
用hierarchical算法聚类:人脸噪音排除
2、机器学习的应用:
语音识别
自动驾驶
语言翻译
计算机视觉
推荐系统
无人机
识别垃圾邮件
3、Demo(演示):
人脸识别
无人驾驶汽车
电商推荐系统
4、Linkedln显示职业技能需求量第一:机器学习,数据挖掘和统计分析人才
5、深度学习:基于机器学习延伸出来一个新的领域,以大脑结构为启发、神经网络算法为起源加之模型结构深度的增加发展,伴随大数据和计算能力提高而产生的算法。
深度学习:Hinton等人在2006年和2007年在《Sciences》等上发表的文章被提出和兴起。
自2006年至今,学术界和工业界合作在深度学习方面研究和应用在图像处理和计算机视觉,自然语言处理以及语音识别等领域。以ImageNet为数据库的经典图像中的物体识别竞赛中,击败所有传统算法,取得前所未有的精确度。
学校以多伦多大学,纽约大学,斯坦福大学为代表,工业界以Googl,Facebook,和百度为代表走在深度学习研究与应用的前沿。目前我们使用的Android手机中google的语言识别,百度识图,google图片搜索,都已经使用深度学习技术。
深度学习的应用展示:
1、无人驾驶汽车中的路标识别
2、Google Now中语音识别
3、百度识图
4、针对图片,自动生成文字的描述
2、基本概念(Basic Concepts)
基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
概念学习:人类学习概念,鸟,车,计算机
概念学习是指从某个布尔函数输入输出训练样例中推断出该布尔函数
3、例子:学习“享受运动”这一概念:
小明进行水上运动,是否享受运动取决于很多因素
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
享受运动:是否
概念定义在实例(instance)集合上,这个集合表示为X。(X:所有可能的日子,每个日子的值由天气,温度,湿度,风力,水温,预报6个属性表示。)
待学习的概念或目标函数成为目标概念(target concept),记做c.
c(x)=1,享受运动时。c(x)=0,不享受运动时,c(x)也可叫做y。
x:每一个实例
X:样例,所有实例的集合
学习目标:f:X->Y
4、训练集(training set):用来进行训练,也可以产生模型或者算法的数据集
测试集(testing set):用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(feature vector):属性的集合,通常用一个向量来表示,附属于一个实例
标记(label):c(x),实例类别的标记
正例(positive example)
反例(negative example)
5、例子:研究美国硅谷房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
6、分类(classification):目标标记为类别型数据(category)
回归(regression):目标标记为连续型数值(continuous numeric value)
7、例子:研究肿瘤良性,恶性于尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性、恶性
有监督学习(supervised learning):训练集有类别标记(class label)
无监督学习(unsupervised learning):无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集+无标记的训练集
机器学习步骤:
一、把数据拆分为训练集和测试集
二、用训练集和训练集的特征特征向量来训练算法
三、用学来的算法运用在测试集上来评估算法(可能要设计到调整参数(parameter tuning),用验证集(validation set)。
100天:训练集
10天:测试集(不知道是否“享受运动”,知道6个属性,来预测每一天是否享受运动)。