Python机器学习与实践笔记(一)

简介篇

机器学习综述

泛化力(Generalization):我们习惯地把这种对未知的预测能力叫做泛化力

任务:

监督学习(Supervised Learning):关注对事物未知表现的预测,一般包括分类问题和回归问题,分类主要是对离散类数据的预测,回归主要是对连续类数据的预测。
无监督学习(Unsupervised Learning):倾向于对事物本身特性的分析,常用技术包括数据降维(Dimentionality Reduction)和聚类问题(Clustering)等。降维主要是保留最具有区分度的数据,从而减小运算和存储的开销;聚类则是依赖数据的相似性,把相似的数据样本划分为一个簇。

经验:

特征(Feature):反映数据内在规律的信息。
监督学习的经验:包括特征和标记/目标(Label/Target)两个部分,一般用一个特征向量来描述一个数据样本;标记/目标的表现形式取决于监督学习的种类。
无监督学习因为没有标记/目标,因此无法从事预测任务,却更加适合对数据结构的分析。
注意:从原始数据到特征向量转化的过程中也会遭遇多种数据类型:类别型(Categorical)特征、数值型(Numerical)特征,甚至是缺失的数据(Missing Value)等,需要把这些特征转化为具体的数值参与运算。

性能

性能:评价所完成任务质量的指标。
测试集(Testing Set):为了评价学习模型完成任务的质量,我们需要具备相同特征的数据,并将模型的预测结果同对应的正确答案做比对。
注意:训练集和测试集之间是彼此互斥的!
准确性(Accuracy):用于分类问题,根据预测正确类别的百分比。
对于回归问题通常衡量预测值与实际值之间的偏差大小。
模型参数(Parameters):分类器需要通过学习从训练数据中得到的。

ps:欢迎小伙伴们访问我的个人主页,并与我交流哦!

你可能感兴趣的:(机器学习方法)