python机器学习基础教程--1引言

       机器学习(machine learning)是从数据中提取知识。它是统计学、人工智能和计算机科学交叉的研究领域,也被称为预测分析(predictive analytics)或统计学习(statisticallearning)。

1.1 为何选择机器学习
       在“智能”应用的早期,许多系统使用人为制订的“if”和“else”决策规则来处理数据,或根据用户输入的内容进行调整。但是,人为制订决策规则主要有两个缺点。

• 做决策所需要的逻辑只适用于单一领域和单项任务。任务哪怕稍有变化,都可能需要重写整个系统。
• 想要制订规则,需要对人类专家的决策过程有很深刻的理解。

        这种人为制订规则的方法并不适用的一个例子就是图像中的人脸检测。如今,每台智能手机都能够检测到图像中的人脸。但直到 2001 年,人脸检测问题才得到解决。其主要问题在于,计算机“感知”像素(像素组成了计算机中的图像)的方式与人类感知面部的方式有非常大的不同。正是由于这种表征差异,人类想要制订出一套好的规则来描述数字图像中的人脸构成,基本上是不可能的。但有了机器学习算法,仅向程序输入海量人脸图像,就足以让算法确定识别人脸需要哪些特征。

1.2  熟悉数据与任务

        在机器学习过程中,最重要的部分很可能是理解你正在处理的数据,以及这些数据与你想要解决的任务之间的关系。随机选择一个算法并将你的数据输入进去,这种做法是不会有什么用的。在开始构建模型之前,你需要理解数据集的内容。每一种算法的输入数据类型和最适合解决的问题都是不一样的。在构建机器学习解决方案的过程中,你应该给出下列问题的答案,或者至少要将这些问题记在脑中。
• 我想要回答的问题是什么?已经收集到的数据能够回答这个问题吗?
• 要将我的问题表示成机器学习问题,用哪种方法最好?
• 我收集的数据是否足够表达我想要解决的问题?
• 我提取了数据的哪些特征?这些特征能否实现正确的预测?
• 如何衡量应用是否成功?
• 机器学习解决方案与我的研究或商业产品中的其他部分是如何相互影响的?
       从更大的层面来看,机器学习算法和方法只是解决特定问题的过程中的一部分,一定要始终牢记整个项目的大局。许多人浪费大量时间构建复杂的机器学习解决方案,最终却发现没有解决正确的问题。
 

你可能感兴趣的:(机器学习,python)