Python与机器学习(一):简介

1.Python语言的优势

1.Python的语法清晰

2.易于操作纯文本

3.使用广泛,存在大量开发文档

2.开发机器学习应用程序步骤

1.收集数据。常用的方法可以是网络爬虫从网站上抽取的数据、设备的实测数据、以及公开数据等。

2.准备输入数据。对收集到的数据进行预处理,例如数据的格式。

3.分析输入数据。主要是人工分析以前得到的数据,查看得到的数据是存在空值,并判断数据是否有可以识别出来的模式,另外还需要检查数据中是否存在明显的异常值。目的是确保数据中没有垃圾数据。

4.训练算法。在监督学习算法中,通过这一步骤从格式化后的数据中抽取出知识或信息,用于后续计算;无监督学习算法则不需要此步骤。

5.测试算法。这一步将使用到训练步骤中获得的知识信息。为评估算法的性能,必须进行算法测试。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他评测手段来检验算法成功率。一旦算法计算的结果达不到要求,就必须返回到之前的步骤,要么对算法进行修改,要么重新收集数据。

6.使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常工作。此时如果碰到新的数据问题,同样需要重复执行上述的步骤。


3.机器学习任务和相应算法

Python与机器学习(一):简介_第1张图片

解决同一问题可以有多种方法,但不是每一种方法都是最好的,因此需要根据收集的数据和使用机器学习算法的目的来综合选择最合适的算法。例如,根据是否想要预测目标变量的值来选择监督学习算法或无监督学习算法,又如是需要聚类、分类还是密度估计等,另外,数据的属于离散型的还是连续性的,数据是否存在缺失值以及异常值等都是需要考虑的因素。在缩小可选算法范围后,可以对保留的算法进行相应的测试,看各算法处理相同问题的性能,一般来说发现最好算法的关键环节是反复试错的迭代过程。

你可能感兴趣的:(python,机器学习)