机器学习快速上手介绍

目录

一、机器学习中常用的库

二、机器学习项目实战架构

(1)问题定义

(2)数据的收集和预处理 

(3)选择机器学习模型

(4)训练机器,确定参数

(5)超参数调试和性能优化


python里面包含定义好的数据结构以及很多库函数、方法、模型等(即API)。

我们只需要选择一个合适的框架,通过调用其中的API,编写少量代码就可以快速建立机器学习模型了。

一、机器学习中常用的库

pandas 和 numpy 提供数据结构,支持数学运算;

matplotlib和seaborn用于数据可视化;

4个库提供算法,其中scikit-learn是机器学习框架,tensorflow、keras和pytorch则是深度学习框架。

二、机器学习项目实战架构

(1)问题定义

(2)数据的收集和预处理 

收集:有的是自有数据,有的需要去网上爬取,有时候去各种开源数据网站下载......

预处理:

可视化,从各种角度看一看数据;

数据向量化,把原始数据格式化,使得机器可以读取的数字矩阵,将文字转换为one-hot编码,文本类别转换成0、1这样的数值;

处理坏数据和缺失值;

特征缩放,包括数据标准化(standardization)和规范化(normalization);

特征工程和特征提取;

载入数据集。

(3)选择机器学习模型

线性模型(线性回归、逻辑回归)

非线性模型(支持向量机、k最邻近分类)

基于树和集成的模型(决策树、随机森林、梯度提升树)

神经网络(人工神经网络、卷积神经网络、长短期记忆网络)

(4)训练机器,确定参数

确定内部参数:权重和偏置

超参数:训练和调试过程的参数(迭代多少次,学习率,正则化)

(5)超参数调试和性能优化

你可能感兴趣的:(【机器学习】,学习记录,机器学习,python,人工智能)