机器学习库和框架

框架 机构 支持语言
TensorFlow Google Python/C++/Go/…
Caffe BVLC C++/Python
Keras fchollet Python
CNTK Microsoft C++
MXNet DMLC Python/C++/R/…
Torch7 Facebook Lua
Theano U. Montreal Python
Deeplearning4J Deeplearning4J Java/Scaia
Leaf AutumnAI Rust
Lasagne Lasagne Python
Neon NervanaSystems Python

机器学习:

  • 特征工程
  • 模型、策略、优化
  • 分类、回归和聚类
  • Tensorflow
  • 神经网络
  • 图像识别
  • 自然语言处理

Kaggle网址:https://www.kaggle.com/datasets
1、大数据竞赛平台
2、真实数据
3、数据量巨大

UCI 数据集网址:http://archive.ics.uci.edu/ml
1、收录了360个数据集
2、覆盖科学、生活、经济等领域
3、数据量几十万

scikit-learn网址:https://scikit-learn.org/stable/datasets
1、数据量较小
2、方便学习

常用数据集数据的结构组成

  • 结构:特征值 + 目标值

注:有些数据集可以没有目标值

数据中对于特征的处理

  • pandas:一个数据读取非常方便以及基本的处理格式的工具
  • sklearn:对于特征的处理提供了强大的接口

Scikit-learn库介绍

  • Python 语言的机器学习工具
  • Scikit-learn 包括许多机器学习算法的实现。

安装

  • 创建一个基于 Python 3的虚拟环境
mkvirtualenv -p /usr/bin/python3.6 ml3
  • 在ubuntu的虚拟环境当中运行以下命令
pip3 install Scikit-learn

注:安装scikit-learn需要Numpy, pandas等库

Scikit-learn包括:

  • Classification:分类
  • Regression:回归
  • Clustering:聚类
  • Dimensionality reduction:降维
  • Model selection: 模型选择
  • Preprocessing:特征工程

你可能感兴趣的:(机器学习)