python机器学习基础教程笔记01

https://github.com/amueller/introduction_to_ml_with_python/blob/master/01-introduction.ipynb
NumPy是Python科学计算的基础包之一,功能包括多维数组、高等数学函数(线性代数运算和傅立叶变换等),以及伪随机数生成器。
sk-learn中NumPy数组是基本数据结构。sk-learn接受NumPy数据格式的数据。你用到的所有数据都必须转换成NumPy数组。NumPy的核心功能是ndarray类,即多维数组。数组的所有元素必须是同一类型。
SciPy是Python中用于科学计算的函数集合,具有线性代数高级程序、数学函数优化、信号处理、特殊数学函数和统计分布等多项功能。sk-learn利用SciPy中的函数集合来实现算法。scipy.sparse:给出稀疏矩阵,稀疏矩阵是sk-learn中数据的另一种表示方法。若要保存大部分是0的二维数组,可以使用稀疏矩阵。
%matplotlib notebook(提供交互环境)和%matplotlib inline 科学绘图
pandas是用于处理和分析数据的Python库,基于Dataframe的数据结构。pandas DataFrame是一张表格,类似于Excel表格。pandas中包含大量用于修改表格和操作表格的方法。每一列数据的类型可以是不同的。

mylearn调用,通常那个用来快速美化绘图,或者用于获取一些有趣的数据。

对数据调用利用函数train_test_split,将数据打乱并进行拆分,75%作为训练集,25%作为测试集。

你可能感兴趣的:(机器学习)