机器学习与深度学习基本概念 学习笔记

 

目录

什么是机器学习

数据来源与类型

数据特征工程

数据特征抽取

TF-IDF

TfidfVectorizer语法

数据的特征处理

归一化

归一化总结

标准化

结合归一化来谈标准化

StandardScaler语法

标准化总结

缺失值处理方法

Imputer流程

关于np.nan(np.NaN)


 

 

机器学习与深度学习基本概念 学习笔记_第1张图片

 

机器学习与深度学习基本概念 学习笔记_第2张图片

机器学习与深度学习基本概念 学习笔记_第3张图片

机器学习与深度学习基本概念 学习笔记_第4张图片

 

机器学习与深度学习基本概念 学习笔记_第5张图片

 

机器学习与深度学习基本概念 学习笔记_第6张图片

机器学习与深度学习基本概念 学习笔记_第7张图片

 

机器学习与深度学习基本概念 学习笔记_第8张图片

 

机器学习与深度学习基本概念 学习笔记_第9张图片

 

机器学习与深度学习基本概念 学习笔记_第10张图片

 

机器学习与深度学习基本概念 学习笔记_第11张图片

机器学习与深度学习基本概念 学习笔记_第12张图片

 

机器学习与深度学习基本概念 学习笔记_第13张图片

机器学习与深度学习基本概念 学习笔记_第14张图片

什么是机器学习

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

数据来源与类型

机器学习与深度学习基本概念 学习笔记_第15张图片

数据类型

离散型 数据:由 记录不同类别个体的数目所得到的 数据, 又称计数数据 ,所

  有这些数据全部都是整数,而且不能再细分,也不能进一步提高他

  的精确度。

 

 

连续型数据: 变量可以在 某个范围内 取任 一数 即变量的取值可以 是连续

  的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数

  部分。

注:只要记住一点,离散型是区间内不可分,连续型是区间内可分

机器学习与深度学习基本概念 学习笔记_第16张图片

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址: http://archive.ics.uci.edu/ml/

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

机器学习与深度学习基本概念 学习笔记_第17张图片

数据特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

特征工程的意义:•直接影响模型的预测结果

 

机器学习与深度学习基本概念 学习笔记_第18张图片

 

 

数据特征抽取

机器学习与深度学习基本概念 学习笔记_第19张图片

sklearn特征抽取API

sklearn.feature_extraction

字典特征抽取作用:对字典数据进行特征值化

类:sklearn.feature_extraction.DictVectorizer

 

机器学习与深度学习基本概念 学习笔记_第20张图片

机器学习与深度学习基本概念 学习笔记_第21张图片

"coding = utf-8"

from sklearn.feature_extraction import DictVectorizer

def dictvec():
    """
    对数据进行特征工程化处理
    :return:
    """
    dict = DictVectorizer(sparse=False)

    Xdata = [{"city": "beijing", "temperature": 100},
             {"city": "shanghai", "temperature": 90},
             {"city": "shenzhen", "temperature": 80},
             {"city": "lanzhou", "temperature": 75},]
    data = dict.fit_transform(Xdata)

    print(data)
    print(dict.get_feature_names())
    print(dict.get_params())

    return  None



def main():

    print(10*"=")
    dictvec()


if __name__ == "__main__":
    main()

机器学习与深度学习基本概念 学习笔记_第22张图片

CountVectorizer语法

机器学习与深度学习基本概念 学习笔记_第23张图片

机器学习与深度学习基本概念 学习笔记_第24张图片

机器学习与深度学习基本概念 学习笔记_第25张图片

TF-IDF

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,

并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分

能力,适合用来分类。

 

TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

类:sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer语法

TfidfVectorizer ( stop_words =None , )
返回词的权重矩阵
TfidfVectorizer . fit_transform ( X,y )      
X: 文本或者包含 文本字符串的可迭代对象
返回值:返回 sparse 矩阵
TfidfVectorizer . inverse_transform (X)
X:array 数组或者 sparse 矩阵

返回值:转换之前数据格式

TfidfVectorizer.get_feature_names ()
返回值 : 单词列表

 

数据的特征处理

1、特征处理的方法

2sklearn特征处理API

特征处理是通过特定的统计方法(数学方法)数据转换成算法要求的数据

机器学习与深度学习基本概念 学习笔记_第26张图片

数值型数据:标准缩放:

  1、归一化

               2、标准化

 

   3、缺失值

类别型数据:one-hot编码

时间类型:时间的切分

归一化

特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间

机器学习与深度学习基本概念 学习笔记_第27张图片

机器学习与深度学习基本概念 学习笔记_第28张图片

sklearn归一化API

sklearn归一化API:  sklearn.preprocessing.MinMaxScaler

MinMaxScaler语法

机器学习与深度学习基本概念 学习笔记_第29张图片

机器学习与深度学习基本概念 学习笔记_第30张图片

机器学习与深度学习基本概念 学习笔记_第31张图片

归一化总结

注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景

标准化

机器学习与深度学习基本概念 学习笔记_第32张图片

结合归一化来谈标准化

机器学习与深度学习基本概念 学习笔记_第33张图片

StandardScaler语法

机器学习与深度学习基本概念 学习笔记_第34张图片

机器学习与深度学习基本概念 学习笔记_第35张图片

标准化总结

在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

 

缺失值处理方法

机器学习与深度学习基本概念 学习笔记_第36张图片

Imputer流程

机器学习与深度学习基本概念 学习笔记_第37张图片

关于np.nan(np.NaN)

机器学习与深度学习基本概念 学习笔记_第38张图片

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Python)