机器学习算法基础--朴素贝叶斯,评判标准,交叉验证与网格搜索,决策树,随机森林

机器学习算法基础--第三天

    • 朴素贝叶斯算法原理
    • 评判标准
    • 模型的选择与调优
    • 分类算法--决策树
      • 决策树的结构、本地保存
    • 集成学习方法-随机森林

朴素贝叶斯算法原理

前话:要了解朴素贝叶斯,首先得了解贝叶斯原理:
贝叶斯视频连接:贝叶斯

  • 贝叶斯公式: P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P ( B ) P(A|B)=\frac{P(A)*P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)
  • 而朴素贝叶斯,则是假定特征值之间相互独立的情况下
    题目:
    机器学习算法基础--朴素贝叶斯,评判标准,交叉验证与网格搜索,决策树,随机森林_第1张图片
    根据朴素贝叶斯可求得:
    P ( 科 技 ∣ 影 院 , 支 付 宝 , 云 计 算 ) = P ( 影 院 , 支 付 宝 , 云 计 算 ∣ 科 技 ) ∗ P ( 科 技 ) P(科技|影院,支付宝,云计算)=P(影院,支付宝,云计算|科技)*P(科技) P()=P()P()=0.00456109

P ( 娱 乐 ∣ 影 院 , 支 付 宝 , 云 计 算 ) = P ( 影 院 , 支 付 宝 , 云 计 算 ∣ 娱 乐 ) ∗ P ( 娱 乐 ) P(娱乐|影院,支付宝,云计算)=P(影院,支付宝,云计算|娱乐)*P(娱乐) P()=P()P()=0

则可以判断,如果该文章是科技类型的可能性更大

上述结果中出现了0的概率,可以通过拉普拉斯平滑系数来解决:

- P ( F 1 ∣ C ) = N i + α N + α m P(F1|C)=\frac{Ni+\alpha}{N+\alpha m} P(F1C)=N+αmNi+α

  • 其中, α \alpha α为指定系数,一般为1,m为训练文档中统计出的特征词的个数
  • 朴素贝叶斯api:sklearn.naive_bayes.MultinomialNB
  • 朴素贝叶斯优点:
    – 模型发源于古典数学理论,有稳定的分类效率
    – 对缺失数据不太敏感,算法简单,常用语文本分类
    – 分类准确度高,速度快
  • 朴素贝叶斯缺点:
    – 由于使用了样本属性独立性的假设,当当本属性有关联时,其效果不好
    – 比较需要训练集的准确性
    使用案例:
from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer


def naviebayes():
    """
    朴素贝叶斯进行文本分类
    :return:None
    """
    news = fetch_20newsgroups()
    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
    # 对数据集进行特征抽取

    tf = TfidfVectorizer()
    # 以训练集当中的词的列表进行每篇文章的重要性统计
    x_train = tf.fit_transform(x_train)
    x_test = tf.transform(x_test)

    # 进行朴素贝叶斯算法的预测
    mlt = MultinomialNB(alpha=1.0)
    mlt.fit(x_train, y_train)
    y_predict = mlt.predict(x_test)
    print("预测的文章类别为:", y_predict)
    # 得出准确率
    print("准确率为:", mlt.score(x_test, y_test))
    return None


if __name__ == '__main__':
    naviebayes()

输出:

预测的文章类别为: [16 13  2 ... 13 15 12]
准确率为: 0.8434075645104278

Process finished with exit code 0

评判标准

  • 分类模型评估API:sklearn.metrics.classification_report
    – y_true:真实目标值
    – y-pred:估计器预测目标值
    – target_names :目标类别名称
    – return:每个类别的精确率与召回率
  • 精确率:预测结果为正例样本中真实为正例的比例
  • 召回率:真实为正例的样本中预测结果为正例的比例
  • F1-score:反映了模型的稳健性
    F 1 − s c o r e = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l F1-score=\frac{2*Precision*Recall}{Precision+Recall} F1score=Precision+Recall2PrecisionRecall

模型的选择与调优

  • 交叉验证与网格搜索api:sklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)
    – 对估计器的指定参数值进行详尽搜索
    –estimator:估计器对象
    –param_grid:估计器参数(dict){“n_neighbors”:[1,3,5]}
    –cv:指定几折交叉验证
    –fit:输入训练数据
    –score:准确率

  • 结果分析:
    –best_score_:在交叉验证中测试的最好结果
    –best_estimator_:最好的参数模型
    –cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果

  • 交叉验证
    将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。
    机器学习算法基础--朴素贝叶斯,评判标准,交叉验证与网格搜索,决策树,随机森林_第2张图片

  • 超参数搜索-网格搜索:通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

在这里插入图片描述

分类算法–决策树

  • 信息熵:单位为比特
    – 公式: H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^K{\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}} H(D)=k=1KDCklogDCk

  • 条件熵: H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g ∣ D i k ∣ ∣ D i ∣ H(D|A)=\sum_{i=1}^n{\frac{|D_i|}{|D|}H(D_i)}=-\sum_{i=1}^n{\frac{|D_i|}{|D|}\sum_{k=1}^K{\frac{|D_ik|}{|D_i|}log\frac{|D_ik|}{|Di|}}} H(DA)=i=1nDDiH(Di)=i=1nDDik=1KDiDiklogDiDik

  • 信息和消除不确定性是相联系的

  • 决策树的分类依据:
    – 1.信息增益:当得知一个特征条件后,减少信息熵的大小
    – 2.基尼系数:表征在二分类问题中,正负两种标签的分配合理程度

  • 决策树api:classsklearn.tree.DecisionTreeClassifier(criterion=’gini’,max_depth=None,random_state=None)
    – 决策树分类器
    – criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’
    – max_depth:树的深度大小
    – random_state:随机数种子

  • decision_path:返回决策树的路径

  • 决策树的优缺点
    优点
    1.简单的理解和解释,树木可视化
    2.很少的数据准备,其他技术通常需要数据归一化
    缺点
    容易过拟合

  • 决策树改进
    – 剪枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)
    随机森林

决策树的结构、本地保存

  • 安装:现在graphviz下载,然后直接在pycharm终端下输入:pip install graphviz
  • sklearn.tree.export_graphviz()→该函数能够导出DOT格式
    — 格式:tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])
  • 运行命令:
  • $ dot -Tpng 文件名.dot -o 文件名.png

集成学习方法-随机森林

  • 随机森林优点
    – 在当前所有算法中,具有极好的准确率
    – 能够有效地运行在大数据集上
    – 能够处理具有高维特征的输入样本,而且不需要降维
    –能够评估各个特征在分类问题的重要性

  • 随机森林生成方法
    在N个样本,M个特征中,每次有放回的抽取一个样本和m(m<

  • 随机森林API:class sklearn.ensemble.RandomForestClassifier()
    参数列表
    – n_estimators : int, default=100
    解释:The number of trees in the forest.
    – criterion : {“gini”, “entropy”}, default=“gini”
    – max_depth : int, default=None
    – max_features : {“auto”, “sqrt”, “log2”}, int or float, default=“auto”
    解释:The number of features to consider when looking for the best split:
    – bootstrap : bool, default=True
    解释: Whether bootstrap samples are used when building trees. If False, thewhole dataset is used to build each tree.

你可能感兴趣的:(机器学习算法基础,算法,决策树,sklearn)