机器学习笔记-决策树

机器学习笔记-决策树

  • 决策树分类原理
    • 信息增益公式
    • 信息增益率
    • 基尼系数
    • 总结
    • cart剪枝-SCI
    • 特征提取API
      • 字典特征提取API
      • 文本特征提取API
        • 英文文本
        • 中文文本
      • Tf-idf
    • 回归决策树API

决策树分类原理

信息增益公式

机器学习笔记-决策树_第1张图片

  • 例子1-信息增益和信息增益熵
    机器学习笔记-决策树_第2张图片
    机器学习笔记-决策树_第3张图片
  • 例子2-信息增益和信息增益熵
    机器学习笔记-决策树_第4张图片

信息增益率

  • 公式

机器学习笔记-决策树_第5张图片

  • 例子
  • C4.5算法流程
    机器学习笔记-决策树_第6张图片

基尼系数

  • 公式

  • 例子
    机器学习笔记-决策树_第7张图片

总结

cart剪枝-SCI

机器学习笔记-决策树_第8张图片

  • 预剪枝:边看边剪枝,如果可以提高精度,那么就划分。

  • 后剪枝

特征提取API

字典特征提取API

机器学习笔记-决策树_第9张图片

  • 代码
from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    字典特征提取
    :return: None
    """
    # 1.获取数据
    data = [{'city': '北京', 'temperature': 100},
            {'city': '上海', 'temperature': 60},
            {'city': '深圳', 'temperature': 30}]

    # 2.字典特征提取
    # 2.1 实例化
    transfer = DictVectorizer(sparse=True)

    # 2.2 转换
    new_data = transfer.fit_transform(data)
    print(new_data)

    # 2.3 获取具体属性名
    names = transfer.get_feature_names()
    print("属性名字是:\n", names)
    
if __name__ == '__main__':
    dict_demo() #字典特征提取
  • 结果;sparse=True,false;可以提高效率节省内存
    机器学习笔记-决策树_第10张图片

文本特征提取API

英文文本

  • conda安装
conda install -c conda-forge jieba
  • conda环境路径切换
    机器学习笔记-决策树_第11张图片
    机器学习笔记-决策树_第12张图片

  • 代码

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

def english_count_demo():
    """
    文本特征提取-英文
    :return: None
    """
    # 获取数据
    data = ["life is is short,i like python",
            "life is too long,i dislike python"]

    # 文本特征转换
    # transfer = CountVectorizer(sparse=True)  # 注意:没有sparse这个参数
    transfer = CountVectorizer(stop_words=["dislike"])#stop_words=["dislike"]停止这个单词的提取
    new_data = transfer.fit_transform(data)

    # 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray()) #这里转成二维数组
    print(new_data)
    
if __name__ == '__main__':
    english_count_demo()
  • 结果;没有sparse这个参数
    机器学习笔记-决策树_第13张图片

中文文本

机器学习笔记-决策树_第14张图片

  • 代码
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba #结巴分词

def chinese_count_demo1():
    """
    文本特征提取-中文
    :return: None
    """
    # 获取数据
    data = ["人生 苦短,我 喜欢 Python", "生活 太长久,我 不喜欢 Python"]

    # 文本特征转换
    transfer = CountVectorizer()
    new_data = transfer.fit_transform(data)

    # 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)

def cut_word(text):
    """
    中文分词
    :param text:
    :return:
    """
    # ret = " ".join(list(jieba.cut(text)))
    # print(ret)
    return " ".join(list(jieba.cut(text)))

def chinese_count_demo2():
    """
    文本特征提取-中文
    :return: None
    """
    # 1.获取数据
    data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
            "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    # 2.文章分割
    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    # 3.文本特征转换
    # 3.1 实例化+转化
    transfer = CountVectorizer(stop_words=["一种", "今天"])
    new_data = transfer.fit_transform(list)

    # 3.2 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)
    
if __name__ == '__main__':
    chinese_count_demo1()
    # cut_word("我爱你python, 人生苦读,我用python")
    chinese_count_demo2()
  • 结果
    机器学习笔记-决策树_第15张图片

Tf-idf

  • 用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度。
  • 代码
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba

def tfidf_demo():
    """
    文本特征提取-中文
    :return: None
    """
    # 1.获取数据
    data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
            "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    # 2.文章分割
    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    # 3.文本特征转换
    # 3.1 实例化+转化
    transfer = TfidfVectorizer()
    new_data = transfer.fit_transform(list)

    # 3.2 查看特征名字
    names = transfer.get_feature_names()

    print("特征名字是:\n", names)
    print(new_data.toarray())
    print(new_data)

if __name__ == '__main__':
    tfidf_demo()
  • 公式
    机器学习笔记-决策树_第16张图片
  • 决策树可视化工具
    决策树生成网站

机器学习笔记-决策树_第17张图片

回归决策树API

  • 公式
    机器学习笔记-决策树_第18张图片
  • 例子

机器学习笔记-决策树_第19张图片

你可能感兴趣的:(机器学习笔记-决策树)