细卷子

机器学习可解释性【随机森林规则提取】

引言

目前，机器学习模型应用于各行各业，数据量够多，那就用深度学习吧，数据量少了，传统机器学习算法也能行。
然而机器学习模型作为“黑盒模型”，人们越来越担心其安全性，因而希望模型具有可解释性。

本文主要讲：

模型可解释性方案有哪些
随机森林规则提取的方法有哪些
随机森林规则提取，如何实现

随机森林规则提取

随机森林是基于 Bagging 的集成学习模型，通过集成多棵决策树来提升模型决策能力。随机森林由决策树构成，从决策树的根结点到其叶子节点的一条路径，可以认为是一条由多条 if-then 条件构成的规则。

随机森林规则提取，事前、事后都可以做。主要的算法有：RF+HC 以及 RF+HC_CMPR
这两种算法，重点在于规则筛选方面，区别主要在于 RF+HC_CMPR 在规则打分公式中加入了规则的长度。

本文主要针对已训练好的随机森林模型进行事后可解释性分析，其方法简单易用，赶紧点赞收藏（hhhh,kaiwanxiaola）。
本文的规则提取思路比较简单，步骤如下：

训练好随机森林模型
遍历随机森林模型中所有子决策树，并提取出所有规则集
去除重复规则集
通过规则的长度、误差、频率筛选出简化规则集

代码实现

(我不想看代码～)

1. 代码解析

save_decision_rules(self,rf, csv_path) ：
遍历所有决策树的规则集，并保存。
举个例子，一棵决策树如下图所示：

可见，由圆形表示为规则，左边为满足规则，右边为不满足规则，
存储的时候，满足规则，存储为1，不满足规则存储为0，上图中，保存的规则集为：

 TREE:0
 NODE:0,是否房产价值>100w,4,1
 NODE:1,是否有其他值钱的抵押物,4,2
 NODE:2,月收入>10k,3,5
 NODE:3,是否结婚,4,5
 LEAF:4,1
 LEAF:5,0

TREE:0 ，表示第0棵决策树
NODE:0，表示非叶子节点0
LEAF:4，表示叶子节点4

从上至下为决策树判断过程，如：
NODE:0,是否房产价值>100w,4,1，表示：房产价值>100w，是：跳到编号4，否则：跳到编号1，
编号4，即：LEAF:4,1，即：给予贷款；编号1，即：NODE:1,是否有其他值钱的抵押物,4,2

这样，所有决策树的规则全保存好了。

read_decision_rules(self,path)：
从保存文件中，读取所有规则集，即：先遍历左子树，再遍历右子树，
其中，left_tree(self,tree, left,top_feature) 为遍历左子树，
right_tree(self,tree, right, top_feature) 为遍历右子树。
最终得到规则集如下所示：

是否房产价值>100w:1,1
是否房产价值>100w:0,是否有其他值钱的抵押物:1,1
是否房产价值>100w:0,是否有其他值钱的抵押物:0,月收入>10k:1,是否结婚:1,1
是否房产价值>100w:0,是否有其他值钱的抵押物:0,月收入>10k:0,0
是否房产价值>100w:0,是否有其他值钱的抵押物:0,月收入>10k:1,是否结婚:0,0

这样，得到了5条规则集。

filter_rules(self,rules_path)：
去除重复规则集

save_rules(self, path)：
保存规则集

2. 全部代码实现

import numpy
import config
import constants
import pandas as pd

def getFeatures(_path):
	""" 获取特征集 """
    df = pd.read_csv(_path)
    cols = df.columns.values.tolist()

    X = df[cols]
    return X.columns

class RFAnalysis():

    def __init__(self):
        self.l_one_rule,self.r_one_rule = [], []
        self.tree_results = []
        self.results = []  # 所有树的规则

    def save_decision_rules(self,rf, csv_path):
        features = getFeatures(csv_path)

        txt_path = constants.OS_PATH + '/output/模型解释/随机森林.txt' # 保存路径
        with open(txt_path, 'w') as f:
            for tree_idx, est in enumerate(rf.estimators_):
                tree = est.tree_
                assert tree.value.shape[1] == 1  # no support for multi-output

                f.write('TREE: {}'.format(tree_idx) + '\n')
                print('TREE: {}'.format(tree_idx))
                iterator = enumerate(
                    zip(tree.children_left, tree.children_right, tree.feature, tree.threshold, tree.value))
                for node_idx, data in iterator:
                    left, right, feature, th, value = data

                    class_idx = numpy.argmax(value[0])

                    # 写入文件
                    if left == -1 and right == -1:
                        print('{} LEAF: return class={}'.format(node_idx, class_idx))
                        f.write('LEAF:' + str(node_idx) + ',' + str(class_idx) + '\n')
                    else:
                        print(
                            '{} NODE: if feature[{}] < {} then next={} else next={}'.format(node_idx, features[feature],
                                                                                            th,
                                                                                            left, right))
                        f.write('NODE:' + str(node_idx) + ',' + str(features[feature]) + ',' + str(left) + ',' + str(
                            right) + '\n')
                f.write("#\n") # 每棵树以"#"结束

    def left_tree(self,tree, left,top_feature):  # 左边：规则
        self.r_one_rule.append(top_feature+':0')
        line = tree[int(left)]

        if line.find("LEAF") != -1:  # 叶子节点
            l = line.split(",")
            value = l[-1]
            if len(self.r_one_rule) > 0: # 没有右边的值，就不加
                self.r_one_rule.append(value)
                _rule = self.r_one_rule.copy()
                self.tree_results.append(_rule)
                del self.r_one_rule[-1]
                del self.r_one_rule[-1]


        if line.find('NODE') != -1:  # 继续遍历
            l = line.split(",")
            feature = l[1]
            _left = l[2]
            _right = l[3]
            # 遍历左子树
            self.left_tree(tree, _left,feature)
            # 遍历右子树
            self.right_tree(tree, _right, feature)

    def right_tree(self,tree, right, top_feature):  # 右边：规则

        if top_feature+':0' in self.r_one_rule:
            self.r_one_rule.remove(top_feature+':0')

        self.r_one_rule.append(top_feature+':1')
        line = tree[int(right)]

        if line.find("LEAF") != -1:  # 叶子节点
            l = line.split(",")
            value = l[-1]
            self.r_one_rule.append(value)
            _rule = self.r_one_rule.copy()
            self.tree_results.append(_rule)
            # del self.r_one_rule[-1]
            del self.r_one_rule[-1]
            del self.r_one_rule[-1]

        if line.find('NODE') != -1:  # 继续遍历
            l = line.split(",")
            feature = l[1]
            _left = l[2]
            _right = l[3]
            # 遍历左子树
            self.left_tree(tree, _left,feature)
            # 遍历右子树
            self.right_tree(tree, _right, feature)

    def read_decision_rules(self,path):
        trees = []
        rules = []
        with open(path, 'r') as f:
            for line in f:
                if line.find('#') != -1:
                    trees.append(rules)
                    rules = []
                else:
                    if line.find('TREE:') != -1:
                        continue
                    rules.append(line)


        for i, tree in enumerate(trees):  # 遍历每棵树
            self.tree_results = []  # 一棵树的所有规则

            root = tree[0]
            print(root)
            l = root.split(",")
            feature = l[1]
            left = l[2]
            right = l[3]

            self.left_tree(tree, left,feature)
            self.r_one_rule = []
            self.right_tree(tree, right, feature)

            self.results.append(self.tree_results)
            # print(self.tree_results)
        # print(self.results)

    def save_rules(self, path):
        l = []
        with open(path, 'w') as f:
            for i, tree in enumerate(self.results):
                for j, value in enumerate(tree):
                    if (len(value) <= 2):
                        continue
                    l.append(value)
                    print(value)
                    for w,k in enumerate(value):
                        if w != 0:
                            f.write(',')
                        f.write(k)
        print(len(l))

    def filter_rules(self,rules_path,save_path=""):
        """ 规则去重 """
        rules = []
        with open(rules_path, 'r') as f:
            for line in f:
                rules.append(line)

        rules_copy = rules.copy()
        for k,v in enumerate(rules):
            r = [i for i,x in enumerate(rules) if x is v]
            print(r)

    def get_rule_frequency_error(self,csv_path,rules_path,save_path):
        """ 计算每条规则频率和误差，并保存在：save_path 中 """
        rules = [] # rules:字典:{'尿黄':0}
        _id = 0
        with open(rules_path, 'r') as f:
            for line in f:
                rule = {}
                l = line.split(",")
                label = l[-1].replace('\n', '')
                rule['id'] = _id
                for i in l[:-1]:
                    block = i.split(":")
                    key = block[0]
                    value = block[1]
                    rule[key] = value
                rule['label'] = label
                rules.append(rule)
                _id += 1
        # print(rules)

        df = pd.read_csv(csv_path)
        df_len = len(df)
        for i, rule in enumerate(rules):
            rule['frequency1'] = 0
            rule['error1'] = 0
            for row in df.itertuples():
                is_true = True # 是否有满足规则的样本
                for k, value in enumerate(rule):
                    if value == 'frequency1' or value == 'id' or value == 'error1':
                        continue

                    if value == 'label':
                        row_value = int(getattr(row, constants.ZHENGHOU1))
                        r = int(rule[value])
                        if row_value != r:
                            rule['error1'] = rule['error1'] + 1
                        continue

                    row_value = int(getattr(row, value))
                    r = int(rule[value])
                    if row_value != r:
                        is_true = False
                        break
                if is_true:
                    rule['frequency1'] = rule['frequency1'] + 1 # 满足规则样本数加一
            rule['frequency2'] = rule['frequency1'] / df_len

            if rule['frequency1'] > 0:
                rule['error2'] = rule['error1'] / rule['frequency1']
                print(rule['id'],', ',rule['frequency1'])

        print(len(rules))

        # 存储频率不为0的规则
                with open(save_path, 'w') as f:
            for i, rule in enumerate(rules):
                if rule['frequency1'] == 0:
                    continue
                for k, value in enumerate(rule):
                    block = value+":"+str(rule[value])
                    f.write(block)
                    if value != 'error2':
                        f.write(',')
                f.write('\n')

    def get_rank_rules(self,rules_path):
        """ 获取规则排序，频率高，误差小 """
        rules = []
        with open(rules_path, 'r') as f:
            for line in f:
                rule = {}
                l = line.split(",")
                last = l[-1].replace('\n', '')
                l[-1] = last
                is_true = False
                is_true_true = False
                for i in l:
                    block = i.split(":")
                    key = block[0]
                    value = block[1]
                    # 筛选频率大于 0。01的
                    rule[key] = value
                    if key == 'frequency2' and float(value) > 0.03:
                        is_true = True
                    if key == 'error2' and is_true and float(value) < 0.05:
                        is_true_true = True
                if is_true_true:
                    rules.append(rule)
        # print(rules)
        ranked_rules = sorted(rules, key=lambda i: i['frequency2'],reverse=True)
        for i in ranked_rules:
            print(i)
        # print(ranked_rules[0:20])

if __name__ == '__main__':
    rf_analysis = RFAnalysis()

    csv_path = config.PATH
    # X_train,X_test,y_train,y_test = data_utils.split(csv_path)
    # estimator = models.randomForestClassifier()
    # estimator.fit(X_train, y_train)

    # 提取并存储规则集
    # rf_analysis.save_decision_rules(estimator,csv_path)

    # 整理规则集
    # txt_path = constants.OS_PATH + '/output/模型解释/随机森林.txt'
    # rf_analysis.read_decision_rules(txt_path)
    #
    # 保存规则集
    # save_path = constants.OS_PATH + '/output/模型解释/结果.txt'
    # rf_analysis.save_rules(save_path)

    # rf_analysis.filter_rules(rules_path=save_path)

    # csv_path = constants.OS_PATH + '/output/模型解释/smote.csv'
    # 获取规则集
    rules_path = constants.OS_PATH + '/output/模型解释/结果.txt'
    save_path = constants.OS_PATH + '/output/模型解释/结果_频率_误差.txt'
    rf_analysis.get_rule_frequency_error(csv_path,rules_path,save_path)
    # rf_analysis.get_rank_rules(rules_path=save_path)

总结

本文首先介绍了机器学习模型可解释性分为：

事前可解释性建模
事后可解释性分析

随机森林规则提取，既可做事前也可做事后分析。
本文主要针对事后可解释性分析，提出了先通过参数优化建立随机森林模型，然后提取规则集，再将规则集去重，通过误差、频率、长度来筛选规则集。

本文的方法也存在不足，主要在于其筛选方法过于简单，可能筛选不到最佳规则集，同时在算法上，未经优化，循环过多，数据量太大时，较为耗时。
在以后研究中，将加入其他可解释性分析，包括：深度学习可解释性问题。

java list 按照某个字段排序 csdn2015_ java 开发语言
可以使用Collections.sort()方法对JavaList按照某个字段排序。假设有一个名为personList的List，其中的元素为Person对象，Person对象的某个字段为age，可以按照age字段来排序。第一种方法是通过实现Comparator接口来定义排序规则，然后使用Collections.sort()方法进行排序：publicclassPersonComparatorimp
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
easyexcel操作文件读取中某列为null 温馨提示   java
使用EasyExcel.read()方法读取出来某列为空的解决办法最近使用easyexcel操作文件，发现第一列取出来都是null值，排查了半天终于发现了问题，就是Data中属性值严格要求驼峰命名规则，否则识别不出来。@DatapublicclassExcelDateSubject{@ExcelProperty(value="一级标题",index=0)privateStringOneSubjec
生成式AI+安全：API防护的“进化革命”——从被动防御到智能对抗的技术跃迁数信云 DCloud 人工智能安全 ai
在生成式AI重塑数字世界的今天，API作为数据流动的“数字血管”，其安全性已成为企业生死存亡的关键。行业数据显示，2025年全球77%的企业将深度整合生成式AI技术，承载着75%互联网流量的API体系，正驱动着超2000亿美元的数字经济浪潮。然而，这场技术革命也催生了新型威胁：攻击者利用生成式AI自动化构造恶意请求，绕过传统规则引擎；大模型API的滥用导致算力耗尽与数据泄露；甚至AI生成的代码漏洞
MySQL---DDL（3.17）秋凉づᐇ mysql oracle 数据库
1、DDL-数据库操作查询：查询所有数据库：SHOWDATABASES;查询当前数据库：SELECTDATABASE();创建:CREATEDATABASE[IFNOTEXISTS]数据库名[DEFAULTCHARSET字符集][COLLATE排序规则]；删除：DROPDATABASE[IFEXISTS]数据库名；使用：USE数据库名；2、DDL--表操作-查询查询当前数据库所有表：SHOWTAB
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型源泉的小广场大模型大模型量化推理模型量化量化 qwq32b gptq量化大模型推理性能调优
1.量化背景之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。关于QwQ-32B微调，可以参考《利用ms-swift微
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
Github开源库Xpopup代码阅读月亮下的小草屋 github开源库代码阅读 android
前言很久没写点东西了，在家闲着考了个驾照，花了一个半月，中国的驾考真的是没眼看，刚拿到驾照当天就被疫情封闭在家，直接封了一个多月，人都麻了，再来一次估计直接过年了，最近刚开始干点活。Xpopup是我非常喜欢的一个Github开源库，一直在用，我在Xpopup2.x版本的时候看过一遍它的代码，现在已经更新到3.x版本了，这两天也没啥事，又重新看了一遍，Xpopup的代码还是很容易阅读的，有兴趣的话可
泰克AFG1022这么强大的功能，你还没有了解么？思迈18086111968 科技
多种波形生成：支持生成多种标准波形，如正弦波、方波、三角波、脉冲波、锯齿波、噪声波等，还能生成50种常用的任意波形，满足不同测试场景需求。高精度输出：具有14位垂直分辨率，可提供高分辨率的波形输出，确保信号的精确度；频率分辨率达1μHz，能满足对不同频率信号的精确输出要求。多模式运行：支持连续模式、扫描模式、突发模式和调制模式。连续模式可连续输出选定波形；扫描模式能在一定频率范围内进行扫描输出；突
AI如何创作音乐及其案例 alankuo 人工智能
AI创作音乐主要有以下几种方式：基于深度学习的生成模型深度神经网络：通过大量的音乐数据训练，让AI学习音乐的结构、旋律、和声、节奏等特征。如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。两者相互对抗、不断优化，使生成器生成更逼真的音乐。变分自编码器（
AI时代如何引流 alankuo 人工智能
AI时代引流可以从以下几个方面着手：利用AI精准定位与个性化营销精准客户画像：借助AI整合多维度数据，涵盖客户的年龄、性别、地理位置、消费习惯、浏览历史等，深度挖掘后绘制精准的客户画像，明确潜在客户特征与需求，让营销活动更具针对性。个性化内容创作：运用AI的自然语言处理功能，依据客户特点和需求生成个性化的营销内容，如广告文案、产品推荐等。以电商平台为例，可针对不同用户生成符合其喜好的商品推荐文案。
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【sklearn 05】sklearn功能模块 @金色海岸 sklearn 人工智能 python
sklearn功能模块分类：识别某个对象属于那个类别回归：预测与对象相关联的连续值属性聚类：将相似对象自动分组降维：减少要考虑的随机变量的数量模型选择：比较、验证、选择参数和模型预处理：特征提取和归一化
【sklearn 07】sklearn工艺流程 @金色海岸人工智能 sklearn python 机器学习
01数据的获取02数据预处理03特征的提取04特征的选择05模型的训练06模型的评估07模型的优化
YashanDB表的闪回数据库
闪回恢复若较短时间内发现由于操作不当等原因误删了表数据，可以使用闪回功能及时将数据恢复至指定时间点（无需还原备份），更多详情可查阅FLASHBACK。闪回恢复需满足以下条件：执行闪回恢复操作需使用具备DBA权限或FLASHBACK相关权限的用户。在当前时间点至目标闪回时间点期间，表的结构未发生变化。可闪回恢复的时间点由撤销保持期（UNDO_RETENTION）决定，建议将该参数设置为86400秒（
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
算法每日一练 (13) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(13)全排列II题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(13)全排列II题目地址：全排列II题目描述给定一个可包含重复数字的序列nums，按任意顺序返回所有不重复的全排列。示例1：输入：nums
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
JVM常用概念之FPU溢出剑海风云 JDK（Java Development Kit）jvm FPU溢出
问题当自己的代码根本没有浮点或矢量运算，JVM在x86生成的机器代码为什么会用到XMM寄存器?基础知识FPU和矢量单元在现代CPU中随处可见，在许多情况下，它们为FPU特定的操作提供了一组备用寄存器。例如，Intelx86_64中的SSE和AVX扩展具有一组额外的宽XMM、YMM和ZMM寄存器，可与更宽的指令结合使用。虽然非矢量指令集通常与矢量和非矢量寄存器不正交（例如，我们不能在x86_64上将
C51芯片包下载安装 Book_熬夜！环境配置有关 51单片机
一、前言由于前段时间下载Keil5用于编写stm32单片机程序，最近需要编写C51单片机的程序，在创建新项目时发现没有51单片机的器件型号，花了一点时间解决这个问题，故在此分享。二、解决方法1、下载烧录软件stc-isp百度网盘链接提取码：spvx解压密码：51打开后选择使用的芯片->Keil仿真设计->添加型号和头文件到Keil中即可。2、常见报错在执行上述操作时，注意添加时要求Keil安装的一
基于ViT+milvus的以图搜图服务国防科技苏东坡分类算法 pytorch milvus
以图搜图服务简介服务流程介绍：将图片特征经过vit模型提取特征，保存到milvus库中，并存入对应的唯一id和身份标签，用于相似图片搜索；使用相似图片进行搜索，返回搜索到图片的身份标签和置信度。服务包括图片数据插入和图片相似搜索两部分。ViT(VisionTransformer)模型使用huggingface的ViT模型权重。https://huggingface.co/tttarun/visio
如何禁止电脑中某个应用联网办公小百知软件技术电脑文件管理技巧电脑
一、通过防火墙基础设置（快速操作）打开控制面板在任务栏搜索框输入“控制面板”并打开，将右上角“查看方式”切换为“大图标”。进入防火墙设置点击WindowsDefender防火墙→左侧选择允许应用或功能通过WindowsDefender防火墙。禁用目标应用的网络权限在列表中找到需禁用的应用，取消其勾选的专用网络和公用网络，点击确定保存。二、通过高级出站规则（彻底禁止）创建出站规则在防火墙设置界面，点
88.Django中间件的说明与使用方法想成为数据分析师的开发工程师 Python_Django框架 django 中间件 python web 后端
1.概述AOP（AspectOrientedProgramming），面向切面编程，是对业务逻辑的各个部分进行隔离，从而使得业务逻辑各部分之间的耦合度降低，提高程序的可重用性，同时提高了开发的效率。可以实现在不修改源代码的情况下给程序动态统一添加功能的一种技术。面向切面编程，就是将交叉业务逻辑封装成切面，利用AOP的功能将切面织入到主业务逻辑中。所谓交叉业务逻辑是指，通用的，与主业务逻辑无关的代码
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
颠覆智能助手的游戏规则！LangGraph MCP助你构建通用AI助手！大模型. 人工智能 powerpoint 算法 redis 缓存大模型
LangGraphMCP：构建你的智能助手在当今快速发展的科技时代，智能助手已经成为我们生活中不可或缺的一部分。而LangGraphMCP的出现，将为你带来前所未有的便利！它基于LangGraph和模型上下文协议（MCP），为构建通用AI助手提供了强大的支持。主要功能无缝集成：能够将LLM（大语言模型）应用与各种外部数据源和工具进行无缝连接。想象一下，构建一个智能助手，能够实时获取所需信息，助你高
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
二值逻辑、三值逻辑到多值逻辑的变迁（含示例）搏博人工智能原理算法人工智能机器学习线性代数图像处理数据分析
二值逻辑、三值逻辑到多值逻辑的变迁是一个逻辑体系不断拓展和深化的过程，反映了人们对复杂现象和不确定性问题认识的逐步深入。前文，我们已经探讨过命题逻辑与谓词逻辑，了解了如何用符号语言从浅入深地刻画现实世界。具体可以看我的CSDN文章：人工智能的数学基础之命题逻辑与谓词逻辑（含示例）-CSDN博客人工智能中用到的逻辑可概括地划分为两大类。第一类是经典命题逻辑和一阶谓词逻辑，第二类是泛指除经典逻辑之外的
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

机器学习可解释性【随机森林规则提取】

引言

相关工作

随机森林规则提取

代码实现

1. 代码解析

2. 全部代码实现

总结

你可能感兴趣的:(数据挖掘,机器学习,随机森林,决策树,机器学习可解释性,规则提取)