做一名通信人的戴戴

C4.5代码实现

C4.5决策树简单实现版本

最近看书，自学机器学习相关算法，看到的第一个算法是C4.5决策树，所以找了UCI的大豆预测数据集，看了一些博客的介绍，参考了别人的实现之后，尝试着自己实现了一版，请大家批评指正。

数据集地址

http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/

代码如下

// An highlighted block
# -*- coding: utf-8 -*-
"""
Created on Sun Dec 22 11:06:47 2019
"""

# c4.5
# dataset:soybean
# 计算信息熵gain=entropy-H(条件熵)
# 计算gain ratio=gain/entropy(A)
# 计算geni系数
# pruning

#计算数据集的经验熵H(D)
import math
# 数据集格式：最后一列是Class label
# 输入：data为列表
def calc_ent(data):
    result=0.0
    label_set=set(data)
    for label in label_set:
        p=data.count(label)/len(data)
        result-=p*math.log2(p)
    return result
# 计算条件熵
# 计算某个属性的条件熵
def calc_conditional_ent(dataset,attribute):
    result=0.0
    values=set(instance[attribute] for instance in dataset)
    for value in values:
        data=[instance[-1] for instance in dataset if instance[attribute]==value]
        result +=len(data)/len(dataset)*calc_ent(data)
    return result
# 计算信息增益
def gain(dataset,attribute):
    classes=[instance[-1] for instance in dataset]
    return calc_ent(classes)-calc_conditional_ent(dataset,attribute)
# 分裂信息
# 引入属性的分裂信息来调节信息增益
# 离散属性划分数据集
def split_info(dataset,attribute):
    result=0.0
    values=set(instance[attribute] for instance in dataset)
    for value in values:
        data=[instance[-1] for instance in dataset if instance[attribute]==value]
        result-=len(data)/len(dataset)*math.log2(len(data)/len(dataset))
    return result

# 计算信息增益
def gain_ratio(attribute,dataset):
    temp=split_info(dataset,attribute)
    if temp==0:
        return gain(dataset,attribute)
    return gain(dataset,attribute)/split_info(dataset,attribute)

# gini指标
def gini(dataset):
    result=1
    classes=[instance[-1] for instance in dataset]
    labels=set(classes)
    for label in labels:
        p=classes.count(label)/len(dataset)
        result*=p*p
    return 1-result

# 分离数据集
# 返回特征值==value的数据子集
def split_dataset(dataset,attribute,value):
    result=[]
    for instance in dataset:
        if instance[attribute]==value:
            result.append(instance[:attribute]+instance[attribute+1:])
    return result
# 连续属性划分数据集
# 划分数据集, axis:按第几个特征划分, value:划分特征的值, gr_or_le:大于还是小于等于
def split_dataset_c(dataset,attribute,value,gr_or_le):
    result=[]
    if gr_or_le=='l':
        for instance in dataset:
            if instance[attribute]<=value:
                result.append(instance[:attribute]+instance[attribute+1:])
    else:
        for instance in dataset:
            if instance[attribute]>value:
                result.append(instance[:attribute]+instance[attribute+1:])
    return result
# 选择划分数据准则
# ID3按照最大信息增益来划分数据，C4.5按照最大信息增益比来划分数据
# CART使用基尼系数
# 循环所有features,选择一个使得增益/增益比最大的特征，返回其索引
def choose_best_attribute(dataset):
    num_features=len(dataset[0])-1
    max_ratio=0
    for attribute in range(num_features):
        temp=gain_ratio(attribute,dataset)
        if temp>max_ratio:
            max_ratio=temp
            result=attribute
    return result
# 考虑连续取值时，选择最佳的属性
def choose_best_attribute_c(dataset,label_property):
    num_features=len(dataset[0])-1
    best_feat=-1
    best_value=None
    best_value_i=None
    max_ratio=0
    ent_dataset=calc_ent([i[-1] for i in dataset])
    for attribute in range(num_features):
        if label_property[attribute]==0:# 离散值属性
            info_gain=gain(dataset,attribute)
        else:#如果取值是连续的
        # 如果取值是连续的，需要对每所有取值排序，选择两两中点划分数据集，计算信息增益/信息增益比
            new_gain=0
            attribute_vals=[instance[attribute] for instance in dataset]
            uniq_vals=set(attribute_vals)
            sorted_uniq_vals=sorted(list(uniq_vals))
            for j in range(len(sorted_uniq_vals)-1):
                part_val=(sorted_uniq_vals[j]+sorted_uniq_vals[j+1])/2 #计算划分点
                dataset_left=split_dataset_c(dataset,attribute,part_val,'l')
                dataset_right=split_dataset_c(dataset,attribute,part_val,'g')
                p_left=len(dataset_left)/len(dataset)
                p_right=len(dataset_right)/len(dataset)
                entropy=p_left*calc_ent([i[-1] for i in dataset_left])+p_right*calc_ent([i[-1] for i in dataset_right])
                temp=ent_dataset-entropy
                if temp>new_gain:
                    new_gain=temp
                    best_value_i=part_val
            info_gain=new_gain
        if info_gain>max_ratio:
            max_ratio=info_gain
            best_feat=attribute
            best_value=best_value_i
    return best_feat,best_value
# 构建决策树
# 每划分一次，dataset中的数据就减少一些
# 直到全部数据划分完毕或者全部剩下的数据全都属于同一类别
def create_tree(dataset,labels):
    class_list=[instance[-1] for instance in dataset]
    if len(set(class_list))==1:#只有一种类别
        return class_list[0]
    # 如果遍历完所有的特征，但是还有一些数据集不能确定类别，则采用出现最多的类别
    if len(dataset[0])==1:
        temp=[instance[0] for instance in dataset]
        class_count={}
        for value in temp:
            if value not in class_count.keys():
                class_count[value]=0
            class_count[value]+=1
        return sorted(class_count.items(),reverse=True)[0][0]
    best_attribute=choose_best_attribute(dataset)
    print(best_attribute,labels)
    best_feature = labels[best_attribute]
    my_tree={best_feature:{}}
    del labels[best_attribute]
    new_labels=labels[:]
    feature_values=[instance[best_attribute] for instance in dataset]
    unique_values=set(feature_values)
    for v in unique_values:
        subdataset=split_dataset(dataset,best_attribute,v)
        my_tree[best_feature][v]=create_tree(subdataset,new_labels)
    return my_tree
# 以上程序中只考虑某个属性的离散值属性
# 对于某个可能取连续值的属性，需要特殊考虑
# 可以采用的方法由连续属性离散化
# 可以采用二分法将连续属性离散化处理
# 假设样本集D有连续属性a有N个不同的取值
# 对这些值从小到大排序，得到属性值集合
# 把区间(ai,a_i+1)的中点作为候选划分点，可以得到n-1个元素的划分集合
# 基于每个划分点t，可以将样本分成D_t+(>t)和D_t-(<=t)
# 对于每个划分点计算其信息增益/信息增益比即可
def create_tree_c(dataset,labels,label_property):
    class_list=[instance[-1] for instance in dataset]
    if len(set(class_list))==1:#只有一种类别
        return class_list[0]
    # 如果遍历完所有的特征，但是还有一些数据集不能确定类别，则采用出现最多的类别
    if len(dataset[0])==1:
        temp=[instance[0] for instance in dataset]
        class_count={}
        for value in temp:
            if value not in class_count.keys():
                class_count[value]=0
            class_count[value]+=1
        return sorted(class_count.items(),reverse=True)[0][0]
    best_attribute,best_val=choose_best_attribute_c(dataset,label_property)
    if best_attribute==-1:#无法选出最好的属性用来分类
        temp=[instance[0] for instance in dataset]
        class_count={}
        for value in temp:
            if value not in class_count.keys():
                class_count[value]=0
            class_count[value]+=1
        return sorted(class_count.items(),reverse=True)[0][0] #返回出现出现次数最多的类别
    best_feature = labels[best_attribute]
    #del labels[best_attribute]
    new_labels=labels[:best_attribute]+labels[best_attribute+1:]
    if label_property[best_attribute]==0:#取值离散
        my_tree={best_feature:{}}
        feature_values=[instance[best_attribute] for instance in dataset]
        unique_values=set(feature_values)
        for v in unique_values:
            subdataset=split_dataset(dataset,best_attribute,v)
            my_tree[best_feature][v]=create_tree_c(subdataset,new_labels,label_property)
    else:#取值连续
        new_feature=best_feature+'>'+str(best_val)
        my_tree={new_feature:{}}
        #del labels[best_attribute]
        new_labels=labels[:best_attribute]+labels[best_attribute+1:]
        sub_dataset_left=split_dataset_c(dataset,best_attribute,best_val,'l')
        sub_dataset_right=split_dataset_c(dataset,best_attribute,best_val,'g')
        my_tree[new_feature]['not']=create_tree_c(sub_dataset_left,new_labels,label_property)
        my_tree[new_feature]['yes']=create_tree_c(sub_dataset_right,new_labels,label_property)
        
    return my_tree

dataset=[[1,0.2,'yes'],[1,0.1,'yes'],[1,0.5,'no'],[0,0.6,'no'],[0,0.8,'no']]
labels=['no surfacing','flippers','fish']
label_property=[0,1,0]
# 处理soybean数据集
soybean_data = []
soybean_labels =["date","plant-stand","precip","temp","hail","crop-hist","area-damaged","severity",
                 "seed-tmt","germination","plant-growth",
                 "leaves","leafspots-halo","leafspots-marg","leafspot-size","leaf-shread","leaf-malf",
                 "leaf-mild","stem","lodging","stem-cankers",
                 "canker-lesion","fruiting-bodies","external decay","mycelium","int-discolor","sclerotia","fruit-pods",
                 "fruit spots","seed","mold-growth",
                 "seed-discolor","seed-size","shriveling","roots"]
label_property =[0 for i in range(35)]
with open(r"./soybean-large.data") as f:
    for line in f.readlines():
        temp=line.strip().split(",")
        instance=[int(x) if x!='?' else 0 for x in temp[1:]]
        soybean_data.append(instance)
        soybean_data[-1][-1]=temp[0]
soybean_tree_one=create_tree_c(soybean_data,soybean_labels,label_property)
# 未剪枝时有95个叶子节点,147个节点

# 测试
def test():
    soybean_test=[]
    err=0
    with open(r"./soybean-large.test") as f:
        for line in f.readlines():
            temp=line.strip().split(",")
            instance=[int(x) if x!='?' else 0 for x in temp[1:]]
            soybean_test.append(instance)
            soybean_test[-1][-1]=temp[0]
    for instance in soybean_test:
        predict_result=tree_result(instance,soybean_labels,label_property,soybean_tree_one)
        if predict_result != instance[-1]:
            err+=1
    print("error rate is ",err/len(soybean_test))
# 正确率80%    
# 采用验证集，测试正确率
def tree_result(instance,labels,label_property,tree):
    label_str=list(tree.keys())[0]
    index = labels.index(label_str)
    value = instance[index]
    if value in tree[label_str].keys(): 
        next_node = tree[label_str][value]
    else: # 如果出现了决策树不曾覆盖的分支
        return None
    if type(next_node).__name__=='dict':
        return tree_result(instance,labels,label_property,next_node)
    else:
        return next_node

# 使用文本注解绘制树节点
import matplotlib.pylab as plt
decision_node =  dict(boxstyle="sawtooth",fc="0.8")
leaf_node = dict(boxstyle="round4",fc="0.8") # 定义文本框和箭头格式
arrow_args=dict(arrowstyle="<-")


def plot_node(nodetxt,center_pt,parent_pt,nodetype):
    createPlot.ax1.annotate(nodetxt,xy=parent_pt,xycoords='axes fraction',
                            xytext=center_pt,textcoords='axes fraction',
                            va="center",ha="center",bbox=nodetype,arrowprops=arrow_args)
    
def createPlot(intree):
    fig=plt.figure(1,facecolor="white")
    fig.clf()
    axprops=dict(xticks=[],yticks=[])
    createPlot.ax1=plt.subplot(111,frameon=False,**axprops) #frameon=False 决定是否有外框
    plot_tree.totalW=float(get_num_leafs(intree))
    plot_tree.totalD=float(get_tree_depth(intree))
    plot_tree.xOff=-0.5/plot_tree.totalW
    plot_tree.yOff=1.0
    plot_tree(intree,(0.5,1.0),'')
    plt.show()
# 为了绘制树形图，需要确定树的高度和叶子节点的数目
def get_num_leafs(mytree):
    num_leafs=0
    first_str=list(mytree.keys())[0]
    second_dict=mytree[first_str]
    for key in second_dict.keys():
        if type(second_dict[key]).__name__=='dict':
            num_leafs =num_leafs+ get_num_leafs(second_dict[key])+1
        else:
            num_leafs+=1
    return num_leafs+1# +1算上根节点
# 确定树的深度
def get_tree_depth(mytree):
    max_depth=0
    first_str=list(mytree.keys())[0]
    second_dict=mytree[first_str]
    for key in second_dict.keys():
        if type(second_dict[key]).__name__=='dict':
            this_depth=1+get_tree_depth(second_dict[key])
        else:
            this_depth=1
        if this_depth>max_depth:
            max_depth=this_depth
    return max_depth
# 画出决策树
def plot_mid_text(cntr_pt,parent_pt,text_string):
    # 在父子节点之间填充文本信息
    x_mid=(parent_pt[0]-cntr_pt[0])/2.0+cntr_pt[0]
    y_mid=(parent_pt[1]-cntr_pt[1])/2.0+cntr_pt[1]
    createPlot.ax1.text(x_mid,y_mid,text_string)
    
def plot_tree(mytree,parent_pt,node_txt):
    num_leafs=get_num_leafs(mytree)
    depth = get_tree_depth(mytree)
    first_str=list(mytree.keys())[0]
    cntr_pt=(plot_tree.xOff+(1.0+float(num_leafs))/2.0/plot_tree.totalW,plot_tree.yOff)
    plot_mid_text(cntr_pt,parent_pt,node_txt)
    plot_node(first_str,cntr_pt,parent_pt,decision_node)
    secondDict=mytree[first_str]
    plot_tree.yOff=plot_tree.yOff-1.0/plot_tree.totalD
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':
            plot_tree(secondDict[key],cntr_pt,str(key))
        else:
            plot_tree.xOff=plot_tree.xOff+1.0/plot_tree.totalW
            plot_node(secondDict[key],(plot_tree.xOff,plot_tree.yOff),cntr_pt,leaf_node)
            plot_mid_text((plot_tree.xOff,plot_tree.yOff),cntr_pt,str(key))
    plot_tree.yOff=plot_tree.yOff+1.0/plot_tree.totalD
# 使用pickle模块序列化对象
# 序列化对象可在磁盘上保存对象，并在需要的时候读取出来。
# 任何对象都可以执行序列化操作
def store_tree(intree,filename):
    import pickle
    fw=open(filename,'w')
    pickle.dump(intree,fw)
    fw.close()
def grab_tree(filename):
    import pickle
    fr=open(filename)
    return pickle.load(fr)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
前端开发需要了解的算法知识史努比的大头算法前端
手写深拷贝functiondeepClone(obj){//处理基础数据类型和函数if(obj===null||typeofobj!=='object'){returnobj;}//处理数组if(Array.isArray(obj)){returnobj.map(item=>deepClone(item));}//处理对象constclonedObj={};for(constkeyinobj){i
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt Swifi DeepSpeed 通义千问 Qwen
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南阿里云于2023年8月3日开源通义千问70亿参数模型，包括通用模型Qwen-7B以及对话模型Qwen-7B-Chat，这也是国内首个开源自家大模型的大厂。在诸多权威大模型能力测评基准上，如MMLU、C-Eval、GSM8K、HumanEval、WMT22，通义千问7B均取得了同参数级别开源模型中的最好表现，
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

C4.5代码实现

C4.5决策树简单实现版本

数据集地址

代码如下

你可能感兴趣的:(deep,learning)