AppleYRY

决策树算法一：hunt算法，信息增益（ID3）

决策树入门

决策树是分类算法中最重要的算法，重点

决策树算法在电信营业中怎么工作？为什么叫决策树？

因为树的叶子节点是我们最终预判的结果。
决策树如何来？
根据训练样本建立。
问题1：为什么费用变换率放第一个？
根据特征建决策树，会有n棵树，找出最优树。
问题2：当我们特征是连续值的时候，到底从哪里开始切分？
连续值要改为离散的。
问题3：决策树能不能做回归

决策树例子：

不同的决策树对我们判定的效率，速度有影响。

总结：

树的深度：深度的基数是1，上图深度是4。一棵树所有层次的最大值称为深度。

决策树进阶

**决策树一共有五种算法。**前面四个都是有关联的。

Hunt算法：

决策树是一个递归的过程。
2,3解释：当所有的样本点都属于同一个类别的时候，不需要划分（递归结束的一个条件）；
5,6解释：属性不能再划分的时候，其类别标记取决于该样本中数据最多的类。如果类别数量相同，注意看一下另一个叶子节点，不能与上一个叶子节点的类别相同，否则，无需划分。
8，解释：如何构建最优决策树。
hunt算法有一个bug：不好选最优划分属性。D是样本集。
9~14解释：对于某一个特征（属性），的每一个值，设置为node并生成一个分支；形成两个样本子集。为空，分支节点为叶子节点，否则，样本子集中数量多的类为返回值。

信息增益–information gain(ID3)

（b）方法更好。
ID3算法主要针对属性选择问题
使用信息增益度选择测试属性。
决策树属于递归树。
信息熵：信息的度量，量化信息的作用。
信息量==不确定性的多少。
比特是位。正常都是2为底
当32支球队夺冠概率相同时，信息熵是5比特；否则小于5比特。

信息熵衡量的公式：

计算信息熵小例子：
Cm是指class label
**0~100%,先变大，后变小。50%的时候最大。**熵为1的时候，不确性最大。熵为0，数据最纯。
信息增益=样本集的信息熵-某属性的信息熵
选择信息增益最大的属性。

（按条件进行划分的信息熵）小例子

按年龄来划分：（年龄的信息增益最大）

实现ID3算法：

import numpy as np
import operator

def creatDataSet():
    """
    outlook-> 0:sunny | 1:overcast | 2:rain
    temperature-> 0:hot | 1:mild | 2:cool
    humidity-> 0:high | 1:normal
    windy-> 0:false | 1:true
    """
    dataSet = np.array([[0, 0, 0, 0, 'N'],
               [0, 0, 0, 1, 'N'],
               [1, 0, 0, 0, 'Y'],
               [2, 1, 0, 0, 'Y'],
               [2, 2, 1, 0, 'Y'],
               [2, 2, 1, 1, 'N'],
               [1, 2, 1, 1, 'Y']])
    labels = np.array(['outlook', 'temperature', 'humidity', 'windy'])
    return dataSet, labels


def createTestSet():
    """
    outlook-> 0:sunny | 1:overcast | 2:rain
    temperature-> 0:hot | 1:mild | 2:cool
    humidity-> 0:high | 1:normal
    windy-> 0:false | 1:true
    """
    testSet = np.array([[0, 1, 0, 0],
               [0, 2, 1, 0],
               [2, 1, 1, 0],
               [0, 1, 1, 1],
               [1, 1, 0, 1],
               [1, 0, 1, 0],
               [2, 1, 0, 1]])
    return testSet

def dataset_entropy(dataset):
    """
    计算数据集的信息熵
    """
    classLabel=dataset[:,-1]
    labelCount={}
    for i in range(classLabel.size):
        label=classLabel[i]
        labelCount[label]=labelCount.get(label,0)+1     #将所有的类别都计算出来了
    #熵值(第一步)
    cnt=0
    for k,v in labelCount.items():
        cnt += -v/classLabel.size*np.log2(v/classLabel.size)
    
    return cnt

    #接下来切分,然后算最优属性
def splitDataSet(dataset, featureIndex):
    #划分后的子集
    subdataset=[]
    featureValues = dataset[:,featureIndex]
    featureSet = list(set(featureValues))
    for i in range(len(featureSet)):
        newset=[]
        for j in range(dataset.shape[0]):
            if featureSet[i] == featureValues[j]:
                newset.append(dataset[j,:])
        newset=np.delete(newset,featureIndex,axis=1)
        # newset = newset[:,0:featureIndex].extend(newset[:,featureIndex+1:]) #不包括当前的列，得到新的数据集(数组的处理方式)       
        subdataset.append(np.array(newset))
    return subdataset  #划分得到三个子集

def splitDataSetByValue(dataset,featureIndex,value):
    subdataset=[]
    #迭代所有的样本
    for example in dataset:
        if example[featureIndex]==value:
            subdataset.append(example)
    return np.delete(subdataset,featureIndex,axis=1)


def chooseBestFeature(dataset,labels):
    """
    选择最优特征，但是特征是不包括名称的。
    如何选择最优特征：每一个特征计算,信息增益最大==条件熵最小就可以。
    """
    #特征的个数
    featureNum=labels.size
    #设置最小熵值
    minEntropy,bestFeatureIndex=1,None
    #样本总数
    n=dataset.shape[0]  
    for i in range(featureNum):
        #指定特征的条件熵
        featureEntropy=0
        #返回所有子集
        allSubDataSet=splitDataSet(dataset,i)
        for subDataSet in allSubDataSet:
            featureEntropy += subDataSet.shape[0]/n*dataset_entropy(subDataSet) #一个的条件熵
        if minEntropy > featureEntropy:
            minEntropy=featureEntropy
            bestFeatureIndex=i
    return bestFeatureIndex #最佳增益

def mayorClass(classList):
    labelCount={}
    for i in range(classList.size):
        label=classList[i]
        labelCount[label]=labelCount.get(label,0)+1
    sortedLabel=sorted(labelCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedLabel[0][0]

def createTree(dataset,labels):
    """
    参考hunt算法那张图片
    """
    classList=dataset[:,-1]
    if len(set(dataset[:,-1]))==1:
        return dataset[:,-1][0] #返回类别
    if labels.size==0 or len(dataset[0])==1:  #条件熵最少的一定是类别最多的
        #条件熵算不下去的时候，
        return mayorClass(classList)
    bestFeatureIndex=chooseBestFeature(dataset,labels)
    bestFeature=labels[bestFeatureIndex]
    dtree={bestFeature:{}}  #用代码表示这棵树
    featureList=dataset[:,bestFeatureIndex]
    featureValues=set(featureList)
    for value in featureValues:
        subdataset=splitDataSetByValue(dataset,bestFeatureIndex,value)
        sublabels=np.delete(labels,bestFeatureIndex)
        dtree[bestFeature][value]=createTree(subdataset,sublabels) #将原始的labels干掉一列
    return dtree

if __name__ == "__main__":
    dataset,labels=creatDataSet()
    # print(dataset_entropy(dataset)
    # s=splitDataSet(dataset,0)
    # for item in s:
    #     print(item)
    print(createTree(dataset,labels))
·····················································
输出：
{'outlook': {'2': {'windy': {'0': 'Y', '1': 'N'}}, '0': 'N', '1': 'Y'}}

代码解释：
切分子集是为了，计算每一个特征的条件熵，然后选出最优特征。

总结：

决策树里面的重要的公式：
1，数据集的信息熵公式：Info(D)
2，指定条件下的信息熵：Info_A(D)

将算法优化：

将splitDataSet（）和splitDataSetByValue（）合二为一。

import numpy as np
import operator

def creatDataSet():
    """
    outlook-> 0:sunny | 1:overcast | 2:rain
    temperature-> 0:hot | 1:mild | 2:cool
    humidity-> 0:high | 1:normal
    windy-> 0:false | 1:true
    """
    dataSet = np.array([[0, 0, 0, 0, 'N'],
               [0, 0, 0, 1, 'N'],
               [1, 0, 0, 0, 'Y'],
               [2, 1, 0, 0, 'Y'],
               [2, 2, 1, 0, 'Y'],
               [2, 2, 1, 1, 'N'],
               [1, 2, 1, 1, 'Y']])
    labels = np.array(['outlook', 'temperature', 'humidity', 'windy'])
    return dataSet, labels


def createTestSet():
    """
    outlook-> 0:sunny | 1:overcast | 2:rain
    temperature-> 0:hot | 1:mild | 2:cool
    humidity-> 0:high | 1:normal
    windy-> 0:false | 1:true
    """
    testSet = np.array([[0, 1, 0, 0],
               [0, 2, 1, 0],
               [2, 1, 1, 0],
               [0, 1, 1, 1],
               [1, 1, 0, 1],
               [1, 0, 1, 0],
               [2, 1, 0, 1]])
    return testSet

def dataset_entropy(dataset):
    """
    计算数据集的信息熵
    """
    classLabel=dataset[:,-1]
    labelCount={}
    for i in range(classLabel.size):
        label=classLabel[i]
        labelCount[label]=labelCount.get(label,0)+1     #将所有的类别都计算出来了
    #熵值(第一步)
    cnt=0
    for k,v in labelCount.items():
        cnt += -v/classLabel.size*np.log2(v/classLabel.size)
    
    return cnt

    #接下来切分,然后算最优属性
def splitDataSet(dataset,featureIndex,value):
    subdataset=[]
    #迭代所有的样本
    for example in dataset:
        if example[featureIndex]==value:
            subdataset.append(example)
    return np.delete(subdataset,featureIndex,axis=1)


def chooseBestFeature(dataset,labels):
    """
    选择最优特征，但是特征是不包括名称的。
    如何选择最优特征：每一个特征计算,信息增益最大==条件熵最小就可以。
    """
    #特征的个数
    featureNum=labels.size
    #设置最小熵值
    minEntropy,bestFeatureIndex=1,None
    #样本总数
    n=dataset.shape[0]  
    for i in range(featureNum):
        #指定特征的条件熵
        featureEntropy=0
        #返回所有子集
        featureList=dataset[:,i]
        featureValues=set(featureList)
        for value in featureValues:
            subDataSet=splitDataSet(dataset,i,value)       
            featureEntropy += subDataSet.shape[0]/n*dataset_entropy(subDataSet) #一个的条件熵
        if minEntropy > featureEntropy:
            minEntropy=featureEntropy
            bestFeatureIndex=i
    return bestFeatureIndex #最佳增益

def mayorClass(classList):
    labelCount={}
    for i in range(classList.size):
        label=classList[i]
        labelCount[label]=labelCount.get(label,0)+1
    sortedLabel=sorted(labelCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedLabel[0][0]

def createTree(dataset,labels):
    """
    参考hunt算法那张图片
    """
    classList=dataset[:,-1]
    if len(set(dataset[:,-1]))==1:
        return dataset[:,-1][0] #返回类别
    if labels.size==0 or len(dataset[0])==1:  #条件熵最少的一定是类别最多的
        #条件熵算不下去的时候，
        return mayorClass(classList)
    bestFeatureIndex=chooseBestFeature(dataset,labels)
    bestFeature=labels[bestFeatureIndex]
    dtree={bestFeature:{}}  #用代码表示这棵树
    featureList=dataset[:,bestFeatureIndex]
    featureValues=set(featureList)
    for value in featureValues:
        subdataset=splitDataSet(dataset,bestFeatureIndex,value)
        sublabels=np.delete(labels,bestFeatureIndex)
        dtree[bestFeature][value]=createTree(subdataset,sublabels) #将原始的labels干掉一列
    return dtree

if __name__ == "__main__":
    dataset,labels=creatDataSet()
    # print(dataset_entropy(dataset)
    # s=splitDataSet(dataset,0)
    # for item in s:
    #     print(item)
    print(createTree(dataset,labels))
·······················································
输出结果：
{'outlook': {'1': 'Y', '0': 'N', '2': {'windy': {'1': 'N', '0': 'Y'}}}}

你可能感兴趣的:(#,周志华西瓜书)

【西瓜书】机器学习（周志华）学习问题记录 _linyu__ 基础知识机器学习周志华西瓜书
简述西瓜书的鼎鼎大名早有耳闻，于是毫无疑问买来入门。写此文章的时候刚要做完第二章的练习题。在看的时候有一些感慨：需要一定的数理基础，尤其是概率论的内容。但是如果没学过也不建议直接去啃概率论，只要把相关的部分看看即可。周老师默认我们能力很强，所以有些地方说得不够详细，仅靠此书无法理解，需要自己另行查阅。有一些疑似谬误的地方，但是我自己能力较差，又苦于没有人佐证，所以并不敢说周老师一定错了。在看的过程
人工智能顶级会议与期刊总结 leo0308 人工智能数据挖掘
这篇文章转载自南京大学周志华教授的博客，原文链接已经找不到了，特此说明。推荐期刊部分选自CCF推荐国际期刊目录。说明:纯属个人看法,仅供参考.tier-1的列得较全,tier-2的不太全,tier-3的很不全.同分的按字母序排列.不很严谨地说,tier-1是可以令人羡慕的,tier-2是可以令人尊敬的,由于AI的相关会议非常多,所以能列进tier-3的也是不错的。tier-1:IJCAI(1+):
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
机器学习笔记周志华第一章绪论 Olivia_ll learning note machine learning machine learning
概念和术语属性空间（attributespace)/样本空间（samplespace)/输入空间：属性张成的空间特征向量（featurevector):一个示例标记（label):关于示例结果的信息样例（example)：拥有了标记信息的示例标记空间（labelspace)/输出空间：所有标记的集合监督学习（supervisedlearning)分类（classification)——预测离散值回
机器学习西瓜书笔记——机器学习基本术语，模型性能指标【一】 Code思铮机器学习笔记人工智能
西瓜书第一，二章笔记datawhale吃瓜教程task1学习笔记第一章第一张主要介绍了一些机器学习研究内容和基本术语，以及发展现状。基本术语由于有些术语过于基础，在此不做赘述大家可以去读西瓜书。1、分类任务：若模型的预测值是离散的，如“好瓜”，“坏瓜”，这是分类任务。在二分类任务中有两个标签（label）一个是正类，一个是反类2、回归任务：若模型的预测值是连续的，如“西瓜的成熟度是0.99“那么这
西瓜书--无监督学习（聚类） oisflo 学习聚类机器学习
无监督学习无监督学习无监督学习前言一、无监督学习是什么？1）机器学习的分类2）解释（图文结合）3）区别二、无监督学习应用范围三、无标注数据的结构1）用处四、聚类1）聚类的含义：2)怎么判断是好的聚类：原则：3）聚类的分类：1）软聚类（softclustering）vs.硬聚（hardclustering）2）层次聚类vs.非层次聚类（图）+举例3）==算法==：凝聚式层次聚类（步骤+图文显示）分裂
全局最小值、局部最小值以及如何跳出局部最小值 keep_humble 机器学习机器学习深度学习
前段时间在看深度学习的内容，对于全局最小值和局部最小值这两个概念之前理解的不太深入，总是容易混淆，看了西瓜书之后明白了，特此总结一下，加深印象。1.全局、局部最小值的概念局部最小值是在某一区域内，函数的取值达到了最小，但是如果将这个区域扩展到定义域上来，那么这个局部最小值就不一定是最小的。全局最小值，是在定义域内，函数值最小。全局最小一定是局部最小值，但是反之不一定成立。图中的点是一个局部最小值点
机器学习（周志华西瓜书）华华不在机器学习机器学习人工智能神经网络
注：此文仅作为个人学习笔记。第一章绪论1.机器学习（machineLearning）：致力于研究如何通过计算的手段，利用经验来改善系统自身性能；学习算法（learningalgorithm）：关于在计算机上从数据中产生“模型”（model）的算法；2.（基本术语解释）数据集（dataset）示例(instance)/样本（sample）：数据集中每条记录是关于一个事件获对象的描述；属性（attri
西瓜书【机器学习（周志华）】目录随机森林404 机器学习机器学习
第一部分：基础概念机器学习概述1.1人工智能与机器学习1.2机器学习分类1.3机器学习应用1.4机器学习常用术语解释模型的评估与选择2.1经验误差与过拟合2.2评估方法2.3性能度量2.4偏差与方差第二部分：核心算法线性模型3.1什么是回归3.2一元线性回归3.3多元线性回归3.4对数几率回归3.5线性判别分析（LDA）3.6多分类学习3.7类别不平衡问题决策树4.1决策树概述4.2ID3算法4.
深度学习如何入门？深度学习机器学习深度学习 python 机器学习图神经网络深度学习算法程序员 pytorch
有人说要学深度学习，机器学习是基础；有人说，要先学数学，数学基础很重要；也有人说，不学Python寸步难行；还有人说，不看论文怎么行？又有人说，我这有两本秘籍，你拿回去好好研究，将来必成大器！从理论基础开始稳扎稳打地往上学，自然是老铁没毛病的，但是也得看时间要求，以及投产比。尤其是在一开始的时候，心气儿正足，却在西瓜书南瓜书花书等经典大部头、高数、概率、python甚至c++上耗尽心力，到头来极容
周志华《机器学习》——第六章、支持向量机 106106106 支持向量机机器学习人工智能
支持向量机（SupportVectorMachine,简称SVM）是一种经典的二分类模型，基本模型定义为特征空间中最大间隔的线性分类器，其学习的优化目标是间隔最大化，因此支持向量机本身可以转化为一个凸二次规划求解的问题。公式推导太麻烦，下面链接写得非常详细，有空再详细理解，先理解概念。存个链接【机器学习】支持向量机SVM（非常详细）-知乎
基于鸢尾花数据和手写数字，决策树，随机森林，voting，bagging法的比较 zaprily 实验记录决策树 python sklearn
四种方法的具体的原理可以见博文和西瓜书先上代码根据结果分析鸢尾花数据#evaluatebaggingalgorithmforclassificationfromnumpyimportmeanfromnumpyimportstdfromsklearn.datasetsimportmake_classificationfromsklearn.model_selectionimportcross_val
【机器学习】1.基本概念：监督学习非监督学习半监督学习 Wangziv_hahaha 算法机器学习
【机器学习】1.基本概念：监督学习非监督学习半监督学习机器学习基本概念特征与标签监督学习回归与分类非监督学习半监督学习机器学习基本概念特征与标签标签是我么要预测的事物，即线性回归中的y变量。标签可以是小麦未来的价格，图片中人脸的性别，音频的含义等一切要预测的事物。特征是是输入变量，即线性回归中的x变量。特征是预测事物的证据，而标签就是预测的结果。以周志华老师在《机器学习》中判断好瓜的问题为例——给
我的机器学习学习之路花果山-马大帅机器学习机器学习人工智能 python 算法 scikit-learn
学习python的初衷•hi，今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。•我是2023年9月开始下定决心要学python的，目的有两个，一是为了提升自己的技能和价值，二是将所学的知识应用到工作中去，提升工作效率。我的背景与书籍选择•我是上班族，2023年非全日制硕士研究生毕业。•我的导师是数学博士，在导师的推荐下买了周老师的《机器学习(西瓜书)》和李航老师的《统计学习方法》，这2本书
人工智能（11）——————计算机视觉長安一片月人工智能人工智能计算机视觉
目录声明正文1、简介2、步骤1）图像分类2）目标检测（目标定位）3）目标跟踪4）图像分割普通分割语义分割实例分割5）图像生成3、总结声明以下内容均来自B站吴恩达教授的视频以及西瓜书和众多前辈的学习成果总结，仅记录本人的大模型学习过程，如有侵权立马删除。言论仅代表自身理解，如有错误还请指正。正文1、简介我们先来看看百度百科里对计算机视觉的介绍：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说
人工智能（10）——————自然语言处理長安一片月人工智能人工智能自然语言处理学习 transformer
声明以下内容均来自B站吴恩达教授的视频以及西瓜书和众多前辈的学习成果总结，仅记录本人的大模型学习过程，如有侵权立马删除。言论仅代表自身理解，如有错误还请指正。正文简介其实在现在的人工智能领域，很多东西都是相互关联，相互促进的。比如机器学习可以引入到自然语言处理，计算机视觉等多个类别当中，而自然语言处理中特有的seq2seq方法也可以用于机器学习当中。但是根本上这些类别都存在自己独有之处。自然语言处
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
【西瓜书《机器学习》七八九章内容通俗理解】游戏乐趣人工智能机器学习人工智能
第七章：贝叶斯分类器7.1贝叶斯决策论基础核心概念：贝叶斯分类器是基于概率来做分类决策的。简单来说，就是根据已知的一些条件，去计算每个类别出现的概率，然后选择概率最大的那个类别作为分类结果。就好比你在猜一个盒子里装的是红球还是蓝球，你可以根据之前从这个盒子里摸球的一些经验（比如摸出红球的次数多），来判断这次盒子里更有可能是红球还是蓝球。例子：假如你要判断一幅图片是猫还是狗。你知道在所有的图片数据里
曝罗永浩挖走小米前50号员工要做AIOS；谷歌呼吁美国政府不要拆分公司；Copilot+PC能本地运行DeepSeek|极客头条极客日报资讯
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！AAAI2025杰出论文奖出炉，南大周志华团队获奖字节跳动以约3150亿美元估值启动新一轮股票回购计划消息称vivoOS部门新成立AI领域，大模型训练重心向端侧转移为“AIOS”招兵买马：消息称罗永浩挖来小
周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
《西瓜书》大白话思想总结-第三章小溪子子西瓜书概率论机器学习分类
第三章3.1+3.2分类和回归是监督式学习，都是根据数据，分析特征，作出预测，只是预测的值是离散的叫分类，连续的叫回归。为什么叫线性回归呢？因为线性就可以看成是直线，直线当然是连续的。而所给的直线就是根据离散点拟合出来的线，其本质就是一种预测。那么根据离散点的特征，给出了预测方程的这个直线，就符合回归的定义。因此，这就叫作线性回归。（个人理解，不一定对）这个拟合直线的方程，或者叫预测的函数，各个自
【机器学习基础】第六课：线性回归 x-jeff 机器学习基础机器学习线性回归人工智能
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。1.线性模型基本形式给定由ddd个属性描述的示例x=(x1;x2;...;xd)\mathbfx=(x_1;x_2;...;x_d)x=(x1;x2;...;xd)，那么线性模型的基本形式可写为：f(x)=w1x1+w2x2+w3x3+...+wdxd+bf(\mathbfx)=w_1x_1+w_2x_2+w_3x_3
机器学习Day1 一飞学编程机器学习机器学习人工智能
1.背景以周志华教授的《机器学习》为核心学习AI知识2.绪论中的重要概念整理机器学习的目的：利用经验（数据）来改善系统性能记录：(key1:value1,key2:value2…)数据集：记录的集合示例（样本）：对一个事件或对象的描述属性（特征）：key1,key2…属性值：value1,value2…属性空间（样本空间、输入空间）：key1,key2等组成的多维空间特征向量：形如（value1,
【机器学习】聚类【Ⅰ】基础知识与距离度量不牌不改【机器学习】聚类机器学习算法
主要来自周志华《机器学习》一书，数学推导主要来自简书博主“形式运算”的原创博客，包含自己的理解。有任何的书写错误、排版错误、概念错误等，希望大家包含指正。由于字数限制，分成五篇博客。【机器学习】聚类【Ⅰ】基础知识与距离度量【机器学习】聚类【Ⅱ】原型聚类经典算法【机器学习】聚类【Ⅲ】高斯混合模型讲解【机器学习】聚类【Ⅳ】高斯混合模型数学推导【机器学习】聚类【Ⅴ】密度聚类与层次聚类聚类1聚类任务在“无
关于深度森林的一点理解 Y.G Bingo 机器学习方法机器学习神经网络
2017年年初，南京大学周志华老师上传了一篇名为：DeepForest：TowardsAnAlternativetoDeepNeuralNetworks的论文，一石激起千层浪，各大媒体纷纷讨论着，这似乎意味着机器学习的天色要变，实则不然，周志华老师通过微博解释道，此篇论文不过是为机器学习打开了另一扇窗，是另一种思维，而不是真的去替代深度神经网络（DNN）。下面我就简单概括一下我对这篇论文的理解，如
周工作计划2019-03-25 MikeShine
很久没有写工作计划了。之前一个星期生了病，很难受。上个星期基本上什么都没有干。但是好的一点是，西瓜书基本都看完了。本周工作计划：机器学习分享活动（关于决策树的分享）回看一下西瓜书的东西，每一章把开头总结写一下。老师没有给具体的任务，留了再说吧。
机器学习（西瓜书）学习笔记导览盛寒机器学习西瓜书学习机器学习人工智能
本篇文章会持续更新直到更新完毕，关注博主不迷路~（如果没有超链接，表示还没有更新到）第一章绪论1.1引言1.2基本术语1.3假设空间1.4归纳偏好第二章模型评估与选择2.1经验误差与过拟合2.2评估方法2.3性能度量2.4比较检验2.5偏差与方差第三章线性模型3.1基本形式3.2线性回归3.3对数几率回归3.4线性判别分析3.5多分类学习3.6类别不平衡问题第四章决策树4.1基本流程4.2划分选择
机器学习LDA线性判别器代码实现 Longlongaaago 机器学习 LDA 线性判别分析代码实现
机器学习LDA线性判别器代码实现西瓜书P60线性判别器LDA代码实现：importnumpyasnpimportmatplotlib.pyplotaspltdefload_data(file_name):'''数据导入函数:paramfile_name:(string)训练数据位置:return:feature_data(mat)特征lable_data(mat)标签'''fr=open(file
西瓜书-机器学习5.4 全局最小与局部极小 lestat_black 西瓜书机器学习
两种“最优”：“局部极小”(localminimum)和"全局最小"(globalminimum)对和，若存在使得多组不同参数值初始化多个神经网络使用“模拟退火”：以一定的概率接受比当前解更差的结果，有助于“跳出”局部极小使用随机梯度下降遗传算法(geneticalgorithms)[Goldberg,1989]也常用来训练神经网络以上用于跳出局部极小的技术大多是启发式，理论上商缺乏保障。Gold
机器学习（8） LY豪
本章节是对我学习完机器学习（周志华）第八章所做出来的总结第八章集成学习8.1个体与集成集成学习：通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。如下图所示：集成学习示意图集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。要获得好的集成，个体学习器应“好而不同”，即
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他