zhw864680355

机器学习：基于决策树和朴素贝叶斯算法对Adult数据集分类

1、数据集介绍
机器学习算法需要作用于数据，数据的属性和特征决定了机器学习算法是否适用，同时，数据质量的好坏也直接决定算法表现的好坏。这篇博客选择在Adult数据集上进行实验。

Adult数据集
该数据从美国1994年人口普查数据库中抽取而来，因此也称作“人口普查收入”数据集，共包含48842条记录，年收入大于50k$的占比23.93%，年收入小于50k$的占比76.07%，数据集已经划分为训练数据32561条和测试数据16281条。该数据集类变量为年收入是否超过50k$，属性变量包括年龄、工种、学历、职业等14类重要信息，其中有8类属于类别离散型变量，另外6类属于数值连续型变量。该数据集是一个分类数据集，用来预测年收入是否超过50k$。

14个属性变量具体介绍如下：

训练集中属性age的最小值为17，最大值为90，平均年龄为38.6，具体分布直方图如下：

训练集中属性education-num最小值为1，最大值为16，平均值为10，将其划分为“<5”、“5-10”和“>10”三个区间，分布饼图如下：

训练集中属性hours-per-week取值虽然分布在1到99之间，但基本集中在40附近，具体分布直方图如下：

8个离散型属性变量中，workclass有“Private”等8个取值；

education有“Bachelors”等16个取值；

marital-status有“Married-civ-spouse”等7个取值；

occupation有“Tech-support”等14个取值；

relationship有“Wife”等6个取值；

race有“White”等5个取值；

sex取“Female”和“Male”；

native-country有“United-States”等41个取值。

因为adult数据集是一个分类数据集，并且属性变量的取值既有连续型又有离散型，因此本实验决定采用决策树和贝叶斯算法。决策树算法计算比较简单，解释性强，比较适合处理有缺失属性值的数据样本。贝叶斯算法源于古典数学理论，有着坚实的数学基础，分类效率稳定，同样算法比较简单，对缺失数据不太敏感。

2、实验方案
2.1、决策树算法
决策树算法和人类在进行决策时的处理机制类似，依据对一系列属性取值的判定得出最终决策。决策树是一棵树结构，其每个非叶子节点表示一个特征属性上的测试，每个分支表示这个特征属性在某个值域上的输出，而每个叶子节点对应于最终决策结果。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点对应的类别作为决策结果。
决策树学习的目的是产生一棵泛化性能强，即处理未见示例能力强的决策树。其基本流程遵循“分而治之”的策略，算法伪代码如下图所示：

输入：训练集D={(x_1,y_1),(x_2,y_2),⋯,(x_m,y_m)};
     属性集A={a_1,a_2,⋯,a_d}.
过程：函数TreeGenerate(D,A)
1: 生成节点node
2: if  D中样本全属于同一类别C then
3:    将node标记为C类叶节点；return
4: end if
5: if  A=∅ or D中样本在A上取值相同 then
6:    将node标记为叶节点，其类别标记为D中样本数最多的类；return
7: end if
8: 从A中选择最优 划分属性a_*;
9: for a_*的每一个取值a_*^v do
10:    为node生成一个分支；令D_v表示D中在a_*上取值为a_*^v的样本子集；
11:    if D_v=∅ then
12:       将分支节点标记为叶节点，其类别标记为D中样本最多的类；return
13:    else
14:       以TreeGenerate(D_v,A\{a_*})为分支节点
15:    end if
16: end for
输出：以node为根节点的一棵决策树

上述算法最关键的是第8行，即如何选择最优划分，选择的标准是什么。一般而言，随着划分的不断进行，决策树每个分支包含的样本会越来越属于同一类，即节点的“纯度”越来越高。但是为了得到一棵泛化性能强的决策树，根据“奥卡姆剃刀”原则：越是小型的决策树越优于大型的决策树，我们希望最终得到的决策树规模越小越好。因此我们选择划分后能够将样本“纯度提升”最大的那个属性作为最优划分。
为了度量样本“纯度提升”，我们需要引入一些概念。

2.1.1、信息熵

信息熵是信息论之父香浓从热力学概念“熵”中借鉴过来的，在热力学中熵表示分子的混乱程度，香浓用信息熵来描述信息的不确定度。信息熵的计算公式定义如下：

其中，pkpk代表样本集合D中第k类样本所占的比例，|y|为样本集合D的类别数目。Ent(D)越小，则信息的不确定性越小，信息的纯度越高。

2.1.2、信息增益
当我们选择一个属性进行划分后，信息的纯度将增加，信息的不确定性将随之减少。我们用信息增益来度量样本纯度的提升。假设离散属性a有V个可能的取值{a1,a2,⋯,aV}{a1,a2,⋯,aV}，若使用a来对样本集D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为avav的样本，记为DvDv。因此我们可以将信息增益的公式记为如下：

因此，信息增益越大，则意味着使用属性a进行划分获得的“纯度提升”越大。著名的ID3决策树算法就是以信息增益为准则来选择划分属性。

2.1.3、连续值处理
由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对节点进行划分。此时，需要对连续属性离散化，最简单的策略是采用二分法将连续属性值一分为二。在本实验中，通过对连续数据的取值观察，最终确定将age、education-num、captional-gain、captional-loss和hours-per-week划分为10、8、12、12、12个区间。

2.2、朴素贝叶斯算法
贝叶斯分类是一类分类算法的总称，这类算法以贝叶斯定理为基础，故统称贝叶斯分类。贝叶斯分类与常用的决策树、支持向量机（SVM）等判别型分类器不同，贝叶斯分类属于生成型模型，生成型模型最大的特点是先对联合概率分布p(x,c)p(x,c)建模，然后再由此获得 p(c|x)p(c|x)。根据条件概率公式有：

基于贝叶斯定理，p(c|x)可写为：

其中，p(c)p(c)是类先验概率； p(x|c)p(x|c)是样本x相对于类标记c的类条件概率；p(x)p(x)是用于归一化的“证据”因子。对于给定的x，“证据”因子p(x)p(x)与类标记无关，因此估计p(c│x)p(c│x)的问题转化为如何基于训练数集D来估计类先验概率p(c)和类条件概率p(x|c)p(x|c)。

类先验概率p(c)p(c)表达了样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时，p(c)p(c)可以通过各类样本出现的频率进行估计。但是对类条件概率 p(x|c)p(x|c)来说，由于它涉及关于x的所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重困难。即使是每个属性取值均为二值，d个属性构成的样本空间也将达到2d，这个数字远远超过了训练数据样本数m。一方面，依靠计算机扫面统计将变得几乎不太可能；另一方面，由于数据稀疏性，很多样本取值在训练集中根本没有出现，直接使用频率估计概率显然不可行。常用的策略是先假定类条件概率服从某种形式的概率分布，再基于训练样本对概率分布的参数进行估计。

朴素贝叶斯分类是贝叶斯分类中最简单，也是最常见的一种分类方法，广泛用于新闻分类、病人分类等任务中。

朴素贝叶斯分类的流程如下图所示：

2.2.1、连续值处理
同样对于取值为无限的连续型属性变量，在利用朴素贝叶斯算法进行分类时，也需要进行连续值平滑处理。在本实验中，将age、captional-gain、captional-loss和hours-per-week划分为10、3、3、20个区间。因为education-num和education表达的是相同的意思，所以将其去除。另外，在本实验中，也对部分离散型属性进行了重新归类，将相似的取值归为一类，既减少了属性取值数，也提高了模型泛化能力。

2.2.2、平滑处理
因为训练样本的数量有限，在训练数据集中，可能出现某个属性的某个取值为零的情况，那么这个条件概率值为0，导致整个后验概率值为0，为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，在进行概率估计时通常要加上平滑项，常用拉普拉斯平滑，这时条件概率公式可以修正为：

其中NiNi第i个属性可能的取值数。

3、实践代码

trees.py部分代码如下：

# -*- coding: utf-8 -*-
from math import log
import operator

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

def calcShannonEnt(dataSet):   #计算给定数据集的香农熵
    numEntries = len(dataSet)   #实例总数
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt
    
def splitDataSet(dataSet, axis, value):  #划分数据集
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting 降维，除去所选的划分属性的一维
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet
    
def chooseBestFeatureToSplit(dataSet):  #选择最好的数据集划分方式
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)  #原始香农熵
    bestInfoGain = 0.0; bestFeature = 0
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values 从列表中创建一个集合（包含不同的元素）
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy计算信息增益
        if (infoGain >= bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer

def majorityCnt(classList):  #多数表决法  
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

def createTree(dataSet,labels):  #创建决策树
    labelnum = {'age':4,'workclass':7,'education':3,'marital-status':2,'occupation':3,'relationship':3,'race':2,'sex':2,'capital-gain':2,'capital-loss':2,'hours-per-week':3,'native-country':2}
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]#stop splitting when all of the classes are equal
    if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet        
        return majorityCnt(classList)    
    bestFeat = chooseBestFeatureToSplit(dataSet)  #选择最好的划分属性的index
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    if len(uniqueVals) == 1:
        return majorityCnt(classList) 
    elif len(uniqueVals) < labelnum[bestFeatLabel]:
        myTree[bestFeatLabel]["default"] = majorityCnt(classList) 
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)   
    return myTree                          
    
def classify(inputTree,featLabels,testVec):  #使用决策树的分类函数
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    key = testVec[featIndex]
    if key not in secondDict:
        classLabel = secondDict["default"]
        return classLabel 
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict): 
        classLabel = classify(valueOfFeat, featLabels, testVec)       
    else: classLabel = valueOfFeat
    return classLabel

def storeTree(inputTree,filename):  #保存决策树
    import pickle
    fw = open(filename,'w')
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename): 
    import pickle
    fr = open(filename)
    return pickle.load(fr)

treePlotter.py部分代码如下：

# -*- coding: utf-8 -*-
'''
Created on Oct 14, 2010

@author: Peter Harrington
'''
import matplotlib.pyplot as plt

decisionNode = dict(boxstyle="sawtooth", fc="0.8") #文本框的格式，决策点
leafNode = dict(boxstyle="round4", fc="0.8")    #文本框的格式，叶子节点
arrow_args = dict(arrowstyle="<-")              #箭头的格式

def getNumLeafs(myTree):  #获取叶子结点的数目
    numLeafs = 0
    firstStr = myTree.keys()[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':#test to see if the nodes are dictonaires, if not they are leaf nodes
            numLeafs += getNumLeafs(secondDict[key])
        else:   numLeafs +=1
    return numLeafs

def getTreeDepth(myTree):  #获取树的深度   
    maxDepth = 0
    firstStr = myTree.keys()[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':#test to see if the nodes are dictonaires, if not they are leaf nodes
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:   thisDepth = 1
        if thisDepth > maxDepth: maxDepth = thisDepth
    return maxDepth

def plotNode(nodeTxt, centerPt, parentPt, nodeType): #文字，坐标，父结点坐标，结点类型
    createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',
             xytext=centerPt, textcoords='axes fraction',
             va="center", ha="center", bbox=nodeType, arrowprops=arrow_args )
    
def plotMidText(cntrPt, parentPt, txtString):  
    xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
    yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)

def plotTree(myTree, parentPt, nodeTxt):#if the first key tells you what feat was split on
    numLeafs = getNumLeafs(myTree)  #this determines the x width of this tree
    depth = getTreeDepth(myTree)
    firstStr = myTree.keys()[0]     #the text label for this node should be this
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, plotTree.yOff)
    plotMidText(cntrPt, parentPt, nodeTxt)
    plotNode(firstStr, cntrPt, parentPt, decisionNode)
    secondDict = myTree[firstStr]
    plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':#test to see if the nodes are dictonaires, if not they are leaf nodes   
            plotTree(secondDict[key],cntrPt,str(key))        #recursion
        else:   #it's a leaf node print the leaf node
            plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD
#if you do get a dictonary you know it's a tree, and the first element will be another dict

def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)    #no ticks
    #createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses 
    plotTree.totalW = float(getNumLeafs(inTree))
    plotTree.totalD = float(getTreeDepth(inTree))
    plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0;
    plotTree(inTree, (0.5,1.0), '')
    plt.show()

#def createPlot():
#    fig = plt.figure(1, facecolor='white')
#    fig.clf()
#    createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses 
#    plotNode('a decision node', (0.5, 0.1), (0.1, 0.5), decisionNode)
#    plotNode('a leaf node', (0.8, 0.1), (0.3, 0.8), leafNode)
#    plt.show()

def retrieveTree(i):   #预先存储树信息
    listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                  {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                  ]
    return listOfTrees[i]

#createPlot(thisTree)

项目运行代码如下：

# -*- coding: utf-8 -*-
"""
Created on Wed Dec 13 10:27:08 2017

@author: ChenYing
"""
import trees
import treePlotter
import csv
from sklearn import tree 
import numpy as np
import matplotlib.pyplot as plt


def translate(filename):
    age = {'0-25':0,'25-50':1,'50-75':2,'75-100':3}
    csvfile = file(filename, 'rb')
    reader = csv.reader(csvfile)
    data = []
    for line in reader:    
        data.append(line) 
    csvfile.close() 
    
    new_data = []
    mark = 0
    for dataline in data:
        x = [0,0,0,0,0,0,0,0,0,0,0,0,0]
        if mark ==0:
            new_data.append(dataline)
            mark += 1
        else:
            agenum = int(dataline[0])
            if agenum>=0 and agenum<25:
                x[0] = age['0-25']
            elif agenum>=25 and agenum<50:
                x[0] = age['25-50']
            elif agenum>=50 and agenum<75:
                x[0] = age['50-75']
            elif agenum>=75:
                x[0] = age['75-100']
            
            x[1] = dataline[1]    
            x[2] = dataline[2] 
            x[3] = dataline[3]  
            x[4] = dataline[4] 
            x[5] = dataline[5]
            x[6] = dataline[6]
            x[7] = dataline[7]
            
            gain = int(dataline[8])
            if gain>0:
                x[8] = '>0'
            else:
                x[8] = '=0'
            loss = int(dataline[9]) 
            if loss>0:
                x[9] = '>0'
            else:
                x[9] = '=0'
            
            hour = int(dataline[10])
            if hour == 40:
                x[10] = '=40'
            elif hour > 40:
                x[10] = '>40'
            elif hour < 40:
                x[10] = '<40'
                
            if dataline[11] == 'United-States' :
                x[11] = 'USA'
            else:
                x[11] = 'not USA'
                
            if dataline[12] == '<=50K':
                x[12] = '<=50K'
            else:
                x[12] = '>50K'
            new_data.append(x)
    return new_data
    

def translateToValue(filename):  #把数据集转换成数值型的
    age = {'0-25':0,'25-50':1,'50-75':2,'75-100':3}
    capital_gain = {'=0':0, '>0':1} #10
    capital_loss = {'=0':0, '>0':1} #11
    hours_per_week = {'=40':0, '>40':1, '<40':2} #12
    native_country = {'USA':0, 'not USA':1} #13
    workclass=  {'Freelance': 1, 'Other': 3, 'Proprietor': 4, 'Private': 2, 'Government': 0}
    education=  {'Primary': 2, 'Tertiary': 0, 'Secondary': 1}
    maritial_status=  {'1': 1, '0': 0}
    occupation=  {'High': 1, 'Med': 2, 'Low': 0}
    relationship=  {'Other': 0, 'Husband': 1, 'Wife': 2}
    race=  {'1': 0, '0': 1}
    sex=  {'Male': 0, 'Female': 1}
    income = {'<=50K':0, '>50K':1}

    csvfile = file(filename, 'rb')
    reader = csv.reader(csvfile)
    data = []
    for line in reader:    
        data.append(line) 
    csvfile.close() 
    
    new_data = []
    mark = 0
    for dataline in data:
        x = [0,0,0,0,0,0,0,0,0,0,0,0,0]
        if mark ==0:
            new_data.append(dataline)
            mark += 1
        else:
            agenum = int(dataline[0])
            if agenum>=0 and agenum<25:
                x[0] = age['0-25']
            elif agenum>=25 and agenum<50:
                x[0] = age['25-50']
            elif agenum>=50 and agenum<75:
                x[0] = age['50-75']
            elif agenum>=75:
                x[0] = age['75-100']
            
            x[1] = workclass[dataline[1]]     
            x[2] = education[dataline[2]]  
            x[3] = maritial_status[dataline[3]]  
            x[4] = occupation[dataline[4]]  
            x[5] = relationship[dataline[5]]
            x[6] = race[dataline[6]]
            x[7] = sex[dataline[7]]
            
            gain = int(dataline[8])
            if gain>0:
                x[8] = capital_gain['>0']
            else:
                x[8] = capital_gain['=0']
            loss = int(dataline[9]) 
            if loss>0:
                x[9] = capital_loss['>0']
            else:
                x[9] = capital_loss['=0']
            hour = int(dataline[10])    
            if hour == 40:
                x[10] = hours_per_week['=40']
            elif hour > 40:
                x[10] = hours_per_week['>40']
            elif hour < 40:
                x[10] = hours_per_week['<40']
                
            if dataline[11] == 'United-States' :
                x[11] = native_country['USA']
            else:
                x[11] = native_country['not USA']
                
            if dataline[12] == '<=50K':
                x[12] = income['<=50K']
            else:
                x[12] = income['>50K']
            new_data.append(x)
    return new_data

def write_new_data():
    #adult_data_all在原始数据的基础上对某些属性做了一定的合并、修改等
    new_data_value = translateToValue('adult_data_all.csv')
    with open( './new_data_value.csv', 'wb') as f:
        writer = csv.writer(f)    
        writer.writerows(new_data_value)
    f.close()       
    
    new_data_value_test = translateToValue('adult_test_all.csv')
    with open( './new_data_value_test.csv', 'wb') as f:
        writer = csv.writer(f)    
        writer.writerows(new_data_value_test)
    f.close()   
    
    new_data = translate('adult_data_all.csv')
    with open( './new_data.csv', 'wb') as f:
        writer = csv.writer(f)    
        writer.writerows(new_data)
    f.close()       
    
    new_data_test = translate('adult_test_all.csv')
    with open( './new_data_test.csv', 'wb') as f:
        writer = csv.writer(f)    
        writer.writerows(new_data_test)
    f.close()   

def readData(filename):
    csvfile = file(filename, 'rb')
    reader = csv.reader(csvfile)    
    data_all = [] #训练数据集
    data_feature = [] #特征列
    data_label = [] #标签列
    mark = 0
    featurnlen = 0
    for line in reader: 
        if mark ==0:
            featurnlen = len(line) - 1
            mark += 1
        else:               
            data_all.append(line)
            data_feature.append(line[0:featurnlen])
            data_label.append(line[-1]) 
    csvfile.close()
    return data_all,data_feature,data_label

#调用sklearn的决策树函数
def use_sklearn_tree():
    train_data,trainX,trainY = readData('new_data_value.csv')
    test_data,testX,testY = readData('new_data_value_test.csv')
        
    model = tree.DecisionTreeClassifier() 
    
    model.max_depth = 8
    model.min_samples_split = 9
    model.fit(trainX, trainY)  
    predict = model.predict(testX)    
    
    accuratyNum = 0
    total = 0
    for index in range(len(predict)):
        if predict[index] == testY[index]:
            accuratyNum += 1
        total += 1 
    print "when use the sklearn............"
    importances =  model.feature_importances_
#    print "the accuratyNum is",accuratyNum
#    print "the total num is",total
    print "the accuraty is"
    accuracy = float(accuratyNum)/total
    print 'accuracy: %.2f%%' % (100 * accuracy) 
    return model.tree_
    

def use_myTree():
    adultLabels = ['age','workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country']
    adultLabels_test = ['age','workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country']
    adult = readData('new_data.csv')[0]
    adult_test = readData('new_data_test.csv')[1]
    adult_test_label = readData('new_data_test.csv')[2]
    adultTree = trees.createTree(adult,adultLabels) #生成决策树
    treePlotter.createPlot(adultTree)  #画出决策树
    
    predict = []  #预测的标签
    for i in range(len(adult_test)):
        predict.append(trees.classify(adultTree,adultLabels_test,adult_test[i]))
    accuratyNum = 0
    total = 0
    for index in range(len(predict)):
        if predict[index] == adult_test_label[index]:
            accuratyNum += 1
        total += 1   
    print "when use my tree..............."
#    print "the accuratyNum is",accuratyNum
#    print "the total num is",total
    print "the accuraty is"
    accuracy = float(accuratyNum)/total
    print 'accuracy: %.2f%%' % (100 * accuracy) 
    print " "
    return adultTree

#write_new_data()        
myTree = use_myTree()
sklearnTree = use_sklearn_tree()
#accuracy,importance = use_sklearn_tree(8,9)

#accuracy = np.zeros(18)
#print accuracy
#for i in range(18):
#    if i>=2:
#        accuracy[i] = use_sklearn_tree(8,i)*100

#x = np.arange(0, 18, 1)
#y = accuracy        
#plt.figure(1)
#plt.subplot(211)
#plt.axis([0, 18, 84, 84.25])
#plt.plot(x,y,marker='o',mec='r', mfc='w')

流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
解锁机器学习核心算法 | 逻辑回归：不是回归的“回归” 紫雾凌寒 AI 炼金厂机器学习算法逻辑回归深度学习 python scikit-learn matplotlib
引言前面一篇文章我们介绍了机器学习算法中我们最先会接触到的算法——线性回归：机器学习的基石。今天我们继续学习机器学习中的另一个算法模型——逻辑回归（LogisticRegression）。一、逻辑回归：不是回归的“回归”在机器学习的庞大算法体系中，逻辑回归（LogisticRegression）虽然名字中带有“回归”，但却是一位不折不扣的“分类高手”，主要用于解决二分类问题，在众多领域发挥着关键作
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
随机梯度下降一定会收敛么？ AndrewHZ 人工智能深度学习算法
1.什么是随机梯度下降？随机梯度下降（StochasticGradientDescent，SGD）是一种用于最小化目标函数的迭代优化算法，在机器学习和深度学习领域应用广泛。2.随机梯度下降算法的基本原理1.基于梯度的优化基础该算法是基于梯度的优化算法，用于寻找函数的最优解，通常是最小化损失函数。在机器学习和深度学习中，模型通过调整参数来最小化损失函数，以达到最佳的预测性能。2.迭代更新参数从初始的
【Python】成功解决NameError: name ‘XXX’ is not defined 云天徽上 python运行报错解决记录 python 开发语言 pandas 机器学习 numpy
【Python】成功解决NameError:name‘XXX’isnotdefined欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够
Hyperparameter Tuning 原理与代码实战案例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
HyperparameterTuning原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：超参数调优，模型选择，性能提升，代码实战1.背景介绍1.1问题的由来在机器学习中，模型的选择和调优是至关重要的。模型选择涉及选择合适的算法和架构，而调优则集中在优化模型参数以提升性能。然而，模型参数众多，且每个参数的取值范围可能很广，
如何在Python上安装xgboost？ cda2024 python 开发语言
在数据科学和机器学习领域，XGBoost无疑是一款备受推崇的算法工具。它以其高效、灵活和精确的特点，成为了众多数据科学家和工程师的首选。然而，对于初学者来说，如何在Python环境中成功安装XGBoost可能会成为一个挑战。本文将详细指导你在Python上安装XGBoost的过程，帮助你快速上手这一强大的机器学习工具。为什么选择XGBoost？在深入了解安装过程之前，我们先来看看XGBoost为何
K-means聚类：解锁数据隐藏结构的钥匙小村学长毕业设计 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
机器学习基本库之Pandas 莫名其妙 pandas 机器学习 python 数据分析
Pandas是机器学习中专门用于数据处理的库，遇到很多数据时首先要使用Pandas进行预处理得到我们想要的信息，下面让我们来看一下Pandas中有哪些操作importpandasfood_info=pandas.read_csv("food_info.csv")#将csv文件中的数据进行读取print(type(food_info))#pandas中的核心结构叫做DATAFRAMEprint(fo
【机器学习】半监督和无监督极限学习机SS-US-ELM附Matlab代码默默科研仔粉丝福利机器学习人工智能
标题：【机器学习】半监督和无监督极限学习机SS-US-ELM附Matlab代码一、引言1.1研究背景和意义概述研究的背景以及该研究在领域内的重要性。1.2研究现状分析当前领域的研究进展和存在的问题。二、极限学习机（ELM）基本原理2.1ELM的基本模型描述ELM的基本模型结构和工作原理。2.2ELM的学习过程介绍ELM的学习算法和训练过程。三、半监督极限学习机（SS-ELM）3.1SS-ELM的提
阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记饮长安千年月物联网安全安全机器学习学习
前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications智能交通系统（ITS）和计算系统的快速发展为智能交通安全提供了新的科学研究，并提供了舒适和高效的解决方案。人工智能（AI）已被广泛用于优化不同研究领域的传统数据驱动方法
【AI引领潮流|未来智慧生活】国内机器聊天软件推荐（超全！）and人工智能&智能学习熔光人工智能 AI软件智能学习生活
1.AI聊天软件概述1.1AI聊天软件的关键技术1.2AI聊天软件的应用1.3AI聊天软件的挑战1.4总结2.智普清言3.文心一言4.讯飞星火5.知元AI6.白马AI7.ChatGPT8.一览AI应用链接9.人工智能10.机器学习↓个人主页：C_GUIQU↑1.AI聊天软件概述AI聊天软件是一种利用自然语言处理（NLP）、自然语言理解（NLU）和机器学习（ML）技术构建的软件，它能够理解用户的自然
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
正则化（Regularization）和正则表达式（Regular Expression）区别 Dontla 正则表达式
文章目录1.**正则化（Regularization）**2.**正则表达式（RegularExpression）**关键区别为什么名字相近？正则化（Regularization）和正则表达式（RegularExpression）不是同一个概念，它们是两个完全不同的术语，应用于不同的领域。1.正则化（Regularization）领域：机器学习/统计学。定义：正则化是一种用于防止模型过拟合（Ove
机器学习基本篇胖胖的小肥猫机器学习
1基本概念机器学习，分为回归，分类，聚类，降维有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测无监督学习聚类，降维。题目越多，训练越好，2基本流程数据预处理——模型训练与评估可以优化为获取数据——数据预处理——EDA分析——特征工程——模型训练——可解释性分析2.0数据获取利用kaggle,天池等平台的开源数据，2.1预处理目的：让数据更符合逻辑让数据更容易计算借助函数实现变换
解锁机器学习核心算法 | 支持向量机：机器学习中的分类利刃紫雾凌寒 AI 炼金厂机器学习算法支持向量机 python 深度学习分类人工智能
一、引言在机器学习的庞大算法体系中，有十种算法被广泛认为是最具代表性和实用性的，它们犹如机器学习领域的“十大神器”，各自发挥着独特的作用。这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、降维算法、梯度增强算法。它们涵盖了回归、分类、聚类、降维等多个机器学习任务领域，是众多机器学习应用的基础和核心。而在这十大算法中，支持向量机（Suppor
深度学习与图像识别：机器学习基础之回归 Shenrn_ 机器学习回归深度学习
1.线性回归1.1一元线性回归1.2多元线性回归2.逻辑回归与线性回归的不同在于其将最终预测值y固定在一个范围之中2.1Sigmoid函数sigmoid函数表达式：p为预测出来的概率，范围在0-1之间，一般用于处理二分类问题，因为这个式子的一个显著特征在于：当z=0,p=0.5当z>0,p>0.5当z<0,p<0.5所以当对z进行多元线性回归表示的时候，以p的值来反映y_pre是一个不错的选择，此
BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃 gs80140 基础知识科谱 AI 人工智能自动化运维
目录BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃什么是BabyAGI？BabyAGI的核心功能BabyAGI的应用领域BabyAGI与传统AI系统的区别BabyAGI的挑战与未来发展BabyAGI的未来展望结语BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃随着人工智能（AI）的不断演进，机器学习和自我优化系统已经逐步渗透到各个行业，从医疗健康到金融服务，从零售到制
机器学习和线性回归、softmax回归小名叫咸菜人工智能线性回归
监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分
吴恩达-机器学习-多元线性回归模型代码 StrawBerryTreea 机器学习机器学习线性回归 python 吴恩达
吴恩达《机器学习》2022版第一节第二周多元线性回归房价预测简单实现以下以下共两个实验，都是通过调用sklearn函数，分别实现了一元线性回归和多元线性回归的房价预测。一、一元线性回归importnumpyasnpnp.set_printoptions(precision=2)fromsklearn.linear_modelimportLinearRegression#输入数据X_train=np
机器学习--实现多元线性回归 y江江江江机器学习机器学习线性回归人工智能
机器学习—实现多元线性回归本节顺延机器学习--线性回归中的内容，进一步讨论多元函数的回归问题y′=h(x)+w⊤∙x+by^{\prime}=h(x)+w^\top\bulletx+by′=h(x)+w⊤∙x+b其中,wT⋅x就是W1X1+w2X2+w3X3+⋯+wNXN\text{其中,}w^\mathrm{T}\cdotx\text{就是}_{W_1X_1}+w_2X_2+w_3X_3+\cd
线性代数导引：张量与张量空间 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
线性代数，张量，张量空间，深度学习，机器学习，人工智能1.背景介绍在现代人工智能领域，深度学习和机器学习算法的蓬勃发展，使得对数据的高效处理和表示能力提出了更高的要求。线性代数作为数学基础，为理解和构建这些算法提供了坚实的基础。而张量，作为一种高维数组的表示形式，成为了深度学习和机器学习的核心数据结构。本篇文章将从线性代数的角度出发，深入探讨张量与张量空间的概念，并阐述其在深度学习和机器学习中的重
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP 村北头的码农 OpenCV opencv 机器学习人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络-多层感知器（ArtificialNeuralNetwork-Multi-LayerPerceptron,ANN-MLP）。它提供了一种方式来创建和训练多层感知器模型，以解决分类、回归等
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

机器学习：基于决策树和朴素贝叶斯算法对Adult数据集分类

你可能感兴趣的:(机器学习)