虾米ning

[kaggle竞赛实践2] Titanic幸存预测问题--ID3决策树解决方案

= = 尽管试了很长时间，正确率也只能到75%，也许用其他的决策树方法能达到更高的效果吧。
这次主要用的是决策树方法去解决问题的，在机器学习实战的ID3决策树算法上进行扩展的。发现了机器学习实战决策树的一个bug，同时领会到决策树的一个局限性。都在文章里了，结构大致如下：
1 问题分析
2 解决方案
3 问题收获

1 问题分析
我们的问题和上一篇kaggle的一样，还是TitanicKaggle的预测问题。这次使用决策树方法。决策树的基本意图就是想通过不断分特征把所有的样本都分离开来，对应相应的分类结果，在这个题目里就是对应人员是否存货。然后把这个分离的方法提炼成模型，也就是我们的决策树，然后将新的数据按照同样的模型进行分类。

决策树的话，我们需要思考下面几个问题。

1.1 每个bin的混杂性。

根据决策树进行分类，分到最后的时候，所有的样本都被分到属于各自的bin里面。
从极限上考虑，最好的情况是，在利用各个特征进行分类的时候，每个样本都分到属于自己独特的那个bin里面，也就是一个萝卜一个坑，这样我们有新数据样本加入的时候，就可以照猫画虎，对应到那个里面了。但是其实这个只是一个理想状况，真实的bin里面肯定是有这个类那个类的，举个例子，如果我们按照决策树分类的话，同样是一等舱，同样是妇女，同样是20-30岁，符合这样条件人里面，我们的rose活了，但是同样的一个少女却死掉了，唯独她缺少Jack这个人（但是我们的数据无法反应出来）这是很可能的。因此，基本上一个bin里面，有的符合有的不符合，但是我们决策树只能做到这个地步了，得给这个bin下个结论，要么这个bin是存活的，要么他们死掉。如何办呢？我们就计算这个bin的训练样本中存活的有多少，死亡的有多少。比如一等舱，妇女，20-30岁，这个bin里面有20个是存活的，3个是死掉的，那么我们就说这个bin是存活的。数据训练完，有新的测试样本如果进来，我们就判断她是活着的。

1.2 决策树分类次序的依据
决策树是根据多个特征进行分类的，比如像一等舱，妇女，20-30岁这样，我们是按照它是几等舱-->是什么性别的-->多大了.进行分类的。那么为什么是按照这个次序进行的？而不是先看年龄再看性别这种分类呢？这涉及到决策树的贪心算法和熵判定方法。
决策树是贪心算法，什么是贪心算法，就是我保证每一步都是当前最好的决定。举个例子就是下棋的时候如果我的当前这个步最有利的话，我就走这一步，别人让给我个车，我吃了就好了，但是如果别人目的是为了让车去将军呢？那么我就玩完了。也就是说贪心算法保证每步最优，但是不一定整体是最优的。而且很可能根本不是最优的，也就是说我们废了这么大劲，也许到头来从模型上就不是最优的。这是完全有可能的，但是它至少有可能是次优的，这样做要比乱出牌好的多。
那么如何判定当前一步是最优的呢？我用熵计算方法作为依据，应用某个特征进行分类后，分类后集合的熵最小，就是我最好的方法.。为什么？熵是用来计
算混乱程度的。我们用这个公式计算熵：sum(-P*log2(P))，怎么理解？P是某个类别在集合里面出现概率，比如10个人的样本里面3个存活，7个走了。如果我按
照年龄特征将他们分成4个年少(2走2生)和6个年长（5走1生），那么分类后的熵就是-(0.5*log2(0.5)+0.5*log2(0.5))-(0.167*log2(0.167)+0.833*log2(0.833))=1.65，而如果我们按照性别进行划分，3个女性（0走3生），7个男性（7走0生），这样计算分类后的熵是 -(1*log(1)-(1*log(1))=0 显然按照性别的划分更好(虽然实际数据中不太可能这样)，因此这个是我们就根据熵选择按照性别这个特征先划分。

总之，熵就是计算混乱程度，一个集子里面各种类别越多，越杂，熵自然越大，如果越纯净，熵就越小。决策树就是找到当前最能使得划分后样本纯净度最小的那个特征作为这次划分的特征。

1.3 决策树是根据横纵特征进行划分。

决策树是根据特征进行划分的，比如Pclass舱等级，Sex性别，Age年龄等等几个横向维度进行划分。这个是横向的，而在特征中其实还有划分。离散变量特征比如Parch船上的父母数量，我们可以划分出0,1,2几种。对于连续变量，比如年龄，我们可以这样划分0-15岁幼年的，15-24青年，24-40成年 40+老年。这是在纵向上进行划分。决策树要做的就是利用横向和纵向的特征，联合进行划分。横向特征和纵向特征其实实质上都是划分的一个维度而已，只不过我们通过熵计算法计算横向维度的划分次序而已。

2 解决方案

说了这么多，开始解决。

2.1特征维度分析

数据中的字段有：Age年龄，Pclass舱等级，Name名字，Sex性别，Age年龄，SibSp船上姐妹兄弟数量，Parch船上父母数量，Ticket车票，Fare票价，Cabin包厢，Embarked登船地。

数据整理：通过python的pandas库中的dataframe.isnull.sum()函数，我们可以知道各个字段为空的状态。其中Age 177 Cabin 687 Embarked 2，Cabin数据空的数据比较多，可以剔除。Age和Embarked两个数据需要填充下。而Ticket和Name名字特征好像没法用，剔除。

连续离散字段分析：通过分析数据，我们知道连续字段有Age，Fare，离散字段有Pclass，SibSp，Parch，Embarked。我们决策树的子特征不能太多，需要划分。比如SibSp。我通过df.SibSp.hist() ,可以知道SibSp中为0的有800个，为1的有100多个，大于等于2的少多了，因此我们将SibSp特征划分为0个1个和大于等于2个这三种情况。而对于连续变量比如Age，通过该df.Age,hist()函数，我们知道大概0-16岁有200人，16-24岁有200人，24-32岁有两百人，大于32岁有两百人，这样划分的。

总之根据上面的意思，我们大致划分出的数据如下

2.2决策树

# -*- coding: utf-8 -*-
'''
Created on Oct 12, 2014
Decision Tree Source Code for  kaggle titanic
@author: LI Ning
'''
from math import log
import operator
import numpy as np
import pandas as pd
from kaggleJudge import *
import kaggleJudge as kj
import treePlotter as tp
import random
#熵计算法
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

#根据特征和特征值切分数据集    
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet
#选择最佳切分的特征    
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer

#如果bin有多个类，按大多数确定最终分类
def majorityCnt(classList): #针对只剩最终分类结果的dataSet数据集，按大多数占优处理
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

#如果完全相同的特征对应的是不同的类，按照大多数确定最终分类    
def majorityJudge(dataSet): #针对只剩最终分类结果的dataSet数据集，按大多数占优处理
    classList=[ example[-1] for example in dataSet ]
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): 
            classCount[vote] = 0
        else:
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    if sortedClassCount[0][1]==sortedClassCount[1][1]:
        if(random.randint(0,2)==0):
            return sortedClassCount[0][0]
        else:
            return sortedClassCount[1][0]
            
    return sortedClassCount[0][0]
     
#根据数据集和标签集构件决策树 
def createTree(dataSet,lab):
    labels=list(lab)
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList): 
        return classList[0]#如果都是一个类了，那么就自动返回这个类作为值。
    if len(dataSet[0]) == 1: # 如果dataset只有结果live或dead项目了，那么就选哪个多的来作为这个vec是否存活的最终决定
        return majorityCnt(classList) 
        
    bestFeat = chooseBestFeatureToSplit(dataSet) #最佳区分feature
    if(bestFeat==-1):
        return majorityJudge(dataSet)  
        
    bestFeatLabel = labels[bestFeat]   #最佳feature对应的标签名字
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    
    featValues = [example[bestFeat] for example in dataSet] #纵向
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        retDataSet=splitDataSet(dataSet, bestFeat, value)
        myTree[bestFeatLabel][value] = createTree(retDataSet,subLabels)
    return myTree                            
#通信元素就是数据集

#根据决策树递归分类
def classify(inputTree,featLabels,testVec):
    firstStr = inputTree.keys()[0]
    key = testVec[featLabels.index(firstStr) ]  #获取样本向量对应特征的值
    
    secondDict = inputTree[firstStr]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict): 
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else: 
        classLabel = valueOfFeat
    return classLabel

#数据ETL函数                                    
def trainDataPrd(trainOrNot):
    
    if(trainOrNot):
        df=pd.read_csv('data/train.csv') #训练数据整理
    else: 
        df=pd.read_csv('data/test.csv') #测试数据整理
            
    #判断字段的空值状况,自动化
    df.isnull().sum()  #通过判断为空的数量，来判断为空的数目，其中False=0，True=1嘛

    #整理字段
    df['Gender']=df['Sex'].map({'male':0,'female':1}).astype(int)
    df=df.drop(['Cabin','Sex','Name','Ticket'],axis=1)
    
    #填充空值字段
    #按照gender，class进行groupby聚类然后填充这个分组的平均值
    ageArr=np.zeros((2,3))
    for i in range(2):
        for j in range(3):
            ageArr[i,j]=df[  (df['Gender']==i) &  (df['Pclass']==j+1) ]['Age'].dropna().mean()
            # 自我赋值df[  (df['Gender']==i) &  (df['Pclass']==j+1) ]=df[  (df['Gender']==i) &  (df['Pclass']==j+1) ].fillna(ageArr[i,j])
            df.loc[(df['Gender']==i) &  (df['Pclass']==j+1) &(df['Age'].isnull()),  'Age']=ageArr[i,j]
    
    #填充test数据的Fare空字段        
    df.loc[(df['Fare'].isnull()),'Fare']=8
    
    df[ (df['Gender']==1) & (df['Pclass']==1) & (df['Age']>30) & (df['Age']<40)].groupby(by='Embarked').count() #s
    df.loc[df['Embarked'].isnull(),'Embarked']='S'
    
    #特征拆列
    #Age  0-13 13-37   >37 
    #Sibsp   0   1   2    >2
    #Parch   0   1   >=2
    #Embarked  S C Q
    #Gender   0  1 

    df['AgeJug'] = df['Age'].map(kj.judAge)
    df['SibSpJug'] = df['SibSp'].map(kj.judSibSp)
    df['ParchJug'] = df['Parch'].map(kj.judParch)
    df['FareJug'] = df['Fare'].map(kj.judFare)
    df['EmbarkedJug'] = df['Embarked'].map(kj.judEmbarked)

    dfall=df
    df=df.drop(['Age','SibSp','Parch','Fare','PassengerId','Embarked'],axis=1)
    if (trainOrNot):
        df['result']=df['Survived'].map({1:'live',0:'dead'})    
        datalist=df.values[:,1:].tolist()
    else:   
        datalist=df.values[:,:].tolist()
    labels   =[ 'Pclass','Embarked','Gender','AgeJug','SibSpJug','ParchJug','FareJug']
    return datalist, labels    

#样本训练主函数
def run():
    #训练阶段
    dat,lab=trainDataPrd(True)
    t=createTree(dat,lab)  # 出错点在于lab是引用拷贝的
    tp.createPlot(t)
    
    #训练结果测试阶段
    rows,cols=np.shape(dat)
    correctCount=0
    wrongCount=0
    for r in range(rows):
        vec=dat[r][:-1]
        result=dat[r][-1]
        predictResult=classify(t,lab,vec)
        if predictResult==result:
            correctCount+=1
        else:
            wrongCount+=1
    total=correctCount+wrongCount
    print correctCount/float(total)


#样本预测函数
def test():
    #训练阶段
    dat,lab=trainDataPrd(True)
    t=createTree(dat,lab)  # 出错点在于lab是引用拷贝的
    #tp.createPlot(t)
    
    #样本预测
    datTest,labTest=trainDataPrd(False)
    rows,cols=np.shape(datTest)

    predictList=[]
    for r in range(rows):
        vec=datTest[r][:]
        print vec
        liveordead=classify(t,labTest,vec)
        if liveordead=='live':            
            predictList.append(1)
        else:
            predictList.append(0)
            
    df=pd.read_csv('data/test.csv')
    series_passId=df['PassengerId']
    series_survived=pd.Series(predictList)
    r=pd.DataFrame()
    r['PassengerId']=series_passId
    r['Survived']=series_survived
    r.to_csv('titanitDecisionTree.csv',index=False)

3 问题收获

3.1 决策树本身的局限性

我们是依靠决策树进行预测，如果我们根据之前的数据构建的决策树比较健全，那么没问题，如果我们的数据较小，而我们数据的特征又较多的话，那么很有可能我们添加来的新数据，根据特征集进行划分走的分类路径是决策树里所没有的，这个时候预测就会出现问题了。因此在数据集较小的时候，使用的数据的维度特征也不能太多，同时每个特征的纵向划分也不能太多，总之当数据特征和数据集样本数不对称的时候就会出现上述问题。

3.2 特征选择和分类的重要性，

之前我想特征越多越好，但是越多就会出现过拟合的现象，kaggle的效果不好。用logistic训练的时候只有79，但是测试有75的正确了，现在用决策树过拟合的时候有89的训练正确率，但是实际测试正确率还是只有74-75左右。

其实即使我们不增加特征，合理的选择特征也会非常有效。之前我根据我自己想的对年龄按照0-15,15-40,40+进行划分，训练精度有85，在kaggle跑的精度只有73%，但是我后来又通过hist看了下年龄的分布情况，将它调整为0-16,16-24,24-32,32+的时候，训练精度上升到88。kaggle跑的时候在75.5左右。

另外，挖掘新特征也是很重要的，开始的时候我们觉得姓名没办法挖掘，扔掉了，但是有的人利用名字的常见性推测他是不是新移民，从而将其与存活率挂钩。因为那个时候不像现在第n代移民这样都会英语啊，新来美国移民英语一般不太好，在那个关键时刻有可能影响到他信息获取和逃生的。总之，关键的数据创建，较好的对数据的处理，都特别重要。

尽管还是很讽刺的是，决策树的精度还是赶不上单变量的精度。这其中大半是我的选择还是有些问题，但是在这个过程中还是增加了不少对于决策树的实践的理解。

3.3 python和数据处理

在使用python和pandas进行数据分析的时候，我觉得很好的一点是dataframe和numpy的结合，对于小粒度的数据操作和使用特别方便，如果需要大粒度的使用可以用mat。我个人觉得在算法的实现上，matlab也是不弱的，但是python数据整理方面的功能特别好用，数据清理转换等等操作非常方便，这个对好的数据分析来说特别重要。当然如果对性能有要求，肯定还是C++更好。

3.4 决策树的目标

在对连续变量转化为标注数据的时候，我在想用一个什么目标指导我的这项工作。是让每个子类分到的人数尽可能相等，还是这些子类的存活差异尽可能较大。

如果按照子类存活差异大这个情况分类，比如Fare票价里面，>23有95的存活率，而<23的只有62%的存活。但是如果按照将人群尽可能均匀分配的话，我觉得0-10,10-20,20+这种情况分割更好。

的确以存活为目标进行分类可能效果好，但是我是担心是不是这个已经添加了人的智能在里面，而不是机器学习了，人是不是某种程度上snoop了这个数据结果呢？

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

[kaggle竞赛实践2] Titanic幸存预测问题--ID3决策树解决方案

你可能感兴趣的:(机器学习,数据分析)