Sarah Huang

python实现分类决策树ID3和C4.5算法

ID3算法介绍

ID3算法全称为迭代二叉树3代算法（Iterative Dichotomiser 3）
该算法要先进行特征选择，再生成决策树，其中特征选择是基于“信息增益”最大的原则进行的。
但由于决策树完全基于训练集生成的，有可能对训练集过于“依赖”，即产生过拟合现象。因此在生成决策树后，需要对决策树进行剪枝。剪枝有两种形式，分别为前剪枝（Pre-Pruning）和后剪枝（Post-Pruning），一般采用后剪枝。

信息熵、条件熵和信息增益

信息熵：来自于香农定理，表示信息集合所含信息的平均不确定性。信息熵越大，表示不确定性越大，所含的信息量也就越大。
设 ${x_1, x_2, x_3, ...x_n}$ 为信息集合X的n个取值，则 $x_i$ 的概率： $P(X=i) = p_i, i=1,2,3,...,n$
信息集合X的信息熵为： $\sum_{i=1}^{n}{p_i}\log{p_i}$
条件熵：指已知某个随机变量的情况下，信息集合的信息熵。
设信息集合X中有 ${y_1, y_2, y_3, ...y_m}$ 组成的随机变量集合Y，则随机变量（X，Y）的联合概率分布为 $P(x=i,y=j) = p_{ij}$ 条件熵： $\sum_{j=1}^m{p(y_j)H(X|y_j)}$ 由 $H(X|y_j) = - \sum_{j=1}^m{p(y_j)}\sum_{i=1}^n{p(x_i|y_j)}\log{p(x_i|y_j)}$ 和贝叶斯公式： $p(x_iy_j) = p(x_i|y_j)p(y_j)$ 可以化简条件熵的计算公式为: $\sum_{j=1}^m \sum_{i=1}^n{p(x_i, y_j)\log\frac{p(x_i)}{p(x_i, y_j)}}$
信息增益：信息熵-条件熵，用于衡量在知道已知随机变量后，信息不确定性减小越大。
$d (X, Y) = H (X) - H (X ∣ Y)$

python代码实现

import numpy as np
import math

def calShannonEnt(dataSet):
    """ 计算信息熵 """
    labelCountDict = {}
    for d in dataSet:
        label = d[-1]
        if label not in labelCountDict.keys():
            labelCountDict[label] = 1
        else:
            labelCountDict[label] += 1
    entropy = 0.0
    for l, c in labelCountDict.items():
        p = 1.0 * c / len(dataSet)
        entropy -= p * math.log(p, 2)        
    return entropy
    
def filterSubDataSet(dataSet, colIndex, value):
    """返回colIndex特征列label等于value，并且过滤掉改特征列的数据集"""
    subDataSetList = []
    for r in dataSet:
        if r[colIndex] == value:
            newR = r[:colIndex]
            newR = np.append(newR, (r[colIndex + 1:]))
            subDataSetList.append(newR)
    return np.array(subDataSetList)

def chooseFeature(dataSet):
    """ 通过计算信息增益选择最合适的特征"""
    featureNum = dataSet.shape[1] - 1
    entropy = calShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeatureIndex = -1
    for i in range(featureNum):
        uniqueValues = np.unique(dataSet[:, i])
        condition_entropy = 0.0
        
        for v in uniqueValues:  #计算条件熵
            subDataSet = filterSubDataSet(dataSet, i, v)
            p = 1.0 * len(subDataSet) / len(dataSet)
            condition_entropy += p * calShannonEnt(subDataSet)
        infoGain = entropy - condition_entropy    #计算信息增益
        
        if infoGain >= bestInfoGain:    #选择最大信息增益
            bestInfoGain = infoGain
            bestFeatureIndex = i
    return bestFeatureIndex   

def creatDecisionTree(dataSet, featNames):
    """ 通过训练集生成决策树 """
    featureName = featNames[:]    # 拷贝featNames，此处不能直接用赋值操作，否则新变量会指向旧变量的地址
    classList = list(dataSet[:, -1])
    if len(set(classList)) == 1:    # 只有一个类别
        return classList[0]
    if dataSet.shape[1] == 1:    #当所有特征属性都利用完仍然无法判断样本属于哪一类，此时归为该数据集中数量最多的那一类
        return max(set(classList), key=classList.count)
    
    
    bestFeatureIndex = chooseFeature(dataSet)    #选择特征
    bestFeatureName = featNames[bestFeatureIndex]
    del featureName[bestFeatureIndex]        #移除已选特征列
    decisionTree = {bestFeatureName: {}}
    
    featureValueUnique = sorted(set(dataSet[:, bestFeatureIndex]))    #已选特征列所包含的类别， 通过递归生成决策树
    for v in featureValueUnique:
        copyFeatureName = featureName[:]
        subDataSet = filterSubDataSet(dataSet, bestFeatureIndex, v)
        decisionTree[bestFeatureName][v] = creatDecisionTree(subDataSet, copyFeatureName)
    return decisionTree
    
def classify(decisionTree, featnames, featList):
    """ 使用训练所得的决策树进行分类 """
    classLabel = None
    root = decisionTree.keys()[0]
    firstGenDict = decisionTree[root] 
    featIndex = featnames.index(root)
    for k in firstGenDict.keys():
        if featList[featIndex] == k:
            if isinstance(firstGenDict[k], dict):  #若子节点仍是树，则递归查找
                classLabel = classify(firstGenDict[k], featnames, featList)
            else:
                classLabel = firstGenDict[k]
    return classLabel

下面用鸢尾花数据集对该算法进行测试。由于ID3算法只能用于标称型数据，因此用在对连续型的数值数据上时，还需要对数据进行离散化，离散化的方法稍后说明，此处为了简化，先使用每一种特征所有连续性数值的中值作为分界点，小于中值的标记为1，大于中值的标记为0。训练1000次，统计准确率均值。

from sklearn import datasets
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
data = np.c_[iris.data, iris.target]

scoreL = []
for i in range(1000):  #对该过程进行10000次
    trainData, testData = train_test_split(data)  #区分测试集和训练集
    
    featNames = iris.feature_names[:]
    for i in range(trainData.shape[1] - 1):  #对训练集每个特征，以中值为分界点进行离散化
        splitPoint = np.mean(trainData[:, i])
        featNames[i] = featNames[i]+'<='+'{:.3f}'.format(splitPoint)
        trainData[:, i] = [1 if x <= splitPoint else 0  for x in trainData[:, i]] 
        testData[:, i] = [1 if x <= splitPoint else 0 for x in testData[:, i]]
    
    decisionTree = creatDecisionTree(trainData, featNames)
    classifyLable = [classify(decisionTree, featNames, td) for td in testData]
    scoreL.append(1.0 * sum(classifyLable == testData[:, -1]) / len(classifyLable))
print 'score: ', np.mean(scoreL)

输出结果为：score: 0.7335，即准确率有73%。每次训练和预测的准确率分布如下：

数据离散化

然而，在上例中对特征值离散化的划分点实际上过于“野蛮”，此处介绍一种通过信息增益最大的标准来对数据进行离散化。原理很简单，当信息增益最大时，说明用该点划分能最大程度降低数据集的不确定性。
具体步骤如下：

对每个特征所包含的数值型特征值排序
对相邻两个特征值取均值，这些均值就是待选的划分点
用每一个待选点把该特征的特征值划分成两类，小于该特征点置为1，大于该特征点置为0，计算此时的条件熵，并计算出信息增益
选择信息使信息增益最大的划分点进行特征离散化

实现代码如下：

def filterRawData(dataSet, colIndex, value, tag):
    """ 用于把每个特征的连续值按照区分点分成两类，加入tag参数，可用于标记筛选的是哪一部分数据"""
    filterDataList = []
    for r in dataSet:
        if (tag and r[colIndex] <= value) or ((not tag) and r[colIndex] > value):
            newR = r[:colIndex]
            newR = np.append(newR, (r[colIndex + 1:]))
            filterDataList.append(newR)
    return np.array(filterDataList)
            
def dataDiscretization(dataSet, featName):
    """ 对数据每个特征的数值型特征值进行离散化 """
    featureNum = dataSet.shape[1] - 1
    entropy = calShannonEnt(dataSet)

    for featIndex in range(featureNum):  #对于每一个特征
        uniqueValues = sorted(np.unique(dataSet[:, featIndex]))
        meanPoint = []

        for i in range(len(uniqueValues) - 1):  # 求出相邻两个值的平均值
            meanPoint.append(float(uniqueValues[i+1] + uniqueValues[i]) / 2.0)
        bestInfoGain = 0.0
        bestMeanPoint = -1
        for mp in meanPoint:     #对于每个划分点
            subEntropy = 0.0     #计算该划分点的信息熵
            for tag in range(2):  #分别划分为两类
                subDataSet = filterRawData(dataSet, featIndex, mp, tag)
                p = 1.0 * len(subDataSet) / len(dataSet)
                subEntropy += p * calShannonEnt(subDataSet)
     
            ## 计算信息增益
            infoGain = entropy - subEntropy
            ## 选择最大信息增益
            if infoGain >= bestInfoGain:
                bestInfoGain = infoGain
                bestMeanPoint = mp
        featName[featIndex] = featName[featIndex] + "<=" + "{:.3f}".format(bestMeanPoint)
        dataSet[:, featIndex] = [1 if x <= bestMeanPoint else 0 for x in dataSet[:, featIndex]]
    return dataSet, featName

重新对数据进行离散化，并重复该步骤1000次，同时用sklearn中的DecisionTreeClassifier对相同数据进行分类，分别统计平均准确率。运行代码如下:

from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
scoreL = []
scoreL_sk = []
for i in range(1000):  #对该过程进行1000次
    featNames = iris.feature_names[:]
    trainData, testData = train_test_split(data)  #区分测试集和训练集
    trainData_tmp = copy.copy(trainData)
    testData_tmp = copy.copy(testData)
    discritizationData,  discritizationFeatName= dataDiscretization(trainData, featNames) #根据信息增益离散化
    for i in range(testData.shape[1]-1):  #根据测试集的区分点离散化训练集
        splitPoint = float(discritizationFeatName[i].split('<=')[-1])
        testData[:, i] = [1 if x<=splitPoint else 0 for x in testData[:, i]]
    decisionTree = creatDecisionTree(trainData, featNames)
    classifyLable = [classify(decisionTree, featNames, td) for td in testData]
    scoreL.append(1.0 * sum(classifyLable == testData[:, -1]) / len(classifyLable))
    
    clf = DecisionTreeClassifier('entropy')
    clf.fit(trainData[:, :-1], trainData[:, -1])
    clf.predict(testData[:, :-1])
    scoreL_sk.append(clf.score(testData[:, :-1], testData[:, -1]))
    
print 'score: ', np.mean(scoreL)
print 'score-sk: ', np.mean(scoreL_sk)
fig = plt.figure(figsize=(10, 4))
plt.subplot(1,2,1)
pd.Series(scoreL).hist(grid=False, bins=10)
plt.subplot(1,2,2)
pd.Series(scoreL_sk).hist(grid=False, bins=10)
plt.show()

两者准确率分别为：
score: 0.7037894736842105
score-sk: 0.7044736842105263

准确率分布如下：

两者的结果非常一样。
（但是。。为什么根据信息熵离散化得到的准确率比直接用均值离散化的准确率还要低啊？？哇的哭出声。。）

最后一次决策树图形如下：

决策树剪枝

由于决策树是完全依照训练集生成的，有可能会有过拟合现象，因此一般会对生成的决策树进行剪枝。常用的是通过决策树损失函数剪枝，决策树损失函数表示为: $C_a(T) = \sum_{t=1}^TN_tH_t(T) +\alpha|T|$
其中， $H_t(T)$ 表示叶子节点t的熵值，T表示决策树的深度。前项 $\sum_{t=1}^TN_tH_t(T)$ 是决策树的经验损失函数当随着T的增加，该节点被不停的划分的时候，熵值可以达到最小，然而T的增加会使后项的值增大。决策树损失函数要做的就是在两者之间进行平衡，使得该值最小。
对于决策树损失函数的理解，如何理解决策树的损失函数? - 陶轻松的回答 - 知乎这个回答写得挺好，可以按照答主的思路理解一下

C4.5算法

ID3算法通过信息增益来进行特征选择会有一个比较明显的缺点：即在选择的过程中该算法会优先选择类别较多的属性（这些属性的不确定性小，条件熵小，因此信息增益会大），另外，ID3算法无法解决当每个特征属性中每个分类都只有一个样本的情况（此时每个属性的条件熵都为0）。
C4.5算法ID3算法的改进，它不是依据信息增益进行特征选择，而是依据信息增益率，它添加了特征分裂信息作为惩罚项。定义分裂信息： $=-\sum_i^n\frac{|X_i|}{|X|}\log\frac{|X_i|}{|X|}$ 则信息增益率为： $GainRatio(X,Y)=\frac{d(X,Y)}{SplitInfo(X, Y)}$

关于ID3和C4.5算法

在学习分类回归决策树算法时，看了不少的资料和博客。关于这两个算法，ID3算法是最早的分类算法，这个算法刚出生的时候其实带有很多缺陷：

无法处理连续性特征数据
特征选取会倾向于分类较多的特征
没有解决过拟合的问题
没有解决缺失值的问题

即该算法出生时是没有带有连续特征离散化、剪枝等步骤的。C4.5作为ID3的改进版本弥补列ID3算法不少的缺陷：

通过信息最大增益的标准离散化连续的特征数据
在选择特征是标准从“最大信息增益”改为“最大信息增益率”
通过加入正则项系数对决策树进行剪枝
对缺失值的处理体现在两个方面：特征选择和生成决策树。初始条件下对每个样本的权重置为1。
- 特征选择：在选取最优特征时，计算出每个特征的信息增益后，需要乘以一个**“非缺失值样本权重占总样本权重的比例”**作为系数来对比每个特征信息增益的大小
- 生成决策树：在生成决策树时，对于缺失的样本我们按照一定比例把它归属到每个特征值中，比例为该特征每一个特征值占非缺失数据的比重

关于C4.5和CART回归树

作为ID3的改进版本，C4.5克服了许多缺陷，但是它自身还是存在不少问题：

C4.5的熵运算中涉及了对数运算，在数据量大的时候效率非常低。
C4.5的剪枝过于简单
C4.5只能用于分类运算不能用于回归
当特征有多个特征值是C4.5生成多叉树会使树的深度加深

2020-03-01 老谢创业帮
连锁门店如何借助社区团购有效的利用现有资源？如今互联网上越来越多轻盈的线上营销小程序和门店都在不断获取着市场流量，如今的连锁门店该如何有效的结合我们现有的优势资源，开启社区团购的新型营销方案呢？在我们的生活当中有着许多连锁门店，这些连锁门店就是线下实体流量的对接入口，如今互联网上越来越多轻盈的线上营销小程序和门店都在不断获取着市场流量，如今的连锁门店该如何有效的结合我们现有的优势资源，开启社区团购
Dify接入微信 AI量化投资微信人工智能多智能体智能体语言模型
本文将指导您通过LangBot将Dify应用快速接入微信平台，实现在微信生态中部署智能聊天机器人。前提条件在开始之前，请确保您已完成以下准备工作：Dify应用准备：已在Dify平台（官网或私有部署）创建并发布一个应用（支持聊天助手、Agent或工作流类型）。获取应用的API密钥和API服务器地址（通常为https://api.dify.ai/v1，私有部署需确认具体地址）。LangBot环境：已安
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
什么是arm-arm体系架构版本(指令集版本)-arm内核版本众里寻佳千百度1995 嵌入式-linux
1、什么是arm？arm公司：是英国一家电子公司的名字，该公司成立于1990年11月，是苹果电脑，Acorn电脑集团和VLSITechnology的合资企业。Acorn曾在1985年推出世界上首个商用单芯片RISC（ReducedInstructionSetComputing）处理器。ARM主要出售芯片设计技术的授权。ARM处理器：英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
手机赚钱软件哪个可靠?怎么用手机赚零花钱? 好项目高省
目前市面上有很多手机赚钱软件，但并不都是可靠的。建议用户在下载和使用这些软件前，先做好以下几点：京东618红包领取方法：打开京东搜索：“最爱领红包828”或者“红包多多148”，即可进入领取超级红包淘宝618红包领取方法：打开淘宝搜索：“开心就好665”，即可进入领取超级红包1.了解软件的开发商和运营情况。选择知名开发商或公司推出的软件，避免因为开发商或公司的信誉问题而带来风险。2.查看软件的权限
杂谈冠子_2201
早晨浓云密布的天空一会儿淅淅沥沥下雨，一会儿喷薄而出太阳。间或太阳和雨交织，已经是芒种后的长沙仿佛夏天还没有真正来到。各大媒体对于今年数学高考的吐槽声仍此起彼伏，不绝于耳，一年一度的长沙中考大战已紧锣密鼓即将打响。这是一场涉及近40000个家庭、没有硝烟、却异常残酷的战争，包括语数英文理等学科等级达到6B以上的优胜者将步入梦想中的名校继续深造，淘汰者则不得不被迫无奈在以下项目中任选其一：上职业技校
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
面试实战，问题一，讲一下Springboot的作用
SpringBoot框架的主要作用和功能SpringBoot是由Pivotal团队开发的一个开源Java框架，旨在显著简化基于Spring框架的应用程序开发过程。它通过提供一系列自动化工具和约定，帮助开发者快速构建独立、生产就绪的应用程序。下面我将逐步介绍其主要作用和核心功能，确保回答清晰易懂。主要作用简化Spring应用程序开发：SpringBoot的核心目标是降低Spring框架的入门门槛和配
读书笔记||《焦虑者自救手册》（二）徐小胖杂谈
书名：《焦虑者自救手册》阅读进度：43-83页阅读时间：30分钟阅读思考问题：1、关于忧虑的5种积极信念2、列举一个你的忧虑案例，用以上的五种积极信念进行分析，看看你赞成哪种或者哪几种信念？3、对忧虑进行审判时，我们通常需要扮演哪三种角色？4、用你自己忧虑的一个例子，分别用辩方律师和公诉律师的角度，为它辩护，写下证词。5、最终经过以上辩护，你将得出怎样的判决？金句摘抄：1、如果你对某件事感到忧虑，
【软件测试】从软件测试到Bug评审：生命周期与管理技巧卜及中软件工程(测试)bug 测试工具软件工程
文章目录一、软件测试的生命周期软件生命周期软件测试生命周期各阶段内容二、Bugbug的概念bug要素bug级别1.按严重程度（Severity）分类2.按优先级（Priority）分类示例冲突场景bug的生命周期三、测试时与开发人员意见不统一Bug是否描述清楚？站在用户角度重新思考问题Bug定级要有依据Bug评审一、软件测试的生命周期软件生命周期我们知道：软件生命周期（SoftwareDevelo
【C++】深入理解C++迭代器：概念、分类与自定义实现
文章目录前言1.迭代器的概念2.迭代器的作用3.迭代器的分类3.1按功能分类3.2按能否修改数据分类4.迭代器的本质迭代器的内部实现5.如何为自定义容器编写迭代器5.1定义迭代器5.2使用自定义迭代器前言1.迭代器的概念在C++中，迭代器（iterator）可以看作是一种指向容器元素的对象，它提供了类似指针的接口来访问容器中的元素。通过迭代器，程序员能够在不关心容器内部实现的情况下，安全地遍历容器
平凉7家亲子鉴定中心地址大全更新（附鉴定机构名录/2024）中量国鉴科普
在平凉寻找正规的亲子鉴定机构是件重要的事情，因为只有这样的机构才能确保鉴定结果的准确性和法律有效性。可以咨询平凉中量国鉴亲子鉴定咨询中心，机构地址：平凉市内各个区县皆可咨询了解。亲子鉴定通常在专门的鉴定机构进行，而非医院。以下是选择正规亲子鉴定机构时应考虑的关键因素。平凉中量国鉴亲子鉴定咨询中心机构地址：平凉市内各个区县皆可咨询了解机构电话：400-(1369)-139亲子鉴定咨询中心业务范围：D
【AI Agent教程】【MetaGPT】案例拆解：使用MetaGPT实现“狼人杀“游戏（2）- 整体流程解析中再看多智能体消息交互通路同学小张大模型游戏笔记人工智能 AIGC MetaGPT AI Agent 多智能体
大家好，我是同学小张，持续学习C++进阶知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。本文来学习一下MetaGPT的一个实战案例-狼人杀游戏，该案例源码已经在MetaGPTGitHub开源代码中可以看到。上次我们拆解了该游戏的整体实现框架（【AIAgent教程】【MetaGPT】案例拆解：使用MetaGPT实现“狼人杀“游戏（1）-整体框架解析），本文我们从运行流程的
Python 解析 PDF 文件的基础方法电脑维修员xy python pdf 前端
```htmlPython解析PDF文件的基础方法Python解析PDF文件的基础方法在现代数据处理和信息提取任务中，PDF文件是一种常见的文档格式。然而，PDF文件的结构复杂且难以直接解析，尤其是当需要从中提取文本或数据时。幸运的是，Python提供了多种强大的库来帮助我们轻松地解析PDF文件。1.PyPDF2库PyPDF2是一个功能强大的Python库，用于处理PDF文件。它可以读取、分割、合
消息队列MQ 不辉放弃 kafka 大数据开发数据库
消息队列（MessageQueue，简称MQ）是一种基于异步通信模式的中间件技术，核心作用是在分布式系统中实现消息的存储、传递和缓冲，解决不同组件/服务之间的通信耦合问题，提升系统的灵活性、可靠性和可扩展性。一、核心概念与本质消息队列的本质是一个“存储消息的容器”，但它并非简单的存储工具，而是通过一套规则（如消息路由、持久化、确认机制等）实现“生产者”和“消费者”的解耦通信：生产者（Produce
2022-08-30 春暖花又开
️每日精进：无趣的人，见识贫乏，认死理，言辞单调，思维固化，缺乏好奇心！有趣的人思维丰富，对世界充满好奇和探索，有见识，有观点，能反思！所谓的有趣/无趣，其实就是展现出来的不同的生命状态。️今日感悟：很喜欢的一段话：“先努力优秀，再大方拥有！所谓生活———有所为，有所爱，有所期待！”️明日提升：把艰辛的劳作看作是生命的必然，即使没有收获的希望也心平气和的继续。
面试挂在阿里，庆幸拿到网易offer，一位三年Java岗面试总，细节如下小迁不秃头
前言15年毕业到现在有三年多了，最近去面试了阿里集团（菜鸟网络，蚂蚁金服），网易，滴滴，点我达，最终收到点我达，网易offer，蚂蚁金服二面挂掉，菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要特别感谢点我达的领导及HR，真的非常非常好，很感谢他们一直的关照和指导。面试整体事项1.简历要准备好，联系方式一定要正确清晰醒目，项目经历按照时间倒序阐述，注意描述自己在项目中承担的职责，简历的模板
socket网络通信TCP与UDP原理及代码实现（c++、python）
目录Socket原理通信协议原理TCPUDP代码实现TCPC++pythonUDPC++pythonSocket原理Socket（套接字）是计算机网络中用于实现进程间通信的一种机制，特别是在不同主机之间通过网络进行数据传输时。它是网络编程的核心概念之一，为应用程序提供了统一的接口，使得开发者可以通过网络发送和接收数据。可以将Socket类比为电话系统中的“电话机”。两台设备通过Socket建立连接
开源的大语言模型（LLM）应用开发平台Dify
概述Dify是一个开源的大语言模型（LLM）应用开发平台，结合了后端即服务（Backend-as-a-Service）和LLMOps的理念，旨在帮助开发者快速构建生产级的生成式AI应用。它通过直观的界面、强大的功能和灵活的部署方式，降低了AI应用开发的门槛，即使是非技术人员也能参与应用的定义和数据运营。本文档将指导您了解Dify的核心功能、安装部署、应用创建及常见使用场景。Dify简介Dify（D
三个人的友情，我选择退出蓝空的空
这是我在微博上看到的，三个女孩的故事：女孩A挽着女孩B的胳膊和女孩B说着手机里的内容，而女孩C在旁边显得很多余。女孩A突然看见前面很热闹，二话不说就拉着女孩B跑过去，而第三个女孩看着她们跑过去的背影，默默转身，离开。看着很简单的动作，却挑明了一个很简单的事实：三个人的友情，我只能退出。小学时，我，潇潇，桂桂是能玩到一起的朋友。无论做什么事，都会在一起。初中时，我们还是在一所学校，因为学校离家远，所
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
如何高效Bug跟踪与管理方法海姐软件测试缺陷管理 bug
在软件测试过程中，Bug的跟踪与管理直接影响项目质量和团队协作效率。结合多年测试经验，我总结了一套完整的Bug管理流程，涵盖工具使用、团队协作和优化策略。1.Bug管理核心流程（1）Bug提交阶段标准化缺陷报告（参考我上一篇回答：缺陷报告应包含哪些内容？）工具选择：Jira（适合敏捷团队，支持自定义工作流）禅道（国产开源，适合中小团队）Bugzilla（传统但稳定，适合C/S架构项目）（2）Bug
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
画一本书《学会提问》(第四章之3)检查和判定歧义福二姨
做这个练习的时候，你要不断地追问作者这么说是什么意思？尤其是抽象词语的使用。通常，广告词就喜欢使用这种意思模棱两可的词语，希望通过歧义词来说服你相信他们的产品比所有竞争对手的产品都要棒。在推理过程中出现的意思不明确的词最为关键，我们要避免总是认为自己想的和作者表达的就是一个意思，也不能认为术语只存在一个明显的定义。
网剧《夜空中最闪亮的星》大结局了骁骁木鱼
终于看完了这部剧，还是和从前一样，想到之后又少了一部剧可以追就不爽，而且结局虽然是happyend，但是总是伴随着淡淡的忧伤在其中。图片发自App看这部剧我最大的改变大概就是对黄子韬路转粉了，全程开着弹幕看剧，一直有人说剧里的男主郑柏旭，就是现实世界里的黄子韬，如果是的话，我想我是粉没错了，因为我粉上了剧里的男主郑柏旭，在他努力坚持自己梦想的时候，在他努力做音乐的时候，在他和爸爸说我不会和你吵架的
2025乐彩V8影视系统技术解析：双端原生架构与双H5免签封装实战双端原生+双H5免签封装+TV级性能优化，一套代码打通全终端生态 CH资源网ch-h点cn（测评师）架构性能优化
1.双端原生实现方案Android端：基于Kotlin+JetpackCompose架构，深度优化ExoPlayer内核，支持4KHDR硬解与DRM加密流iOS端：Swift+SwiftUI构建，集成AVFoundation定制播放器，实现画中画与杜比全景声支持TV专属优化：针对AndroidTV和AppleTV分别实现焦点引擎和遥控器键位映射452.双H5站免签封装方案系统创新性地实现双H5站点
高仿maxmara羊绒大衣什么价格？高端顶级奢侈品
高仿maxmara羊绒大衣什么价格？MaxMara是意大利风格的象征标志，其成衣系列独具高级定制女装的剪裁设计、奢华材质以及精致细节，彰显了这一品牌系列的优雅自信与现代品味。MaxMara由极富远见的AchilleMaramotti创立于1951年，以其时尚的外套、简约的单品、干练的西装和优雅的配饰而闻名。MaxMara系列如今远销90多个国家和地区，共有2254个销售网点，而且是MaxMara集
完结小说推荐被家长群全员围攻后，我杀疯了沈董周昊_被家长群全员围攻后，我杀疯了沈董周昊免费阅读无弹窗小文文斋
小说：《被家长群全员围攻后，我杀疯了》主角：沈董周昊简介：幼儿园家长群里，班主任发了张图片，并艾特我：“沈诗宁妈妈，诗宁在教室被其他小朋友打了，您快来学校一趟！”我点开图片一看，女儿被打得鼻青脸肿，衣服上还残留血迹。我气急回道：“谁打的？”一位备注为周子轩妈妈的人嚣张回复：“是我叫我儿子打的！”说完，她又发出两张图片。一张是她和我老公的婚纱照。一张是我和女儿，以及我老公的三人合照。“你个贱小三，敢
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情