supercolar

机器学习：决策树-基础算法，剪枝，连续值缺失值处理，多变量决策树（附代码实现）

基础算法

举个栗子：

当一个有经验的老农看一个瓜是不是好瓜时，他可能会先看下瓜的颜色，一看是青绿的，心想有可能是好瓜！接着他又看了下根蒂，发现是蜷缩着的，老农微微点头，寻思着五成以上是好挂瓜！最后他又敲了下瓜，一听发出浑浊的响声，高兴的叫到：这瓜是个好瓜啊！这就是老农做出决策的大致过程。

决策树算法基本就是偷学老农的决策过程，如下图

代码的形式表示：

划分属性选择

上图算法最重要的一行就是第8行：从A中选择最优的划分属性a*。

一般希望决策树层数越少，分支越少，尽快的做出决策，这就要求结点包含的样本尽可能属于同一类，即结点“纯度”尽量高。

这也符合老农挑瓜的经验：

当老农看了下瓜的根蒂，发现根蒂是蜷缩的，老农回想了下过往他看过的成千上万的瓜，记得根蒂只要是蜷缩的瓜都是好瓜（结点“纯度”很高，所有样本属于同一个分类），他不需要再听瓜的声音，就可以直接做出判断：哈哈，这是个好瓜啊！相反，如果老农回想了过往的那些瓜，发现根蒂是蜷缩的瓜既有好瓜也有坏瓜（结点“纯度”较低，样本属于两个分类），那他肯能就需要再敲下瓜，听听瓜的声音再做出的判断。

最优划分的选择一般有“信息增益”和“基尼指数”等指标。

信息增益（C4.5决策树）

信息熵：度量样本集合的纯度。假定样本集合D中第k类样本所占比例为pk(k=1,2,...,|y|)，则D的信息熵为：

信息熵越小，则D的纯度越高。

信息增益：假定离散属性a有V个属性值{a1,a2,...,aV}，若用a对样本划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a上取值为aV的样本，记为Dv。则可以计算出Dv的信息熵，并赋予权重|Dv|/|D|，则可计算出用属性a对样本D进行划分的信息增益：

信息增益越大，纯度提升越大。所以这样来选择最优属性：a* = arg max Gain(D,a)(使信息增益最大的属性a)。

增益率：

著名的C4.5决策树算法没有直接使用信息增益，而是使用的增益率。因为信息增益准则对可取数目较多的属性有所偏好，而这种偏好可能带来不利影响。可以想像，在极端情况下，如果一个数据集D有100个样本，在某属性上有100个不同取值，则该属性上全部信息熵之和为0，即信息增益为最大值Ent(D)，显然决策树会对该属性有所偏好。

需要注意的是，增益率对属性数目较少的属性有所偏好，所以C4.5算法也没有直接使用增益率，而是先从属性中找到信息增益高于平均水平的属性，再从中选择增益率最高的。

基尼指数（CART决策树）

基尼值：

基尼值越小，数据集D的纯度越高。

基尼指数：

选择基尼指数最小的属性作为最优划分属性，即a* = arg min Gini_index(D,a).

剪枝处理——避免过拟合

剪枝是为了解决决策树“过拟合”的手段，当一颗决策树分支、层数过多，就容易出现”过拟合“，导致决策树泛化性能不好。剪枝分为“预剪枝”和“后剪枝”。

预剪枝：在决策树生成过程中，在每个结点划分前先估计，若当前结点的划分不能带来泛化性能的提升，就停止划分，把当前结点标记为叶结点。

后剪枝：先生成完整的决策树，之后再自底向上对非叶结点考察，若该结点对应的子树替换为叶结点能提升泛化性能，则将其替换为叶结点。

预剪枝处理方式如下图。假如基于信息增益的准则，我们首先选择了“脐部”作为划分准则。在划分前，所有样本都在根结点1。若不进行划分，则将该结点标记为叶结点，类别为训练集中样本最多的类别，假设是“好瓜”。再用验证集去评估这个单结点决策树，假设正确率为42.9%。接着，我们对“脐部”进行划分,得到结点2，3，4，假设分别对应“好瓜”，“好瓜”，“坏瓜”。再用验证集去评估新的决策树，假设得到正确率71.4%>42.9%，则用“脐部”进行划分得以确定。重复以上步骤生成最终的决策树。

预剪枝优缺点：降低“过拟合”风险，减少时间开销。但是，有些分支当前划分虽不能提升泛化性能，但在其基础上进行的后续划分可能导致性能显著提升，所以可能会带来“欠拟合”的风险。（有点像梯度下降，追求每一步的最快下降，只顾眼前，但可能只能达到局部最优）。

后剪枝过程如下面两图所示。首先生成第一幅图完整的决策树，假设根据验证集得到其正确率为42.9%。接着考察最底下的结点6，若将器分支剪除，相当于把6替换为叶结点，假设其类别为“好瓜”，再用验证集评估新的决策树，假设准确率为57.1%，则后剪枝策略决定剪枝。再考察结点5，以此类推，得到最终的决策树。

后剪枝优缺点：一般情况下，“欠拟合”风险很小，泛化性能往往优于预剪枝。但是时间开销比预剪枝大得多。

连续值处理

对于连续属性（如密度，面积，价格等），其属性值数目无限，不能直接根据连续属性的可取值进行划分。

最简单的策略是“二分法”（C4.5采用）:假定样本集D和连续属性a，a在D上有n个不同取值，将这些取值从下到大排列，记为{a1,a2,...,an}，选择划分点t可将D划分为D-和D+，D-包含取值不大于t的样本，D+包含取值大于t的样本，可以得到n-1个候选划分点：Ta={[a(i)+a(i+1)]/2|1<=i<=n-1}，将信息增益改造成如下公式：

选择使Gain(D,a,t)最大化的划分点t。可以得到如下图所示的决策树：

注：与离散属性不同，若当前节点划分属性为连续值，该属性还可作为后代结点的划分属性（如此处使用了密度<=0.381，不会禁止在子结点使用如密度<=0.294）。

缺失值处理

经常会碰到数据集中某些数据的属性值未知，这时候就要解决两个问题：1、怎么选择划分属性？2、划分属性确定后，怎么把该属性未知的数据划分到结点？

假定D'表示D中在属性a上没有缺失值的样本子集。对于第一个问题，我们只能根据D'来判断属性的优劣。假定属性a有V个可取值，D'v表示D'中在属性a上取值为aVd 样本子集，D'k表示D'中第k（k=1,2,...,|y|）类的样本子集，我们为每个样本赋予一个权重wx。定义以下变量：

并且把信息增益公式推广为如下形式：

其中：

对于第二个问题，若样本在划分属性a上取值已知，就把样本划分到对应的子结点，并且权重保持wx不变。若样本在属性a上取值未知，则把它划分到所有的子结点，并且权重在子结点调整为r'v*wx（r'v指的是图中r波浪v下标），同一个样本以不同的概率划入不同的结点。

多变量决策树（斜决策树）

决策树形成的分类边界有一个明星的特点：轴平行。如下面这颗决策树：它形成的分类边界如下图所示：

当分类边界比较复杂时，要有很多段的划分才能得到近似，所形成的决策树就会很复杂。

多变量决策树是为了实现“斜划分”，减少划分段数。它不以单个属性进行划分，而是每个分类结点是一个形如（w1*a1+w2*a2+...+wd*ad）= t的一个线性分类器，wd是属性ad的权重，w和t在该结点所含样本集和属性集学得。所以多变量分类器就变成为每个结点寻找合适的线性分类器。

多变量分类器所形成的决策树如下图：其对应的分类边界：

生成决策树matlab代码（包括连续值的“二分法”处理）：

注：代码里的attrs是这样一个事先处理好的一个结构：

color = struct('attr_k',1,'attr_type',0,'values',{[1,0,0],[0,1,0],[0,0,1]});
rootbase = struct('attr_k',2,'attr_type',0,'values',{[1,0,0],[0,1,0],[0,0,1]});
voice = struct('attr_k',3,'attr_type',0,'values',{[1,0,0],[0,1,0],[0,0,1]});
texture = struct('attr_k',4,'attr_type',0,'values',{[1,0,0],[0,1,0],[0,0,1]});
umbilicus = struct('attr_k',5,'attr_type',0,'values',{[1,0,0],[0,1,0],[0,0,1]});
touch = struct('attr_k',6,'attr_type',0,'values',{[1,0],[0,1]});
density = struct('attr_k',7,'attr_type',2,'values','');
sugar = struct('attr_k',8,'attr_type',2,'values','');
attrs = {color,rootbase,voice,texture,umbilicus,touch,density,sugar};

轻微吐槽：matlab的struct结构好怪异，对matlab不熟，写的挺纠结，不知道大神们有什么建议。

代码开始：

function [tree] = maketreeFunc(x,y,attrs)
%生成结点
tree = struct('parent_attr_val',struct('symbol','','value',''),'div_attr',struct('attr_k','','attr_type',0),'cate','no','child',cell(1));
node = tree;
%属于同一分类，生成叶结点
if isequal(y,ones(length(y),1)*y(1)),
  %叶结点
  tree.cate = y(1);
  return;
endif;
%判断所有属性是否都相同
is_attr_same = 1;
if length(attrs)>0,
  for i=1:length(attrs),
    for j=2:length(y),
      if ~isequal(x{1,attrs{i}(1).attr_k},x{j,attrs{i}(1).attr_k}),
        is_attr_same = 0;
        break;
      endif;
    endfor;
    if is_attr_same==0,
      break;
    endif;
  endfor;
endif;
%属性集为空或所有属性值都相同，生成叶结点
if length(attrs)==0||is_attr_same,
  %找到类别比重最多的一类作为叶结点
  t = tabulate(y+1);
  max_percent = max(t(:,3));
  [row,col] = find(t == max_percent,1);
  most_y = t(row,1)-1;
  %叶结点
  tree.cate = most_y;
  return;
endif;
%信息熵
info_entropy = infoentropyFunc(y);
%不同属性的信息增益矩阵
info_gain = [];
%确定划分属性
for i=1:length(attrs),
  attr_col = x(:,attrs{i}(1).attr_k);
  y_cate = {};
  L = 1;
  %连续属性二分法处理
  if attrs{i}(1).attr_type == 2,
    attr_col_mat = cell2mat(attr_col);
    %升序
    attr_col_mat = sort(attr_col_mat,'ascend');
    %划分点集合
    bi_part = [];
    for j=1:(length(attr_col_mat)-1),
      bi_part(j) = (attr_col_mat(j)+attr_col_mat(j+1))/2;
    endfor;
    %不同划分点信息增益矩阵
    bi_gain = [];
    for j=1:length(bi_part),
      left_cate_y = [];
      right_cate_y = [];
      for k=1:length(attr_col),
        if attr_col{k}<=bi_part(j),
          left_cate_y = [left_cate_y;y(k)];
        else
          right_cate_y = [right_cate_y;y(k)];
        endif;
      endfor;
      
      attr_entropy = 0;
      attr_entropy += (length(left_cate_y)/length(y))*infoentropyFunc(left_cate_y);
      attr_entropy += (length(right_cate_y)/length(y))*infoentropyFunc(right_cate_y);
      
      bi_gain(j) = info_entropy - attr_entropy;
    endfor;
    %划分点中信息增益最大的划分点作为该属性的最终信息增益
    max_bi_pos = find(bi_gain==max(bi_gain),1);
    info_gain(1,i) = max(bi_gain);
    info_gain(2,i) = bi_part(max_bi_pos);
  else%非连续属性
    for j=1:length(attrs{i}),
      one_cate_y = [];
      for k=1:length(attr_col),
        if attrs{i}(j).values==attr_col{k},
          one_cate_y = [one_cate_y;y(k)];
        endif;
      endfor;
      if length(one_cate_y)>0,
        y_cate(L) = one_cate_y;
        L = L+1;
      endif;
    endfor;
    
    attr_entropy = 0;
    for m=1:length(y_cate),
      attr_entropy += (length(y_cate{m})/length(y))*infoentropyFunc(y_cate{m});
    endfor;
    
    info_gain(1,i) = info_entropy - attr_entropy;
  endif;
  
  %info_gain(i) = struct('gain',info_entropy - attr_entropy,'attr',attrs(i));
endfor;
%取最大的信息增益属性
pos = find(info_gain(1,:)==max(info_gain(1,:)),1);
%记录划分属性
tree.div_attr.attr_k = attrs{pos}(1).attr_k;
tree.div_attr.attr_type = attrs{pos}(1).attr_type;
%生成分支
if attrs{pos}(1).attr_type==2,%连续属性
  %二分法生成的划分点
  part_num = info_gain(2,pos);
  %生成大于和小于划分点的两个分支
  for i=1:2,
    x_part = {};
    y_part = [];
    k = 1;
    for j=1:length(x(:,attrs{pos}(1).attr_k)),
      %小于part_num的部分
      if i==1,
        if x(:,attrs{pos}(1).attr_k){j}<=part_num,
          x_part(k,:) = x(j,:);
          y_part(k,1) = y(j);
          k = k + 1;
        endif;
      else%大于part_num的部分
        if x(:,attrs{pos}(1).attr_k){j}>part_num,
          x_part(k,:) = x(j,:);
          y_part(k,1) = y(j);
          k = k + 1;
        endif;
      endif;
    endfor;
    %连续属性子结点可以继续划分，无需清除该属性
    %child_attrs = attrs;
    %child_attrs(pos) = [];
    [child_tree] = maketreeFunc(x_part,y_part,attrs);
    if i==1,
      child_tree.parent_attr_val.symbol = '<';
    else
      child_tree.parent_attr_val.symbol = '>';
    endif;
    child_tree.parent_attr_val.value = part_num;
    len = length(tree.child);
    tree.child(len+1) = child_tree;
  endfor;
else%非连续属性
  %不同属性值生成分支
  for i=1:length(attrs{pos}),
    flag = 0;
    x_part = {};
    y_part = [];
    k = 1;
    %一个分支的x,y数据集
    for j=1:length(x(:,attrs{pos}(1).attr_k)),
      if isequal(attrs{pos}(i).values,x(:,attrs{pos}(1).attr_k){j}),
        flag = 1;
        x_part(k,:) = x(j,:);
        y_part(k,1) = y(j);
        k = k + 1;
      endif;
    endfor;
    %分支数据为空，生成叶结点
    if flag==0,
      %找到类别比例最多的类别
      t = tabulate(y+1);
      max_percent = max(t(:,3));
      [row,col] = find(t == max_percent,1);
      most_y = t(row,1)-1;
      %生成叶结点
      node.cate = most_y;
      node.parent_attr_val.value = attrs{pos}(i).values;
      len = length(tree.child);
      tree.child(len+1) = node;
      return;
    endif;
    child_attrs = attrs;
    %子结点中删除当前用于划分的属性
    child_attrs(pos) = [];
    %生成子结点
    [child_tree] = maketreeFunc(x_part,y_part,child_attrs);
    child_tree.parent_attr_val.value = attrs{pos}(i).values;
    len = length(tree.child);
    tree.child(len+1) = child_tree;
  endfor;
endif;

机器学习：决策树-基础算法，剪枝，连续值缺失值处理，多变量决策树（附代码实现）_第20张图片

微信交流

机器学习：决策树-基础算法，剪枝，连续值缺失值处理，多变量决策树（附代码实现）_第21张图片

多谢打赏

参考资料：周志华《机器学习》

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
docker安装node部分问题自律的蜗牛 docker 容器 node.js
sudonlatestsudo:n:commandnotfound如果运行sudonlatest时出现：sudo:n:commandnotfound说明n版本管理工具未安装或未添加到PATH环境变量。解决方案1️⃣先检查n是否已安装运行：whichn或者：command-vn如果有输出/usr/local/bin/n，说明n已安装，但可能需要sudo访问。如果没有任何输出，说明n没有安装，跳到方法
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
Mac自定义右键功能东东旭huster macos
mac右键相对于Windows来说功能少很多，市场里也有一些好用的拓展软件，比如赤友，但是用一段时间又要收费了，作为一个白嫖党当然是自己做了。打开自动操作这个应用选择快速操作打开，再从实用工具中选择运行shell脚本这里我们添加一个用vscode打开的功能有几个点需要注意下1、工作流程选择文件或文件夹2、位于访达3、传递输入选择作为自变量编辑好后可以点运行试下，没问题command+S保存一下。在
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
初始化列表与类型转换（C++） 2401_89195731 c++开发语言
初始化列表和构造函数体在C++中都是用于给类的成员变量赋初值区别：初始化列表是给每个成员变量定义初始化的地方，即使有成员变量没有给它显式在初始化列表初始化，它也会走初始化列表初始化时机初始化列表：在对象创建时，成员变量通过初始化列表被直接初始化，这发生在构造函数体执行之前。构造函数体内赋值：成员变量首先被默认初始化，然后在构造函数体内通过赋值语句进行赋值。性能差异初始化列表：通常更高效，因为它避免
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

机器学习：决策树-基础算法，剪枝，连续值缺失值处理，多变量决策树（附代码实现）

你可能感兴趣的:(机器学习,决策树,剪枝算法,C4.5算法,CART算法,多变量决策树)