艾学习

组队学习：基于决策树的分类预测

https://www.cnblogs.com/pinard/p/6050306.html

1.决策树ID3，C4. 5，CART的区别
2.掌握Bagging 和Boosting
3.掌握随机森林，XGBoost原理
4.随机森林，XGB，LGB的各自区别（面试常问）
5.GBDT和XGB的区别

流程

输入：训练集D={($x_1$,$y_1$),($x_2$,$y_2$),....,($x_m$,$y_m$)};
特征集A={$a_1$,$a_2$,....,$a_d$}

输出：以node为根节点的一颗决策树

过程：函数TreeGenerate($D$,$A$)
1. 生成节点node
2. $if$ $D$中样本全书属于同一类别$C$ $then$:
3. ----将node标记为$C$类叶节点；$return$
4. $if$ $A$ = 空集 OR D中样本在$A$上的取值相同 $then$:
5. ----将node标记为叶节点，其类别标记为$D$中样本数最多的类；$return$
6. 从 $A$ 中选择最优划分属性 $a_*$;
7. $for$ $a_*$ 的每一个值 $a_*^v$ $do$:
8. ----为node生成一个分支，令$D_v$表示$D$中在$a_*$上取值为$a_*^v$的样本子集；
9. ----$if$ $D_v$ 为空 $then$:
10. --------将分支节点标记为叶节点，其类别标记为$D$中样本最多的类;$then$
11. ----$else$:
12. --------以 TreeGenerate($D_v$,$A$\{$a_*$})为分支节点

决策树的构建过程是一个递归过程。函数存在三种返回状态：（1）当前节点包含的样本全部属于同一类别，无需继续划分；（2）当前属性集为空或者所有样本在某个属性上的取值相同，无法继续划分；（3）当前节点包含的样本集合为空，无法划分。

划分选择

从上述伪代码中我们发现，决策树的关键在于line6.从A中选择最优划分属性∗∗，一般我们希望决策树每次划分节点中包含的样本尽量属于同一类别，也就是节点的“纯度”更高。

2.4.2.1 信息增益

信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高

其中pk代表了第k类样本在D中占有的比例。

假设离散属性a有V个可能的取值{1a1,2a2,....,aV}，若使用a对数据集D进行划分，则产生D个分支节点，记为Dv。则使用a对数据集进行划分所带来的信息增益被定义为：

一般的信息增益越大，则意味着使用特征a来进行划分的效果越好。

2.4.2.2 基尼指数

基尼指数反映了从数据集D中随机抽取两个的类别标记不一致的概率。

使用特征a对数据集D划分的基尼指数定义为上。

重要参数

2.4.3.1 criterion

Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择：

输入”entropy“，使用信息熵（Entropy）
输入”gini“，使用基尼系数（Gini Impurity）

2.4.3.2 random_state & splitter

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

2.4.3.3 max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。

2.4.3.4 min_samples_leaf

min_samples_leaf 限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。

1.决策树的介绍

决策树是一种常见的分类模型，在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先看男方是否有房产，如果有房产再看是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。

决策树的主要优点：

具有很好的解释性，模型可以生成可以理解的规则。
可以发现特征的重要程度。
模型的计算复杂度较低。

决策树的主要缺点：

模型容易过拟合，需要采用减枝技术处理。
不能很好利用连续型特征。
预测能力有限，无法达到其他强监督模型效果。
方差较高，数据分布的轻微改变很容易造成树结构完全不同。

2.决策树的应用

由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法，使得它成为集成学习中最为广泛使用的基模型。梯度提升树(GBDT)，XGBoost以及LightGBM等先进的集成模型都采用了决策树作为基模型，在广告计算、CTR预估、金融风控等领域大放异彩，成为当今与神经网络相提并论的复杂模型，更是数据挖掘比赛中的常客。在新的研究中，南京大学周志华老师提出一种多粒度级联森林模型，创造了一种全新的基于决策树的深度集成方法，为我们提供了决策树发展的另一种可能。

同时决策树在一些需要明确可解释甚至提取分类规则的场景中被广泛应用，而其他机器学习模型在这一点很难做到。例如在医疗辅助系统中，为了方便专业人员发现错误，常常将决策树算法用于辅助病症检测。例如在一个预测哮喘患者的模型中，医生发现测试的许多高级模型的效果非常差。所以他们在数据上运行了一个决策树的模型，发现算法认为剧烈咳嗽的病人患哮喘的风险很小。但医生非常清楚剧烈咳嗽一般都会被立刻检查治疗，这意味着患有剧烈咳嗽的哮喘病人都会马上得到收治。用于建模的数据认为这类病人风险很小，是因为所有这类病人都得到了及时治疗，所以极少有人在此之后患病或死亡。

Part1 Demo实践

Step1:库函数导入

##  基础函数库
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入决策树模型函数
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

Step2:模型训练

##Demo演示LogisticRegression分类

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 1, 0, 1, 0, 1])

## 调用决策树回归模型
tree_clf = DecisionTreeClassifier()

## 调用决策树模型拟合构造的数据集
tree_clf = tree_clf.fit(x_fearures, y_label)

Step3:数据和模型可视化

## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()

## 可视化决策树
import graphviz
dot_data = tree.export_graphviz(tree_clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("pengunis")

Step4:模型预测

## 创建新样本
x_fearures_new1 = np.array([[0, -1]])
x_fearures_new2 = np.array([[2, 1]])

## 在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = tree_clf.predict(x_fearures_new1)
y_label_new2_predict = tree_clf.predict(x_fearures_new2)

print('The New point 1 predict class:\n',y_label_new1_predict)
print('The New point 2 predict class:\n',y_label_new2_predict)

Part2 数据分析

2.3.2 基于企鹅数据集的决策树实战

本次我们选择企鹅数据（palmerpenguins）进行方法的尝试训练，该数据集一共包含8个变量，其中7个特征变量，1个目标分类变量。共有150个样本，目标变量为企鹅的类别其都属于企鹅类的三个亚属，分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七个特征，分别是所在岛屿，嘴巴长度，嘴巴深度，脚蹼长度，身体体积，性别以及年龄。

Step1:库函数导入

#下载需要用到的数据集
!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

Step2:数据读取/载入

## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('./penguins_raw.csv')


## 为了方便我们仅选取四个简单的特征，有兴趣的同学可以研究下其他特征的含义以及使用方法
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

Step3:数据信息简单查看

## 利用.info()查看数据的整体信息
data.info()
data.head()
data = data.fillna(-1)
data.tail()

## 其对应的类别标签为'Adelie Penguin', 'Gentoo penguin', 'Chinstrap penguin'三种不同企鹅的类别。
data['Species'].unique()

## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()

## 对于特征进行一些统计描述
data.describe()

Step4:可视化描述

## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()

从上图可以发现，在2D情况下不同的特征组合对于不同类别的企鹅的散点分布，以及大概的区分能力。Culmen Lenth与其他特征的组合散点的重合较少，所以对于数据集的划分能力最好。

'''为了方便我们将标签转化为数字
       'Adelie Penguin (Pygoscelis adeliae)'        ------0
       'Gentoo penguin (Pygoscelis papua)'          ------1
       'Chinstrap penguin (Pygoscelis antarctica)   ------2 '''

def trans(x):
    if x == data['Species'].unique()[0]:
        return 0
    if x == data['Species'].unique()[1]:
        return 1
    if x == data['Species'].unique()[2]:
        return 2

data['Species'] = data['Species'].apply(trans)

for col in data.columns:
    if col != 'Species':
        sns.boxplot(x='Species', y=col, saturation=0.5, palette='pastel', data=data)
        plt.title(col)
        plt.show()

# 选取其前三个特征绘制三维散点图
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10,8))
ax = fig.add_subplot(111, projection='3d')

data_class0 = data[data['Species']==0].values
data_class1 = data[data['Species']==1].values
data_class2 = data[data['Species']==2].values
# 'setosa'(0), 'versicolor'(1), 'virginica'(2)
ax.scatter(data_class0[:,0], data_class0[:,1], data_class0[:,2],label=data['Species'].unique()[0])
ax.scatter(data_class1[:,0], data_class1[:,1], data_class1[:,2],label=data['Species'].unique()[1])
ax.scatter(data_class2[:,0], data_class2[:,1], data_class2[:,2],label=data['Species'].unique()[2])
plt.legend()

plt.show()

Part3 建模预测

Step1:利用决策树模型在二分类上进行训练和预测

## 为了正确评估模型性能，将数据划分为训练集和测试集，并在训练集上训练模型，在测试集上验证模型性能。
from sklearn.model_selection import train_test_split

## 选择其类别为0和1的样本 （不包括类别为2的样本）
data_target_part = data[data['Species'].isin([0,1])][['Species']]
data_features_part = data[data['Species'].isin([0,1])][['Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

## 测试集大小为20%， 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data_features_part, data_target_part, test_size = 0.2, random_state = 2020)

## 从sklearn中导入决策树模型
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
## 定义 决策树模型 
clf = DecisionTreeClassifier(criterion='entropy')
# 在训练集上训练决策树模型
clf.fit(x_train, y_train)

## 可视化
import graphviz
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("penguins")


## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
from sklearn import metrics

## 利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))

## 查看混淆矩阵 (预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)

# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

Step2:利用决策树模型在三分类(多分类)上进行训练和预测

## 测试集大小为20%， 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data[['Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']], data[['Species']], test_size = 0.2, random_state = 2020)
## 定义 决策树模型 
clf = DecisionTreeClassifier()
# 在训练集上训练决策树模型
clf.fit(x_train, y_train)


## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)

## 由于决策树模型是概率预测模型（前文介绍的 p = p(y=1|x,\theta)）,所有我们可以利用 predict_proba 函数预测其概率
train_predict_proba = clf.predict_proba(x_train)
test_predict_proba = clf.predict_proba(x_test)

print('The test predict Probability of each class:\n',test_predict_proba)
## 其中第一列代表预测为0类的概率，第二列代表预测为1类的概率，第三列代表预测为2类的概率。

## 利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))

## 查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)

# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

hping3工具介绍及使用方法璃靡网络安全测试工具安全
文章目录hping3的特点hping3的常见功能1.发送ICMP请求（类似ping）2.TCPSYN扫描3.SYN洪水攻击4.TCPACK扫描5.UDP洪水攻击6.模拟IP欺骗7.自定义数据包8.ICMP路由追踪9.Ping洪水攻击总结hping3是一个强大的命令行网络工具，主要用于发送自定义的TCP/IP数据包，进行网络测试、分析以及漏洞扫描等。它可以像ping命令一样发送ICMP请求，但它提供
C# 反射与动态编程萨达大 C#上位机开发 c#开发语言反射动态编程
文章目录1.反射（Reflection）1.1什么是反射？1.2反射的基本操作1.2.1获取类型信息1.2.2获取成员信息1.3调用成员1.4实例化对象1.5常见应用场景2.动态编程2.1什么是动态编程？2.2dynamic关键字2.3动态对象和ExpandoObject2.4动态编程的应用场景3.反射与动态编程的对比4.反射与动态编程的综合应用示例示例1：反射实现对象的深拷贝示例2：动态对象作为
JavaScript结构型设计模式---外观模式安静一会儿 JavaScript 设计模式设计模式外观模式
参考书籍：JavaScript设计模式外观模式：为一组复杂的子系统接口提供一个更高级的统一接口，使更加容易的访问子系统对底层结构兼容性做封装functionaddEvent(dom,type,fn){//if(dom.addEventListener){dom.addEventListener(type,fn,false);//}elseif(dom.attachEvent){dom.attach
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
高通Linux安全指南(二) weixin_38498942 linux 安全 Qualcomm
功能高通TEE增强了安全功能及其扩展。它提供了接口，允许通过受信任应用程序(TA)扩展安全功能集。某些功能集成在硬件支持的TZ架构中，提供了一种系统安全配置。这些功能可以进一步定制以满足特定需求。有关高通TEE和安全组件的信息，请参阅高通TEE和架构。在本全面教程中，解锁在高通设备上安全启动技术的全部潜力。从生成加密密钥到编程硬件熔断器和管理安全启动状态，本视频详细介绍了每个步骤。适合希望通过认证
JavaScript设计模式 -- 迭代器模式鎈卟誃筅甡 javascript 设计模式迭代器模式
在软件开发中，我们经常需要遍历集合、数组、链表、树等数据结构。传统上，这些数据结构往往需要暴露内部实现细节，或者写大量重复的遍历代码。**迭代器模式（IteratorPattern）**提供了一种统一的方式来访问集合内的元素，而不暴露集合的内部表示。通过定义统一的迭代器接口，可以使客户端代码与数据结构实现解耦，从而使系统更易扩展和维护。迭代器模式简介迭代器模式属于行为型设计模式，其主要思想是将遍历
观影《哪吒2》后，我用 DeepSeek梳理了封神人物关系潘智祥 LLM DeepSeek
年初四晚上跟老婆还有老婆的弟弟（也就是小舅子，但我一直不习惯这个称谓）去看了哪吒2，老婆说，我们好像有快2年没去电影院看过电影了。从前年老婆怀孕开始，确实没再去过电影院。哪吒2中提到了很多《封神演义》中的角色，比如无量仙翁、昆仑十二金仙、元始天尊等，哪吒本身也是封神中的一个重要角色。我一直对于中国的神话体系还挺有兴趣的，正好最近DeepSeek很火，我就用DeepSeeKR1+联网搜索整理了一下这
Spring Boot 示例项目：从零开始构建 Web 应用梦落青云 JAVA spring boot java
一、项目概述本文档将指导您通过一个示例项目，了解如何使用SpringBoot框架构建一个简单的Web应用程序。该项目涵盖了从数据模型定义到控制器、服务层以及数据访问层的完整开发流程，帮助您快速掌握SpringBoot的基本使用方法。二、项目结构1.项目模块本示例项目分为以下几个主要模块：数据模型模块：负责定义与数据库表对应的实体类，使用JPA注解进行映射。控制器模块：处理客户端的HTTP请求，调用
一文读懂：GIS中坐标系、投影、EPSG:4326、EPSG:3857 鎈卟誃筅甡 Openlayers 前端
一、坐标系在地理信息系统（GIS）中，坐标系是用来描述和定位地球上位置的一种系统。常见的坐标系主要包括地理坐标系和投影坐标系。地理坐标系定义：地理坐标系是用经度和纬度来描述地球上的位置的坐标系统。经度是指地球表面上从北极到南极的线条，也就是东西方向的线，以本初子午线为基准，单位是度。纬度是指地球表面上从赤道到极点的线条，也就是南北方向的线，以赤道为基准，单位是度。分类：地理坐标系又细分为参心坐标系
JavaScript设计模式 -- 适配器模式鎈卟誃筅甡 javascript 设计模式适配器模式
在软件开发中，经常会遇到这样的情况：现有的类或第三方库提供的接口与系统中期望的接口不匹配。如果直接修改已有代码风险较大或者不可行，这时适配器模式（AdapterPattern）就能派上用场。适配器模式通过创建一个包装类，将原有接口转换为客户所期望的接口，从而使原本不兼容的类能够协同工作。本文将从基本概念入手，详细介绍适配器模式的实现方式及其在多个场景下的应用示例，并探讨其优缺点和使用建议。适配器模
opkg update错误 wget returned 5 月光技术杂谈 OpenWRT linux
文章目录前言一、问题现象二、解决方法一三、解决方法二前言新烧写的WRT固件，配置好网络后可以正常访问外网，但是执行opkgupdate时出错，提示wget错误，此时一般是ssl没有正常安装，导致wget不支持https.一、问题现象Collectederrors:*opkg_download:Failedtodownloadhttps://mirrors.cloud.tencent.com/ope
联想E470 双GPU笔记本部署私有AI模型方案月光技术杂谈大模型初探人工智能 ChatGLM3 联想E470 Qwen-7B Phi-3-mini
背景：手上有一台联想E470的闲置笔记本，配置如下：（IntelHD620核显+NVIDIA920MX独显，i5-7200UCPU），想用它来部署并学习AI模型。考虑到电脑的性能限制，打算采用「量化模型+知识蒸馏」的低成本部署方案。一、硬件适配优化方案显存限制突破使用4-bit量化技术压缩模型，例如加载ChatGLM3-6B的INT4版本，显存需求可降至6GB310启用CPU-GPU混合推理（通过
javascript 常见设计模式 smiley121 javascript 设计模式
什么是设计模式?在软件开发中，设计模式是解决特定问题的经验总结和可复用的解决方案。设计模式可以提高代码的复用性、可维护性和可读性，是提高开发效率的重要手段。单例模式1.概念单例模式（SingletonPattern），保证一个类只有一个实例，并提供一个访问它的全局访问点。也就是说，第二次使用同一个类创建新对象的时候，应该得到与第一次创建的对象完全相同的对象。2.代码实现classSingleton
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
一文读懂Ingress-Nginx以及实战教程努力的小T Kubernetes Linux 云计算运维基础 nginx 运维服务器 linux kubernetes 云原生
Ingress-Nginx简介Ingress-Nginx是Kubernetes的一个入口控制器，它允许您将外部HTTP和HTTPS流量路由到集群内的服务。除了标准的HTTP/HTTPS路由功能外，Ingress-Nginx还支持WebSocket、gRPC、TCP和UDP协议。实战教程：从零开始部署Ingress-Nginx步骤1：环境准备确保您的Kubernetes集群版本为v1.29.7，并且
ISO 镜像转换QCOW2 制作指南努力的小T Linux 云计算运维基础 linux 运维服务器
深入理解QCOW2镜像与制作指南在虚拟化技术日益成熟的今天，QCOW2镜像格式因其独特的优势在众多虚拟化平台中占据了重要地位。本文将详细介绍QCOW2镜像的特点、优势以及如何将ISO镜像转换为QCOW2格式。QCOW2镜像简介QCOW2（QEMUCopy-On-Writeversion2）是QEMU虚拟机软件中使用的一种高效磁盘镜像格式。它被设计用来支持虚拟机的快照、压缩和加密等功能，同时提供与原
成电通信研一，没有实习机会的Java道路是否可行？未来是走Java开发还是嵌入式？程序员yt java 开发语言
今天给大家分享的是一位粉丝的提问，成电通信研一，没有实习机会的Java道路是否可行？未来是走Java开发还是嵌入式？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：你好，我本科杭电，硕士成电，通信工程研一，不知道之后要走java还是嵌入式，嵌入式我把江科大的视频都看完了，也跟着做了实验，不知道后面怎么走。导师应该不放实习，java没实习应该很严重
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
LLaMA系列大模型调研与整理-llama-alpaca-lora AI大模型-大飞 llama AI大模型 AI 职场和发展人工智能
文章目录LLaMA大模型及其衍生模型1.LLaMA2.stanford_alpaca3.ChatDoctor4.alpaca-lora5.Chinese-LLaMA-Alpaca6.BELLE大模型综述ASurveyofLargeLanguageModels关键词：大模型，LLaMA，Alpaca，Lora，Belle，模型训练，模型微调，指令微调最近尝试在领域数据进行生成式大模型的再训练和微调，
13-二叉树最小深度-深度优先（DFS）最遥远的瞬间算法合集深度优先算法
一、定义什么是二叉树的最小深度？二叉树的最小深度是指从根节点到最近的叶子节点的最短路径上的节点数。叶子节点是指没有子节点的节点。举个例子：1/\23/4这棵树的最小深度是2，因为从根节点1到叶子节点3的路径最短，只需要经过1和3两个节点。深度优先搜索（DFS）的思路深度优先搜索是一种遍历树的方法，它的特点是一条路走到底，直到遇到叶子节点或者无法继续前进时，再回溯到上一个节点，尝试其他路径。用DFS
实现Shell免密登录的详细指南醉心编码脚本基础 shell 脚本
实现Shell免密登录的详细指南前提条件步骤一：生成SSH密钥对步骤二：将公钥复制到远程服务器步骤三：配置SSH客户端（可选）步骤四：测试免密登录常见问题排查在使用Linux或Unix系统时，我们经常需要通过Shell访问远程服务器。通常，这种访问需要通过SSH（SecureShell）进行，每次连接时都需要输入用户名和密码，这不仅繁琐，而且在某些自动化场景下显得尤为不便。为了实现免密登录，我们可
在ROS中使用奥比中光Orbbec Astra Pro深度相机（二）奥比中光3D视觉开发者社区 3D视觉计算机视觉
在之前外面已经介绍过OrbbecAstraPro深度相机，同学们可以点击☞☞☞了解详情，接着再来介绍介绍。有兴趣的可以看一下ROSWiki上的介绍：OrbbecAstraPro介绍
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
ubuntu配置pip 清华源溯源006 论文复现 ubuntu pip linux
在Ubuntu上配置pip源可以通过修改~/.pip/pip.conf文件来完成。打开终端（Terminal）并输入以下命令创建或编辑该文件：nano~/.pip/pip.conf如果提示没有该目录或者文件不存在，则会自动创建相应的目录及文件。或者用其他编辑器也可以比如vim或者其他文本编辑器。将以下内容复制到pip.conf中保存退出：[global]index-url=https://pypi
deepseek和ChatGPT 4o比较调皮的芋头 chatgpt 人工智能
DeepSeek和ChatGPT4o在实现方式、评测效果和使用体验方面的详细比较：实现方式：DeepSeek：推理型大模型DeepSeek的核心是推理型大模型，与指令型大模型不同，它不需要用户提供详细的步骤指令，而是通过理解用户的真实需求和场景来提供答案。后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好
使用PGVecto.rs在Postgres中进行向量数据库操作 dgay_hua 数据库 python
使用PGVecto.rs在Postgres中进行向量数据库操作技术背景介绍向量数据库是一种用于存储和检索高维向量数据的数据库，非常适合应用于自然语言处理、推荐系统等领域。在这篇文章中，我们将介绍如何使用PGVecto.rs在Postgres中进行向量数据库操作。核心原理解析PGVecto.rs是基于Postgres的向量数据库实现，可以轻松地实现向量的存储和高效检索。它通过Postgres的扩展实
Ollama+Fastgpt搭建属于自己的个人知识库 chaoshanarong ai AI编程 AI写作
一、安装dockerdocker下载网址：https://www.docker.com/products/docker-desktop/打开wsl:启用适用于Linux的Windows子系统以管理员身份运行WindowsPowerShell。运行以下命令：dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-L
使用 SCP 命令在 Linux/Debian/Ubuntu 终端中进行文件远程传输理工男老K ubuntu linux 运维
使用SCP命令在Linux/Debian/Ubuntu终端中进行文件远程传输SCP（SecureCopyProtocol，安全复制协议）是一种命令行实用程序，允许你通过网络在两个主机之间安全地传输文件。它使用SSH（SecureShell，安全外壳协议）进行身份验证和加密，确保传输的数据安全。SCP的基本语法SCP命令的基本语法如下：scp[选项][源文件][目标位置]示例将文件从本地系统复制到远
基于 Debian 的系统（如 Ubuntu）上安装、启动和配置 SSH 服务的指令流 fanxbl957 linux debian ubuntu ssh linux
主要指令流和步骤简述：安装SSHdpkg-l|grepssh检查SSH服务是否已安装,如果输出中包含`openssh-server`,则说明SSH服务已经安装sudoapt-getinstallopenssh-server安装SSH服务ps-e|grepssh检查SSH服务是否已经启动,如果输出中包含`sshd`,则说明SSH服务已经启动sudoservicesshstart启动SSH服务sudo
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

组队学习：基于决策树的分类预测

划分选择

重要参数

1.决策树的介绍

你可能感兴趣的:(组队学习：基于决策树的分类预测)