高达一号

机器学习_特征工程_特征数据的评价标准

本文主要从单特征分析，多特征筛选，特征监控，外部特征评估的几个方面对特征数据进行阐述。

来源：特征筛选_特征覆盖度怎么算_adamyoungjack的博客-CSDN博客

1. 单特征分析

1.1 简介

好特征可以从几个角度衡量：覆盖度，区分度，相关性，稳定性

1.2 覆盖度

1. 应用场景

采集类，授权类，第三方数据在使用前都会分析覆盖度

2. 分类

采集类：如APP list （Android 手机 90%）
授权类：如爬虫数据（20% 30%覆盖度）GPS （有些产品要求必须授权）

3. 计算

一般会在两个层面上计算覆盖度（覆盖度 = 有数据的用户数/全体用户数）
- 全体存量客户
- 全体有信贷标签客户

4. 衍生

覆盖度可以衍生两个指标：缺失率，零值率
- 缺失率：一般就是指在全体有标签用户上的覆盖度
- 零值率：很多信贷类数据在数据缺失时会补零，所以需要统计零值率
业务越来越成熟，覆盖度可能会越来愈好，可以通过运营策略提升覆盖度

1.3 区分度

1. 简介

评估一个特征对好坏用户的区分性能的指标

2. 应用场金

可以把单特征当做模型，使用AUC, KS来评估特征区分度
在信贷领域，常用Information Value (IV)来评估单特征的区分度

3. 计算

Information Value刻画了一个特征对好坏用户分布的区分程度
- IV值越大
- IV值越小

IV值最后ln的部分跟WOE是一样的

IV计算举例（数据为了方便计算填充，不代表实际业务）

IV<0.02 区分度小建模时不用（xgboost,lightGMB 对IV值要求不高）
IV [0.02,0.5] 区分度大可以放到模型里
(IV> 0.1 考虑是否有未来信息)
IV > 0.5 单独取出作为一条规则使用，不参与模型训练

4. 注意

模型中尽可能使用区分度相对较弱的特征，将多个弱特征组合，得到评分卡模型
连续变量的IV值计算，先离散化再求IV，跟分箱结果关联很大（一般分3-5箱）

1.4 相关性

1. 简介
对线性回归模型，有一条基本假设是自变量x1，x2，…，xp之间不存在严格的线性关系

2. 分类
需要对相关系数较大的特征进行筛选，只保留其中对标签区分贡献度最大的特征，即保留IV较大的
皮尔逊相关系数，斯皮尔曼相关系数，肯德尔相关系数

3. 选择

考察两个变量的相关关系，首先得清楚两个变量都是什么类型的
- 连续型数值变量，无序分类变量、有序分类变量
连续型数值变量，如果数据具有正态性，此时首选Pearson相关系数，如果数据不服从正态分布，此时可选择Spearman和Kendall系数
两个有序分类变量相关关系，可以使用Spearman相关系数
一个分类变量和一个连续数值变量，可以使用kendall相关系数

总结：就适用性来说，kendall > spearman > pearson

4. 计算

import pandas as pd 
df = pd.DataFrame({'A':[5,91,3],'B':[90,15,66],'C':[93,27,3]}) 
df.corr() # 皮尔逊 
df.corr('spearman')#斯皮尔曼 
df.corr('kendall')#肯德尔

可以使用toad库来过滤大量的特征，高缺失率、低iv和高度相关的特征一次性过滤掉

import pandas as pd 
import toad data = pd.read_csv('data/germancredit.csv') 
data.replace({'good':0,'bad':1},inplace=True) 
data.shape

#缺失率大于0.5,IV值小于0.05,相关性大于0.7来进行特征筛选 
selected_data, drop_list= toad.selection.select(data,target = 'creditability', empty = 0.5, iv = 0.05, corr = 0.7, return_drop=True) 
print('保留特征:',selected_data.shape[1],'缺失删除:',len(drop_list['empty']),'低iv删 除：',len(drop_list['iv']),'高相关删除：',len(drop_list['corr']))

1.5 稳定性

1. 简介

主要通过计算不同时间段内同一类用户特征的分布的差异来评估

2. 分类

常用的特征稳定性的度量有Population Stability Index (PSI)
当两个时间段的特征分布差异大，则PSI大
当两个时间段的特征分布差异小，则PSI小

3. PSI和IV对比

IV是评估好坏用户分布差异的度量
PSI是评估两个时间段特征分布差异的度量
都是评估分布差异的度量，并且公式其实一模一样，只是符号换了而已

2. 多特征筛选

1. 简介
当构建了大量特征时，接下来的调整就是筛选出合适的特征进行模型训练
过多的特征会导致模型训练变慢，学习所需样本增多，计算特征和存储特征成本变高

2. 方法

星座特征
Boruta
方差膨胀系数
后向筛选
L1惩罚项
业务逻辑

2.1 星座特征

1. 简介

星座是公认没用的特征，区分度低于星座的特征可以认为是无用特征

2. 步骤

把所有特征加上星座特征一起做模型训练
拿到特征的重要度排序
多次训练的重要度排序都低于星座的特征可以剔除

2.2 Boruta

1. 简介

Boruta算法是一种特征选择方法，使用特征的重要性来选取特征
- 网址：https://github.com/scikit-learn-contrib/boruta_py
- 安装：pip install Boruta

2.原理

创建阴影特征 (shadow feature) : 对每个真实特征R，随机打乱顺序，得到阴影特征矩阵S，拼接到真实特征后面，构成新的特征矩阵N = [R, S].
用新的特征矩阵N作为输入，训练模型，能输出feature_importances_的模型，如RandomForest， lightgbm，xgboost都可以得到真实特征和阴影特征的feature importances,
取阴影特征feature importance的最大值S_max，真实特征中feature importance小于S_max的，被认为是不重要的特征
删除不重要的特征，重复上述过程，直到满足条件

3. 应用

import numpy as np 
import pandas as pd 
import joblib 
from sklearn.ensemble import RandomForestClassifier 
from boruta import BorutaPy 
#加载数据 
pd_data = joblib.load('data/train_woe.pkl') pd_data

#处理数据，去掉id 和 目标值 
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1) 
x = pd_x.values # 特征 
y = pd_data[['TARGET']].values # 目标 
y = y.ravel() # 将多维数组降位一维

使用Boruta，选择features

# 先定义一个随机森林分类器 
rf = RandomForestClassifier(n_jobs=-1, class_weight='balanced', max_depth=5) 
''' 
BorutaPy function 
estimator : 所使用的分类器 
n_estimators : 分类器数量, 默认值 = 1000 
max_iter : 最大迭代次数, 默认值 = 100 
''' 
feat_selector = BorutaPy(rf, n_estimators='auto', random_state=1, max_iter=10) 
feat_selector.fit(x, y)

展示选择出来的feature

dic_ft_select = dict() 
# feat_selector.support_ # 返回特征是否有用，false可以去掉 
for ft, seleted in zip(pd_x.columns.to_list(), feat_selector.support_): 
	dic_ft_select[ft] = seleted 
pd_ft_select = pd.DataFrame({'feature':pd_x.columns.to_list(), "selected": feat_selector.support_}) 
pd_ft_selec

2.3 方差膨胀系数（VIF）

1. 简介

方差膨胀系数 Variance inflation factor (VIF)
如果一个特征是其他一组特征的线性组合，则不会在模型中提供额外的信息，可以去掉
评估共线性程度：

2. 计算

VF计算：

VIF越大说明拟合越好，该特征和其他特征组合共线性越强，就越没有信息量，可以剔除

3 应用

加载数据

import numpy as np 
import pandas as pd 
import joblib 
from statsmodels.stats.outliers_influence import variance_inflation_factor 
pd_data = joblib.load('./train_woe.pkl') #去掉ID和目标值 
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1)

计算方差膨胀系数

#定义计算函数 
def checkVIF_new(df): 
	lst_col = df.columns 
	x = np.matrix(df) 
	VIF_list = [variance_inflation_factor(x,i) for i in range(x.shape[1])] 
	VIF = pd.DataFrame({'feature':lst_col,"VIF":VIF_list}) 
	max_VIF = max(VIF_list) print(max_VIF) 
	return VIF 
df_vif = checkVIF_new(pd_x) 
df_vif

选取方差膨胀系数 > 3的features

df_vif[df_vif['VIF'] > 3]

2.4 RFE 递归特征消除 (Recursive Feature Elimination)

1. 简介

使用排除法的方式训练模型，把模型性能下降最少的那个特征去掉，反复上述训练直到达到指定的特征个数

6.2 api

sklearn.feature_selection.RFE

6.3 应用

加载数据

import numpy as np 
import pandas as pd 
import joblib from sklearn.feature_selection 
import RFE from sklearn.svm 
import SVR pd_data = joblib.load('data/final_data.pkl') 
pd_data

特征，目标提取

pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1) 
x = pd_x.values 
y = pd_data[['TARGET']].values 
y = y.ravel()

使用RFE，选择features

#定义分类器 
estimator = SVR(kernel="linear") 
selector = RFE(estimator, 3, step=1) # step 一次去掉几个特征 
selector = selector.fit(x, y) 
#展示选择参数 
dic_ft_select = dict() 
for ft, seleted in zip(pd_x.columns.to_list(), selector.support_): 
	dic_ft_select[ft] = seleted 
pd_ft_select = pd.DataFrame({'feature':pd_x.columns.to_list(), "selected": selector.support_}) 
pd_ft_select

2.5 基于L1的特征选择 (L1-based feature selection)

1. 简介

使用L1范数作为惩罚项的线性模型(Linear models)会得到稀疏解：大部分特征对应的系数为0
希望减少特征维度用于其它分类器时，可以通过 feature_selection.SelectFromModel 来选择不为0的系数
- 特别指出，常用于此目的的稀疏预测模型有 linear_model.Lasso（回归）， linear_model.LogisticRegression 和 svm.LinearSVC（分类）

7.3 应用

from sklearn.svm import LinearSVC 
from sklearn.datasets import load_iris 
from sklearn.feature_selection import SelectFromModel 
iris = load_iris() X, y = iris.data, iris.target 
X.shape

lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y) 
model = SelectFromModel(lsvc, prefit=True) 
X_new = model.transform(X) 
X_new.shape

3. 内部特征的监控

3.1 前端监控（授信之前）

特征稳定性
- 大多数情况下，随着业务越来越稳定，缺失率应该呈现逐渐降低的趋势
- 如下表所示，Week3缺失率突然增加到28%，大概率是数据采集或传输过程出问题了
- PSI，特征维度的PSI如果>0.1可以观察一段时间

3.2 后端监控（放款之后）

特征区分度
- AUC/KS 波动在10%以内
- KS 如果是线上A卡 0.2是合格的水平
- IV值的波动稍大可以容忍，和分箱相关，每周数据分布情况可能不同，对IV影响大一些

分箱样本比例：

分箱风险区分：要重视每个特征的风险趋势单调性

每一箱的bad_rate有波动，容忍度相对高一些
要高度重视不同箱之间风险趋势发生变化，如分箱1，分箱2，在week2和week3 风险趋势发生了变化
如果风险趋势单调性发生变化，要考虑特征是不是要进行迭代

4. 外部特征评估

4.1 数据评估标准

覆盖度、区分度、稳定性

4.2 使用外部数据注意事项

1. 避免未来信息

使用外部数据的时候，可能出现训练模型的时候效果好，上线之后效果差
- 取最近一个时间周期的数据
- 之前3~4个月或者更长时间的数据做验证，看效果是不是越来越差

2. 外部数据覆盖度计算

交集用户数 / 内部用户数
外部数据选择
- 如果外部数据免费，那么全部调用，但付费的三方数据要在有必要的时候在调用
- 在计算外部数据覆盖度前，首先应该明确什么客群适合这个第三方数据
- 内部缺少数据且这个第三方数据能提升区分度，那这个第三方数据才有用
覆盖度 = 交集用户数 / 内部目标客群

3. 避免内部数据泄露

如果需要把数据交给外部公司，让对方匹配一定要将内部信息做Hash处理再给对方匹配

匹配上的是共有的数据，匹配不上的外部无法得知其身份

4. 避免三方公司对结果美化

内部自己调用接口测覆盖度直接调用即可
如果是把样本交给外部公司让对方匹配，一定要加假样本
- 这样他们只能匹配出结果，但无法得知真实的覆盖度
- 只有内部公司能区分出真假样本，从而计算出真实覆盖度
- 如果覆盖度高于真实样本比例，说明结果作假

5. 评分型外部数据

区分度和稳定性的分析方法同单特征的分析一样
区分度：AUC, KS, IV, 风险趋势
稳定性: PSI

6. 模型效果

内部特征训练的模型效果 vs 内部特征+外部特征训练的模型效果
- AUC有 2~3个点的提升就很好了

7. 黑名单型外部数据

使用混淆矩阵评估区分度

Precision: 外部命中的尽可能多的是内部的坏客户

Recall: 内部的坏客户尽可能多的命中外部名单

8. 回溯性

外部数据是否具有可回溯性无法得知，所以尽可能取最近的样本去测
早期接入数据后要密切关注线上真实的区分度表现

你可能感兴趣的:(机器学习,机器学习,人工智能)

Python 学习与开发：高效编程技巧与实用案例壹屋安源知识分享 python 学习开发语言
Python学习与开发：高效编程技巧与实用案例Python是现代编程语言中最受欢迎的一种，它以简洁、易读的语法和强大的功能广泛应用于数据分析、人工智能、Web开发等多个领域。无论你是Python新手还是有经验的开发者，掌握一些高效编程技巧和实用案例，能让你的Python开发之旅更加顺畅。1.高效的函数式编程使用列表推导式列表推导式是Python中非常常用的功能，它不仅可以让代码更加简洁，还能提高执
AI时代，程序员如何提升竞争力：技术与软技能双修炼源码姑娘人工智能
人工智能技术的迅猛发展正在重塑软件开发行业的格局。从代码生成工具（如GitHubCopilot）到智能调试系统，AI已从辅助工具逐步演变为开发流程中不可或缺的伙伴。然而，这种变革既是机遇也是挑战：程序员若想在这场技术浪潮中保持竞争力，必须实现技术与软技能的双重修炼。本文将从技术深耕、AI工具驾驭、跨学科融合及软技能提升四个维度，探讨程序员的核心竞争力构建路径。一、技术修炼：从工具使用者到领域专家1
AI大语言模型(LLM)：电商行业的搜索革命与未来趋势搞技术的妹子人工智能语言模型智能电视
大语言模型：电商行业的搜索革命与未来趋势一、大语言模型在电商搜索中的应用1.提升搜索精准度2.改善搜索召回率3.虚拟购物助手二、大语言模型与生成性AI的结合1.生成性AI：从搜索到对话式购物体验2.提升个性化推荐三、大语言模型的未来展望1.电商与LLM的深度融合2.面临的挑战与机遇随着人工智能的快速发展，电商行业正在经历一场深刻的变革。尤其是在搜索技术方面，大语言模型（LLM）正逐渐成为提升用户体
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
似然函数与极大似然估计 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.似然函数：直观理解与数学定义核心概念似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉
正交投影与内积空间：机器学习的几何基础 Shockang 机器学习数学通关指南机器学习人工智能线性代数数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.内积空间的数学定义1.1代数定义✏️两个维度相同的向量a=[a1,…,an]\mathbf{a}=[a_1,\dots,a_n]a=[a1,…,an]和b=[b1,…,bn]\mathbf{b}=[b_1,\dots,b_
特征值与特征向量 Shockang 机器学习数学通关指南机器学习线性代数矩阵数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文一、定义与数学表达特征向量：对于方阵AAA，若存在非零向量v\mathbf{v}v满足Av=λvA\mathbf{v}=\lambda\mathbf{v}Av=λv，则v\mathbf{v}v称为AAA的特征向量。特征值：对应
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
【机器学习】Reinforcement Learning-强化学习基本概念长相忆兮长相忆深度学习人工智能算法机器学习
1、Q值与V值1.1Q值和V值的定义Q值：也称为动作价值函数，评估动作的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，表示为Q(s,a)，其中s是状态，a是动作。V值：评估状态的价值，也称为状态价值函数，表示为V(s)，其中s是状态。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的，都是衡量在马可洛夫树上某一个节点
机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南来自于狂人 python 人工智能 pytorch 语言模型
一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。原始的DeepSeek-R1-32B模型虽然强大，但在T4显卡上遭遇了显存溢出的问题，这限制了其在实际应用中的潜力。为了解决这一难题，我们转向了官方提供的优化版本——DeepSeek-R1-Distill-Qwen
30段极简Python代码：这些小技巧你都Get了么 Python 学习者 Python
学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。Python是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的Python语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了30段代码，它们都是平常非常
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
AI 芯片全解析：定义、市场趋势与主流芯片对比嵌入式Jerry AI 人工智能物联网嵌入式硬件服务器运维
1.引言：什么是AI芯片？随着人工智能（AI）的快速发展，AI计算的需求不断增长，从云计算到边缘计算，AI芯片成为推动智能化时代的核心动力。那么，什么样的芯片才算AI芯片？与普通处理器（如CPU、GPU）相比，AI芯片有什么不同？本文将详细解析AI芯片的定义、核心特性、市场上的流行产品（国内外），以及AI芯片的定位与发展趋势。2.什么才算AI芯片？2.1AI芯片的核心特性AI芯片专为神经网络计算、
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
什么是预训练语言模型下游任务？衣衣困语言模型人工智能自然语言处理
问题：Word2Vec模型是预训练模型吗？由于训练的特性，word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。什么是下游任务？在自然语言处理（NLP）和机器学习领域，下游任务（downstreamtasks）指的是使用已经训练好的模型或表示（如词向量、预训练的模型等）来解决的具体任务。这些任务通常依赖于
DeepSeek：大模型领域的创新力量 Kurbaneli 服务器
在人工智能大模型蓬勃发展的时代，DeepSeek以其独特的技术优势和广泛的应用潜力，迅速在市场中崭露头角。自年初发布以来，DeepSeek引发了行业内外的高度关注，对众多领域的发展产生了深远影响。一、技术优势剖析DeepSeek在技术层面展现出了诸多亮点。其核心的语言模型架构经过精心设计与优化，能够高效处理海量文本数据，实现精准的语义理解和生成。在自然语言处理任务中，无论是基础的文本翻译、问答系统
AI辅助的企业估值报告生成器 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能人工智能 ai
AI辅助的企业估值报告生成器关键词AI辅助估值企业估值报告数据处理机器学习算法报告生成器摘要本文将探讨如何利用人工智能技术辅助企业估值报告的生成。通过分析估值报告的重要性、AI技术在估值报告中的应用场景、估值模型与数据处理方法，以及机器学习算法在估值中的应用，本文旨在为企业和投资者提供一个高效、准确、可视化的估值报告生成解决方案。同时，本文还将介绍一个估值报告生成器的实现过程，并通过实际案例进行分
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
全套DeepSeek使用手册分享【清华北大出品】咪咪360 pdf AI写作 AIGC 人工智能学习
资料链接：https://pan.quark.cn/s/517afdb4419c这两天，清华大学和北京大学的AI学习手册火了！随着人工智能的日益火爆，人们越来越重视AI的学习，而清华北大也顺应潮流，送出重磅福利。短短不到一个月，连续产出了多本高质量的DeepSeek学习手册。帮助普通人高效便捷的学习AI。完整版学习资料我已经帮大家整理好了，放在开头，大家自行领取学习。
深入探索Python机器学习算法：模型评估数据攻城小狮子 Python机器学习 python 机器学习算法 sklearn 人工智能
深入探索Python机器学习算法：模型评估文章目录深入探索Python机器学习算法：模型评估模型评估1.数据集划分1.1划分原则和方法1.2交叉验证技术1.3不同数据集划分方法的适用性2.评估指标分析2.1分类任务评估指标2.2回归任务评估指标2.3不同评估指标的选择和比较3.模型评估的注意事项3.1避免数据泄露问题3.2评估指标的稳定性和可靠性模型评估1.数据集划分1.1划分原则和方法在机器学习
基于springboot+vue在线小说阅读平台系统(源码+lw+部署文档+讲解等) QQ3295391197 Java毕业设计项目 spring boot vue.js 后端
前言博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。精彩专栏推荐订
AI Agent，大模型重要落地方向 IT猫仔人工智能语言模型架构搜索引擎机器学习
01什么是AIAgent？OpenAI将AIAgent定义为，以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。在计算机、人工智能专业技术领域，一般将agent译为“智能体”，即是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。它具有记忆、规划、行动和使用工具四个主要模块。通过四个
AI人工智能 Agent：对教育的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：对教育的影响1.背景介绍1.1教育领域的转变随着科技的飞速发展,教育领域也在经历着前所未有的变革。传统的教学模式已经无法完全满足现代社会对人才培养的需求。在这种背景下,人工智能(AI)技术应运而生,为教育领域带来了全新的机遇和挑战。1.2人工智能在教育中的作用人工智能技术可以为教育提供个性化、智能化和高效的解决方案。AI智能代理(Agent)作为人工智能的重要组成部分,正在
项目开发实录（一）：基于RDK X5的智能垃圾分类垃圾桶一团乱毛线� RDK X5 地瓜机器人分类人工智能
文章目录项目简介硬件及材料列表整体架构流程技术细节后续开发安排-----------------------------分割线----------------------------------项目简介基于RDKX5开发板的智能垃圾分类垃圾桶项目，旨在利用人工智能技术实现垃圾的自动识别与分类。垃圾桶硬件装置应实现对行人投入垃圾的四分类投放(可回收垃圾、有害垃圾、厨余垃圾、其他垃圾)。该系统主要由摄
3 步低代码构建 AI 股票分析助手人工智能技术资讯低代码人工智能
在金融服务行业的数字化转型浪潮中，构建一个灵活、可扩展、高度可用的现代IT架构是金融机构面临的重中之重。在这一过程中，生成式人工智能（GenerativeAI）正成为助力金融从业者提高工作效率、优化决策过程的重要工具。在金融市场上，买方机构通常会努力发掘有关金融市场运作的信息，以期获得战胜市场的能力。他们通常需要发掘对投资组合风险有重大影响的风险因子，比如市场因子、行业因子、规模因子、价值因子等；
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
基于Django的人脸识别考勤管理系统(源码+LW+部署讲解) 毕业程序员 python 计算机毕业设计 django python 后端
收藏关注不迷路文章目录前言一、项目介绍三、功能介绍四、核心代码五、效果图六、文章目录前言随着信息技术的快速发展和人工智能的广泛应用，人脸识别技术因其独特的识别优势和高效的处理能力，逐渐在考勤管理领域展现出巨大的应用潜力。本文首先回顾了人脸识别技术的发展历程，分析了其在考勤系统中的技术原理和实现方式。随后，文章详细介绍了人脸识别考勤系统的设计架构、核心算法及关键技术，包括图像采集、预处理、特征提取和
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他