R3

机器学习之模型融合（详解Stacking,Blending）

模型融合

Ensemble Generation

常见模型融合的方法

boosting
bagging
Stacking
blending

各种模型融合的区别

Bagging，Boosting二者之间的区别
Stacking，Blending二者之间的区别

Stacking与blending详解及代码

Stacking的两种思想

集成学习和多模型融合的区别
集成学习是指多个弱分类器（子模型）集成为强分类器，这种弱分类器是同质的分类器，比如GBDT，Adaboost，RF等。

根据弱分类器之间的关系，可以分为相关（第i个弱分类器依赖于第i-1个弱分类器）和独立（每个弱分类器相互独立）。相关的话，只能串行实现，主要是降低bias(偏差)；独立的话，可以并行实现，主要是降低variance(方差)

多模型融合是多个分类器，这些分类器是异构的，各模型解决不同的局部问题，多模型融合一般用来做信息补充和互补。

Ensemble Generation

常见模型融合的方法

boosting

迭代训练某个基本模型：根据第i-1轮预测错误得到的情况来修改第i轮训练样本的权重，比较容易过拟合。

bagging

这是一种少数服从多数的思想，通过训练集中不同的子集训练不同的子模型，最后对每个子模型进行投票。

Stacking

层次融合的思想，第一层用多个基本模型，然后将多个基本模型的结果作为第二层的输入，第二层一般用LR进行训练（这么做主要是为了匹配每个基本模型的权重）。

blending

层次融合的思想，使用不相交的数据，将样本集分为训练集train和测试集test，再将训练集train数据划分为两部分(d1,d2)，用对d1训练的模型去预测d2和test。用上一轮d2的预测值和标签训练新的分类器，然后把test的new features输入作为最终的预测值。

各种模型融合的区别

Bagging，Boosting二者之间的区别

(1) 样本选择：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化，而权值是根据上一轮的分类结果进行调整。

(2) 样例权重：

Bagging：使用均匀取样，每个样例的权重相等。
Boosting：根据错误率不断调整样例的权重，错误率越大则权重越大。

(3) 预测函数：

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

(4) 并行计算：

Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

Stacking，Blending二者之间的区别

Blending方式和Stacking方式很类似，相比Stacking更简单点，两者的区别是：
(1) blending是直接准备好一部分10%留出集只在留出集上继续预测，用不相交的数据训练不同的Base Model，将它们的输出取（加权）平均，blending实现简单，但对训练数据利用少了。
(2) stacking使用多折交叉验证，比使用单一留出集更加稳健。
blending和stacking都挺好的，可以根据偏好进行选择，可以一部分做blending，一部分做stacking。

Stacking与blending详解及代码

Stacking的两种思想

第一种思想：

假设有12000条数据样本，将样本集分为训练集(training data)10000条和测试集(testing data)2000条。
第一层： 采用4个模型（假设其分别是RF、ET、GBDT、XGB），分别对训练集进行训练，然后将预测的结果作为下一层的输入。
Step1：将训练集分为5折
1. 分别用第2、3、4、5折训练一个RF，用训练好的RF直接预测第1折训练数据；
2. 分别用第1、3、4、5折训练一个新的RF，用训练好的RF直接预测第2折训练数据；
3. 分别用第1、2、4、5折训练一个新的RF，用训练好的RF直接预测第3折训练数据；
4. 分别用第1、2、3、5折训练一个新的RF，用训练好的RF直接预测第4折训练数据；
5. 分别用第1、2、3、4折训练一个新的RF，用训练好的RF直接预测第5折训练数据；
训练后，可以得到100001维的RF对training data的预测结果，对于testing data，用上面训练得到的5个RF，预测出20005维的预测结果，然后对其取平均，20001维的RF预测结果。
Step2：另外3个模型同理。
最终第一层中，training data会输出100004维的预测结果，将这个结果作为第二层训练集的输入。testing data 会输出2000*4维的结果，将这个结果作为第二层预测集的输入。
第二层： 将上一层的结果带入新的模型中，进行训练再预测，第二层的模型一般为了防止过拟合会采用简单的模型。

第二种思想： 第二层的输入数据，除了第一层的训练结果外，还包括了原始特征。

'''
Stacking的实现案例
'''
from sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifier,GradientBoostingClassifier
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import StratifiedKFold
import numpy as np
from sklearn.metrics import roc_auc_score
from sklearn.datasets.samples_generator import make_blobs

'''创建训练的数据集'''
data, target = make_blobs(n_samples=50000, centers=2, random_state=0, cluster_std=0.60)

'''模型融合中使用到的各个单模型'''
clfs = [RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]


'''切分一部分数据作为测试集'''
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.33, random_state=2017)

dataset_blend_train = np.zeros((X.shape[0], len(clfs)))
dataset_blend_test = np.zeros((X_predict.shape[0], len(clfs)))

'''5折stacking'''
n_folds = 5
skf = list(StratifiedKFold(y, n_folds))

for j,clf in enumerate(clfs):
    '''依次训练各个单模型'''
    dataset_blend_test_j = np.zeros((X_predict.shape[0], len(skf)))
    for i, (train, test) in enumerate(skf):
        '''使用第i个部分作为预测，剩余的部分来训练模型，获得其预测的输出作为第i部分的新特征'''
        X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]
        clf.fit(X_train, y_train)
        y_submission = clf.predict_proba(X_test)[:, 1]
        dataset_blend_train[test, j] = y_submission
        dataset_blend_test_j[:, i] = clf.predict_proba(X_predict)[:, 1]
    dataset_blend_test[:,j] = dataset_blend_test_j.mean(1)
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_blend_test[:, j]))

clf = GradientBoostingClassifier(learning_rate=0.02,subsample=0.5,max_depth=6,n_estimators=30)
clf.fit(dataset_blend_train,y)
y_submission = clf.predict_proba(dataset_blend_test)[:,1]

print("Linear stretch of predictions to [0,1]")
y_submission = (y_submission - y_submission.min())/(y_submission.max()-y_submission.min())
print("blend result")
print(roc_auc_score(y_predict,y_submission))

Blending与stacking类似，只是将Kfold CV改变为了HoldOut CV，也就是原来的K折交叉验证是等距划分训练集，HoldOut CV是根据自己定义的百分比进行训练集测试集的划分。

'''blending'''
from sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifier,GradientBoostingClassifier
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import StratifiedKFold
import numpy as np
from sklearn.metrics import roc_auc_score
from sklearn.datasets.samples_generator import make_blobs

'''创建训练的数据集'''
data,target = make_blobs(n_samples=50000,centers=2,random_state=0,cluster_std=0.6)

'''模型融合中使用到的各个单模型'''
clfs= [RandomForestClassifier(n_estimators=5,n_jobs=-1,criterion='gini'),
       RandomForestClassifier(n_estimators=5,n_jobs=-1,criterion='entropy'),
       ExtraTreesClassifier(n_estimators=5,n_jobs=-1,criterion='gini'),
       ExtraTreesClassifier(n_estimators=5,n_jobs=-1,criterion='entropy'),
       GradientBoostingClassifier(learning_rate=0.05,subsample=0.5,max_depth=6,n_estimators=5)]


'''切分一部分数据作为测试集'''
X,X_predict,y,y_predict = train_test_split(data,target,test_size=0.33,random_state=2020)

'''切分训练数据集为d1,d2两部分'''
X_d1,X_d2,y_d1,y_d2 = train_test_split(X,y,test_size = 0.5,random_state=2020)
dataset_d2 = np.zeros((X_d2.shape[0],len(clfs)))
dataset_predict = np.zeros((X_predict.shape[0],len(clfs)))

for j,clf in enumerate(clfs):
    clf.fit(X_d1,y_d1)
    y_submission = clf.predict_proba(X_d2)[:,1]
    dataset_d2[:,j] = y_submission
    '''对于测试集，直接用这k个模型的预测值作为新的特征'''
    dataset_predict[:,j] = clf.predict_proba(X_predict)[:,1]
    print("val auc Score: %f" % roc_auc_score(y_predict,dataset_predict[:,j]))

'''融合使用的模型'''
clf = GradientBoostingClassifier(learning_rate=0.02,subsample=0.5,max_depth=6,n_estimators=30)
clf.fit(dataset_d2,y_d2)
y_submission = clf.predict_proba(dataset_predict)[:,1]

print("Linear stretch of predictions to [0,1]")
y_submission = (y_submission - y_submission.min())/(y_submission.max()-y_submission.min())
print("blend result")
print("val auc Score: %f"%(roc_auc_score(y_predict,y_submission)))

【参考资料】

多模型融合和集成学习的区别和联系是什么？
机器学习模型融合
ensemble之stacking详解以及Python代码实现
详解stacking过程

你可能感兴趣的:(机器学习)

Julia语言的计算机基础 Code侠客行包罗万象 golang 开发语言后端
Julia语言的计算机基础引言随着数据科学、机器学习和高性能计算的快速发展，对编程语言的需求也日益增加。在众多编程语言中，Julia语言因其独特的设计理念和高性能而迅速崛起。本文将详细探讨Julia语言的基础知识，包括其历史背景、安装与环境配置、基本语法、数据结构、函数与模块、以及性能优化等方面，旨在为对Julia感兴趣的读者提供一份全面的入门指南。一、Julia语言简介1.1历史背景Julia是
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
智能工单分配在技术支持中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
智能工单分配,技术支持,机器学习,算法优化,效率提升,客户满意度1.背景介绍在当今数字化时代，技术支持部门扮演着至关重要的角色，为用户提供及时有效的技术帮助，确保业务的正常运行。然而，随着用户数量和技术需求的不断增长，传统的人工工单分配方式面临着诸多挑战：分配效率低下:人工分配工单需要耗费大量时间和人力，且难以做到精准匹配，导致工单处理效率低下。资源分配不均衡:经验丰富的技术人员可能承担过多的工作
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
Level2逐笔成交逐笔委托毫秒记录：今日分享优质股票数据20250122 2401_89140926 python 金融数据库大数据
逐笔委托逐笔成交下载链接:https://pan.baidu.com/s/1WP6eGLip3gAbt7yFKg4XqA?pwd=7qtx提取码:7qtxLevel2逐笔成交逐笔委托数据分享下载通过Level2逐笔成交和逐笔委托这种每一笔的毫秒级别的数据可以分析出很多有用的点，包括主力意图，虚假动作，让任何操作无所遁形。适合交易大师来分析主力规律，也适合人工智能领域的机器学习，数据量大且精准。以下
机器学习-分类算法评估标准赛丽曼机器学习机器学习分类人工智能
一.准确率accuracy将预测结果和测试集的目标值比较，计算预测正确的百分比准确率越高说明模型效果越好fromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifier#加载鸢尾花数据X,y=datasets.load_i
Jetbrains Ai Assistant插件越来越好用了 Ai 编码 Ai编码工具人工智能 android
在IntelliJIDEA中，JetBrainsAI是JetBrains集成的人工智能功能，旨在提高开发效率，辅助开发者更智能地编写、优化和理解代码。JetBrainsAI作为IntelliJIDEA的一部分，通过自然语言处理和机器学习技术，提供了许多智能代码建议和自动化功能。点击这里：获取JetbrainsAiAssistant插件以下是JetBrainsAI在IntelliJIDEA中的一
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他