川川菜鸟

欺诈检测中的不平衡分类

文章目录

- 介绍
- 为什么模型可解释性很重要？
- 有哪些方法？
- 倾斜的数据分布
- 平衡数据分布
- 平衡算法
- 评估指标
- Precision-Recall 权衡在欺诈检测中的意义
- 关于权衡的结论
- 使用不平衡数据集进行训练和测试拆分
- 结果
- 平衡效果
- 最好的结果

介绍

对于一些经典的机器学习方法来说，使用不平衡的数据集可能是一个问题，但是，在某些情况下，类之间的数据自然分布并不相等。这是典型的欺诈检测问题。使用来自 Kaggle 的数据集，我们可以看到有很多合法交易，只有0.17%的总数据是欺诈. 在数据分布不平衡的分类问题中，研究通常侧重于识别稀有数据。机器学习模型的性能应该主要根据少数类别的预测结果来衡量。它将展示如何选择正确的指标来验证模型以及在我们的情况下Precision-Recall权衡的实际意义。最后，将重点介绍如何处理倾斜的类分布，并查看使用不同机器学习算法获得的结果。

为什么模型可解释性很重要？

在欺诈检测中，不仅最终的预测很重要，而且导致系统得出该结论的原因也重要。银行可以使用自动欺诈分类系统来检测可疑情况。发出警报后，银行员工可能会分析导致我们的系统识别假想欺诈的原因，并由专家做出最终决定。如果一个模型不能解释原因，它就永远不能被当局使用或用于法律目的。

当然，它并不总是那么重要，但是拥有一个可以解释分类原因的模型可能非常重要。

有哪些方法？

可以使用不同的方法检测欺诈行为。各种研究显示了基于神经/深度网络或经典机器学习算法的解决方案。

像神经网络这样的工具通常是黑盒模型。因此，试图获取规则或交易被神经网络以某种方式分类的原因可能非常困难，尽管如前所述，这些信息在欺诈检测中可能非常重要。像决策树这样经过训练的基于树的模型可以让我们了解系统为每个分类标签（欺诈或非欺诈）推断出的规则)。这很容易，您只需按照分类树从根到叶的路径即可了解分类标准。最后，神经网络是非常强大的方法，但有时不需要使用此类工具，经典的机器学习方法可能足以获得良好的结果。我们将训练和测试以下方法：

决策树
随机森林
Xgboost
逻辑回归
支持向量机
K-NN

倾斜的数据分布

分类器对偏度可能是健壮的，也可能不是。少数类可以作为不平衡数据集中统计模型的异常值，并且异常值会对模型的性能产生不利影响。一些模型足够健壮，可以处理异常值，但总的来说，问题是受限于使用哪个模型。处理不平衡数据集的挑战在于，机器学习技术通常会忽略它们，总而言之，它会导致少数类的表现不佳，尽管通常它应该是最重要的结果。关于这个问题，最佳实践可能是平衡数据并进行偏度消除过程。在不平衡的数据集上训练机器学习模型会影响我们的模型。

平衡数据分布

这个问题可以通过将数据集转换为具有相同数量的不同类元素的新数据集来解决。有两种可能的解决方案：

对多数类进行欠采样。
通过创建合成样本对少数类进行过采样。
第三种混合方式可以同时应用这两种方法：过采样和欠采样。

为什么这些策略有效？使用欠采样策略，假设多数类的一些记录是冗余的，但是，这种方法的局限性在于，通过删除数据，我们可以删除相关信息。使用过采样策略，创建少数类的合成示例，直到类之间的数据分布相同。这可以平衡类分布，但不会为模型提供任何附加信息。风险是过拟合少数类。

平衡算法

Random under/over-sample：最简单（但效率较低）的方法是删除多数类的随机记录并复制少数类的随机示例。

SMOTE：它通过选择特征空间中接近的示例来工作，首先选择来自少数类的随机示例。然后找到该示例中最近的k个邻居（通常为k=5）。在所选示例与k个邻居中的每一个之间的线上的随机选择点处创建合成示例。该方法是有效的，因为来自少数类的新合成示例在特征空间中与来自少数类的现有示例相对接近。

ADASYN：它与SMOTE非常相似。创建这些样本后，它会为这些点添加一个随机的小值，从而使其更加逼真。不是所有样本都与父样本线性相关，而是它们有更多的方差。

SMOTE TOMEK：应用SMOTE对少数类进行过采样。为了减少异常值，Tomek Link 应用于少数类和多数类。Tomek 链接是一个数据清理和异常值删除过程。如果它们中的每一个都更接近另一个类的示例而不是同一类的一个示例，它会删除 2 条不同类的记录。【(a) 原始数据集；(b) 过采样数据集；©Tomek 链接识别；(d) 去除边界和噪声示例。】

SMOTE ENN：与SMOTE TOMEK一样，清理和异常值检测过程更有效。举个例子，它是基于一个k最近邻的过程来决定是否应该删除一条记录。如果处理过程过于激进，我们可能会丢失重要信息。

评估指标

在机器学习中，有多种评估分类模型的方法。最常用的指标是准确度。它告诉我们在全部记录中正确分类了多少实例。在数据分布偏斜、类间数据不平衡程度较高的场景下，通常使用Precision、Recall、F-score和AUC等指标。

为什么准确性不是正确的指标？如果我们假设在我们的不平衡数据集中有95个正常交易实例并且只有5 个欺诈行为，那么始终预测非欺诈行为的虚拟预测模型将获得95%的准确率，而不会发现任何欺诈行为。这就是为什么当我们使用不平衡的数据集时，模型评估不使用准确性的原因。

Precision 和 Recall都很重要，它们告诉我们预测系统所取得的结果的不同之处，这些指标与Fraud(交易特征）有关，因为这是我们更感兴趣的。

Precision：当一笔交易被归类为欺诈时，精确度的值可以让我们了解系统如何确信如果它预测欺诈，则该交易是真正的欺诈。这是精度公式

Recall：召回的价值可以让我们了解系统如何有信心抓住所有欺诈行为。这是召回公式：

Precision-Recall 权衡在欺诈检测中的意义

完美的预测模型应该检测数据集中的所有欺诈行为，并确保每个预测的欺诈行为都是真实的欺诈行为。用我们的指标进行翻译意味着具有高召回率（检测所有欺诈）和高精度（预测为欺诈的交易的错误尽可能少）。Precision-recall 是一种权衡，当你试图优化精度时，召回率的价值会降低，反之亦然。

优化Precision是什么意思？我们将非常有信心预测为欺诈的交易是真正的欺诈，我们将调整分类器的参数，使其仅将很有可能是真正欺诈的交易预测为欺诈。缺点是无法检测到一些欺诈交易，可能是与非欺诈最相似的交易。系统将丢失一些将它们归类为正常的欺诈交易，这可能是一个问题。

优化Recall是什么意思？我们将非常有信心检测到所有欺诈行为，我们将调整分类器的参数，使其能够检测到尽可能多的欺诈行为。缺点是在尝试检测所有欺诈时，与欺诈相似的正常交易也会被归类为欺诈。

关于权衡的结论

Precision-recall是一种权衡，我们更喜欢Precision优化，我们检测到的欺诈更少，我们正在减少recall。更喜欢recall优化，我们检测到更多欺诈，但可能会发生其中一些被错误分类并且精度值会降低的情况。您可以选择一个指标而不是另一个指标，但重要的是始终牢记这两个指标。例如，一个模型达到 99% 的准确率和 15% 的召回率，它就不是一个好的预测器，因为即使它有非常高的准确率，它也无法检测到 85% 的欺诈！

我们不知道哪个指标比另一个更重要，这取决于我们的模型用于特定的用例。在某些情况下，检测所有欺诈行为可能更重要，如果存在误报（召回优化）则无关紧要，在其他情况下，我们更喜欢警报更少但精度更高。

使用不平衡数据集进行训练和测试拆分

使用平衡算法（例如SMOTE），我们将修改原始数据集，我们正在创建新示例，并删除其他示例。如果操作不当，可能会导致数据泄漏，我们希望避免这种情况。训练测试拆分过程必须在数据操作（如平衡）之前完成。这样，测试集将高度不平衡，这没关系，因为我们希望像在真实场景中一样测试我们的模型。我们只想为训练过程平衡数据。

结果

在显示结果之前，我们必须了解我们正在搜索的信息类型。回答一些简单的问题可以帮助我们了解我们的研究可以继续往哪个方向发展。

平衡方法有效吗？总是或仅在某些情况下？
哪种分类方法最好，性能如何？

平衡效果

该模型已经使用不同的机器学习算法进行了训练：决策树、随机森林、XGBOOST、SVM、LOGISTIC REGRESSION、K-NN。

平衡过程已使用之前显示的所有方法完成：RANDOM、SMOTE、ADASYN、SMOTE ENN、SMOTE TOMEK、IMBALANCED。

随机森林

决策树

XGBOOST

支持向量机

逻辑回归

K-NN

一些显示的方法在不平衡和平衡的数据上都达到了良好的效果。决策树和逻辑回归对不平衡数据有很好的效果。SVM受益于平衡过程，精度达到+54%。

一个有趣的结果是使用Random Forest、XGBoost和K-nn获得的结果。平衡过程导致召回率增加，这似乎是合理的。在平衡过程中，我们将增加模型在训练中看到的欺诈数量。通过这种方式，它将获得有关欺诈行为的更多信息，并且会识别出更多信息。

最好的结果

我们将展示使用不同方法获得的最有趣的结果。

使用Random Forest和XGBoost可获得最佳结果。此外，K-NN有有趣的结果，但我们更喜欢其他模型，因为预测模型可以在实时系统中使用，并且由于每个分类的计算复杂性，k-nn 不是最佳解决方案。逻辑回归和SVM有两种不同的行为。第一个在准确率上表现良好，第二个在召回率上表现良好。决策树非常适合处理不平衡的数据，并且结果越来越接近最好的分类器之一。

最好的分类器是随机森林和XGBoost。如前所述，如果我们更喜欢优化一个指标而不是另一个指标，那么平衡过程可能是一个重要的工具。平衡过程导致召回的增加，如果我们想检测更多的欺诈行为，这是一个重要的结果。

机器学习专栏：机器学习入门到大神

公众号：玩转大数据 CSDN:川川菜鸟

你可能感兴趣的:(#,数模讲解,分类,人工智能)

『解决ping问题』windows ubuntu 开发板三者互连如何设置指向NULL 环境&调试嵌入式
嵌入式开发中，我们经常会遇到ping问题，也就是windows主机，虚拟机和开发板之间互相ping不通的问题，看了韦东山老师关于此部分的讲解做了以下总结。1.确定虚拟机使用的网卡先来看几种应用场景：情景一：PC机使用有线网卡A直接连接开发板。这种情况下我们使用了有线网卡A最终连接了开发板，所以虚拟机要设置有线网卡A作为桥接网卡。情景二：PC机使用无线网卡A连接路由器，开发板连接到同一路由器的有线网
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
硬件NAS将成为电子垃圾？ DeepSeek+NAS 家用NAS WinNAS 飞牛NAS 人工智能安卓NAS
随着人工智能（AI）技术的快速发展，传统的NAS设备正面临一场深刻的变革。过去，NAS的主要功能是提供数据存储和共享服务，但在AI时代，单纯的存储功能已无法满足用户需求。未来的NAS必须集成本地AI能力，才能成为真正的AI-NAS。然而，当前市场上的NAS产品硬件配置普遍较低，无法支持本地AI的运行。因此，现有的硬件NAS在三年内可能会被淘汰，取而代之的将是集成了AI和NAS功能的家用AI服务器。
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
CAPL变量输出的格式说明符正当少年 CAPL CAPL
在CAPL（CANAccessProgrammingLanguage）中，变量输出的格式说明符用于控制变量在输出时的显示格式。以下是常用的CAPL变量输出格式说明符分类整理：以下是CAPL变量格式说明符的具体实例，展示了如何使用这些说明符来输出不同类型的变量：1.整数类型%d输出有符号十进制整数。intx=123;write("Value:%d",x);//输出:Value:123%u输出无符号十
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
图像识别技术与应用课后总结（20）一元钱面包人工智能
图像分割概念图像分割是把图像中不同像素划分到不同类别，预测目标轮廓，属于细粒度分类。比如将图像里不同物体、背景等区分开来，就像把一幅画里的各个元素精准归类。应用场景人像抠图：能精准分离人物和背景，用于图片编辑、影视制作等，比如去除照片背景换背景。医学组织提取：在医学影像（如CT、MRI图像）中分离出不同组织，辅助疾病诊断、手术规划等。遥感图像分析：分析卫星或航空遥感图像时，区分土地、植被、建筑等不
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
GOT-OCR2.0：突破性端到端架构与高精度文本识别的技术创新 XianxinMao 人工智能深度学习
GOT-OCR2.0在技术上的突破与优势GOT-OCR2.0在技术上实现了对传统OCR系统的显著超越，主要体现在其采用了统一的端到端（End-to-End）架构。这一架构的创新性设计带来了多方面的提升，具体包括以下几个关键方面：1.统一的端到端架构传统OCR系统的局限：传统的OCR流程通常由多个独立的模块组成，如图像预处理、字符分割、特征提取、分类识别等。这种多步处理方式不仅增加了系统的复杂性，还
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
141.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之IDataSource接口实现 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之IDataSource接口实现效果演示1.IDataSource接口概述1.1接口作用IDataSource接口定义了数据源的标准接口，提供了：数据访问方法数据操作方法监听器管理方法1.2接口实现e
JavaScript对象全解析：从宿主到内置，深入理解对象分类码农的时光故事前端 javascript
一、JavaScript对象全景图JavaScript对象系统远比表面看起来复杂，我们可以将其分为以下五大类：类别描述示例宿主对象由运行环境提供的对象（如浏览器中的DOM）window、document固有对象标准规定随运行时自动创建的基础对象Array、Date原生对象通过内置构造器创建的特权对象newArray()、newMap()普通对象用户创建的常规对象{}、newObject()特殊行为
python的离线安装包下载 Lake说科技 python 服务器 linux 开发语言运维
Python,安装相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python的离线安装包下载一、流程：步骤说明1确定需要下载的Python安装包版本2下载对应版本的离线安装包3将下载好的安装包传输至目标机器4在目标机器上进行安装二、具体步骤及代码：步骤1
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
解锁豆瓣高清海报(三)从深度爬虫到URL构造，实现极速下载 dreadp 爬虫 python beautifulsoup html 后端
脚本地址:项目地址:GazerPosterBandit_v2.py前瞻之前的PosterBandit.py是按照深度爬虫的思路一步步进入海报界面来爬取,是个值得学习的思路,但缺点是它爬取慢,仍然容易碰到豆瓣的418错误,本文也会指出彻底解决旧版418错误的方法并提高爬取速度.现在我将介绍优化版,这个版本通过直接构造URL来实现获取海报原图,准确识别、更快爬取.本文会重点讲解动态headers及其应
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络 linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
2024下半年——【寒假】自学黑客计划（网络安全）网安CILLE web安全网络安全 linux 网络安全密码学 ddos
CSDN大礼包：基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客
2024自学手册——网络安全（黑客技术）网安CILLE web安全安全网络
前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航三大章节，涉及价值观、方法论、执行力、行业分类、职位解读、法
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
【尚硅谷】鸿蒙应用开发 - 带源码课件 6v6-博客 harmonyos 华为
【尚硅谷】鸿蒙应用开发-带源码课件课程描述本教程精心设计了一款精致而小巧的实战应用，贯穿整个学习过程，真正做到理论与实践相结合。课程内容从基础到高级，层层递进，全面覆盖鸿蒙应用开发的所有必备技能。通过图解抽象知识、丰富的案例和清晰的讲解，帮助学习者快速掌握鸿蒙应用开发的核心技术。课程亮点实战驱动：以实际应用案例为主线，贯穿整个学习过程，让学习更贴近实际开发需求。内容全面：从基础概念到高级技能，系统
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
需求分析与问题定义原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
需求分析与问题定义原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在软件工程领域，需求分析与问题定义是至关重要的环节。它们决定了软件项目的成功与否，直接影响着软件的质量、成本和交付时间。随着软件项目的复杂性和规模日益增加，对需求分析与问题定义的要求也越来越高。本文将深入探讨需求分析与问题定义的原理，并
140.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之DataChangeListener接口 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之DataChangeListener接口效果演示1.DataChangeListener接口概述1.1接口定义interfaceDataChangeListener{onDataReloaded()
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他