turkeyzhou

分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

Posted on 2008/12/25 by 胡江堂

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样的机械解释中，不敢多说一句，就怕哪里说错。本文就试图用一个统一的例子（SAS Logistic回归），从实际应用而不是理论研究的角度，对以上提到的各个评估指标逐一点评，并力图表明：

这些评估指标，都是可以用白话（plain English, 普通话）解释清楚的；
它们是可以手算出来的，看到各种软件包输出结果，并不是一个无法探究的“黑箱”；
它们是相关的。你了解一个，就很容易了解另外一个。

本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始，它最简单，而且是大多数指标的基础。

数据

本文使用一个在信用评分领域非常有名的免费数据集，German Credit Dataset，你可以在UCI Machine Learning Repository找到（下载；数据描述）。另外，你还可以在SAS系统的Enterprise Miner的演示数据集中找到该数据的一个版本（dmagecr.sas7bdat）。以下把这个数据分为两部分，训练数据train和验证数据valid，所有的评估指标都是在valid数据中计算（纯粹为了演示评估指标，在train数据里计算也未尝不可），我们感兴趣的二分变量是good_bad，取值为{good, bad}：

Train datagood_bad    Frequency     Percent-------------------------------------------bad               154              25.67good             446              74.33Valid datagood_bad    Frequency     Percent--------------------------------------------bad               146              36.50good             254              63.50

信用评分指帮助贷款机构发放消费信贷的一整套决策模型及其支持技术。一般地，信用评分技术将客户分为好客户与坏客户两类，比如说，好客户(good)能够按期还本付息（履约），违约的就是坏客户(bad)。具体做法是根据历史上每个类别（履约、违约）的若干样本，从已知的数据中考察借款人的哪些特征对其拖欠或违约行为有影响，从而测量借款人的违约风险，为信贷决策提供依据。Logistic回归是信用评分领域运用最成熟最广泛的统计技术。

约定

在我们的示例数据中，要考察的二分变量是good_bad，我们把感兴趣的那个取值bad（我们想计算违约的概率），称作正例(Positive, 1)，另外那个取值(good）称作负例(Negative, 0)。在SAS的Logistic回归中，默认按二分类取值的升序排列取第一个为positive，所以默认的就是求bad的概率。（若需要求good的概率，需要特别指定）。

模型

如果没有特别说明，以下所有的SAS代码都在SAS 9.1.3 SP4系统中调试并运行成功（在生成ROC曲线时，我还会提到SAS9.2的新功能）。

proc logistic data=train;model good_bad=checking history duration savings property;run;

这个数据很整齐，能做出很漂亮的模型，以下就直接贴出参数估计的结果：

Analysis of Maximum Likelihood EstimatesStandard     WaldParameter    DF    Estimate       Error     Chi-Square    Pr > ChiSqIntercept     1      0.6032      0.4466        1.8242        0.1768checking      1     -0.6536      0.0931       49.3333        <.0001history         1     -0.4083      0.0980       17.3597        <.0001duration      1      0.0248     0.00907        7.4820        0.0062savings        1     -0.2017      0.0745        7.3308        0.0068property      1      0.3157      0.1052        9.0163        0.0027

回归方程就是：

logit[p(bad)]=log(p/1-p)             =0.6032-0.6536*checking-0.4083*history+0.0248*duration              -0.2017*savings+0.3157*property

用下面的公式就可以求出正例的概率（bad的概率）：

p=exp(logit)/(exp(logit)+1)

上式求出的是概率值，如何根据概率值把各个客户归类，还需要一个阈值，比如，这里我们简单地规定，违约概率超过0.5的就归为bad，其余为good。把上述公式代入valid数据中，

data valid_p;set valid;logit=0.6032-0.6536*checking-0.4083*history+0.0248*duration-0.2017*savings+0.3157*property;p=exp(logit)/(exp(logit)+1);if p<0.5 then good_bad_predicted='good';else good_bad_predicted='bad';keep good_bad p good_bad_predicted;run;

从下面的局部的数据valid_p可以看到，一些实际上是good的客户，根据我们的模型（阈值p取0.5），却预测他为bad（套用我们假设检验的黑话，这就犯了“弃真”的错误），对一些原本是bad的客户，却预测他为good（“取伪”错误），当然，对更多的客户，good还预测成good，bad还预测成bad：

good_bad       p       good_bad_predictedbad       0.61624       badbad       0.03607       goodgood      0.12437      goodgood      0.21680      goodgood      0.34833      goodgood      0.69602      badbad       0.68873       badgood      0.48351      goodgood      0.03288      goodgood      0.06789      goodgood      0.61195      badgood      0.15306      good

Confusion Matrix, 混淆矩阵

一个完美的分类模型就是，如果一个客户实际上(Actual)属于类别good，也预测成(Predicted)good，处于类别bad，也就预测成bad。但从上面我们看到，一些实际上是good的客户，根据我们的模型，却预测他为bad，对一些原本是bad的客户，却预测他为good。我们需要知道，这个模型到底预测对了多少，预测错了多少，混淆矩阵就把所有这些信息，都归到一个表里：

		预测		1	0实	1	d, True Positive	c, False Negative	c+d, Actual Positive际	0	b, False Positive	a, True Negative	a+b, Actual Negative		b+d, Predicted Positive	a+c, Predicted Negative

其中，

a是正确预测到的负例的数量, True Negative(TN,0->0)
b是把负例预测成正例的数量, False Positive(FP, 0->1)
c是把正例预测成负例的数量, False Negative(FN, 1->0)
d是正确预测到的正例的数量, True Positive(TP, 1->1)
a+b是实际上负例的数量，Actual Negative
c+d是实际上正例的个数，Actual Positive
a+c是预测的负例个数，Predicted Negative
b+d是预测的正例个数，Predicted Positive

以上似乎一下子引入了许多概念，其实不必像咋一看那么复杂，有必要过一下这里的概念。实际的数据中，客户有两种可能{good, bad}，模型预测同样这两种可能，可能匹配可能不匹配。匹配的好说，0->0（读作，实际是Negative，预测成Negative），或者 1->1（读作，实际是Positive，预测成Positive），这就是True Negative（其中Negative是指预测成Negative）和True Positive（其中Positive是指预测成Positive）的情况。

同样，犯错也有两种情况。实际是Positive，预测成Negative (1->0) ，这就是False Negative；实际是Negative，预测成Positive (0->1) ，这就是False Positive；

我们可以通过SAS的proc freq得到以上数字：

proc freq data=valid_p;tables good_bad*good_bad_predicted/nopercent nocol norow;run;

对照上表，结果如下：

	预测		1	0实	1,bad	d, True Positive,48	c, False Negative,98	c+d, Actual Positive,146际	0,good	b, False Positive,25	a, True Negative,229	a+b, Actual Negative,254		b+d, Predicted Positive,73	a+c, Predicted Negative,327	400

根据上表，以下就有几组常用的评估指标（每个指标分中英文两行）：

1. 准确（分类）率VS.误分类率

准确（分类）率=正确预测的正反例数/总数

Accuracy=true positive and true negative/total cases= a+d/a+b+c+d=(48+229)/(48+98+25+229)=69.25%

误分类率=错误预测的正反例数/总数

Error rate=false positive and false negative/total cases=b+c/a+b+c+d=1-Accuracy=30.75%

2. （正例的）覆盖率VS. （正例的）命中率

覆盖率=正确预测到的正例数/实际正例总数，

Recall(True Positive Rate，or Sensitivity)=true positive/total actual positive=d/c+d=48/(48+98)=32.88%

/*注：覆盖率(Recall）这个词比较直观，在数据挖掘领域常用。因为感兴趣的是正例(positive)，比如在信用卡欺诈建模中，我们感兴趣的是有高欺诈倾向的客户，那么我们最高兴看到的就是，用模型正确预测出来的欺诈客户(True Positive)cover到了大多数的实际上的欺诈客户，覆盖率，自然就是一个非常重要的指标。这个覆盖率又称Sensitivity，这是生物统计学里的标准词汇，SAS系统也接受了（谁有直观解释？）。以后提到这个概念，就表示为, Sensitivity（覆盖率，True Positive Rate）。 */

命中率=正确预测到的正例数/预测正例总数

Precision(Positive Predicted Value,PV+)=true positive/ total predicted positive=d/b+d=48/(48+25)=65.75%

/*注：这是一个跟覆盖率相对应的指标。对所有的客户，你的模型预测，有b+d个正例，其实只有其中的d个才击中了目标（命中率）。在数据库营销里，你预测到b+d个客户是正例，就给他们邮寄传单发邮件，但只有其中d个会给你反馈（这d个客户才是真正会响应的正例），这样，命中率就是一个非常有价值的指标。以后提到这个概念，就表示为PV+(命中率，Positive Predicted Value)*。/

3.SPECIFICITY VS. PV-

负例的覆盖率=正确预测到的负例个数/实际负例总数

Specificity(True Negative Rate)=true negative/total actual negative=a/a+b=229/(25+229)=90.16%

/*注：Specificity跟Sensitivity（覆盖率，True Positive Rate）类似，或者可以称为“负例的覆盖率”，也是生物统计用语。以后提到这个概念，就表示为Specificity(负例的覆盖率，True Negative Rate) 。*/

负例的命中率=正确预测到的负例个数/预测负例总数

Negative predicted value(PV-)=true negative/total predicted negative=a/a+c=229/(98+229)=70.03%

/*注：PV-跟PV+（命中率，Positive Predicted value）类似，或者可以称为“负例的命中率”。以后提到这个概念，就表示为PV-(负例的命中率，Negative Predicted Value)。*/

以上6个指标，可以方便地由上面的提到的proc freq得到：

proc freq data=valid_p;tables good_bad*good_bad_predicted ;run;

其中，准确率=12.00%+57.25%=69.25% ，覆盖率=32.88% ，命中率=65.75% ，Specificity=90.16%，PV-=70.03% 。

或者，我们可以通过SAS logistic回归的打分程序（score）得到一系列的Sensitivity和Specificity，

proc logistic data=train;model good_bad=checking history duration savings property;score data=valid outroc=valid_roc;run;

数据valid_roc中有几个我们感兴趣的变量：

_PROB_:阈值，比如以上我们选定的0.5
_SENSIT_：sensitivity（覆盖率，true positive rate）
_1MSPEC_ ：1-Specificity，为什么提供1-Specificity而不是Specificity，下文有讲究。

_PROB_ _SENSIT_ _1MSPEC_0.54866 0.26712 0.070870.54390 0.27397 0.078740.53939 0.28767 0.086610.52937 0.30137 0.090550.51633 0.31507 0.094490.50583 0.32877 0.098430.48368 0.36301 0.102360.47445 0.36986 0.10630

如果阈值选定为0.50583，sensitivity（覆盖率，true positive rate）就为0.32877，Specificity就是1-0.098425=0.901575，与以上我们通过列联表计算出来的差不多（阈值0.5）。

下期预告：ROC

以上我们用列联表求覆盖率等指标，需要指定一个阈值（threshold）。同样，我们在valid_roc数据中，看到针对不同的阈值，而产生的相应的覆盖率。我们还可以看到，随着阈值的减小（更多的客户就会被归为正例），sensitivity和1-Specificity也相应增加（也即Specificity相应减少）。把基于不同的阈值而产生的一系列sensitivity和Specificity描绘到直角坐标上，就能更清楚地看到它们的对应关系。由于sensitivity和Specificity的方向刚好相反，我们把sensitivity和1-Specificity描绘到同一个图中，它们的对应关系，就是传说中的ROC曲线，全称是receiver operating characteristic curve，中文叫“接受者操作特性曲线”。欲知后事如何，且听下回分解。

参考资料：

Mithat Gonen. 2007. Analyzing Receiver Operating Characteristic Curves with SAS. Cary, NC: SAS Institute Inc.
Dan Kelly, etc. 2007. Predictive Modeling Using Logistic Regression Course Notes. Cary, NC: SAS Institute Inc.
Confusion Matrix, seehttp://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html

This entry was posted in 数据挖掘与机器学习, 生物与医学统计, 统计软件 and tagged Confusion Matrix, Logistic回归, SAS, Sensitiveity, Specificity, 分类模型, 命中率, 数据挖掘, 混淆矩阵, 覆盖率 by 胡江堂. Bookmark the permalink.

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
高级UI<第二十四篇>：Android中用到的矩阵常识 NoBugException
（1）定义在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：图片.png这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数aij为(i,j)元的矩阵可记为(aij)或(aij)m×n，m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵，元素是复
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
windows C++ 并行编程-编写parallel_for 循环 sului windows C++并行编程技术 c++开发语言
示例：计算两个矩阵的乘积以下示例显示了matrix_multiply函数，可计算两个方阵的乘积。//Computestheproductoftwosquarematrices.voidmatrix_multiply(double**m1,double**m2,double**result,size_tsize){for(size_ti=0;i#include#include#includeusin
面试经典 150 题 2 —（二分查找）— 74. 搜索二维矩阵 BreezeChasingDrizzle leetcode 矩阵算法 leetcode c++二分查找
74.搜索二维矩阵方法classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intmatrixRows=matrix.size(),matrixCols=matrix[0].size();//先找target所在的行inttargetAtRow=-1;for(inti=0;i>&matrix,inttarget){intma
#LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification 向日葵花籽儿 LLM入门教程笔记 prompt 分类数据库
在本章中，我们将重点探讨评估输入任务的重要性，这关乎到整个系统的质量和安全性。在处理不同情况下的多个独立指令集的任务时，首先对查询类型进行分类，并以此为基础确定要使用哪些指令，具有诸多优势。这可以通过定义固定类别和硬编码与处理特定类别任务相关的指令来实现。例如，在构建客户服务助手时，对查询类型进行分类并根据分类确定要使用的指令可能非常关键。具体来说，如果用户要求关闭其账户，那么二级指令可能是添加有
View-＞Bitmap缩放到自定义ViewGroup的任意区域(Matrix方式绘制Bitmap) Yang-Never View android kotlin android studio 开发语言
Bitmap缩放和平移加载一张Bitmap可能为宽高相同的正方形，也可能为宽高不同的矩形缩放方向可以为中心缩放，左上角缩放，右上角缩放，左下角缩放，右下角缩放Bitmap中心缩放，包含了缩放和平移两个操作，不可拆开Bitmap其余四个方向的缩放，可以单独缩放不带平移，也可以缩放带平移XML文件Activity代码constvalTAG="Yang"classMainActivity:AppComp
大模型微调 - 基于预训练大语言模型的对话生成任务训练代码西笑生大模型大模型自然语言处理微调
大模型微调-基于预训练大语言模型的对话生成任务训练代码flyfish模型扮演堂吉诃德这个角色，回答关于自我介绍的问题importtorchfromdatasetsimportDatasetfrommodelscopeimportAutoTokenizer,AutoModelForCausalLMfrompeftimportLoraConfig,TaskType,get_peft_modelfrom
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
7-6 列出连通集 (25 分) 胡小涛 DFS BFS
7-6列出连通集(25分)给定一个有N个顶点和E条边的无向图，请用DFS和BFS分别列出其所有的连通集。假设顶点从0到N−1编号。进行搜索时，假设我们总是从编号最小的顶点出发，按编号递增的顺序访问邻接点。输入格式:输入第1行给出2个整数N(0#includeusingnamespacestd;typedefstructGNode{intn;inte;intAdjMatrix[11][11];};s
LeetCode——363. 矩形区域不超过 K 的最大数值和(Max Sum of Rectangle No Larger Than K)[困难]——分析及代码（Java）江南土豆数据结构与算法 LeetCode Java 题解
LeetCode——363.矩形区域不超过K的最大数值和[MaxSumofRectangleNoLargerThanK][困难]——分析及代码[Java]一、题目二、分析及代码1.排序+二分查找（1）思路（2）代码（3）结果2.有序集合（1）思路（2）代码（3）结果3.直接查找（1）思路（2）代码（3）结果三、其他一、题目给你一个mxn的矩阵matrix和一个整数k，找出并返回矩阵内部矩形区域的不
Leetcode363. 矩形区域不超过 K 的最大数值和 wyyzds Leetcode leetcode
Leetcode363.矩形区域不超过K的最大数值和题目思路结果与不足之处新知识自己的代码官方代码题目链接:363.题目描述：给你一个mxn的矩阵matrix和一个整数k，找出并返回矩阵内部矩形区域的不超过k的最大数值和。题目数据保证总会存在一个数值和不超过k的矩形区域。提示： m=matrix.length n=matrix[i].length 1>（会超过时间限制）。自己的代码class
Vue3+TypeScript频谱跳动算法（附vue2+JavaScript） I like Code? javascript typescript 算法
以下为Vue3+TypeScript频谱跳动算法只需要调用下列方法即可实现，并且设置定时器。（最好每次先清楚，否则可能耗内存）if(updateInterval.value){clearInterval(updateInterval.value);}constupdateInterval=ref(undefined);generateDataSets();updateInterval.value=
363. 矩形区域不超过 K 的最大数值和（C语言实现） Buaaer(>ω<) 算法学习-Leetcode 动态规划算法二分查找
文章目录363.矩形区域不超过K的最大数值和题干声明方法1-暴力枚举+简单dp方法2-暴力枚举+二维数组前缀和方法3-固定边界搜索方法4-固定边界搜索+dp优化方法5-固定边界搜索+前缀和+二分查找363.矩形区域不超过K的最大数值和本题涉及内容：一/二维前缀和问题、降维问题、暴力枚举问题、dp问题、二分查找问题题干给你一个m∗nm*nm∗n的矩阵matrixmatrixmatrix和一个整数kk
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
Mitochondria 浩瀚之宇
SRASearchterm:(mitochondria)AND"Homosapiens"[orgn:__txid9606]https://www.ncbi.nlm.nih.gov/sra/?term=(mitochondria)+AND+%22Homo+sapiens%22%5Borgn%3A__txid9606%5DGEODataSetshttps://www.ncbi.nlm.nih.gov/
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源