diggerTT

算法模型---算法调优---数据挖掘模型效果评估方法汇总

基于损失函数的标准

sklearn中的模型评估

混淆矩阵

混淆矩阵用在分类器中，是对每一类样本的统计，包括正确分类和错误分类的个数。对于m类样本，可能的错误种类有 $m^2-m$ 个。
对于2分类问题存在4种可能的情况：

		实际的类
预测的类		c_+	c_-	合计
	c_+	TurePositive	FalseNegative	Actual Positive=TP+FN
	c_-	FalsePositive	TureNegative	Actual Negative=FP+TN
	总计	Predicted Positive=TP+FP	Predicted Negative=FN+TN	TP+FP+FN+TN

多分类问题类似，只是情况更多。

准确率及误差率的度量

为了度量预测的精确度，隐含假设每一个错误分类的样本成本相同，引入误差率和准确率两个指标作为这种成本的度量。
误差率： 错误分类的样本数(E)与检测样本总数(S)的比值
$R = E / S$
准确率： 正确分类的样本数与检测样本总数(S)的比值
$A=1-R=\frac{S-E}{S}$
我们也可以引入更全面的指标：
用 $p o s$ 表示真实正例的样本数， $n e g$ 表示真实负例的样本数， $T P$ 表示正确预测的正例样本数， $F P$ 表示负例被当成正例的样本数， $T N$ 表示正确预测的负例样本数， $F N$ 表示正例被当成负例的样本数。以下括号中的文字有些是自己给取的名字，不要跟其他地方混淆了。
灵敏度(真正率)： 在预测的正例里有多少是真正的（比例）（有点查全的感觉，真的有这么多正例，有多少被挑出来了）
$True\ Positive\ Rate=Sensitivity=\frac{TP}{TP+FN}$
即召回率(查全率Recall)： 计算方法同真正率，相同东西在不同场合下的叫法。
特异性（真负率）： 在预测的负例里有多少是正负的（比例）（有点查全的感觉，只不过是会对负例样本，真的有这么多负例，有多少被挑出来了）
$Specificity=\frac{TN}{TN+FP}$
精度（查准率）： 即在预测结果的正例里真实正例的比例（有点查准的感觉，预测了这么多，多少预测对了）
$Precision=\frac{TP}{TP+FP}$
即查准率Precision)： 与精度计算方法相同
错误正例(假正率)： 在预测的正例里有多少是假的（比例）
$False\ Positive\ Rate=1-\frac{TN}{TN+FP}=\frac{FP}{TN+FP}$ ，
错误负例(假负率)： 在预测的负例里有多少是正的（比例）
$False\ Negetive\ Rate=1-\frac{TP}{TP+FN}=\frac{FN}{TP+FN}$
可重新表达：准确率:
$A=\frac{TP+TN}{pos+neg}=\frac{TP}{pos}*\frac{pos}{pos+neg}+\frac{TN}{neg}\frac{neg}{pos+neg}$
上面的概念中只要记住真正率的概念，真负率与之相似，都是表达在预测的XX里，真的XX的占比；而假正率和假负率又分别与前面的真正率和真负率互补，都是1-XX比例，或者说都是在表达在预测的XX里，假的XX的占比；召回率（查全率）这个很好理解，我们分析数据的目的一般就是奔着正例去的，能找出来越多越好，其表达式与真正率一样也就好理解；查准率也较好理解，有一个准字在表达式里，说明和准确率有关，同样它也是奔着正例去，在预测的正例里预测对了多少，与之相似的是准确率，准确率是针对全体样本，不管正负看总体预测对了多少。

最终

F_1值：
$F_1=\frac{2*P*R}{P+R}$ ，更一般的形式为 $F_1=\frac{(1+\beta^2)P*R}{(\beta^2*P)+R}$ 这里的P指查准率，R指查全率
β=1退化为F1；β>1查全率有更大影响；β<1查准率有更大影响。
宏平均（macro-average）: 一般用在文本分类器，是先对每一个类统计指标值，然后在对所有类求算术平均值。宏平均指标相对微平均指标而言受小类别的影响更大。
微平均（micro-average）： 一般用在文本分类器，是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵，然后计算相应指标。
平均准确率(Average Per-class Accuracy): 为了应对每个类别下样本的个数不一样的情况，计算每个类别下的准确率，然后再计算它们的平均值。
对数损失函数(Log-loss): 在分类输出中，若输出不再是0-1，而是实数值，即属于每个类别的概率，那么可以使用Log-loss对分类结果进行评价。这个输出概率表示该记录所属的其对应的类别的置信度。比如如果样本本属于类别0，但是分类器则输出其属于类别1的概率为0.51，那么这种情况认为分类器出错了。该概率接近了分类器的分类的边界概率0.5。Log-loss是一个软的分类准确率度量方法，使用概率来表示其所属的类别的置信度。对数损失函数越小，模型就越好。可参考：对数损失函数(Logarithmic Loss Function)的原理和 Python 实现

评价模型成本的可视化工具

machine learning week6 诊断机器学习算法的性能各种学习曲线来判断学习算法是过拟合或欠拟合

Model evaluation: quantifying the quality of predictions
论XGBOOST科学调参
深度探讨机器学习中的ROC和PR曲线
机器学习性能指标之ROC和AUC理解与曲线绘制

lift图

lift 叫提升指数，也就是运用模型比不运用模型精度的提升倍数。
$lift=\frac{TP}{TP+FP}/\frac{TP+FN}{TP+FN+FP+TN}$
也可以表示为
$lift=\frac{累计预测精度}{平均精度}$
结论是：提升指数越高，模型的准确率越高。
对准确率进行提升的例子：

假设根据以往的经验，问卷调查的回应率为20%，即发出100份问卷收回的有20份，但是通过对历史数据的分析发现特定人群的回应率会更高（数据分析的过程即为建模），然后对特定人群进行发放整个回应率就得到提升。

用在数据挖掘模型里也是一样，利用模型能对准确率提升越多，单方面来讲模型效果就越好。
具体做法如下：
I、计算出测试样本中正例的百分比，即为平均精度；
II、 利用模型对测试样本进行预测，按预测得分降序将样本排序，将排序好的样本分成10份，即按10分位数操作；
III、 计算第1份样本中的预测精度，然后利用预测精度/平均精度，得到第1份数据的提升指数；
IV、 计算至第2份样本处的累计预测精度，然后利用累计预测精度/平均精度，得到至第2份样本处的提升指数；
VI、 依次得到10个节点处的提升指数；
VI、 画出基线（各节点处均为1）及不同模型提升指数的曲线图；
VII、 进行模型效果对比，图形越高越好；

ROC曲线

ROC曲线是利用真正率为纵轴，假正率为横轴画出的曲线，用来评估模型预测准确率。很明显，当真正率大越近1，假正率越接近0是模型越好。
对于给定的一组样本，我们只能得到一个真正率和一个假正率（对应图上的一个点），那如何画ROC曲线呢？

假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。不同的阈值可以得到不同点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0),阈值最小时，对应坐标点(1,1)。所有这些点连起来即得到了ROC曲线；

真正率大越近1，假正率越接近0是模型越好，在图上的表现就是ROC曲线越靠近(0,1)点，越远离 $45^o$ 对角线；
评价模型有很多指标，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变换的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡，即正负样本比例差距较大，而且测试数据中的正负样本也可能随着时间变化。
ROC曲线在概念上和PR曲线类似,它是对分类器的真阳性率假阳性率的图形化解释。
真阳性率(TPR)是真阳性的样本数除以真阳性和假阴性的样本数之和。换句话说,TPR是真阳性数目占所有正样本的比例。这和之前提到的召回率类似,通常也称为敏感度。
假阳性率(FPR)是假阳性的样本数除以假阳性和真阴性的样本数之和。换句话说,FPR是假阳性样本数占所有负样本总数的比例。
通过来讲，对同一个数据分析任务，数据集相同，我们可以看一个ROC曲线是否包含另一个，被包含的那个较差，如果两者相关交，就要看曲线下面积，比较麻烦，此时可以看f1得分等；但不同的数据分析任务，ROC就放在一起比较就没有什么意义。

如何画roc曲线

机器学习性能指标之ROC和AUC理解与曲线绘制

AUC曲线

AUC(area under curve): 即ROC曲线下的面积。
若一个学习器的ROC曲线被另一个包住，后者的性能能优于前者；若交叉，判断ROC曲线下的面积，即AUC。
关于AUC的计算方法，可参考AUC计算方法总结
在考查AUC时也要考查其他指标AUC越大，正确率就越高？

PR曲线

坐标为查准率，横坐标为召回率真

如何画PR曲线

与roc曲线的画法类似

areaUnderPR

这里的PR指查准率和查全率 .
通常,准确率和召回率是负相关的,高准确率常常对应低召回率,反之亦然。为了说明这点, 假定我们训练了一个模型的预测输出永远是类别1。因为总是预测输出类别1,所以模型预测结果不会出现假阴性,这样也不会错过任何类别1的样本。于是,得到模型的召回率是1.0。另一方面, 假阳性会非常高,意味着准确率非常低(这依赖各个类别在数据集中确切的分布情况)。
准确率和召回率在单独度量时用处不大,但是它们通常会被一起组成聚合或者平均度量(比如f1得分)。二者同时也依赖于模型中选择的阈值。
直觉上来讲,当阈值低于某个程度,模型的预测结果永远会是类别1。因此,模型的召回率为1,但是准确率很可能很低。相反,当阈值足够大,模型的预测结果永远会是类别0。此时,模型的召回率为0,但是因为模型不能预测任何真阳性的样本,很可能会有很多的假阴性样本。不仅如此,因为这种情况下真阳性和假阳性为0,所以无法定义模型的准确率。
准确率-召回率(PR)曲线,表示给定模型随着决策阈值的改变,准确率和召回率的对应关系。PR曲线下的面积为平均准确率。直觉上,PR曲线下的面积为1等价于一个完美模型,其准确率和召回率达到100%。
当正负样本差距不大的情况下，ROC和PR的趋势是差不多的，但是当负样本很多的时候，两者就截然不同了，ROC效果依然看似很好，但是PR上反映效果一般。解释起来也简单，假设就1个正例，100个负例，那么基本上TPR可能一直维持在100左右，然后突然降到0.
areaUnderPR和AUC更详细的情况可查看，ROC曲线和PR曲线。两者的分子分母都不一样

偏差和方差

机器学习中的PR曲线和ROC曲线
机器学习算法笔记之9：偏差与方差、学习曲线
泛化误差可以分解为偏差、方差与噪声之和

偏差度量了学习算法的期望预测和真实结果偏离程度。

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

噪声可以认为数据自身的波动性，表达了目前任何学习算法所能达到泛化误差的下限。

偏差大说明欠拟合，方差大说明过拟合。

由上图左图可以得到，当训练集样本数增大到某个值以后时，验证集的误差保持大致不变，表明增加更多的训练数据点并不能带来更好的模型，与其增大训练集的规模，不如尝试构建更加复杂的模型算法。而右图则表明增加更多训练样本会降低模型误差，改善模型性能。

高验证集误差表明是一个偏差问题，但并不能直接指明具体的偏差问题。与此同时，高训练集误差表明是高偏差问题（欠拟合），模型不能很好地拟合训练数据；而低训练集误差表明是低偏差问题，模型可以很好地拟合训练数据。

方差variance问题诊断：首先检查验证学习曲线和训练学习曲线之间的差距，然后检查训练误差（检查误差值随训练样本数的增加的变化）。

两曲线较小的差距代表较小的variance，差距越小则variance越小，反之亦然。高方差即variance较大说明出现了过拟合问题（过度拟合训练数据）。当过拟合的模型分别在训练集和验证集上测试时，训练误差较低而验证误差较高，且随着训练样本数的增加这种模式继续存在，训练集和验证集之间的差异程度决定了这两条曲线之间的距离。

训练误差和验证误差之间的关系，以及训练学习曲线和验证学习曲线之间的差距可以总结如下：gap = validation_error − training_error。两个误差之间的差距越大，曲线之间的距离越大，variance 越大。

通常，以下两种修正方式在处理高 bias 和低 variance 的问题时会比较奏效：

用更多的特征训练当前的学习算法，即通过增加模型的复杂度来降低 bias。
减少对当前算法的正则化。正则化能够避免算法在训练数据上过拟合。如果我们减少了正则化，模型会更好地拟合训练数据，就会增加 variance，降低 bias。

理想化的学习曲线应该是两条学习曲线都收敛至误差为0的时候，而实际上这是不可能的

sklearn 中的学习曲线应用

from sklearn.model_selection import learning_curve

评估分类器的准确率

上面讲的评价模型的指标或曲线都是在测试集中进行的，也就是我们需要将数据集分为训练集和测试集，训练集用于训练模型参数，测试集用于检验模型在数据中的预测效果。这就是我们评估分类器大的方法。下面介绍将数据划分为训练集和测试集的方法。

再替换方法

所有的数据即用于训练模型也用于检验模型

保持方法和随机子抽样

保持方法(hold out)： 按一定比例随机地从数据集中抽取一部分样本作训练集，剩下的样本为测试集，通训练集在2/3~4/5之间；
随机子抽样(random subsampling)： 抽取一定比例样本做为训练集，剩下的样本为测试集；然后在第1次的训练集重复该操作；重复n次，评论指标的平均值作为最终的评价值；这是一种无放回抽样；

交叉验证法

K折交叉验证(K-fold cross-validation): 将样本分成K份，每份数量大致相等，然后用其他的某一份作为测试，其他样本作为训练集，得到一个模型和一组预测值及模型评估值；循环这个过程K次，得到K组模型评估值，对其取平均值即得到最终的评估结果；
留一(leave-one-out): 是K-fold cross-validation的特征形式，每次只取一个样本作为测试样本，其余样本作为训练样本，重复该过程K次（假如样本总数为K）。

自助法

自助法(bootstrap method): 在数据集中采用有放回的方式抽样，产生训练集和测试集；重复该过程n次。

基于统计检验的标准

统计模型之间的距离

距离是典型的相似性指标。
欧氏距离
熵距离
卡方距离
0-1距离
我并不认为用距离评估模型的效果是一种好的做法，只有不同类样本在样本内扎堆，类间分离的时候这种检测才是一致的。

统计模型的离差

离差即误差的统称：如标准差，方差都为这一类
欧氏离差即为平均误差和。

基于记分函数的标准

贝叶斯标准

计算标准

交叉检验标准

利用交叉检验的处理方法，再配合其他指标如离差进行检验。

自展标准

遗传算法

其他评价指标

计算速度： 分类器训练和预测需要的时间；
鲁棒性： 处理缺失值和异常值的能力；
可扩展性： 处理大数据集的能力；
可解释性： 分类器的预测标准的可理解性，像决策树产生的规则就是很容易理解的，而神经网络的一堆参数就不好理解，我们只好把它看成一个黑盒子。

回归模型评估指标

RMSE（root mean square error，平方根误差）： 其又被称为RMSD（root mean square deviation），RMSE对异常点（outliers）较敏感，如果回归器对某个点的回归值很不理性，那么它的误差则较大，从而会对RMSE的值有较大影响，即平均值是非鲁棒的。其定义如下：
MAE（ mean absolute error，平均绝对误差）：
Quantiles of Errors： 为了改进RMSE的缺点，提高评价指标的鲁棒性，使用误差的分位数来代替，如中位数来代替平均数。假设100个数，最大的数再怎么改变，中位数也不会变，因此其对异常点具有鲁棒性。
判定系数（coefficient of determination，记为 $R^2$ 或 $r^2$ ）: 用于度量因变量的变异中可由自变量解释部分所占的比例，以此来判断统计模型的解释力。

sklearn中的评价函数

http://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics

分类主要是基于混淆矩阵，回归主要是基于误差。

sklearn.metrics.f1_score

sklearn中 F1-micro 与 F1-macro区别和计算原理
区别是micro是对所有样本求f1 score而macro是先在组内先求f1 scroe，然后对这些f1 scroe求加权平均；

y_true = [1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4]
y_pred = [1, 1, 1, 0, 0, 2, 2, 3, 3, 3, 4, 3, 4, 3]
print(f1_score(y_true,y_pred,labels=[1,2,3,4],average='micro'))
#>>> 0.615384615385

如果采用交叉验证，可以如下设置,可以看到它对每一组测试样本都会计算一个f1_score，我们可以简单采用这些f1_score的平均值来综合衡量模型的好坏，从而指导我们调参。

>> from sklearn import metrics
>>> scores = cross_val_score(
...     clf, iris.data, iris.target, cv=5, scoring='f1_macro')
>>> scores                                              
array([ 0.96...,  1.  ...,  0.96...,  0.96...,  1.        ])

聚类中的评估标准

聚类︱python实现六大分群质量评估指标（兰德系数、互信息、轮廓系数）

如何理解K-L散度（相对熵）

spark中的评估

Spark机器学习4·分类模型(spark-shell)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
《分片终章的哈希裂痕：藏在数据拼接里的隐形逻辑》前端
在大文件分片传输里，有一个令人费解的现象：当所有分片的校验都显示正常，拼接后的整体文件却与源文件的哈希值不符，而问题往往精准地指向最后一片。这并非偶然的技术故障，而是数据传输链条中多重隐形逻辑交织的必然结果，如同钟表的齿轮在最后一圈突然出现难以察觉的错位。文件被切割成固定大小的分片时，最后一片往往是规则的例外。它如同拼图中形状特异的收尾piece，尺寸可能小于其他分片，却承担着衔接整体的关键作用。
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
Cesium加载各类数据总结 zhu_zhu_xia cesium JavaScript javascript
接触到的加载数据类型：源地图、shp、Geojson、png、wms、地形底图一.Cesium加载各类底图#此类加载的本质在于newCesium.ImageryProvider()Apidefination：“Providesimagerytobedisplayedonthesurfaceofanellipsoid.Thistypedescribesaninterfaceandisnotinten
vue keep-alive标签的运用
keep-alive，想必大家都不会很陌生，在一些选项卡中会使用到。其实，它的作用大概就是把组件的数据给缓存起来。比如果我有一个选项卡，标签一，标签二，标签三。现在，我需要实现，当我在标签一的表单中输入内容后，点击标签二，再回到标签一，表单的内容依然存在。如果按以往的做法，不使用keep-alive，那是不能实现的。然而，我们只需要在选项卡的内容最外层包一个keep-alive标签即可。但这儿有一
Redis Sentinel（哨兵）和 Redis Cluster（集群） G丶AEOM 八股普通学习区 Redis redis 数据库缓存
哨兵机制和集群有什么区别Redis集群主要有两种，一种是RedisSentinel哨兵集群，一种是RedisCluster。主从集群，包括一个Master和多个Slave节点，Master负责数据的读写，Slave负责数据的读取，Master上收到的数据变更会同步到Slave节点上实现数据同步，但不提供容错和恢复，在Master宕机时不会选出新的Master，导致后续客户端所有写请求直接失败。所以
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S