雪晴数据网

在R中填充缺失数据―mice包

当我们在分析一个数据集以及做计算的时候，通常没那么简单。缺失数据是个很重要的问题。

如果缺失的数据量相对数据集的大小来讲比较小并且为了不偏离分析，忽略少量的样本或许是最后的策略。然而，忽略一些数据点的同时也会丢失数据的一些信息量，并且这也取决于你所遇到的情况。你或许应该考虑在删除一些潜在有用的数据点之前对数据集做一些修复。

在某些情况下，一些快速修复如均值替代或许是不错的办法。对于这种简单的办法，经常会给数据带来偏差。例如，均值代替法对数据的平均值不会产生变化（这是我们所希望的）。但会减小数据的方差，这不是我们所希望的。

R中的mice包通过合理的数据值可以帮助我们填充缺失值。这些合理的数据值都是从一个分布中得到的，这个分布是根据缺失数据点的特定情况设计的。

在本篇文章，我们使用R中的airquality数据集来做数据填充。

为了达到这篇文章的目的，我会从数据集中删除一些数据点。

data <- airquality
data[4:10,3] <- rep(NA,7)
data[1:5,4] <- NA

对于分类变量而言，代替分类变量通常是不可取的。一些通用的做法是根据观察到的模式来代替缺失的分类变量。然而，这种做法是值得怀疑。在这个案例中没有缺失的分类变量数据，我们把它从数据集中移除了，通过summary()来查看下数据。

data <- data[-c(5,6)]
summary(data)

     Ozone           Solar.R           Wind             Temp      
 Min.   :  1.00   Min.   :  7.0   Min.   : 1.700   Min.   :57.00  
 1st Qu.: 18.00   1st Qu.:115.8   1st Qu.: 7.400   1st Qu.:73.00  
 Median : 31.50   Median :205.0   Median : 9.700   Median :79.00  
 Mean   : 42.13   Mean   :185.9   Mean   : 9.806   Mean   :78.28  
 3rd Qu.: 63.25   3rd Qu.:258.8   3rd Qu.:11.500   3rd Qu.:85.00  
 Max.   :168.00   Max.   :334.0   Max.   :20.700   Max.   :97.00  
 NA's   :37       NA's   :7       NA's   :7        NA's   :5

显然，Qzone变量的数据点缺失最多。下面我们要深入挖掘丢失数据的模式。

对缺失数据快速分类

缺失的数据有两种类型：

MCAR:完全随机缺失，这是数据缺失的理想状况。
MNAR:非随机缺失，这是一个比较严重的问题。在这种情况下，你可能需要去检查数据的收集过程并且试着理解数据为什么会丢失。例如，大多数人在一项调查中不回答某个问题，为什么他们这样做呢？是问题不清楚吗？

假设数据缺失的类型是MCAR，过多的数据丢失也是一个问题。通常，一个可靠的最大阈值是数据集总数的5%。如果某些特征或样本缺失的数据超过了5%，你可能需要忽略掉这些特征或样本。因此，我们用一个简单的函数来检查下哪些特征（列）和样本（行）的数据缺失超过了5%。

pMiss <- function(x) {sum(is.na(x))/length(x)*100}
apply(data,2,pMiss)
apply(data,1,pMiss)

Ozone   Solar.R      Wind      Temp 
24.183007  4.575163  4.575163  3.267974 

  [1]  25  25  25  50 100  50  25  25  25  50  25   0   0   0   0   0   0   0   0   0   0
 [22]   0   0   0  25  25  50   0   0   0   0  25  25  25  25  25  25   0  25   0   0  25
 [43]  25   0  25  25   0   0   0   0   0  25  25  25  25  25  25  25  25  25  25   0   0
 [64]   0  25   0   0   0   0   0   0  25   0   0  25   0   0   0   0   0   0   0  25  25
 [85]   0   0   0   0   0   0   0   0   0   0   0  25  25  25   0   0   0  25  25   0   0
[106]   0  25   0   0   0   0   0   0   0  25   0   0   0  25   0   0   0   0   0   0   0
[127]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0

我们看到，Qzone列的数据点缺失大约25%。因此，我们可能会考虑从分析中剔除它或者是对它做更多的收集。其他变量都低于5%的阈值，我们可以保留它们。对于样本而言，只需缺少一个特征就会导致一个样本25%的数据缺失。当缺失2个或更多特征的时候应当尽可能的丢弃。

使用mice包来寻找丢失数据的模式

mice包提供了一个很好的函数md.pattern()，用它可以对缺失数据的模式有个更好的理解。

library(mice)
md.pattern(data)

    Temp Solar.R Wind Ozone   
104    1       1    1     1  0
 34    1       1    1     0  1
  4    1       0    1     1  1
  3    1       1    0     1  1
  3    0       1    1     1  1
  1    1       0    1     0  2
  1    1       1    0     0  2
  1    1       0    0     1  2
  1    0       1    0     1  2
  1    0       0    0     0  4
       5       7    7    37 56

输出结果显示，有104个样本是完整的，34个样本仅缺失Qzone观测值，4个样本样本仅缺失Solar.R值等等。

利用VIM包可以帮助我们得到一个很好的视觉展现，如下所示：

library(VIM)
aggr_plot <- aggr(data, col = c('navyblue', 'red'), numbers=TRUE, sortVars=TRUE, 
                  labels=names(data), cex.axis=.7, gap=3, 
                  ylab=c("Histogram of missing data", "Pattern"))

这幅图帮助我们了解到，将近70%的样本不缺失任何信息，22%的样本缺失Qzone值，其余的显示其他缺失模式。通过这种方法对缺失模式有更清晰的了解。

另一个很有帮助的可视化方法是绘制一个箱形图。

marginplot(data[c(1,2)])

显然，在这里我们被限定一次只能绘制两个变量。然而，我们也可以得到一些有趣的思考。

左边的红色箱线图展示的是在Qzone值缺失的情况下Solar.R的分布，而蓝色箱线图展示的Qzone值不缺失的情况下Solar.R的分布。同样的，Qzone箱线图在底部。

如果对数据缺失假定为MCAR类型正确的话，那么我们预期的红色箱线图和蓝色箱线图应该是非常相似的。

插补缺失数据

mice函数通过链式方程生成多元插补，详见文档

tempData <- mice(data,m=5,maxit=50,meth='pmm',seed=500)
summary(tempData)

Multiply imputed data set
Call:
mice(data = data, m = 5, method = "pmm", maxit = 50, seed = 500)
Number of multiple imputations:  5
Missing cells per column:
  Ozone Solar.R    Wind    Temp 
     37       7       7       5 
Imputation methods:
  Ozone Solar.R    Wind    Temp 
  "pmm"   "pmm"   "pmm"   "pmm" 
VisitSequence:
  Ozone Solar.R    Wind    Temp 
      1       2       3       4 
PredictorMatrix:
        Ozone Solar.R Wind Temp
Ozone       0       1    1    1
Solar.R     1       0    1    1
Wind        1       1    0    1
Temp        1       1    1    0
Random generator seed value:  500

参数注解： 1. m=5指的是插补数据集的数量，5是默认值 2. meth='pmm'指的是插补方法。在这里，我们使用预测均值匹配（Predictive mean matching ）作为插补方法。其他插补方法可以通过methods(mice)来查看。

如果你想查看插补的数据，例如Qzone变量，输入下面的代码行即可。

tempData$imp$Ozone

      1  2   3   4   5
5    13 20  28  12   9
10    7 16  28  14  20
25    8 14  14   1   8
26    9 19  32   8  37
...

输出显示了每个插补数据集（顶部第一行）中每个观测值（左侧第一列）的插补数据。

如果需要查看每个变量所用的插补方法，mice可以很容易的做到。

tempData$meth

  Ozone Solar.R    Wind    Temp 
  "pmm"   "pmm"   "pmm"   "pmm"

现在，我们可以使用complete()函数返回完整的数据集。

completedData <- complete(tempData,1)

缺失的值被五个数据集的第一个数据集做了替换。如果希望使用另一个数据集，只需更改complete()函数的第二个参数。

查看初始数据和插补数据的分布情况

我们利用一些有用的图对初始数据和插补后的数据分布做对比

library(lattice)
xyplot(tempData,Ozone ~ Wind+Temp+Solar.R,pch=18,cex=1)

我们希望看到的是洋红点呈现出的形状（插补值）跟蓝色点（观测值）呈现出的形状是匹配的。从图中可以看到，插补的值的确是“近似于实际值”。

另一个有用的图是密度图：

densityplot(tempData)

洋红线是每个插补数据集的数据密度曲线，蓝色是观测值数据的密度曲线。再次根据我们之前的假定，我们希望这些分布是相似的。

另一个有用的可视化是由stripplot()函数得到的包含个别点的变量分布图。

stripplot(tempData, pch = 20, cex = 1.2)

合并

假设我们下一步的分析是对数据拟合一个线性模型。你或许会问应该选择哪个插补数据集。mice包可以轻易的对每个数据集分别拟合一个模型，再把结果合并到一起。

modelFit1 <- with(tempData,lm(Temp~ Ozone+Solar.R+Wind))
summary(pool(modelFit1))

                     est         se         t       df     Pr(>|t|)
(Intercept) 72.812078768 2.95380500 24.650266 84.18464 0.000000e+00
Ozone        0.163094287 0.02607674  6.254397 57.78569 5.236295e-08
Solar.R      0.009679676 0.00789576  1.225933 37.48960 2.278691e-01
Wind        -0.352582008 0.21639828 -1.629320 92.89136 1.066321e-01
                   lo 95       hi 95 nmis       fmi    lambda
(Intercept) 66.938301817 78.68585572   NA 0.1477818 0.1277731
Ozone        0.110891894  0.21529668   37 0.2155848 0.1888975
Solar.R     -0.006311604  0.02567095    7 0.3004189 0.2640672
Wind        -0.782312735  0.07714872    0 0.1300747 0.1115442

modelFit1变量包含所有插补数据集的拟合结果，pool()函数将结果合并到一起。显然，仅从Qzone变量来看的话，是统计显著的。

请注意，这里除了lm()模型给出的结果外还包含其它列：fim指的是各个变量缺失信息的比例，lambda指的是每个变量对缺失数据的贡献大小。有关更多信息，请参考本文末尾的引用文章。

记住，我们之前对mice函数初始化了一个特定的seed，因此所得的结果多少依赖于我们最初的选择。为了减少这种影响，我们可以通过更改mice()函数默认m=5的参数来插补更多的数据集。如下所示：

tempData2 <- mice(data,m=50,seed=245435)
modelFit2 <- with(tempData2,lm(Temp~ Ozone+Solar.R+Wind))
summary(pool(modelFit2))

                     est          se         t       df     Pr(>|t|)
(Intercept) 73.156084276 2.803010282 26.099114 129.3154 0.000000e+00
Ozone        0.166242781 0.024926976  6.669192 118.4408 8.645631e-10
Solar.R      0.009046835 0.007374103  1.226839 114.5471 2.223989e-01
Wind        -0.382700790 0.202976584 -1.885443 136.6735 6.149264e-02
                   lo 95       hi 95 nmis        fmi    lambda
(Intercept) 67.610387851 78.70178070   NA 0.11141367 0.0977762
Ozone        0.116882484  0.21560308   37 0.16290744 0.1488906
Solar.R     -0.005560458  0.02365413    7 0.18096774 0.1667911
Wind        -0.784081566  0.01867999    0 0.07425875 0.0608104

在考虑初始化随机种子后，我们得到的结论跟之前基本是一致的――仅从Qzone变量来看是统计显著的。

这篇文章的完整代码可以在这里找到。

注：对多重插补感兴趣的小伙伴可以参考这篇文章mice:Multivariate Imputation by Chained Equations in R

本文由雪晴数据网负责翻译整理，原文请参考Imputing Missing Data with R; MICE package作者Michy Alice。转载请注明原文链接http://www.xueqing.cc/cms/article/98

树莓派超全系列教程文档--(21)用户配置想躺在地上晒成地瓜干树莓派树莓派 RaspberryPi 树莓派教程 linux
用户配置用户配置更改用户密码添加用户删除用户更改默认用户文章来源：http://raspberry.dns8844.cn/documentation原文网址用户配置更改用户密码您可以通过raspi-config应用程序或命令行更改当前用户账户的密码：$sudoraspi-config选择option2，然后按照说明更改密码。或者使用passwd应用程序：$passwd添加用户要添加新用户，请输入以
深入理解DRAM刷新机制：异步刷新为何无需扣除刷新时间？星途码客笔记杂谈计算机组成原理
引言在计算机组成原理和存储器系统的学习中，DRAM（动态随机存取存储器）的刷新机制是一个关键问题。许多同学在学习时会遇到一个疑问：“为什么异步刷新的刷新信号周期可以直接用总时间/行数计算（如2ms/32=62.5μs），而集中刷新和分散刷新却需要考虑刷新操作占用的时间？”这篇文章将系统性地分析三种DRAM刷新方式（集中刷新、分散刷新、异步刷新），解释为什么异步刷新可以“直接除”，而其他方式不行，并
人工智能——分类算法零基础学会人工智能人工智能分类数据挖掘 python 机器学习深度学习算法
目录7K近领算法7.1本章工作任务7.2本章技能目标7.3本章简介7.4编程实战7.5本章总结7.6本章作业本章已完结！7K近领算法摘要：本章实现的工作是：首先用Python导入包含学生成绩和学生类别的样本数据，然后采用K近邻分类算法，配置算法模型中的k值，以N维空间的欧式距离为度量标准，求解待分类学生样本的预测标签。将预测标签与真实标签进行对比得出分类结果准确率。最后将预测结果可视化。本章掌握的
细品CLUENER2020中文细粒度命名实体识别 Panesle 总结机器学习人工智能 ner
CLUENER2020中文细粒度命名实体识别研读与总结1.CLUENER2020数据集的构建与特点1.1数据来源与标注方法CLUENER2020数据集是从THUCNews中创建的，THUCNews包含约740,000篇来自新浪新闻RSS的新闻文章，涵盖14个不同领域的新闻类别（如金融、教育、娱乐等）。数据集的构建过程如下：采样与预标注：从THUCNews中随机采样新闻文章，每篇文章包含多个句子。通
jupyter和python的关系_Python附录——Python、Pycharm，Anaconda、Jupyter 关系、安装和配置... weixin_39637711
这个问题参见以下文章即可，讲的很全面。核心总结Python就是原生python；anaconda类似第三方集成，方便我们管理，而且自带很多库。如果选择安装Python的话，那么还需要pipinstall一个一个安装各种库，安装起来比较痛苦，还需要考虑兼容性；PyCharm就是一个IDE的角色，和NotePad没什么本质区别。只是大家习惯上，java配合MyEclipse使用，Anaconda+Py
基于Html+Css+javascript的网页制作（旅游主题）二挡起步 web设计网页规划与设计前端 css javascript html
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业，茶游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学
推荐文章：Cosmo——打造灵活高效的单页应用CMS 贾耀斐
推荐文章：Cosmo——打造灵活高效的单页应用CMSCosmoSinglePageAppCMS项目地址:https://gitcode.com/gh_mirrors/cos/Cosmo在快速发展的Web开发领域，寻找一个既强大又灵活的内容管理系统（CMS）成为众多开发者和网站所有者的共同需求。今天，我们为你介绍的正是这样一款利器——Cosmo，它巧妙地结合了前端界的明星框架AngularJS与服务
深度学习篇---网络结构 Ronin-Lotus 图像处理篇深度学习篇程序代码篇深度学习人工智能 python pytorch 残差块卷积池化
文章目录前言一、残差块（ResidualBlock）类二、卷积神经网络（CNNModule）类三、具体计算过程3.1第一个卷积模块3.1.1卷积层self.conv13.1.2批量归一化层self.norm13.1.3激活函数层self.relu13.1.4最大池化层self.pool13.2第一个残差块和池化层3.2.1残差块self.res_block13.2.2平均池化层self.pool2
如何理解Transformer缺乏像CNN那样的归纳偏置 CcaozzZ transformer cnn 深度学习
具体示例：“数字位置分类任务”我们设计一个简单的任务来对比CNN和Transformer对位置变化的处理能力：任务设定输入：28x28灰度图像，包含一个手写数字（0~9），但数字位置可能出现在图像任意位置（而非固定居中）。目标：模型需要同时完成两个任务：分类：识别数字类别（0~9）。定位：预测数字的中心坐标（x,y，取值范围[0,27]）。训练数据：仅包含数字出现在图像左侧半区的样本（x≤13）。
05_DML .又是新的一天. Mysql oracle 数据库
文章目录一、什么是DML1.1、准备工作二、DML的使用2.1、插入数据2.2、修改数据2.3、删除数据一、什么是DMLDML(DataManipulationLanguage)数据操作语言：增、删、改表记录。注意：DML是对表的内容进行操作，DDL是对表的结构进行操作，两者有本质区别。1.1、准备工作建库建表#创建数据库CREATEDATABASEIFNOTEXISTSmydb;#切换数据库US
Input子系统 @daiwei linux子系统底层原理 OS
阅读引言：写下这篇文章的原因是自己在日后的工作中可能会经常和Input子系统打交道，所以在学习完Input子系统之后写下这篇文章巩固知识和分享学习Input的过程，希望对有需要的朋友有所帮助。目录一、Input子系统引入1.什么是Input子系统2.如何区分输入设备和设备节点的关系2.1试探法2.2cat/proc/bus/input/devices2.3sys/class/input/event
鸿蒙 forEach和LazyForEach 萌新小鸡 harmonyos 华为
此文章内容兼容API12，使用harmonynext应用开发概念解释forEach和LazyForEach都是应用于循环渲染，forEach一般应用于数据量小，性能要求不高的场景；LazyForEach适用于数据量大，对性能要求较高的场景。比较维度forEachLazyForEach数据源ArrayIDataSource类型渲染策略一次性渲染所有的数据只渲染可视区域的数据内存一次性加载所有的数据只
如何实现高性能的在线 PDF 预览水煮白菜王 2025 前端 pdf 前端性能优化
作者简介：水煮白菜王（juejin/csdn同名），一位前端劝退师文章专栏：高德AMap专栏，记录一下平时学习在博客写作中记录，总结出的一些开发技巧✍。感目录思路实现方案1.服务器对PDF文件进行分片2.浏览器（客户端）根据用户交互行为获取并渲染指定的分片获取远程的pdf文档PDFDocumentLoadingTaskPDFDocumentProxyPDFPageProxy实现细节下载PDF分片渲
python-13-运算符和表达式 SEEONTIME python基础 python 开发语言
python运算符和表达式一.说明运算符和表达式是基本的编程构建模块，但是还是有点语法的细节问题需要思考，请大家跟随我的文章，我会带大家详细解释清楚这章的内容并快速掌握他。二.运算符1.算术运算符+：加法-：减法*：乘法/：除法（返回浮点数）//：地板除（返回整数）%：取模（返回余数）**：幂（指数）a=10b=3print(a+b)#13print(a//b)#3print(a**b)#1000
【Go语言学习系列53】高可用系统设计 Gopher部落 #专业篇 golang 学习开发语言
【Go语言学习系列53】高可用系统设计本文是【Go语言学习系列】的第53篇，点击下方链接查看更多文章第四阶段：专业篇性能优化（一）：编写高性能Go代码性能优化（二）：profiling深入性能优化（三）：并发调优导航【Go语言学习系列52】分布式系统基础【Go语言学习系列53】高可用系统设计(本文)【Go语言学习系列54】Kubernetes与Go开发(待更新)目录引言高可用系统的核心概念可用性度
FPGA——实现LED流水灯 Dlrbw fpga开发
文章目录一、Quartusll_18.1和VSCode软件的关联二、DE2-115的时钟电路三、流水灯的分层次设计四、总结一、Quartusll_18.1和VSCode软件的关联1.先打开QuartusII软件，然后选择菜单栏“Tools”下的“Options…”。2.点击“Options…”，在弹出的对话框中，选择“General”选项卡下的“PreferredTextEditor”，默认使用的
文章记单词 | 第20篇（六级）阿图灵学习学习方法
一，单词释义continuous：形容词（adj.），连续不断的；持续的；连续的；延伸的；反复的；频繁的anxiety：名词（n.），焦虑；忧虑；担心；害怕；渴望versatile：形容词（adj.），多才多艺的；多面手的；多用途的；多功能的bless：动词（v.），求神赐福于；祝福；祝圣；赞美；感谢；保佑bankrupt：形容词（adj.），破产的；倒闭的；彻底缺乏的；动词（v.），使破产；使倒
运维别卷系列 - 云原生监控平台之 02.prometheus exporter 实践月巴左耳东 Prometheus 运维云原生 prometheus
文章目录@[toc]exporter简介常用的exporternode-exporter实践创建svc创建daemonsetprometheus配置服务发现exporter简介随着Prometheus的流行，很多系统都已经自带了用于Prometheus监控的接口，例如etcd、Kubernetes、CoreDNS等，所以这些系统可以直接被Prometheus所监控。但是，有很多应用目前还没有提供用
uniapp自定义圆形滑杆 Little_Code uni-app javascript 前端
之前我的一篇文章写的是自定义长方形滑杆，这次客户修改了，让改成圆形的。上代码吧我这个是在NVUE中运行的代码，其他没有测试,主要是学习与参考，如果不能用，就学习其中的逻辑，主要在边界的处理，我当时也是看着别人的做的，不知道为什么。。。。-。-78这个数字，是根据宽度和高度进行修改的，是他们的一般多一点，反正调试到中间就好，自己调试看看exportdefault{name:'SliderContro
调试技巧：如何高效使用STM32调试器 SuperMale-zxq 嵌入式硬件微服务 stm32 架构单片机
##我的个人网站『摸鱼网站』『摸鱼游戏』调试技巧：如何高效使用STM32调试器文章导览在本文中，我将带你深入探索STM32调试的世界，从基础概念到高级技巧，全方位提升你的调试效率。无论你是刚接触STM32的新手，还是已经有一定经验的开发者，这篇文章都能帮你解决调试过程中的痛点问题。为什么调试如此重要？调试器的工作原理常见STM32调试器对比与选择指南调试环境搭建的最佳实践断点调试的高级技巧实时监控
Django：内置和自定义中间件 Cachel wood django入门教程 django 中间件 python 数据分析 sql 数据挖掘机器学习
文章目录工作原理使用场景内置中间件自定义中间件Django中间件是Django请求/响应处理流程中的一个轻量级插件系统，它可以对请求和响应进行全局处理，在整个Django项目的请求处理过程中扮演着重要角色。以下从中间件的工作原理、使用场景、内置中间件、自定义中间件几个方面详细介绍：工作原理Django中间件本质上是一个类，它定义了一些方法，这些方法会在请求处理的不同阶段被调用。当一个请求到达Dja
整合分块请求大模型返回的测试用例及小工具显示bug修复 Python测试之道测试提效测试用例 bug 服务器
在之前的分块发送需求数据给大模型进行测试用例生成时，由于数据结构的改变，需要对分块的回复进行整合，正确的整合是保障系统稳定性和功能正确性的核心。随着测试需求的复杂化，这对测试工程师提出了更高的整合和管理要求。本文将为初学者详细介绍如何利用Python整合分块请求大模型返回的测试用例数据，并通过逻辑清晰的代码实现高效汇总，帮助你快速上手大模型生成的测试用例处理。背景问题：分块测试用例数据的整合难点在
MySQL 性能优化：提升查询效率的实用技巧 XMYX-0 mysql 性能优化数据库
文章目录MySQL性能优化：提升查询效率的实用技巧前言优化方式数据库层面的优化硬件层面的优化慢查询日志分析与优化慢查询日志配置查看慢查询日志SQL语句优化使用`EXPLAIN`分析查询执行计划OrderBy优化Count优化分页查询优化分库分表总结MySQL性能优化：提升查询效率的实用技巧前言在开发过程中，如何优化数据库的性能是一个至关重要的话题，尤其是在处理大规模数据或高并发请求时。优化不仅能减
java之Excel文件导入导出功能解决方案详解凛鼕将至 Java技术栈高级攻略 excel java 导入导出
本系列文章简介：在实际的开发过程中，Excel文件的导入和导出功能是非常常见的需求。特别是在数据处理和数据交换的场景下，Excel文件的使用非常广泛。为了实现Excel文件的导入导出功能，我们可以借助Java中的一些第三方库，如ApachePOI和JExcel等。这些库提供了一系列的API，可以方便地读取和写入Excel文件。本文将详细介绍如何使用ApachePOI库和CSV解析库来实现Excel
SSH原理与实战：密钥认证实现服务器免密登录东方、宏 ssh 服务器运维
文章目录为啥需要免密登录呢一、SSH工作原理简述1.加密三剑客2.连接建立流程二、关键文件解析三、两台服务器免密登录实战环境准备步骤1：生成密钥对（服务器A）步骤2：部署公钥到服务器B步骤3：配置快捷连接（服务器A）步骤4：测试免密登录四、安全增强措施1.密钥防护2.服务器加固五、常见问题排查症状：仍要求输入密码症状：Hostkeyverificationfailed为啥需要免密登录呢免密登录主要
RapidJSON 处理 JSON（高性能 C++ 库）（四）风一流世 C/C++JSON json c++rapidjson
第四部分：RapidJSON处理JSON（高性能C++库）快速掌握JSON！文章+视频双管齐下如果你觉得阅读文章太慢，或者更喜欢边看边学的方式，不妨直接观看我录制的RapidJSON课程视频！视频里会用更直观的方式讲解RapidJSON的核心概念、实战技巧，并配有动手演示，让你更高效地掌握RapidJSON的处理方法！当然，如果你喜欢深度阅读，这篇文章会帮助你系统地理解RapidJSON，从基础到
Java模块化(JPMS)：模块化为何而生？Java模块化的历史与使命(1) 双囍菜菜 Java java 开发语言
模块化为何而生？Java模块化的历史与使命文章目录模块化为何而生？Java模块化的历史与使命一、从“快递分拣”到“乐高积木”：模块化的前世今生二、模块化不是“新发明”：那些年的替代方案三、模块化的三大使命：封装、依赖、可靠配置四、模块化的意义：不止于技术五、总结：模块化是Java的“成人礼”一、从“快递分拣”到“乐高积木”：模块化的前世今生想象一下，你网购了10件商品，快递员却把所有东西胡乱塞进一
Qt实现Excle文件合并，并保留原文件单元格样式 Qt云程序员 Qt-功能分享 qt excel 开发语言
简介1.QtExcel操作接口，该文章excel接口可实现多个文件进行合并，但是并不保留原有的单元格格式，下面操作将保留原格式进行合并。上代码1.接口函数TableCellAttrreadCellStyle(QAxObject*cell);2.该接口实现读取单元格样式进行解析，转换结构体。3.该结构体内容并不是非常丰富，可以进行扩展，只是实现了一些常用样式。TableCellAttrExcelTh
Redis缓存异常场景深度解析：穿透、击穿、雪崩及终极解决方案星河浪人缓存 redis 数据库
一、引言在高并发系统中，缓存承担着流量洪峰的削峰填谷作用。然而当缓存层出现异常时，可能引发数据库级联崩溃，造成系统瘫痪。本文将深入剖析缓存穿透、缓存击穿、缓存雪崩三大典型问题，并提供企业级解决方案。文章包含7种防御策略、3个实战案例，助您构建坚如磐石的缓存体系。二、缓存穿透（CachePenetration）2.1现象与危害现象：恶意请求不存在的数据，绕过缓存直击数据库危害：数据库压力暴增，可能导
SQL：CASE WHEN使用详解 Cachel wood sql语言 sql server +mysql sql 数据库数据分析 python 数据挖掘机器学习
文章目录1.数据转换与映射2.动态条件筛选3.多条件分组统计4.数据排名与分级5.处理空值与默认值6.动态排序CASEWHEN语句在SQL中是一个非常强大且灵活的工具，除了常规的条件判断外，还有很多巧妙的用法，以下为你详细总结：1.数据转换与映射用途：将一列中的值根据特定规则映射为其他值，常用于数据清洗和标准化。示例：假设有一个products表，其中category列包含值'electronic
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

在R中填充缺失数据―mice包

对缺失数据快速分类

使用mice包来寻找丢失数据的模式

插补缺失数据

查看初始数据和插补数据的分布情况

合并

你可能感兴趣的:(文章,平均值,修复,样本,没那么简单)