weixin_33978044

R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理

在数据挖掘的过程中，数据预处理占到了整个过程的60%

脏数据：指一般不符合要求，以及不能直接进行相应分析的数据

脏数据包括：缺失值、异常值、不一致的值、重复数据及含有特殊符号（如＃、¥、＊）的数据

数据清洗：删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等

缺失值处理：删除记录、数据插补和不处理

主要用到VIM和mice包

install.packages(c("VIM","mice"))

1.处理缺失值的步骤

步骤：

（1）识别缺失数据；

（2）检查导致数据缺失的原因；

（3）删除包含缺失值的实例或用合理的数值代替（插补）缺失值

缺失值数据的分类：

（1）完全随机缺失：若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）。

（2）随机缺失：若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失（MAR）。

（3）非随机缺失：若缺失数据不属于MCAR或MAR，则数据为非随机缺失（NIMAR）。

2.识别缺失值

NA：代表缺失值；

NaN：代表不可能的值；

Inf：代表正无穷；

-Inf：代表负无穷。

is.na（）：识别缺失值；

is.nan（）：识别不可能值；

is.infinite（）：无穷值。

is.na（）、is.nan（）和is.infinte（）函数的返回值示例

x	is.na（x）	is.nan（x）	is.infinite（x）
x<-NA	TRUE	FALSE	FALSE
x<-0/0	TRUE	TRUE	FALSE
x<-1/0	FALSE	FALSE	TRUE

complete.cases（）可用来识别矩阵或数据框中没有缺失值的行，若每行都包含完整的实例，则返回TRUE的逻辑向量，若每行有一个或多个缺失值，则返回FALSE；

3.探索缺失值模式

（1）列表显示缺失值

mice包中的md.pattern（）函数可以生成一个以矩阵或数据框形式展示缺失值模式的表格

library(mice)

data(sleep,package="VIM")

md.pattern(sleep)

（2）图形探究缺失数据

VIM包中提供大量能可视化数据集中缺失值模式的函数：aggr（）、matrixplot（）、scattMiss（）

library("VIM")

aggr(sleep,prop=TRUE,numbers=TRUE)#用比例代替了计数

matrixplot（）函数可生成展示每个实例数据的图形

matrixplot(sleep)

浅色表示值小，深色表示值大；默认缺失值为红色。

marginplot（）函数可生成一幅散点图，在图形边界展示两个变量的缺失值信息。

library("VIM")

marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))

（3）用相关性探索缺失值

影子矩阵：用指示变量替代数据集中的数据（1表示缺失，0表示存在），这样生成的矩阵有时称作影子矩阵。

求这些指示变量间和它们与初始（可观测）变量间的相关性，有且于观察哪些变量常一起缺失，以及分析变量“缺失”与其他变量间的关系。

head(sleep)

str(sleep)

x<-as.data.frame(abs(is.na(sleep)))

head(sleep,n=5)

head(x,n=5)

y<-x[which(sd(x)>0)]

cor(y)

cor(sleep,y,use="pairwise.complete.obs")

4.理解缺失值数据的来由和影响

识别缺失数据的数目、分布和模式有两个目的：

（1）分析生成缺失数据的潜在机制；

（2）评价缺失数据对回答实质性问题的影响。

即：

（1）缺失数据的比例有多大？

（2）缺失数据是否集中在少数几个变量上，抑或广泛存在？

（3）缺失是随机产生的吗？

（4）缺失数据间的相关性或与可观测数据间的相关性，是否可以表明产生缺失值的机制呢？

若缺失数据集中在几个相对不太重要的变量上，则可以删除这些变量，然后再进行正常的数据分析；

若有一小部分数据随机分布在整个数据集中（MCAR），则可以分析数据完整的实例，这样仍可得到可靠有效的结果；

若以假定数据是MCAR或MAR，则可以应用多重插补法来获得有铲的结论。

若数据是NMAR，则需要借助专门的方法，收集新数据，或加入一个相对更容易、更有收益的行业。

5.理性处理不完整数据

6.完整实例分析（行删除）

函数complete.cases（）、na.omit（）可用来存储没有缺失值的数据框或矩阵形式的实例（行）：

newdata<-mydata[complete.cases(mydata),]

newdata<-na.omit(mydata)

options(digits=1)

cor(na.omit(sleep))

cor(sleep,use="complete.obs")

fit<-lm(Dream~Span+Gest,data=na.omit(sleep))

summary(fit)

7.多重插补

多重插补（MI）是一种基于重复模拟的处理缺失值的方法。

MI从一个包含缺失值的数据集中生成一组完整的数据集。每个模拟数据集中，缺失数据将使用蒙特卡洛方法来填补。

此时，标准的统计方法便可应用到每个模拟的数据集上，通过组合输出结果给出估计的结果，以及引入缺失值时的置信敬意。

可用到的包Amelia、mice和mi包

mice（）函数首先从一个包含缺失数据的数据框开始，然后返回一个包含多个完整数据集的对象。每个完整数据集都是通过对原始数据框中的缺失数据进行插而生成的。

with（）函数可依次对每个完整数据集应用统计模型

pool（）函数将这些单独的分析结果整合为一组结果。

最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。

基于mice包的分析通常符合以下分析过程：

library(mice)

imp<-mice(mydata,m)

fit<-with(imp,analysis)

pooled<-pool(fit)

summary(pooled)

mydata是一个饮食缺失值的矩阵或数据框；imp是一个包含m个插补数据集的列表对象，同时还含有完成插补过程的信息，默认的m=5analysis是一个表达式对象，用来设定应用于m个插补的统计分析方法。方法包括做线回归模型的lm（）函数、做广义线性模型的glm（）函数、做广义可加模型的gam（）、及做负二项模型的nbrm（）函数。fit是一个包含m个单独统计分析结果的列表对象；pooled是一个包含这m个统计分析平均结果的列表对象。

library(mice)

data(sleep,package="VIM")

imp<-mice(sleep,seed=1234)

fit<-with(imp,lm(Dream~Span+Gest))

pooled<-pool(fit)

summary(pooled)

impimp$imp$Dream

利用complete（）函数可观察m个插补数据集中的任意一个，格式为：complete(imp,action=#)

eg：

dataset3<-complete(imp,action=3)

dataset3

8.处理缺失值的其他方法

软件包	描述
Hmisc	包含多种函数，支持简单插补、多重插补和典型变量插补
mvnmle	对多元正态颁数据中缺失值的最大似然估计
cat	对数线性模型中多元类别型变量的多重插补
arrayImpute\arraryMissPattern、SeqKnn	处理微阵列缺失值数据的实用函数
longitudinalData	相关的函数列表，比如对时间序列缺失值进行插补的一系列函数
kmi	处理生存分析缺失值的Kaplan-Meier多重插补
mix	一般位置模型中混合类别型和连续型数据的多重插补
pan	多元面板数据或聚类的多重插补

（1）成对删除

处理含缺失值的数据集时，成对删除常作为行删除的备选方法使用。对于成对删除，观测只是当它含缺失数据的变量涉及某个特定分析时才会被删除。

cor(sleep,use="pairwise.complete.obs")

虽然成对删除似乎利用了所有可用数据，但实际上每次计算只用了不同的数据集，这将会导致一些扭曲，故建议不要使用该方法。

（2）简单（非随机）插补

简单插补，即用某个值（如均值、中位数或众数）来替换变量中的缺失值。注意，替换是非随机的，这意味着不会引入随机误差（与多重衬托不同）。

简单插补的一个优点是，解决“缺失值问题”时不会减少分析过程中可用的样本量。虽然简单插补用法简单，但对于非MCAR的数据会产生有偏的结果。若缺失数据的数目非常大，那么简单插补很可能会低估标准差、曲解变量间的相关性，并会生成不正确的统计检验的p值。应尽量避免使用该方法。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

异常值分析是检验数据是否有录入错误以及含有不合常理的数据；

异常值是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。

异常值处理一般分为以下几个步骤：异常值检测、异常值筛选、异常值处理。

其中异常值检测的方法主要有：箱型图、简单统计量（比如观察极(大／小)值），3σ原则

异常值处理方法主要有：删除法、插补法、替换法。

数据不一致：指数据的矛盾性、不相容性；在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,可能是由于被挖掘数据是来自于从不同的数据源、重复存放的数据未能进行一致性地更新造成的。

下面主要是进行异常值检验、离群点分析、异常值处理：

提到异常值不得不说一个词：鲁棒性。就是不受异常值影响，一般是鲁棒性高的数据，比较优质。

一、异常值检验

异常值大概包括缺失值、离群值、重复值,数据不一致。

1、基本函数

summary可以显示每个变量的缺失值数量.

2、缺失值检验

关于缺失值的检测应该包括：缺失值数量、缺失值比例、缺失值与完整值数据筛选。

#缺失值解决方案

sum(complete.cases(saledata)) #is.na(saledata)

sum(!complete.cases(saledata))

mean(!complete.cases(saledata)) #1/201数字，缺失值比例

saledata[!complete.cases(saledata),] #筛选出缺失值的数值

3、箱型图检验离群值

箱型图的检测包括：四分位数检测（箱型图自带）+1δ标准差上下+异常值数据点。

箱型图有一个非常好的地方是，boxplot之后，结果中会自带异常值，就是下面代码中的sp$out，这个是做箱型图，按照上下边界之外为异常值进行判定的。

上下边界，分别是Q3+（Q3-Q1）、Q1-（Q3-Q1）。

sp=boxplot(saledata$"销量",boxwex=0.7)

title("销量异常值检测箱线图")

xi=1.1

sd.s=sd(saledata[complete.cases(saledata),]$"销量")

mn.s=mean(saledata[complete.cases(saledata),]$"销量")

points(xi,mn.s,col="red",pch=18)

arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1)

text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out)),labels=sp$out[order(sp$out)],

sp$out[order(sp$out)]+rep(c(150,-150,150,-150),length=length(sp$out)),col="red")

代码中text函数的格式为text(x,label,y,col)；points加入均值点；arrows加入均值上下1δ标准差范围箭头。

箱型图还有等宽与等深分箱法

4、数据去重

数据去重与数据分组合并存在一定区别，去重是纯粹的所有变量都是重复的，而数据分组合并可能是因为一些主键的重复。

数据去重包括重复检测（table、unique函数）以及重复数据处理（unique/duplicated）。

常见的有unique、数据框中duplicated函数，duplicated返回的是逻辑值。

二、异常值处理

常见的异常值处理办法是删除法、替代法（连续变量均值替代、离散变量用众数以及中位数替代）、插补法（回归插补、多重插补）

除了直接删除，可以先把异常值变成缺失值、然后进行后续缺失值补齐。

实践中，异常值处理，一般划分为NA缺失值或者返回公司进行数据修整（数据返修为主要方法）

1、异常值识别

利用图形——箱型图进行异常值检测。

#异常值识别

par(mfrow=c(1,2))#将绘图窗口划为1行两列，同时显示两图

dotchart(inputfile$sales)#绘制单变量散点图,多兰图

pc=boxplot(inputfile$sales,horizontal=T)#绘制水平箱形图

代码来自《R语言数据分析与挖掘实战》第四节。

2、盖帽法

整行替换数据框里99%以上和1%以下的点，将99%以上的点值=99%的点值；小于1%的点值=1%的点值。

（本图来自CDA DSC，L2-R语言课程，常老师所述）

#异常数据处理

q1<-quantile(result$tot_derog, 0.001) #取得时1%时的变量值

q99<-quantile(result$tot_derog, 0.999) #replacement has 1 row, data has 0 说明一个没换

result[result$tot_derog<q1,]$tot_derog<-q1

result[result$tot_derog>q99,]$tot_derog<-q99

summary(result$tot_derog) #盖帽法之后，查看数据情况

fix(inputfile)#表格形式呈现数据

which(inputfile$sales==6607.4)#可以找到极值点序号（位置）是啥

把缺失值数据集、非缺失值数据集分开。

#缺失值的处理

inputfile$date=as.numeric(inputfile$date)#将日期转换成数值型变量

sub=which(is.na(inputfile$sales))#识别缺失值所在行数

inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分

inputfile2=inputfile[sub,]

3、噪声数据处理——分箱法

将连续变量等级化之后，不同的分位数的数据就会变成不同的等级数据，连续变量离散化了，消除了极值的影响。

4、异常值处理——均值替换

数据集分为缺失值、非缺失值两块内容。缺失值处理如果是连续变量，可以选择均值；离散变量，可以选择众数或者中位数。

计算非缺失值数据的均值，

然后赋值给缺失值数据。

#均值替换法处理缺失，结果转存

#思路：拆成两份，把缺失值一份用均值赋值，然后重新合起来

avg_sales=mean(inputfile1$sales)#求变量未缺失部分的均值

inputfile2$sales=rep(avg_sales,n)#用均值替换缺失

result2=rbind(inputfile1,inputfile2)#并入完成插补的数据

5、异常值处理——回归插补法

#回归插补法处理缺失，结果转存

model=lm(sales~date,data=inputfile1)#回归模型拟合

inputfile2$sales=predict(model,inputfile2)#模型预测

result3=rbind(inputfile1,inputfile2)

6、异常值处理——多重插补——mice包

注意：多重插补的处理有两个要点：先删除Y变量的缺失值然后插补
1、被解释变量有缺失值的观测不能填补，只能删除，不能自己乱补；
2、只对放入模型的解释变量进行插补。

比较详细的来介绍一下这个多重插补法。笔者整理了大致的步骤简介如下：

缺失数据集——MCMC估计插补成几个数据集——每个数据集进行插补建模（glm、lm模型）——将这些模型整合到一起（pool）——评价插补模型优劣（模型系数的t统计量）——输出完整数据集（compute）

步骤详细介绍：

函数mice()首先从一个包含缺失数据的数据框开始，然后返回一个包含多个（默认为5个）完整数据集的对象。

每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分，因此每个完整数据集都略有不同。

其中，mice中使用决策树cart有以下几个要注意的地方：该方法只对数值变量进行插补，分类变量的缺失值保留，cart插补法一般不超过5k数据集。

然后， with()函数可依次对每个完整数据集应用统计模型（如线性模型或广义线性模型），

最后， pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。

#多重插补法处理缺失，结果转存

library(lattice) #调入函数包

library(MASS)

library(nnet)

library(mice) #前三个包是mice的基础

imp=mice(inputfile,m=4) #4重插补，即生成4个无缺失数据集

fit=with(imp,lm(sales~date,data=inputfile))#选择插补模型

pooled=pool(fit)

summary(pooled)

result4=complete(imp,action=3)#选择第三个插补数据集作为结果

结果解读：

（1）imp对象中，包含了：每个变量缺失值个数信息、每个变量插补方式（PMM，预测均值法常见）、插补的变量有哪些、预测变量矩阵（在矩阵中，行代表插补变量，列代表为插补提供信息的变量， 1和0分别表示使用和未使用）；

同时利用这个代码imp$imp$sales 可以找到，每个插补数据集缺失值位置的数据补齐具体数值是啥。

> imp$imp$sales
1 2 3 4
9 3614.7 3393.1 4060.3 3393.1
15 2332.1 3614.7 3295.5 3614.7

（2）with对象。插补模型可以多样化，比如lm，glm都是可以直接应用进去，详情可见《R语言实战》第十五章；

（3）pool对象。summary之后，会出现lm模型系数，可以如果出现系数不显著，那么则需要考虑换插补模型；

（4）complete对象。m个完整插补数据集，同时可以利用此函数输出。

其他：

mice包提供了一个很好的函数md.pattern()，用它可以对缺失数据的模式有个更好的理解。还有一些可视化的界面，通过VIM、箱型图、lattice来展示缺失值情况。可见博客：在R中填充缺失数据—mice包

三、离群点检测

离群点检测与异常值主要的区别在于:

异常值针对单一变量，而离群值指的是很多变量综合考虑之后的异常值。

下面介绍一种基于聚类+欧氏距离的离群点检测方法。

基于聚类的离群点检测的步骤如下：数据标准化——聚类——求每一类每一指标的均值点——每一类每一指标生成一个矩阵——计算欧式距离——画图判断。

Data=read.csv(".data.csv",header=T)[,2:4]

Data=scale(Data)

set.seed(12)

km=kmeans(Data,center=3)

print(km)

km$centers #每一类的均值点

#各样本欧氏距离，每一行

x1=matrix(km$centers[1,], nrow = 940, ncol =3 , byrow = T)

juli1=sqrt(rowSums((Data-x1)^2))

x2=matrix(km$centers[2,], nrow = 940, ncol =3 , byrow = T)

juli2=sqrt(rowSums((Data-x2)^2))

x3=matrix(km$centers[3,], nrow = 940, ncol =3 , byrow = T)

juli3=sqrt(rowSums((Data-x3)^2))

dist=data.frame(juli1,juli2,juli3)

##欧氏距离最小值

y=apply(dist, 1, min)

plot(1:940,y,xlim=c(0,940),xlab="样本点",ylab="欧氏距离")

points(which(y>2.5),y[which(y>2.5)],pch=19,col="red")

参考来源于：

https://kknews.cc/zh-cn/tech/e2v4z.html

http://blog.csdn.net/sinat_26917383/article/details/51210793

你可能感兴趣的:(R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
相信相信的力量孙丽_cdb3
孙丽中级十期坚持分享第345天有一个特别有哲理的故事：有一只老鹰下了蛋，这个蛋，不知怎的就滚到了鸡窝里去了，鸡也下了一窝蛋，然后鸡妈妈把这些蛋全都浮出来了，孵出来之后等小鸡长大一点了，就觉得鹰蛋孵出来的那只小鹰怪模怪样，这些小鸡都嘲笑它，真难看，真笨，丑死了，那只小鹰觉得自己真是谁也不像，真是不好看，后来鸡妈妈也不喜欢他，我怎么生出你这样的孩子来了？真烦人，后来这群小鸡和小鹰一起生活，有一天，老鹰
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
今又重阳芮峻
今又重阳图片发自App白露成霜菊花黄，岁岁重阳，今又重阳。登高远望，君不见，那来时路上少年，青丝已染雪霜。落日一点一点西坠，谁有力量，托住使其回往。转眼缺了大半，又能怎样？江天两茫茫。给我一壶烈酒，我要敬那斜阳，看谁先醉？笑指西天红了一片，借点酒力，老夫聊发一次少年狂。老严.2019年重阳节.杭州
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理