Yooooung_Lee

R中的几种统计分布及常用模型 (整理)

搜集自Little_Rookie博客园，以下部分格式和内容有所修正和补充，欢迎转载~

李阳 15应用统计学内蒙古财经大学

统计学上分布有很多，在R中基本都有描述。因能力有限，我们就挑选几个常用的、比较重要的简单介绍一下每种分布的定义，公式，以及在Ｒ中的展示。

统计分布每一种分布有四个函数：d――density（密度函数），p――分布函数，q――quantilie（分位数函数），r――random（随机数函数）。比如，正态分布的这四个函数为dnorm，pnorm，qnorm，rnorm。下面我们列出各分布后缀，前面加前缀d、p、q或r就构成函数名：norm：正态，t：t分布，f：F分布，chisq：卡方（包括非中心） unif：均匀，exp：指数，weibull：威布尔，gamma：伽玛，beta：贝塔 lnorm：对数正态，logis：逻辑分布，cauchy：柯西， binom：二项分布，geom：几何分布，hyper：超几何，nbinom：负二项，pois：泊松 signrank：符号秩，wilcox：秩和，tukey：学生化极差

下面先列举各种分布：

rnorm(n, mean=0, sd=1) 正态（高斯）分布
rexp(n, rate=1) 指数分布
rgamma(n, shape, scale=1) γ分布
rpois(n, lambda) Poisson分布
rweibull(n, shape, scale=1) Weibull分布
rcauchy(n, location=0, scale=1)Cauchy分布
rbeta(n, shape1, shape2) β分布
rt(n, df) t分布
rf(n, df1, df2) F分布
rchisq(n, df) 卡方分布
rbinom(n, size, prob)二项分布
rgeom(n, prob)几何分布
rhyper(nn, m, n, k)超几何分布
rlogis(n, location=0, scale=1) logistic分布
rlnorm(n, meanlog=0, sdlog=1)对数正态
rnbinom(n, size, prob)负二项分布
runif(n, min=0, max=1)均匀分布
rwilcox(nn, m, n), rsignrank(nn, n) Wilcoxon分布

注意了，上面的分布都有一个规律，就是所有的函数前面都有r开始

如果想获得概率密度，就用ｄ替换ｒ

如果想获取累计概率密度，就用ｐ替换ｒ

如果想获取分位数，就用ｑ替换ｒ

二项分布：

即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

公式： P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k)

其中，P是成功的概率，ｎ是ｎ次独立重复实验，ｋ是ｎ次实验ｋ次发生的概率

期望： Eξ=np

方差： Dξ=np(1-p)

二项分布在R中展现：

p=.4

K=200

n=10000

x=rbinom(n,k,p)

hist(x)

进行标准化处理：

mean=k*p

var=k*p*(1-p)

z=(x-mean)/sqrt(var)

hist(z)

绘制密度图

mean=k*p

var=k*p*(1-p)

z=(x-mean)/sqrt(var)

hist(z)

正态分布：

正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为 N(μ，σ^2)

当μ = 0，σ = 1时的正态分布是标准正态分布。

正态分布在R中的展现：

x=rnorm(k, mean=mean,sd=sqrt(var))

hist(x)

泊松分布：

是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年时发表。

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布在R中的展现：

par(mfrow=c(2,2),mar = c(3,4,1,1))

lambda=.5

x=rpois(k, lambda)

hist(x)

lambda=1

x=rpois(k, lambda)

hist(x)

lambda=5

x=rpois(k, lambda)

hist(x)

lambda=10

x=rpois(k, lambda)

hist(x)

二项分布与泊松分布：

当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧10,p≦0.1时，就可以用泊松公式近似得计算。

par(mfrow=c(3,3),mar = c(3,4,1,1))

k=10000

p=c(.5, .05, .005)

n=c(10,100,1000)

for (i in p){

for (j in n){

x=rbinom(k,j,i)

hist(x)

}}

卡方分布：

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布（chi-square distribution）。

卡方分布是由正态分布构造而成的一个新的分布，当自由度n很大时，

分布近似为正态分布。

卡方分布在R中的展示：

k=10000

par(mfrow=c(2,2),mar = c(3,4,1,1))

x=rchisq(k,2)

d=density(x)

plot(d)

x=rchisq(k,5)

d=density(x)

plot(d)

x=rchisq(k,100)

d=density(x)

plot(d)

x=rchisq(k,1000)

d=density(x)

plot(d)

F分布：

F分布定义为：设X、Y为两个独立的随机变量，X服从自由度为k1的卡方分布，Y服从自由度为k2的卡方分布，这2 个独立的卡方分布被各自的自由度除以后的比率这一统计量的分布。即： F分布是服从第一自由度为k1，第二自由度为k2的分布。

k=10000

par(mfrow=c(2,2),mar = c(3,4,1,1))

x=rf(k,1, 100)

hist(x)

x=rf(k,1, 10000)

hist(x)

x=rf(k,10, 10000)

hist(x)

x=rf(k,10000, 10000)

hist(x)

t分布：

t分布曲线形态与n（确切地说与自由度v）大小有关。与标准正态分布曲线相比，自由度v越小，t分布曲线愈平坦，曲线中间愈低，曲线双侧尾部翘得愈高；自由度v愈大，t分布曲线愈接近正态分布曲线，当自由度v=∞时，t分布曲线为标准正态分布曲线。

k=10000

par(mfrow=c(2,2),mar = c(3,4,1,1))

x=rt(k,2)

hist(x)

x=rt(k,5)

hist(x)

x=rt(k,10)

hist(x)

x=rt(k,100)

hist(x)

相关图示~

i2mean=function(x,n=10){

k=length(x)

nobs=k/n

xm=matrix(x,nobs,n)

y=rowMeans(xm)

return (y)

}

par(mfrow=c(5,1),mar = c(3,4,1,1))

#Binomia

p=.05

n=100

k=10000

x=i2mean(rbinom(k, n,p))

d=density(x)

plot(d,main="Binomial")

#Poisson

lambda=10

x=i2mean(rpois(k, lambda))

d=density(x)

plot(d,main="Poisson")

#Chi-Square

x=i2mean(rchisq(k,5))

d=density(x)

plot(d,main="Chi-square")

#F

x=i2mean(rf(k,10, 10000))

d=density(x)

plot(d,main="F dist")

#t

x=i2mean(rt(k,5))

d=density(x)

plot(d,main="t dist")

数理统计基础知识

统计量
mean（x，trim=0,na,rm=FALSE）——均值，trim去掉x两端观测值的便利，默认为0，即包括全部数据，na.rm=TRUE允许数据中有缺失
weighted.mean(x，)——加权平均值，weigth表示对应权值
median——中值
quantile(x，probs=seq(,,))——计算百分位数，是五数总和的扩展，probs设置分位数分位点，用seq(0,1,0.2)设置，表示以样本值*20%为间隔划分数据。
var（）——样本方差（n-1）
sd——样本标准差（n-1）
cov——协方差
cor——相关矩阵
fivenum(x,na.rm=TRUE)——五数总括：中位数，下上四分位数，最小值，最大值
数学函数
sum（x,y,z，na.rm=FALSE）——x+y+z，na.rm为TURE可以忽略掉na值数据
sum（x>4）——统计向量x中数值大于4的个数
rep（“LOVE！”，）——重复times次，rep(1:3，c（1，2，3）)表示1个1，2个2，3个3组成的序列
sqrt（）——开平方函数
2^2 和 **——“^”幂运算
abs（）——绝对值函数
'%%'——表示求余
'%/%'——求商（整数）

exp ： 2.71828…
expm1 ：当x的绝对值比1小很多的时候，它将能更加正确的计算exp(x)-1
log ：对数函数（自然对数）
log10 ：对数（底为10）函数（常用对数）
log2 ：对数（底为2）函数
因为10>e>1，常用对数比自然对数更接近横坐标轴x
log1p()——log（1+p），用来解决对数变换时自变量p=0的情况。指数和对数的变换得出任何值的0次幂都是1
特性：对数螺旋图。当图像呈指数型增长时，常对等式的两边同时取对数已转换成线性关系。

sin ：正弦函数
cos ：余弦函数
tan ：正切函数
asin ：反正弦函数
acos ：反余弦函数
atan ：反正切函数
sinh ：超越正弦函数
cosh ：超越余弦函数
tanh ：超越正切函数
asinh ：反超越正弦函数
acosh ：反超越余弦函数
atanh ：反超越正切函数
logb ：和log函数一样
log1px ：当x的绝对值比1小很多的时候，它将能更加正确的计算log(1+x)
gamma ： Γ函数（伽玛函数）
lgamma ：等同于log(gamma(x))
ceiling ：返回大于或等于所给数字表达式的最小整数
floor ：返回小于或等于所给数字表达式的最大整数
trunc ：截取整数部分
round ：四舍五入
signif(x,a) ：数据截取函数 x：有效位 a：到a位为止
圆周率用 ‘pi’表示

crossprod(A,B)——A %*% t(B) ，内积
tcrosspeod(A,B)——t(A) %*% B，外积
%*%——内积，a1b1+a2b2+...+anbn=a*b*cos，crossprod(x)表示x与x的内积。||x||2，矩阵相乘
%o%——外积，a*b*sin（矩阵乘法，叉积），tcrossprod(x,y)表示x与y的外积。*表示矩阵中对应元素的乘积！
向量内积（点乘）和向量外积（叉乘）
正态分布
dnorm（x，mean=0,sd=1,log=FALSE）——正态分布的概率密度函数
pnorm(x，mean=0,sd=1)——返回正态分布的分布函数·
rnorm（n，mean=0.sd=1）——生成n个正态分布随机数构成的向量
qnorm()——下分为点函数

qqnorm（data）——画出qq散点图
qqline（data）——低水平作图，用qq图的散点画线
qq.plot（，main=''）——qq图检验变量是否为正态分布
简单分析
summary()——描述统计摘要，和 Hmisc()包的describe()类似，会显示NA值，四分位距是第1个（25%取值小于该值）和第3个四分位数（75%取值小于该值）的差值（50%取值的数值），可以衡量变量与其中心值的偏离程度，值越大则偏离越大。

table($)——统计datafame数据中属性变量var的数值取值频数(NA会自动去掉！)，列联表 table(, )——比较两个data_var，为列，为行，先列后行！ xtabs(formular，data)——列联表 ftable( table())——三维列联表 prop.table()——统计所占百分比例 prop.table(table(, )，)——比较两个data_var所占百分比，填1位按行百分计算，2为列计算 margin.table( table()， )——计算列联表的边际频数（边际求和）,=1为按列变量 addmargin.table（table()，）——计算列联表的边际频数（边际求和）并求和,=1为按列变量 as.formula()——转换为一个R公式，是一个字符串循环时的判断语句： ifelse(, , )——if，else的变种，test是判断语句,其中的判断变量可以是一个向量！yes是True时的赋值，no是False时的赋值 hist(，prob=T，xlab='横坐标标题'，main='标题'，ylim=0:1，freq，breaks=seq(0,550,2))——prob=T表示是频率直方图，在直角坐标系中，用横轴每个小区间对应一个组的组距，纵轴表示频率与组距的比值，直方图面积之和为1；prob位FALSE表示频数直方图；ylim设置纵坐标的取值范围；freq为TRUE绘出频率直方图，counts绘出频数直方图，FALSE绘出密度直方图。breaks设置直方图横轴取点间隔，如seq(0,550,2)表示间隔为2，从0到550之间的数值。 density(,na.rm=T)——概率密度函数（核密度估计，非参数估计方法），用已知样本估计其密度,作图为lines(density(data),col="blue") ecdf（data）——经验分布函数,作图plot(ecdf(data),verticasl=FALSE,do.p=FALSE)，verticals为TRUE表示画竖线，默认不画。do.p=FALSE表示不画点处的记号假设检验分布函数 shapiro.test(data)——正态W检验方法，当p值大于a为正态分布 ks.test(x,y)——经验分布的K-S检验方法，比较x与y的分布是否相同，y是与x比较的数据向量或者是某种分布的名称，ks.test(x, rnorm(length(x), mean(x), sd(x)))，或ks.test(x,"pnorm",mean(x),sd(x)) chisq.test(x，y，p)——Pearson拟合优度X2（卡方）检验，x是各个区间的频数，p是原假设落在小区间的理论概率，默认值表示均匀分布,要检验其它分布，比如正态分布时先构造小区间，并计算各个区间的概率值，方法如下： brk<-cut(x,br=c(-6,-4,-2,0,2,4,6,8))#切分区间 A<-table(brk)#统计频数 p<-pnorm(c(-4,-2,0,2,4,6,8),mean(x),sd(x))#构造正态分布函数 p<-c(p[1],p[2]-p[1],p[3]-p[2],p[4]-p[3],p[5]-p[4],p[6]-p[5],p[7]-p[6])#计算各个区间概率值 chisq.test(A,p=p) 正态总体的均值方差 t.test(x，y，alternative=c("two.sided","less","greater")，var.equal=FALSE)——单个正态总体均值μ或者两个正态总体均值差μ1-μ2的区间估计；alternative表示备择假设：two.side（默认）是双边检验，less表示H1:μ<μ0，greater表示H1：μ>μ0的单边检验(μ0表示原假设)；当var.equal=TRUE时，则是双样本方差相同的情况，默认为不同 var.test(x，y)——双样本方差比的区间估计独立性检验（原假设H0：X与Y独立） chisq.test(x,correct=FALSE)——卡方检验，x为矩阵，dim(x)=c(2,2)，对于大样本（频数大于5） fisher.test()——单元频数小于5，列联表为2*2 相关性检验（原假设H0：X与Y相互独立） cor.test（x,y,method=c("pearson","kendall","spearman")）——相关性检验，观察p-value小于0.05则相关。method选择相关性检验方法秩 rank()——秩统计量 cor.test（）——秩相关检验：Spearman，Kendall wilcox.test(x,y=NULL，mu,alternative，paired=FALSE，exact=FALSE,correct=FALSE，conf.int=FALSE)——秩显著性检验（一个样本来源于总体的检验，显著性差异的检验），Wilcoxon秩和检验（非成对样本的秩次和检验）,mu是待检测参数，比如中值，paired逻辑变量，说明变量x，y是否为成对数据，exact说民是否精确计算P值，correct是逻辑变量，说明是否对p值采用连续性修正，conf.int是逻辑变量，给出相应的置信区间。 uniroot(f，interval=c(1,2))——求一元方程根的函数，f是方程，interval是求解根的区间内，返回值root为解 optimize(）或 optimise（）——求一维变量函数的极小点 nlm（f，p）——求解无约束问题，求解最小值，f是极小的目标函数，p是所有参数的初值，采用Newton型算法求极小，函数返回值是一个列表，包含极小值、极小点的估计值、极小点处的梯度、Hesse矩阵以及求解所需的迭代次数等。显著性差异检验（方差分析，原假设：相同，相关性） mcnemar.test(x,y，correct=FALSE)——相同个体上的两次检验，检验两元数据的两个相关分布的频数比变化的显著性，即原假设是相关分布是相同的。y是又因子构成的对象，当x是矩阵时此值无效。 binom.test(x，n，p，alternative=c("two.sided","less","greater")，conf.level=0.95)——二项分布，符号检验（一个样本来源于总体的检验，显著性差异的检验） aov（x~f）——计算方差分析表，x是与（因子）f对应因素水平的取值，用summary（）函数查看信息 aov（x~A+B+A：B）——双因素方差，其中X~A+B中A和B是不同因素的水平因子（不考虑交互作用），A：B代表交互作用生成的因子 p.adjust()——P值调整函数 pairwise.t.test(x，g，p.adjust.method="holm")——多重t检验,p.adjust.method是P值的调整方法，其方法由p.adjust（）给出，默认值按Holm方法（”holm“）调整，若为”none“，表示P值不做任何调整。双因素交互作用时g=A：B shapiro.test（x）——数据的正态W检验 bartlett.test（x~f，data）——Bartlett检验，方差齐性检验 kruskal.test（x~f，data）——Kruskal-Wallis秩和检验，非参数检验法，不满足正态分布 friedman.test(x，f1，f2，data）——Friedman秩和检验，不满足正态分布和方差齐性，f1是不同水平的因子，f2是试验次数的因子常用模型 1、回归模型 lm（y~.，）——线性回归模型，“.”代表数据中所有除y列以外的变量，变量可以是名义变量（虚拟变量，k个水平因子，生成k-1个辅助变量（值为0或1）） summary（）——给出建模的诊断信息： 1、数据拟合的残差（Residual standard error，RSE），残差应该符合N（0，1）正态的，值越小越好 2、检验多元回归方程系数（变量）的重要性，t检验法，Pr>|t|, Pr值越小该系数越重要（拒绝原假设） 3、多元R方或者调整R2方，标识模型与数据的拟合程度，即模型所能解释的数据变差比例，R方越接近1模型拟合越好，越小，越差。调整R方考虑回归模型中参数的数量，更加严格 4、检验解释变量x与目标变量y之间存在的依赖关系，统计量F，用p-value值，p值越小越好 5、绘图检验plot()——绘制线性模型，和qq.plot误差的正态QQ图 6、精简线性模型，向后消元法线性回归模型基础 lm（formula=x~y，data，subset）——回归分析，x是因变量（响应变量），y是自变量（指示变量），formular=y~x是公式，其中若是有x^2项时，应把公式改写为y~I(x^2)，subset为可选择向量，表示观察值的子集。例：lm(Y ~ X1 + X2 + I(X2^2) + X1:X2, data = data) predict(lm(y~x)，new，interval=“prediction”，level=0.95)——预测，new为待预测的输入数据，其类型必须为数据框data.frame，如new<-data.frame(x=7)，interval=“prediction”表示同时要给出相应的预测区间 predict(lm(y~x))——直接用用原模型的自变量做预测，生成估计值筛选模型自变量 lm.new<-update(lm.sol，sqrt(.)~.)——修正原有的回归模型，将响应变量做开方变换 update（, .~. - x1）——移除变量x1后的模型 coef(lm.new)——提取回归系数回归诊断 1、正态性（QQ图） plot(x,which)——回归模型残差图，which=1~4分别代表画普通残差与拟合值的残差图，画正态QQ的残差图，画标准化残差的开方与拟合值的残差图，画Cook统 norm.test（）——正态性检验，p-value>0.05为正态计量的残差图 residuals()和resid()——残差 rstandard()——标准化残差 rstudent()——学生化残差 influence.measures(model)——model是由lm或者glm构成的对象，对回归诊断作总括，返回列表中包括，广义线性模型也可以使用 anova（）——简单线性模型拟合的方差分析（确定各个变量的作用） anova（,）——比较两个模型（检验原假设为不同） 2、误差的独立性——car包提供Duerbin_Watson检验函数 3、线性——car包crPlots（）绘制成分残差图（偏残差图）可以看因变量与自变量之间是否呈线性 4、同方差性——car包ncvTest（）原假设为误差方差不变，若拒绝原假设，则说明存在异方差性 5、多重共线性——car包中的vif（）函数计算VIF方差膨胀因子，一般vif>2存在多重共线性问题异常点分析（影响分析） hatvalues（）和hat（）——帽子矩阵 dffits（）——DFFITS准则 cooks.distance()——Cook统计量，值越大越有可能是异常值点 covratio（）——COVRATIO准则 kappa（z，exact=FALSE）——多重共线性，计算矩阵的条件数k,若k<100则认为多重共线性的程度很小；100<=k<=1000则认为存在中等程度或较强的多重共线性；若k>1000则认为存在严重的多重共线性。z是自变量矩阵（标准化，中心化的？相关矩阵），exact是逻辑变量，当其为TRUE时计算精准条件数，否则计算近似条件数。用eigen（z）计算特征值和特征向量，最小的特征值对应的特征向量为共线的系数。 step()——逐步回归，观察AIC和残差平方和最小，广义线性模型也可以使用 add1()——前进法 drop()——后退法 stepAIC（sol,direction="backward"）——MASS包，可以实现逐步回归（向前、向后、向前向后）预测 predict（，，level=0.95，interval="prediction"）——回归预测，sol是模型，newdataframe是待预测数据框，level设置置信度，interval="prediction"表示结果要计算置信区间 glm(formula，family=binomial（link=logit），data=data.frame)——广义线性模型，logit默认为二项分布族的链接函数，formula有两种输入方法，一种方法是输入成功和失败的次数，另一种像线性模型的公式输入方式 predict(glm()，data.frame(x=3.5)，type="response")——预测广义线性回归模型，type=“response”表示结果为概率值，否则为预测值y inv.logit（）——预测值y的反logit，boot包的函数 glmnet（）——正则化glm函数，glmnet包，执行结果的行数越前正则化越强。其输出结果的意义是： 1）DF是指明非0权重个数，但不包括截距项。可以认为大部分输入特征的权重为0时，这个模型就是稀疏的（sparse）。 2）%Dev就是模型的R2 3)超参数（lambda）是正则化参数。lambda越大，说明越在意模型的复杂度，其惩罚越大，使得模型所有权重趋向于0。 plot（lm(y~x)，which=1:4，caption=c(“Residuals vs Fitted”，“Normal Q-Q plot”，“Scale-Location plot”，“Cook's distance plot”)）——画回归模型残差图，which为1表示画普通残差与拟合值的残差图，2表示画正态QQ的残差图，3表示画标准化残差的开方与拟合值的残差图，4表示画Cook统计量的残差图；caption是图题的内容。 avova(sol1,sol2,test="Chisq")——比较模型两个模型，广义线性模型可用卡方检验（分类变量），不拒绝原假设说明两个没有显著差异，即用较少自变量模型就可以。非线性模型 poly（想，degree=1）——计算正交多现实，x是数值向量，degree是正交多项式的阶数，并且degree nls（formula,data,start）——求解非线性最小二乘问题，formula是包括变量和非线性拟合的公式，start是初始点，用列表形式给出 nlm(f，p)——非线性最小二乘，构造最小目标函数，方程移项2为0，f是极小的目标函数，p是所有参数的初值，采用Newton型算法求极小，函数返回值是一个列表，minimum的值便是极小值，estimate是参数的估计值。例如： fn<-function(p,x,y){ f<-y-p[1]*exp(p[2]*x) res<-sum(f^2) } nlm.sol<-nlm(fn,p=c(3,-0.1),x,y) 2、回归树 rpart( y ~.， )——rpart包，回归树，叶结点目标变量的平均值就是树的预测值。生成一棵树，再做修剪（防止过度拟合），内部10折交叉验证 printcp（）——查看回归树结果，rt是指rpart（）函数的运行结果模型，plotcp（）以图形方式显示回归树的参数信息参数如下： cp——当偏差的减少小于某一个给定界限值，默认0.01 minsplit——当结点中的样本数量小于某个给定界限时，默认20 maxdepth——当树的深度大于一个给定的界限值，默认30 prune（,cp）——自行设置cp值的建树 snip.rpart(, c(4,7))——修剪，需要修剪的那个地方的是结点号c(4，7)，指出输出树对象来需要修剪的树的结点号 snip.rpart()——交互修剪，点击结点，右击结束 3、随机森林 randomForest(y ~.， )——组合模型，由大量树模型构成，回归任务采用预测结果的平均值。 4、支持向量机 svm(，，gamma=1/ncol()，)——e1071包，回归任务，=0.01，=100违反边际所引入的损失? 5、时间序列分析 ts(, frequency=12, start=(2006,1))——把一个向量转化为时间序列对象，向量，frequency表示频率，start表示时间起始点 decompose(，type)——把时间序列分解成长期趋势和周期性变化，是设置了频率（周期长度）的时间序列数据，type="additive"为累加形式：长期趋势+周期性变化+随机变化；"multiplicative"分解为累乘形式：长期趋势*周期性变化*随机变化。默认使用"additive"累加形式。函数返回值sol<-decompose()中，sol$trend是时间序列趋势，seasonal是季节性周期变化，random是随机误差。 stl(,"per")——分解时间序列，返回值sol<-stl()中，sol$time.series[, "seasonal"]读取周期性序列seasonal，sol$time.series[, "trend"]读取长期趋势trend。误差可以使用sol$time.series[, "remainder"]读取。增长率： diff(data,lag=1)——差分，上下做差，lag控制变量上下间隔为1 ring.growth[t]=(data[t]-data[t-1])/data[t-1]——同比增长率，描述指标变化趋势 sam.per.grown[t]=(data[t]-data[t-T])/data[t-T]——环比增长率，分析周期性变化，避免周期性变化给数据分析带来的影响，T一般以周为单位移动平均： filter(x, filter, method=c("convolution", "recursive"), side=2,...)——线性过滤函数，x待转化的向量数据，method=convolution（卷积方法）:使用x内部样本组成线性模型（系数ai由filter参数设置的，side参数设置卷积方法是单边或者双边），recursive（递归方法）:使用y内部样本以及当前阶段的x样本组成线性模型（系数ai由filter设置）y递归[t]=x[t]+sum(ai*y[t-i])。side为1（单边卷积）y卷积[t]=a1*x[t]+...+a(k+1)*x[t-k]，side为2（双边卷积）y卷积[t]=a1*x[t+m]+...+a(m+1)*x[t] 指数平滑: sol<-HoltWinters()——实现二次平滑和三次平滑指数。 sol.forst<-forecast.HoltWinters(sol, h=12)——预测HoltWinters函数产生的模型的新时间序列，h表示频率？预测未来12个月 plot.forecast(sol.forst, include=10)——绘制预测图，include=10表明绘制预测前10个月的数据和未来12个月的预测数据 ARIMA模型 ymd()——lubridate包，将"年-月-日"格式的字符串转换成日期对象，（可以比较前后时间）自相关性 cov(data.frame(x,y))——协方差矩阵S cor(data.frame(x,y))——相关系数矩阵R rnorm（n，，） arima.sim（n=100，list（ar=，ma=））——模拟100个样本的模拟序列 lag.plot(data，lag=k，do.line=FALSE)——绘制原始数据和k阶滞后的散点图 acf（data，lag.max=16，ci.type="ma"）——计算并绘制自相关图，0阶自相关系数是rxx，所以恒等于1。ci.type="ma"主要是慨率acf的标准误的问题，以使acf图等准确。 pacf（data，lag.max=16）——偏自相关图，消除Xt-1，...，Xt-k+1的影响后，研究Xt和Xt-k的相关性。 Box.test（data,type="Ljung-Box",lag=16，fitdf=p+q）——自相关性检验，p-value<0.05，标识数据data具有自相关，fitdf为自由度参数p+q arima（data，order=c（p，d，q））——计算模型参数并建模，TSA包中，order设置AR过程的阶数p，差分过程的d（用于稳定化）和MA过程的阶数q。当p=d=0时，表示只使用MA过程对序列建模。结果sol<-arima（）调用predict(sol，n.ahead=5)$pred进行预测，n.ahead参数用于设置预测新阶段的数据量（未来5个月），predict(...）$se标准误差SE，用于计算预测范围（预测范围=预测值+-置信度（alpha）*标准误差SE。 eacf(data)——根据凸显中三角区域顶点的行坐标和列坐标分别确定ARMA的p和q norm.test（）——正态性检验，p-value>0.05为正态 tsdiag（sol）——绘制模型残差的散点图、自相关图和不同阶数下的Box.test体检验p-value值模型评估 RMSE（lm，< which>）——qpcR包中计算均方根误差，计算子集subset 聚类分析 dist（x，method=”euclidean“）——计算距离 ”euclidean“Euclid距离； ”maximum“——Chebyshev距离； ”manhattan“绝对值（马氏）距离； “canberra”Lance距离； “minkowski”Minkowski闵式距离； “binary”定性变量的距离 scale(x, center = TRUE, scale = TRUE)——中心化与标准化，center是中心化，scale是标准化。（全选：减去均值，再除以标准差） hclust（d,method=“complete”）——系统聚类，d是又dist构成的距离结构，method是系统聚类的方法（默认为最长距离法） “single”最短距离法“； ”complete“最长距离法； ”median“中间距离法； ”mcquitty“Mcquitty相似法； ”average“类平均法 ”centroid“重心法 ”ward“离差平法和法 plot（hclist（），hang=0.1）——谱系图，hang表示谱系图中各类所在的位置，hang取负值时，表示谱系图从底部画起。 as.dendrogram（hclust（），hang=-1）——将hclust得到的对象强制转换为谱系图 plot（x，type=c（”rectangle“，”triangle“），horiz=FALSE）——谱系图，x为as.dendrogram返回的对象，type是指是矩形或是三角形，horiz是逻辑变量，当horiz为TRUE时，表示谱系图水平放置。 as.dist()——将普通矩阵转化为聚类分析用的距离结构 plclust（x，hang=0.1）——谱系图，旧版停用，已被plot替换 rect.hclust（x，k，h，border）——在谱系图（plclust（））中标注聚类情况，确定聚类个数的函数，x是由hclust生成的对象，k是类个数；h是谱系图中的阈值，要求分成的各类的距离大于h；border是数或向量，标明矩形框的颜色；例如：rec.hclust（hclust()，k=3） kmeans(x，centers，iter.max，nstart=1，algorithm)——K均值方法，centers是聚类的个数或者是初始类的中心，iter.max为最大迭代次数（默认为10），nstart是随机集合的个数（当centers为聚类的个数时），algorithm为动态聚类算法，例如：km<-kmeans(scale(data),4,nstart=20)，返回值中，size表示各类的个数，means表示各类均值，Clustering表示聚类后分类情况？，可以用sort(kmeans()$cluser)对分类情况排序主成分分析 princomp() 和 prcomp（）——主成分分析，结果的标准差显示每一个主成分的贡献率（成分方差占总方差的比例），返回值loadings每一列代表每一个成分的载荷因子 summary（x，loadings=FALSE）——提取主成分的信息，x是princomp（）得到的对象，loadings是逻辑变量，为TRUE表示显示主成分分析原始变量的系数，False则不显示。返回表中，Standard deviation是标准差，即方差或lambda的开方，Proportion of Variance表示方差的贡献率，Cumulative Proportion表示累积贡献率。 loadings(x)——显示主成分或因子分析中loadings载荷的内容，主成分是对应割裂，即正交矩阵Q；因子分析中是载荷因子矩阵。x是princomp（）或者factanal（）得到的对象。 predict（x，newdata）——预测主成分的值，x是由princomp（）得到的对象，newdata是由预测值构成的数据框，当newdata为默认值时预测已有数据的主成分值。例如predict()[,1]——用主成分的第一列作为原有数据的预测结果 screeplot(x，type=c（"barplot",”lines“))——主成分的碎石图，确定主成分维数的选择，x是由princomp（）得到的对象，type是描述画出的碎石图的类型，”barplot“是直方图，”lines“是直线图。 biplot（x，choices=1:2，scale=1）——画关于主成分的散点图和原坐标在主成分下的方向，x是由princomp（）得到的对象，choices选择主成分，默认为第1、2主成分 factanal（x,factor,covmat=NULL，scores=c("none","regression","Bartlett")，rotation=”varimax“）——因子分析,factors是公因子的个数，covmat是样本协方差和相关矩阵,scores因子得分方法，rotation表示旋转，默认为方差最大旋转 cancor（x，y，xcenter=TRUE，ycenter=TRUE）——典型相关分析，xcenter，ycenter是逻辑变量，为TRUE时做数据中心化

你可能感兴趣的:(R语言,统计学,R语言,R模型)

Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
centos操作系统安装R包单细胞拟时序分析CytoTRACE2 探序基因 centos linux 运维
探序基因肿瘤研究院整理作者操作系统为centosstream8，R版本为4.3.3devtools::install_github("digitalcytometry/cytotrace2",subdir="cytotrace2_r")中途出现错误：*installing*source*package‘RcppGSL’...**成功将‘RcppGSL’程序包解包并MD5和检查**usingstag
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
使用rknn进行yolo11-pose部署点PY 深度学习模型部署 pytorch 深度学习人工智能
文章目录概要生成ONNX生成RKNN实测效果概要使用RKNN进行YOLOv11Pose部署的必要性在于，RKNN能将YOLOv11Pose模型转化为适合Rockchip硬件平台（如RV1109、RV1126）执行的格式，充分利用其AI加速功能，显著提高推理速度和效率。此外，RKNN提供模型优化（如量化）功能，有助于减少计算资源消耗，提升实时处理能力，特别适合在嵌入式设备上进行高效、低功耗的姿态估计
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
Ubuntu终端常用快捷键总结机器人那些事儿开发环境 ubuntu
基本导航快捷键：Ctrl+A：将光标移到行首Ctrl+E：将光标移到行尾Ctrl+U：删除光标前的所有字符Ctrl+K：删除光标后的所有字符Ctrl+L：清屏（相当于执行clear命令）编辑命令行：Ctrl+W：删除光标前的一个单词Ctrl+Y：粘贴之前使用Ctrl+U或Ctrl+K删除的文本Ctrl+_：撤销上一步的操作历史命令：Ctrl+R：逆向搜索历史命令Ctrl+G：退出历史命令搜索模式C
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Docker Compose部署大语言模型LLaMa3+可视化UI界面Open WebUI m0_74824877 docker 语言模型 ui
一、介绍Ollama：部署+运行大语言模型的软件LLaMa3：史上最强开源AI大模型—Meta公司新发布的大语言模型OpenWebUI：AI用户界面，可通过浏览器访问二、Docker部署docker-compose.yml文件如下：version:'3'services:ollama:container_name:bruce-ollamaimage:ollama/ollamavolumes:-./
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
Mamba超绝创新！搭上异常检测准确率99%+！一区秒了！人工智能学起来人工智能深度学习
今天给大家推荐一个创新Max，且不卷的idea：基于Mamba做异常检测！以往的异常检测方法，以基于CNN、Transformer为主。但CNN在处理长距离依赖性方面存在困难，Transformer虽然表现出色，但由于其自注意力机制，计算复杂度较高。而Mamba，则完美弥补了这两者的缺陷，在有效处理长距离依赖性同时，具有线性复杂度，计算资源需求少！在提高模型检测精度和速度方面，一骑绝尘！比如模型A
从开发到部署，搭建离线私有大模型知识库_离线大模型 ai大模型应用开发数据库服务器 linux 语言模型人工智能自然语言处理深度学习
文末有福利！背景介绍最近一段时间搭建了一套完整的私有大模型知识库，目前完整的服务已经完成测试部署上线。基本之前的实践过程，从工程角度整理技术方案以及中间碰到的一些问题，方便后续对这个方向有需求的研发同学们。为什么做离线私有化部署在大模型火热起来之后，很多企业都有尝试相关服务。但是实际会碰到大模型不了解公司个性化的情况，无法针对公司情况给出个性化回答。因此就出现了针对大模型的知识库，通过提供公司内部
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
大模型（含deepseek r1）本地部署利器ollama的API操作指南人工智能llm
ollama介绍：Ollama是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。它支持多种预训练的大型语言模型（如LLaMA2、Mistral、Gemma、DeepSeek等），并提供了一个简单高效的方式来加载和使用这些模型。出现Error:somethingwentwrong,pleaseseetheollamaserverlogsfordet
再有人问你DDD，把这篇文章丢给他聪明马的博客 Java java 开发语言
DDD（Domain-DrivenDesign，中文名领域模型设计）是一种软件开发方法论，它强调将业务领域中的知识融入到软件设计中。DDD强调将软件开发过程分为两个主要阶段：领域分析和领域建模。领域分析是指深入了解业务领域中的问题和需求，领域建模是将分析出的领域知识转化为软件模型。在本文中，我不再过多说明DDD的来龙去脉，我将用多个例子来详细说明使用DDD和不使用DDD的区别、优势和劣势。需求：假
还不会Mybaits吗？一招解决聪明马的博客 Java mybatis java spring
MyBatis是一种优秀的JavaORM框架，它可以帮助开发人员轻松地管理数据库，并提供了一种简单易懂的编程模型，以便于快速地进行数据库访问操作。MyBatis的出现为Java开发人员提供了一种更加高效和灵活的数据访问方式。在本篇博客中，我们将深入了解MyBatis的含义，各种用法以及如何使用Java代码来实现各种操作。一、MyBatis的含义MyBatis是一种开源的JavaORM框架，它可以帮
YashanDB访问约束数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...访问约束是YashanDB特有的一种关系数据结构，基于有界计算理论的访问约束模型（AC，AccessConstraint）实现：通过在数据源上建立AC，实现大数据变小的模型变换。在查询时，通过访问AC数据，缩小查询代价和提升查
知识图谱构建概念、工具、实例调研熟悉的黑曼巴知识图谱人工智能
一、知识图谱的概念知识图谱（Knowledgegraph）知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点可以是实体，如一个人、一本书等，或是抽象的概念，如人工智能、知识图谱等。边可以是实体的属性，如姓名、书名或是实体之间的关系，如朋友、配偶。知识图谱的早期理念来自SemanticWeb（语义网络），其最初理想是把基于文本链接的万维网落转化为基于
LLM的分布式部署：AI的云端革命 AI天才研究院 AI大模型企业级应用开发实战 Python实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《LLM的分布式部署：AI的云端革命》关键词分布式部署语言模型云端计算资源管理性能优化安全性摘要本文将深入探讨大型语言模型（LLM）的分布式部署，分析其技术背景、架构设计、资源管理、性能优化以及安全性等方面。通过对LLM分布式部署的关键技术进行详细介绍，我们旨在为读者提供一个全面、系统的理解，以及展望未来LLM分布式部署的发展趋势。目录大纲第一部分：分布式部署概述第1章：分布式系统基础第2章：LL
DeepSeek与ChatGPT：AI语言模型的全面对决金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 chatgpt 人工智能语言模型
DeepSeek（深度求索）与ChatGPT作为当前备受关注的两大AI语言模型，在技术架构、应用场景和性能表现上各有特色。以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练+领域强化学习多语言混合训练+RLH
DeepSeek和ChatGPT的全面对比陈皮话梅糖@ AI编程
一、模型基础架构对比（2023技术版本）维度DeepSeekChatGPT模型家族LLAMA架构改进GPT-4优化版本参数量级开放7B/35B/120B闭源175B+位置编码RoPE+NTK扩展ALiBiAttention机制FlashAttention-3FlashAttention-2激活函数SwiGLUProGeGLU训练框架DeepSpeed+Megatron定制内部框架上下文窗口32k（
百度交重构一年成绩单 10%的百度搜索流量由文心一言的模型生成百度
“大模型我们走在最前面，我们需要去勇闯无人区，需要去冒前人没有冒过的风险。”近日，在百度一场内部颁奖活动中，百度创始人、董事长兼首席执行官李彦宏指出，百度一直坚信技术可以改变世界，会一直沿着这条路走下去。当天，李彦宏在颁奖时，向现场的获奖团队和个人表示祝贺并强调，“你们才代表百度，你们才代表最真实的百度，你们是百度最真实的代表。”他在讲话中指出，创新并不容易，“十个创新，可能九个最后都是以失败告终
2024 百度万象大会举办：大模型全面重构百度移动生态，让智能体人人可用百度
「智能体就是生产力，这是每一个人放大杠杆、撬动红利，成为超级个体的时代机遇。」5月30日，在苏州举办的2024百度移动生态万象大会上，百度集团资深副总裁、百度移动生态事业群组总经理何俊杰发表《让智能体人人可用》的主题演讲。他认为，百度有责任也有能力做好新技术的普惠者，让所有人因此受益。在本次大会上，百度搜索、文心一言APP、百度文库、百度电商、文心智能体平台、百度APP等百度移动生态业务都发布了基
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式 IT修炼家大模型部署大模型 auto-gptq cuda
目录1、auto-gptq是什么？2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么？Auto-GPTQ是一种专注于量化深度学习模型的工具库。它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s