侍伟

R语言之数据清洗与准备

数据清洗与准备

环境配置

library(mlbench) # 将会使用到包中的BostonHousing数据集
library(funModeling) # 探索性数据分析工具包，本节内容中将会使用到它的status()函数，打印整体数据质量
library(tidyverse) # 数据转化工具包，本节内容中将会使用它包含的dplyr中的管道函数 %>%
library(VIM) # 缺失值可视化工具包，本节内容中将会使用到它的aggr()函数
library(mice) # 缺失值处理工具包，本节内容会使用它来进行多重插补
library(Rlof) # 用于LOF异常值检测方法，本节内容将会使用到它的lof()函数
library(fastDummies) # 用于生成dummy的包，本节内容将会使用到它的dummy_cols()函数
library(sjmisc) # 用于生成dummy的包，本节内容将会使用到它的to_dummy()函数
library(MASS) # 基于此包进行box-cox转换
library(dlookr) # 本节内容将会使用到它的transform()函数

案例数据

本文将会使用到两个数据集。

数据集1 h1n1流感问卷数据集

数据说明

目前提供的数据集来自关于h1n1流感调查问卷的部分内容，可以从这个网站上看到具体字段的详细说明：https://www.drivendata.org/competitions/66/flu-shot-learning/page/211/
数据集包含26,707个受访者数据，共有32个特征+1个标签（是否接种h1n1疫苗）。

加载并查看部分数据

首先加载数据，了解数据集大小。

h1n1_data <- read.csv("./datasets/h1n1_flu.csv", header = TRUE)
dim(h1n1_data)

我们在这32个特征中，筛选出了10个特征，作为一个子集，来学习如何使用R做数据清洗与准备。

h1n1_data <- h1n1_data[, c(1, 3, 11, 12, 15, 16, 19, 20, 22, 23, 33)]
head(h1n1_data)

数据集2 波士顿房价数据集

数据说明

据集来自mlbench包，请提前装好。数据字段说明可从网址查看：https://blog.csdn.net/weixin_46027193/article/details/112238597
数据集包含506条房价信息，共有13个特征+1个预测字段（房屋价格）。

加载并查看部分数据

data(BostonHousing)
dim(BostonHousing)
head(BostonHousing)

重复值处理

在某些情况下，我们需要对数据进行去重处理。unique()函数可以对数据进行整体去重，distinct()函数可以针对某些列去重。

# 整体去重
h1n1_data_de_dup1 <- unique(h1n1_data)
# 指定根据列respondent_id,h1n1_knowledge去重，并保留所有列
h1n1_data_de_dup2 <- distinct(h1n1_data, respondent_id, h1n1_knowledge, .keep_all = T)

缺失值识别与处理

现实环境中，由于数据来源及搜集过程，可能有各种不规范，导致数据往往会存在缺失。缺失值识别与处理，无论是在统计还是数据管理中，往往是数据清洗的第一步。

缺失值识别

常用识别方法

在R语言中，惯用会把缺失值表示为NA，一般可使用is.na(a)，!complete.cases(a)来识别a是否为缺失值。

# 假设定义的一个变量中存在缺失值
y <- c(1, 2, 3, NA)
# 用is.na在识别是否为缺失值
is.na(y)
# 用!complete.cases()在识别是否为缺失值
!complete.cases(y)

缺失值统计

统计缺失值总数。

# 数据集中总缺失数据量
sum(is.na(h1n1_data))
# 数据集中某一列缺失数据量
sum(is.na(h1n1_data["h1n1_knowledge"]))

如果想按行或按列统计，可以写函数。

pMiss <- function(x) {
  sum(is.na(x)) / length(x) * 100
}
apply(h1n1_data, 2, pMiss) # 按列统计缺失比率%
# apply(h1n1_data,1,pMiss) #按行统计缺失比率%

或调用一些现成的包。比如，我们可以使用funModeling包中的status()函数，直接观测案例数据中包含的0值，缺失值（NA），在每个特征中的分布情况。以h1n1 flu数据集为例：

data_quality <- status(h1n1_data)
data_quality %>% mutate(across(where(is.numeric), ~ round(., 3))) # 保留4位小数

结合案例数据h1n1 flu来看，存在缺失值的有5个特征字段。

missing_Value <- data_quality[which(data_quality$p_na > 0), ]
missing_Value$variable

缺失值机制与分析

统计学家通常将缺失数据分为3类，为了更好的处理缺失值，我们可以基于缺失值机制来识别以下3种缺失模式：

MCAR（完全随机缺失）：如果数据的缺失与任何值（观察或缺失）之间没有关系，则为MCAR。
MAR（随机缺失）：考虑MAR与MCAR有何不同，如果缺失和观测值之间存在系统关系，则为MAR。例如-男性比女性更容易告诉自己的体重，因此体重就是MAR。“ Weight”变量的缺失取决于变量"Sex"的观测值。
MNAR（非随机缺失）：若缺失数据不属于MCAR和MAR，数据的缺失依赖于不完全变量本身，则数据为非随机缺失。例如，抑郁程度高的人更不容易填写抑郁调查问卷。

MNAR是最复杂的情况，处理 MNAR的策略是找到更多有关缺失原因的数据，或者执行假设分析，查看结果在各种情况下的敏感程度。大部分处理缺失数据的方法都假定数据是MCAR或MAR，此时，可以忽略缺失数据的生成机制，在替换或删除缺失数据后，直接对感兴趣的关系进行建模。

以下介绍几种可视化分析缺失数据关联的方法：

我们用VIM包里的aggr()函数，直观看一下具体的缺失情况。

aggr(h1n1_data, cex.axis = .6, oma = c(9, 5, 5, 1)) # cex.axis调整轴字体大小，oma调整外边框大小

通过用VIM包里的矩阵图matrixplot()函数，可以检查某些变量的缺失值模式是否与其他变量的真实值有关联。矩阵图中，观测数据以黑白色阶显示（颜色越深，数值越高），缺失值会被标记为红色。我们对某一个存在缺失值的变量进行排序，来找寻含缺失值变量与其他变量的关系。

在此案例中，我们按照chronic_med_condition进行分组排序。可以看到是否有慢性病chronic_med_condition的缺失，与opinion_h1n1_vacc_effective的缺失相对较集中。除此之外，也可以看到有慢性病的人年龄普遍较大。

# 先简单处理一下一些类别变量的顺序
h1n1_data_matplt <- h1n1_data
h1n1_data_matplt$age_group <- factor(h1n1_data_matplt$age_group)
h1n1_data_matplt$education <- factor(h1n1_data_matplt$education, levels = c("", "< 12 Years", "12 Years", "Some College", "College Graduate"))
h1n1_data_matplt$sex <- factor(h1n1_data_matplt$sex)
h1n1_data_matplt$income_poverty <- factor(h1n1_data_matplt$income_poverty, levels = c("18 - 34 Years", "<= $75,000, Above Poverty", "> $75,000"))
# levels(h1n1_data_matplt$age_group) # 查看顺序
# 矩阵图可视化
par(mar = c(9, 4.1, 2.1, 2.1)) # x轴标签太长，调用par()函数调整外边框的大小
matrixplot(h1n1_data_matplt, sortby = "chronic_med_condition", cex.axis = 0.7) # cex.axis为调整坐标轴字体大小

用相关性探索缺失值。首先生成一个影子矩阵，用指示变量替代数据集中的数据（1表示缺失，0表示存在）。

shadow_mat <- as.data.frame(abs(is.na(h1n1_data[, -1])))
head(shadow_mat)

# 可提取含缺失值的变量
shadow_mat <- shadow_mat[which(apply(shadow_mat, 2, sum) > 0)]
# 计算相关系数
cor(shadow_mat)
# 相关系数热力图
heatmap(cor(shadow_mat))

根据缺失相关性矩阵，opinion_h1n1_vacc_effective 与 chronic_med_condition 缺失相关性较大。

综上，在案例中，变量之间的存在部分相关性，考虑为MAR。

缺失值处理

缺失值一般有三种方式：

将缺失值作为变量值使用。比如在民意调查中，当选民不投票时，可以将缺失值处理为"无法确定"。
删除数据。主要有删除样本值和删除特征值。但可能会损失掉一些有用信息。
插补法。如均值/中位数/同类均值插补（数值变量），众数插补（类别变量），手动插补(根据主观理解)，多重插补等。

以下我们主要介绍删除法和插补法：

删除法

行删除，可以直接用complete.cases()或na.omit()来过滤掉数据集中所有缺失行。

h1n1_data_row_del1 <- h1n1_data[!complete.cases(h1n1_data), ]
h1n1_data_row_del2 <- na.omit(h1n1_data)

列删除，一般对于缺失率极高又没有太大作用的特征值，我们直接删除，如可以用dataset[,-5]去掉第五列，或subset(dataset, select = -c(col1, col2))去掉列col1和列col2。

比如，我们把health_insurance变量删除。

h1n1_data_col_del1 <- subset(h1n1_data, select = -c(health_insurance))

简单插补法

注意在空值插补的时候，要区分类别变量与数值变量，均值插补不适用于类别变量。我们这里随机选择了一个变量演示impute()函数用法，在实际插补的时候，请大家根据情况进行选择。

h1n1_data_sim_imp <- h1n1_data
h1n1_data_sim_imp$h1n1_knowledge <- impute(h1n1_data_sim_imp$h1n1_knowledge, 1) # 填充特定值
h1n1_data_sim_imp$h1n1_knowledge <- impute(h1n1_data_sim_imp$h1n1_knowledge, median) # 插补中位数
h1n1_data_sim_imp$h1n1_knowledge <- impute(h1n1_data_sim_imp$h1n1_knowledge, mean) # 插补均值

拟合插补法

利用有监督的机器学习方法，比如回归、最邻近、随机森林、支持向量机等模型，对缺失值作预测。

多重插补法

多重插补（MI）是一种基于重复模拟的处理缺失值的方法。其思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值（通常是3到10个）。根据某种选择依据，选取最合适的插补值。与单个插补（例如均值）相比，创建多个插补可解决缺失值的不确定性。 R中可利用Amelia、mice和mi包来执行这些操作。

本节中，我们将用案例介绍mice包（通过链式方程进行的多元插补）提供的方法。使用mice生成m个完整的插补数据集。然后利用with-pool的方法来评估选择哪一个数据集。首先使用with()函数依次对每个完整数据集应用统计模型如lm，glm等，用summary()输出数据集检验，看某数据集是否合格。接下来pool()函数把5个回归模型汇总，用summary()输出汇总数据集检验，查看整体插补方法是否合格。检验结果分析可参考附录mice检验结果解释

# 先处理下数据，把数据集中一些类别变量转换回来
# imp是一个包含m个插补数据集的列表对象，同时还含有完成插补过程的信息。
# 参数m的默认值为5，这里我们将m设为4，生成4个无缺失数据集
# 参数method, 对于每个变量的拟合，可以指定所用的拟合方法,method传入的参数可以是一个具体方法，也可以为不同列指定具体方法，具体方法选择可参考附录mice使用文档。这里我们使用默认值。
imp <- mice(h1n1_data, m = 4, seed = 122, printFlag = FALSE)
# 查看变量h1n1_knowledge在几个插补数据集中的插补结果
# imp$imp$h1n1_knowledge
# 查看每个变量所用的插补方法
# imp$method
# 设定应用于m个插补数据集的统计分析方法。方法包括做线性回归模型的lm()函数、做广义线性模型的glm()函数、做广义可加模型的gam()，做负二项模型的nbrm()函数
fit <- with(imp, lm(h1n1_vaccine ~ h1n1_knowledge + doctor_recc_h1n1 + chronic_med_condition + health_insurance + opinion_h1n1_vacc_effective))
# 输出每个数据集检验
print.data.frame(summary(fit), digits = 4)
# 包含m个统计分析平均结果的列表对象
pooled <- pool(fit)
# 这是一个总体评估结果
pooled
# 这里修改action的参数（范围1-m），选择一个数据集作为我们已填充完成的数据集
h1n1_data_complete <- complete(imp, action = 2)

异常值识别与处理

异常值识别

本节的异常值指离群点。为了让数据统计或数据建模更加准确，我们通常会识别并对处理一些离群点。
总的来说，有几种常用方法，包括可视化图形分布识别（箱线图）、z-score识别、局部异常因子法（LOF法）、聚类法等。

我们这里用波士顿房价数据集来演示一下异常值识别的处理过程。

可视化图形分布

首先是可视化图形分布识别，将数值型变量筛选出来，用boxlpot看看分布。

# 提取数值字段
nums <- unlist(lapply(BostonHousing, is.numeric))
nums_data <- BostonHousing[, nums]
# 数据变形
nums_data.new <- nums_data %>%
  as.data.frame() %>%
  mutate(Cell = rownames(.)) %>%
  gather(., key = colname, value = "value", -Cell)
# 用ggplot画出箱线图
ggplot(data = nums_data.new, aes(x = colname, y = value)) +
  geom_boxplot(aes(1)) +
  facet_wrap(~colname, scales = "free") +
  theme_grey() +
  labs(title = "Outlier Detection On Numeric Data By Boxplot", x = "Numeric Columns", y = "") +
  theme(legend.position = "top") +
  theme_bw()

通过可视化分布，可以选择剔除一些不合理的离群值，比如在数据集中将dis>10.0的数据剔除。

z-score

z-score是一种一维或低维特征空间中参数异常检测方法。它假定数据是高斯分布，异常值是分布尾部的数据点，因此远离数据的平均值。一般将z-score低于-3或高于3的数据看成是异常值。

# 定义一个识别异常点的函数，x是输入数据（matrix或df）,zs是异常临界值，z-score超过zs的被识别为异常点
outliers <- function(x, zs) {
  temp <- abs(apply(x, 1, scale))
  return(x[temp > zs])
}
# 打印出z-score>3的值
outliers(nums_data, 3)

局部异常因子法

局部异常因子法(LOF)，是一种无监督的离群检测方法，是基于密度的离群点检测方法中一个比较有代表性的算法。适用于在中等高维数据集上执行异常值检测。

# k是计算局部异常因子所需要判断异常点周围的点的个数
outlier_score <- lof(data = nums_data, k = 5)
# 绘制异常值得分的直方分布图
hist(outlier_score, col = "#8ac6d1")
# 排序，挑出得分排前五的数据（找到索引）作为异常值
names(outlier_score) <- 1:nrow(nums_data)
sort(outlier_score, decreasing = TRUE)[1:5]

异常值处理

首先需要确定是否是真的异常值，有些值虽然离群，但其实并不是异常值，处理掉反而会影响后续任务的准确性。如果确定需要处理，可以参考缺失值的处理方式进行处理。

特征编码

我们拿到的原始数据中，一般会有一些类别变量，但是在统计或机器学习中，我们通常需要把类别变量转化为数值型变量，才能应用于一些方法中。

独热编码/哑编码

One-hot encoding 和 dummy,是将类别变量扩充为多个只显示1，0的变量，每个变量代表原类别变量中的一个类。

优点：解决了分类器不好处理分类数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。
缺点：当类别的数量很多时，特征空间会变得非常大，容易造成维度灾难。（为避免维度灾难，后续可以考虑降维处理）

R里面有很多现成的转化编码的包，我们这里使用了dummy_cols()函数做演示，可以看到原来的类别类型字段，已经扩充为多个0，1编码的字段。

h1n1_data_dummy <- dummy_cols(subset(h1n1_data_complete, select = c(age_group)), select_columns = c("age_group"))
head(h1n1_data_dummy)

标签编码

标签编码(Label Encoder)是将类别变量转换成连续的数值型变量，通常对有序的变量进行标签编码，既保留了顺序信息，也节约了空间（不会扩充变量）

R里有一个特殊的结构factor（factor是有序的分类变量），我们这里可以利用factor来做标签编码。首先根据实际情况设置factor的类别顺序，然后直接用as.numeric()转化为数字。

h1n1_data_complete_lab_encoder <- h1n1_data_complete
h1n1_data_complete_lab_encoder$income_poverty_lab_encoder <- as.numeric(factor(h1n1_data_complete_lab_encoder$income_poverty, levels = c("Below Poverty", "<= $75,000, Above Poverty", "> $75,000")))
head(subset(h1n1_data_complete_lab_encoder, select = c(income_poverty, income_poverty_lab_encoder)))

手动编码

比如，当某一个特征中有很多类别，我们认为某些类别可以合为一类，可以用case_when()函数手动处理。

h1n1_data_manual <- subset(h1n1_data_complete, select = c(age_group))
h1n1_data_manual$age_group_manual <- case_when(
  h1n1_data_manual$age_group %in% c("18 - 34 Years") ~ 1,
  h1n1_data_manual$age_group %in% c("35 - 44 Years", "45 - 54 Years", "55 - 64 Years") ~ 2,
  h1n1_data_manual$age_group %in% c("65+ Years") ~ 3
)
head(h1n1_data_manual)

规范化与偏态数据

数据规范化是为了去除数据量纲和数据大小的差异，确保数据是在同一量纲或者同一数量级下进行比较，一般用在机器学习算法之前。数据规范化又可以使用0-1规范化，Z-score等方法。

很多模型会假设数据或参数服从正态分布。例如线性回归(linear regression)，它假设误差服从正态分布。因此需要对偏态数据进行处理。

这里我们使用波士顿房价数据集来做演示。可以看到图中数据的偏态分布及量纲差别。

BostonHousing %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

0-1规范化

0-1规范化是将原始数据缩放到[0,1]区间内，一般方法是最小最大规范的方法。

这里用循环计算出每一列的最大最小值，再根据公式求出缩放后的数据。

nums_data_norm1 <- nums_data
for (col in names(nums_data_norm1))
{
  xmin <- min(nums_data_norm1[col])
  xmax <- max(nums_data_norm1[col])
  nums_data_norm1[col] <- (nums_data_norm1[col] - xmin) / (xmax - xmin)
}
head(nums_data_norm1)

转换完再看一下分布，已经缩放到0-1之间了。

nums_data_norm1 %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

此外可以用dlookr包里的transform()函数。

nums_data_norm2 <- nums_data
nums_data_norm2$crim <- dlookr::transform(nums_data$crim, method = "minmax")

Z-score标准化

Z-score标准化是原数据减去期望再除以标准差，将数据按比例缩放，使其落入到一个小的区间内，标准化后的数据可正可负，但是一般绝对值不会太大。

R里面可以用scale()函数来计算z-score。也可以dlookr包里的中transform()函数。

nums_data_zscore <- nums_data
nums_data_zscore <- scale(nums_data_zscore)
head(nums_data_zscore)

转换完再看一下分布，数据缩放后在0周围的一个小区间了。

data.frame(nums_data_zscore) %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

对数转换(log transform)

使用对数转换也是一种常见的处理偏斜特征的方法，但要注意原数据中不能含有负值。此外为了避免0值，我们通常使用log1p，公式为lg(x+1)。可以直接用dlookr包里的transform()函数，一般结合mutate函数一起使用。

# 直接公式转换
nums_data_log1p1 <- log(nums_data + 1)
# 用transform()函数
nums_data_log1p2 <- nums_data
nums_data_log1p2$b <- dlookr::transform(nums_data_log1p2$b, method = "log+1")

转换完再看一下分布，大多变量转换后接近正态分布了。但是这里要特别注意离散数据。

nums_data_log1p1 %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

拓展

R语言中，mutate 类似于SQL中，根据表的现有变量，生成新变量。使用mutate集中处理变量转换，代码显示较整洁。

h1n1_data_de <- h1n1_data_complete %>%
  to_dummy(education, suffix = "label") %>%
  bind_cols(h1n1_data_complete) %>%
  mutate(
    # 标签编码(label encoder)
    sex = as.factor(as.numeric(factor(sex))),
    income_poverty = (as.numeric(factor(
      income_poverty,
      levels = c(
        "Below Poverty",
        "<= $75,000, Above Poverty",
        "> $75,000"
      )
    ))),
    # 手动编码
    age_group = as.factor(
      case_when(
        age_group %in% c("18 - 34 Years") ~ 1,
        age_group %in% c("35 - 44 Years", "45 - 54 Years", "55 - 64 Years") ~ 2,
        age_group %in% c("65+ Years") ~ 3
      )
    ),
    # 标准化
    across(
      c(
        "h1n1_knowledge",
        "doctor_recc_h1n1",
        "chronic_med_condition",
        "opinion_h1n1_vacc_effective",
        "age_group",
        "income_poverty"
      ),
      ~ scale(as.numeric(.x))
    )
  ) %>%
  dplyr::select(-one_of("education", "education_"))
head(h1n1_data_de)

思考与练习

尝试选取自己的数据集（比利时的电力价格、负载和发电量数据），来做一次清洗和预处理。
首先加载数据，了解数据集大小。

BE_data <- read.csv("C:\\Users\\PC1\\Desktop\\TSEP\\epf-data\\BE.csv", header = TRUE)
dim(BE_data )

作为多变量时序数据，一共只有4个特征，还是比较简单的，查看一下数据。

head(BE_data )

使用distinct()函数可以针对Data检查是否有重复值。

# 指定根据列respondent_id,h1n1_knowledge去重，并保留所有列
BE_data_de_dup <- distinct(BE_data , Date, .keep_all = T)
dim(BE_data_de_dup )

数据长度没有变化，说明日期没有重复值。

查看有无缺失值。

# 数据集中总缺失数据量
sum(is.na(BE_data ))

说明该数据集也没有缺失值。

可视化图形分布识别，将数值型变量筛选出来，用boxlpot看看分布。

# 提取数值字段
nums <- unlist(lapply(BE_data , is.numeric))
nums_data <- BE_data [, nums]
# 数据变形
nums_data.new <- nums_data %>%
  as.data.frame() %>%
  mutate(Cell = rownames(.)) %>%
  gather(., key = colname, value = "value", -Cell)
# 用ggplot画出箱线图
ggplot(data = nums_data.new, aes(x = colname, y = value)) +
  geom_boxplot(aes(1)) +
  facet_wrap(~colname, scales = "free") +
  theme_grey() +
  labs(title = "Outlier Detection On Numeric Data By Boxplot", x = "Numeric Columns", y = "") +
  theme(legend.position = "top") +
  theme_bw()

从盒形图上看，存在异常值。

将z-score低于-3或高于3的数据看成是异常值。

# 定义一个识别异常点的函数，x是输入数据（matrix或df）,zs是异常临界值，z-score超过zs的被识别为异常点
outliers <- function(x, zs) {
  temp <- abs(apply(x, 1, scale))
  return(x[temp > zs])
}
# 打印出z-score>3的值
outliers(nums_data, 3)

使用z-score定义，数据集里没有异常值，这显然是不合理的。因为异常值太多，影响了均值和方差的统计结果。

使用 lubridate 库的函数提取时间信息。hour()，day()，wday()，yday()，week()，month()，year()就分别可以提取小时，天，周的第几天，年的第几天，星期，月，年的信息。

BE_data$hour = hour(BE_data$Date)
BE_data$day = day(BE_data$Date)
BE_data$wday = wday(BE_data$Date)
BE_data$yday = yday(BE_data$Date)
BE_data$week = week(BE_data$Date)
BE_data$month = month(BE_data$Date)
BE_data$year = year(BE_data$Date)
head(BE_data )

观察数据是否处于偏态。

BE_data %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

观察发现，价格、负载和发电量都不是高斯分布，特别是价格，偏态比较严重。

使用对数转换也是一种常见的处理偏斜特征的方法，但是电价有负数，且最小值为-200，所以选择加上201，再取对数。

# 直接公式转换
BE_data$Price_log <- log(BE_data$Prices + 201)
BE_data$Generation.forecast_log <- log(BE_data$Generation.forecast )
BE_data$System.load.forecast_log <- log(BE_data$System.load.forecast )
head(BE_data )

转换完再看一下分布，电价、负载和发电量更接近正态分布了。

BE_data %>%
  keep(is.numeric) %>%
  gather() %>%
  ggplot(aes(value)) +
  facet_wrap(~key, scales = "free") +
  geom_density(color = "#348498", fill = "#8ac6d1") +
  theme_bw()

参考资料

Datawhale 开源文档：https://github.com/datawhalechina/team-learning-program/blob/master/RLanguage/Task02_Data_Preparation.Rmd

感谢Datawhale对开源学习的贡献！

你可能感兴趣的:(r语言)

《R循环：深度解析与高效使用技巧》沐知全栈开发开发语言
《R循环：深度解析与高效使用技巧》引言R语言作为一种功能强大的统计计算和图形显示语言，被广泛应用于科研、数据分析、金融等领域。R循环是R语言中的核心概念之一，对于提高编程效率、处理复杂数据至关重要。本文将深度解析R循环，并介绍高效使用技巧，帮助读者更好地掌握R语言。一、R循环概述1.1什么是R循环R循环是指在R语言中，重复执行某个操作或代码段的过程。R循环包括for循环、while循环和repea
R语言与C语言混合编程：在R语言中调用C语言函数数据探索 r语言 c语言开发语言 R语言
R语言与C语言混合编程：在R语言中调用C语言函数介绍：R语言是一种用于统计分析和数据可视化的高级编程语言，而C语言是一种通用的、强大的编程语言。在某些情况下，我们可能需要在R语言中调用C语言函数以提高性能或实现特定的功能。本文将介绍如何在R语言中调用C语言函数的方法，并提供相应的源代码示例。步骤：为了在R语言中调用C语言函数，我们需要执行以下步骤：编写C语言函数：首先，我们需要编写我们想要在R中调
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
r语言回归分析分类变量_R语言下的PSM分析分类变量处理与分析步骤 weixin_39715834 r语言回归分析分类变量 r语言清除变量
最近学习了PSM，我选择了用R去跑PSM，在这过程中遇到了许多问题，最后也都一一解决了，写下这个也是希望大家在遇到相同问题的时候能够得到帮助和启发，别的应该不会遇到太难的问题了哈哈。最近我也没做什么，录数据，或者说还在调整心态，最近遇到的事情也比较多，又或者说最近的心态比较乱，晚上也睡不好导致白天也比较烦躁，所以可能还是需要一段时间去好好调整，因此最近更新的也比较慢。不过还是会坚持的。问题阐述：1
R语言倾向性匹配得分（PSM）分析后端工程实践 r语言 java 开发语言 R语言
R语言倾向性匹配得分（PSM）分析倾向性匹配得分（PropensityScoreMatching,PSM）是一种常用的统计方法，用于处理观察研究中的选择性偏倚。它通过建立一个倾向性得分模型，将受试者分为处理组和对照组，以实现类似于随机对照试验的效果。本文将介绍如何使用R语言进行倾向性匹配得分分析，并提供相应的源代码。导入所需的R包在进行PSM分析之前，首先需要导入所需的R包。常用的包包括Match
R语言入门课| 05 一文掌握R语言常见数据类型 Biomamba生信基地 r语言信息可视化开发语言生信医药
视频教程大家可以先做一做R语言基础小测验，看看自己是否需要跟我们5.5h入门R语言的课程。先上教程视频，B站同步播出：https://www.bilibili.com/video/BV1miNVeWEkw完整视频回放和答疑服务可见：5.5h入门R语言本节课程视频：（点击此处查看）"R语言入门课"是我们认为生信小白入门不得不听的一个课程，我们也为这个课程准备了许多干货。R语言的精髓便是数据处理，在本
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
R 语言中的判断语句 lsx202406 开发语言
R语言中的判断语句在R语言编程中，判断语句是执行条件逻辑的基础。它们允许程序根据特定的条件执行不同的代码块。本文将深入探讨R语言中的几种常见判断语句，包括if语句、if-else语句和switch语句，并探讨它们的用法和场景。1.if语句if语句是R语言中最基本的条件判断结构。它的基本形式如下：if(条件){#条件为真时执行的代码块}当条件为真时，R会执行大括号内的代码块。如果条件为假，则不会执行
从0开始学习R语言--Day31--概率图模型 Chef_Chen 学习
在探究变量之间的相关性时，由于并不是每次分析数据时所用的样本集都能囊括所有的情况，所以单纯从样本集去下判断会有武断的嫌疑；同样的，我们有时候也想要在数据样本不够全面时就能对结果有个大概的了解。例如医生在给患者做诊断时，有些检查需要耗费的时间很久，但仅仅凭借一些其他的症状，他就可以对病人患某种病有个大概的猜想，从而先做出一些措施来降低风险，毕竟等到疾病真正发生时可能会来不及。概率图模型便是能够同时进
Jmeter使用过程中的一些总结 kanyun123 jmeter
以下总结使用的Jmeter版本为5.6.31、当把Jmeter语言转换为中文时，可能会出现jmeter日志不出现，当发现Jmeter不发送请求时，不显示日志，排查问题就会没有头绪，此时可以尝试将语言切换为英文，再尝试发现日志出现了。2、当你辛辛苦苦地的做完的稳定性测试，还没来得及截图，这个时候，你心血来潮想切换下语言，然后你面发现测好的数据都没了。3、有些数据使用csv或者jmeter的内置函数都
分类树/装袋法/随机森林算法的R语言实现廖致君 R
原文首发于简书于[2018.06.12]本文是我自己动手用R语言写的实现分类树的代码，以及在此基础上写的袋装法（bagging）和随机森林（randomforest）的算法实现。全文的结构是：分类树基本知识predginisplitrulesplitrule_bestsplitrule_randomsplittingbuildTreepredict装袋法与随机森林基本知识baggingpredic
flutter内容学习总结玖柒凯哲学习
Flutter语言学习引言随着移动互联网的快速发展，移动应用开发已成为软件开发领域的一个重要分支。为了满足日益增长的应用需求，开发者们寻求更高效、更便捷的开发工具。Flutter作为一个由Google推出的开源移动应用开发框架，它以其高效的编码体验、优秀的性能和可观的UI保真度吸引了众多开发者的关注。本学习内容总结报告将围绕Flutter开发环境的搭建、调试方法、核心组件和布局管理进行详细阐述。F
从0开始学习R语言--Day27--空间自相关 Chef_Chen 学习
有的时候，我们在数据进行分组时，会发现用正常的聚类分析的方法和思维，分组的情况不是很理想。其实这是因为我们常常会忽略一个问题：假设我们正在分析的数据是真实的，那么它也肯定在一定程度上符合客观规律。而如果我们正在分析的数据中，有真实的客观空间数据时，可以考虑用空间自相关的方法去分析。例如我们在分析城市犯罪率的时候，用聚类分析的思维，我们可能会思考不同城市的犯罪特征是什么，是否有相似点，亦或是试图把城
第100+42步 ChatGPT学习：R语言实现阈值调整 Jet4505 《100+X Steps to Get ML》学习 r语言开发语言 chatgpt
今天来说个机器学习分类的概念，阈值。一、何为阈值这个阈值（Threshold）在二分类问题中起到了关键作用，它决定了模型预测结果的分类边界。在二分类问题中，模型通常会输出一个概率值（介于0和1之间），表示样本属于某一类（通常为正类）的可能性。阈值的作用是将这个概率值转换为具体的分类结果（0或1）。如果预测概率**大于阈值**，则分类为正类（1）。如果预测概率**小于或等于阈值**，则分类为负类（0
从0开始学习R语言--Day26--因果推断
很多时候我们在探讨数据的相关性问题时，很容易会忽略到底是数据本身的特点还是真的是因为特征的区分导致的不同，从而误以为是特征起的效果比较大。这就好比测试一款新药是否真的能治病，假如吃药的患者康复的更快，那到底是因为药物本身的效果好，还是因为患者本身更健康，平时有控制饮食合理作息与运动，从而在患病后更快地凭借自身免疫力战胜病毒。这需要我们意识到对照试验还需要人为地补足某些条件，也就是探讨是否真的是X导
最新期刊影响因子，基本包含全部期刊 Bioinfo科研生信筆記影响因子 2024年期刊影响因子期刊因子因子 IF
原文链接：2024年期刊最新影响因子（IF）2024年期刊最新影响因子（IF）BioinfoR生信筆記，注于分享生物信息学相关知识和R语言绘图教程。
R语言文本探索与预处理：入门指南 Morpheon R r语言开发语言
今天是个阴雨连绵的夏日，因此带来今天的第二篇推文。祝您阅读愉快！文本探索和预处理是将非结构化文本转换为结构化数据进行分析的关键步骤。R语言中的正则表达式(Regex)正则表达式(Regex)是定义文本模式的字符序列，用于搜索、模式匹配和文本替换等任务。在处理搜索引擎和垃圾邮件过滤等应用中的非结构化文本时至关重要。R中常用的正则表达式函数：grep()/grepl()：定位匹配模式的字符串；grep
文本聚类分析：基于相似性的文档分组 Morpheon R R TextClustering
大家周一快乐！最近世界局势动荡，中东冲突不断。这种混乱可能会影响我们对世界的认知。就像法国人说的“C’estlavie”（这就是生活）。但无论未来如何，请记住瑞士人常说的“Lavieestbelle”（生活是美好的）。文本聚类分析通过内容相似性将文档分组，实现在R语言中自动对大型文本集合进行分类。什么是文本聚类分析？聚类分析将文档分组，使得同一组内的文档彼此之间的相似度高于与其他组中文档的相似度。
scanpy读取10x单细胞数据木与长清单细胞数据处理 python
做单细胞或空间组课题时经常会需要导入文献中的单细胞数据作为参考，市面上最常见的格式又以10xgenomics为主要代表，通常包括barcodes.tsv.gz、features.tsv.gz（或者genes.tsv.gz）、matrix.mtx.gz三种格式文件。在面对数据读取问题时，R语言Seurat包有Read10X函数，Python中scanpy包则对应scanpy.read_10x_mtx
Flutter 与原生技术（Objective-C/Swift，java）的关系 BAGAE cocoa macos objective-c 智慧城市 java 开发语言 hbase
在iOS开发中，Flutter与原生技术（Objective-C/Swift）的关系一、技术定位与核心差异Flutter语言：使用Dart语言开发，通过AOT（提前编译）将代码转换为原生ARM指令，无需依赖iOS原生UI组件。渲染：使用Skia图形引擎直接渲染UI，实现跨平台UI一致性。优势：一套代码同时支持iOS和Android，开发效率高；UI表现可控性强。iOS原生开发语言：主流语言为Swi
R语言非结构化文本挖掘入门指南 Morpheon R r语言开发语言
文本挖掘（TextMining），也称为文本分析（TextAnalytics），是从非结构化文本数据中提取有意义的见解。全球约80%的数据是非结构化的。本篇博客将探讨文本挖掘和网络爬取的关键概念及基于R的实用技术。什么是文本挖掘？文本挖掘利用计算技术从非结构化文本源（如书籍、报告、文章、博客和社交媒体帖子）中提取结构化信息。它能够自动化地从海量数据集中发现知识，实现文本摘要和分析。关键点：非结构化
从0开始学习R语言--Day20-ARIMA与格兰杰因果检验 Chef_Chen 学习 r语言开发语言
ARIMAARIMA模型的核心就藏在其名字里，AR（自回归）代表了要预测的数据可能跟历史数据有关系，I（差分）代表了历史数据点之间的差异，MA（移动平均）代表了在预测历史数据点产生的误差可以在预测未来数据时修正，这三个点加起来共同用历史数据来预测未来值。举个浅显的例子就是，假设要预测明天会不会下雨，首先我们查看过去的数据带你，如果过去连续三天都下雨，那么明天下雨的概率就会很高，对应着AR，即用过去
Anaconda 基础教程
一、什么是Anaconda？Anaconda是一个开源的Python和R语言的发行版本，致力于为数据科学、机器学习、大数据处理和科学计算提供便利的包管理和环境管理工具。它包含了conda包管理器和超过1500个数据科学常用的库。二、Anaconda的核心组成Conda：用于包管理和环境管理的工具。AnacondaNavigator：图形界面的包和环境管理工具。预装库：如NumPy、Pandas、M
R语言序列8——RMarkdown与数据报告自动化 theskylife R语言的修炼之路 r语言自动化开发语言
目录写在开头1.RMarkdown基础1.1开始第一个RMarkdown1.1.1安装R和RStudio1.1.2.安装pandoc1.1.3.创建一个新的RMarkdown文档1.1.4.编辑RMarkdown文档1.1.5.渲染文档1.1.6.导出文档1.2文档结构与语法1.3不同输出格式的配置（HTML、PDF、Word）2.动态报告与参数化报告2.1插入R代码和结果2.2使用参数化报告定制
【科研绘图系列】R语言绘制论文组图（multiple plots）生信学习者1 SCI科研绘图系列 r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图1画图2画图3画图4输出图片总结系统信息介绍一个用于分析和可视化博茨瓦纳婴儿微生物组研究（BotswanaInfantMicrobiomeStudy）中呼吸道病毒和细菌数据的R脚本。代码的主要目的是生成论文中的Figure1，包括三个子图（a、b、c），并保存相关的数据和图
从0开始学习R语言--Day20--Wilcoxon秩和检验 Chef_Chen 学习 r语言开发语言
Wilcoxon秩和检验当数据不满足正态分布时，我们常常会苦恼于如何处理数据。即使是用缩进的方法，把数据缩进到（1-99%）或（1-95%）的范围内，假如有一些数据点集中在数据分布的尾端，这依然会影响到我们对数据特点的判断，尤其是需要探寻数据组之间的联系或关系的时候。而实际上，假设我们要探究的不是数据在统计上的数值关系，而是因果关系或比较，我们可以把数据处理成秩次的形式，从而去对比数据组，这样相当
从0开始学习R语言--Day19--连续变量的相关性检验 Chef_Chen 学习 r语言开发语言
昨天我们学习了分类变量的检验方法，今天我们来看看连续性变量的相关性检验方法。Pearson一般来说，person适用于两个变量之间满足线性的单调关系，像我们常说的单调递增或单调递减，且我们的变量是连续且正态分布的。简单来说，就是变量拥有无限的可能性，比如身高可能是160.1,160.9，185.32等等，且大部分的值都在平均值附近（比如一个城市成年男性的平均身高）。听起来似乎很简单，但有时候可以有
从0开始学习R语言--Day21--Kruskal-Wallis检验与Friedman检验 Chef_Chen 学习
Kruskal-Wallis检验Kruskal-Wallis检验一般用于比较常见的比较三个群体的水平，比如我们有一班、二班、三班的语文成绩，我们将三个班的学生成绩混合在一起进行排名，也就是我们平时所说的级排名。进一步通过计算班级的平均级排名来判断班级之间的班级水平，这个方法要求数据之间要独立分布，即不要有类似三个班之间会有互相辅导的情况，不互相影响。Friedman检验Friedman检验同样用于
300+SCI科研绘图系列教程（R和python）提供完整的数据和代码生信学习者1 SCI科研绘图系列 r语言 python 数据可视化
科研绘图系列：科研绘图系列：R语言分组柱状图三科研绘图系列：箱线图加百分比点图展示组间差异-CSDN博客科研绘图系列：箱线图加蜜蜂图展示组间数据分布-CSDN博客科研绘图系列：小提琴图和双侧小提琴图展示组间差异-CSDN博客科研绘图系列：组间差异的STAMP图的ggplot2实现-CSDN博客科研绘图系列：组间差异误差棒展示-CSDN博客科研绘图系列：甜圈圈donut图展示比例-CSDN博客科研绘
【科研绘图系列】R语言绘制论文组图（multiple plots）生信学习者1 SCI科研绘图系列 r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图1画图2画图3画图4画图5画图6输出图片总结系统信息介绍这段代码是用于分析和可视化博茨瓦纳婴儿微生物组研究（BotswanaInfantMicrobiomeStudy）中呼吸道病毒和细菌定植数据的R脚本。代码的主要目的是生成论文中的Figure3，包括五个子图（a、b、c、
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多