数据清洗、数据处理入门！R语言我来了，数据不再零散！

一、引言

数据清洗和预处理是数据科学中必不可少的一部分，它们能够帮助我们准确地分析和预测未来趋势。如果你曾经尝试过进行分析或建模，你会发现数据往往不像我们所想象的那样干净、整洁。需要对数据进行仔细的检查、清理和处理，才能真正把数据转变成有用的信息。

在数据清洗过程中，我们需要处理各种问题如缺失值、异常值和重复值等。产品经理经常说，如果我们的产品不能停止用户的流失，那么改善用户体验就是沉船前所做的最后一项任务。而在数据处理的领域，我们同样不能忽略数据的质量。如果数据有质量问题，将会导致不准确、不可靠的结果和决策。在数据预处理过程中，我们需要对数据进行多种处理，包括划分、缩放、选择、变换和构造等。这些过程是将数据转化成可用的模型的必要步骤，也是提高模型性能的关键。

幸运的是，R语言提供了不少有用的包和函数能够帮助我们完成数据清洗和预处理的工作。它们可以让我们更轻松、更快速地处理数据，让我们聚焦于数据的分析和建模。在本文中，我们将探讨数据清洗和预处理的概述，介绍R语言的核心工具和应用，以及为您展示几个案例分析。在读完本文后，您将会更加熟悉如何使用R语言进行数据清洗和预处理，并且能够在自己的实践中取得更好的效果。

二、数据清洗

2.1 数据质量检查

数据质量检查是进行数据清洗和预处理的第一步，包括缺失值、异常值（离群值）、重复值等问题的检查。下面我们将介绍这些问题的检查方法以及在R语言中如何实现这些方法。

缺失值检查及解决方案:

缺失值是指在有观测值的情况下出现空值的情况。缺失值会影响到数据的准确性和可靠性，因此需要对其进行检查和处理。以下是一个简单的缺失值检查的示例代码：

# 创建一个含有缺失值的数据框
df <- data.frame(a = c(1, 2, NA, 4),
                 b = c(3, 4, 5, NA),
                 c = c(NA, 5, 6, 7))
                 

# 检查缺失值
sapply(df, function(x) sum(is.na(x)))

# 删除缺失值
df_delete <- df[complete.cases(df), ]

结果展示：

# 缺失值，a列1个，b列1个,c列1个
a b c 
1 1 1

#删除缺失值后的数据，只剩下第二行的数据
  a b c
2 2 4 5

当然数据缺失不仅仅是野蛮的删除，也是可以补缺的，如：插值法、替代法、或者使用模型填充，多重回归、随机森林和神经网络等。本次课程是入门课程，不予讲解，属于进阶课程，有希望了解学习，欢迎关注一起讨论学习。

异常值（离群值）检查及解决方案:

异常值是指与大多数数据点差异极大的值。异常值通常会影响到模型的准确性和效率，因此需要对其进行检测和处理。以下是一个简单的异常值检测代码示例：

# 创建一个含有异常值的数据框
df <- data.frame(a = c(1, 2, 3, 100),
                 b = c(1, 2, 3, 4))

# 使用箱线图法检测异常值
boxplot(df$a)

# 计算四分位距
q1 <- quantile(df$a, 0.25)
q3 <- quantile(df$a, 0.75)
iqr <- q3 - q1

# 计算概述统计量
summary(df$a)

# 使用IQR方法检测离群值
low <- q1 - 1.5 * iqr
high <- q3 + 1.5 * iqr

# 从数据集中删除离群值
df <- df[df$a >= low & df$a <= high, ]

# 查看处理后的数据框
df

结果展示：

重复值检查及解决方案:

重复值是指在数据集中出现相同的数据行或列。重复值通常会引起模型分析中的偏差，因此需要对其进行检测和处理。以下是一个简单的重复值检测的代码示例：

# 创建一个含有重复值的数据框
df <- data.frame(a = c(1, 2, 2, 4, 5),
                 b = c(3, 4, 5, 7, 5))

# 检测重复值
df[duplicated(df), ]

# 删除重复值
df <- df[!duplicated(df), ]
df

结果展示：

[1] a b
<0 行> (或0-长度的row.names)

# df
  a b
1 1 3
2 2 4
3 2 5
4 4 7
5 5 5

2.2 数据清洗包的使用案例

tidyr包

# 载入tidyr包
library(tidyr)

# 创建一个宽表格
wide_df <- data.frame(id = c(1, 2),
                var1 = c(2, 4),
                var2 = c(5, 7))
                

# 使用gather()函数将宽表格变为长表格（行列转换）
long_df <- wide_df %>% gather(key = variable, value = value, -id)


# 将长表格变回宽表格
wide_df_2 <- long_df %>% spread(key = variable, value = value)

# 查看处理后的数据表格
wide_df
wide_df_2

结果展示：

# 转换为长格式
  id variable value
1  1     var1     2
2  2     var1     4
3  1     var2     5
4  2     var2     7

# 转换回来
  id var1 var2
1  1    2    5
2  2    4    7

练习题目：自主练习使用separate() 函数：将一列拆分成多列；unite() 函数：将多列合并为一列。

除了以上的函数之外，tidyr包还提供了其他一些函数来处理数据中缺失值，例如drop_na() 和replace_na() 等，可以根据不同的需求来选择使用

dplyr包

# 载入dplyr包
library(dplyr)

# 创建一个含有NA值和重复行的数据框
df <- data.frame(a = c(1, 2, NA, 3, 4, 2),
                 b = c(1, 2, 3, NA, 4, 2))

# 删除NA值
df <- na.omit(df)

# 删除重复行
df <- distinct(df)

# 重置行名
rownames(df) <- NULL

# 查看处理后的数据框
df

dplyr包提供了一些基本函数，用于数据操作和清洗。这些函数包括filter()、select()、mutate()、summarize() 等等。

三、数据预处理

3.1 数据划分

数据预处理过程中，通常需要将收集到的数据划分为训练集和测试集两部分。训练集用于构建模型和调整模型参数，测试集则用于评估模型的性能和进行模型选择。有效的数据划分对于构建准确的机器学习模型非常重要，以下是一个简单的数据划分步骤的例子:

# 载入必要的包
library(caTools)

# 载入必要的包
library(caTools)

# 生成一组数据
data <- iris

# 随机划分数据集
split <- sample.split(data$Species, SplitRatio = 0.7)

# 训练集
train <- subset(data, split == TRUE)

# 测试集
test <- subset(data, split == FALSE)

#查看数据集的大小
dim(train)
dim(test)

结果展示：

#查看数据集的大小
# dim(train)
[1] 105   5
# dim(test)
[1] 45  5

3.2 特征缩放

特征缩放是一种常见的数据预处理技术，它的目的是将不同特征的取值范围标准化，使其在统一的尺度下进行比较和分析。特征缩放可以提高机器学习模型的性能和收敛速度，常用的特征缩放方法包括Z-score标准化和最小-最大缩放方法等。

Z-score标准化

Z-score标准化是一种将数据缩放到标准正态分布的方法，它保留了原始数据的分布，并使得均值为0，标准差为1。Z-score标准化方法的数学公式为：

z = (x-μ)/σ

其中，z为标准化后的结果，x为原始数据，μ为均值，σ为标准差。

# 载入必要的包
library(caret)

# 生成一组数据
data <- iris

# 使用preProcess()函数进行标准化
preObj <- preProcess(data[, 1:4], method = "center", "scale")

# 对数据进行转换
data_standardized <- predict(preObj, data[, 1:4])

# 查看标准化的结果
head(data_standardized)

结果展示：

  Sepal.Length Sepal.Width Petal.Length Petal.Width
1   -0.7433333  0.44266667       -2.358  -0.9993333
2   -0.9433333 -0.05733333       -2.358  -0.9993333
3   -1.1433333  0.14266667       -2.458  -0.9993333
4   -1.2433333  0.04266667       -2.258  -0.9993333
5   -0.8433333  0.54266667       -2.358  -0.9993333
6   -0.4433333  0.84266667       -2.058  -0.7993333

最小-最大缩放

最小-最大缩放是一种将数据缩放至特定区间的方法，例如[0,1]或[-1,1]。该方法使得所有数据都落在指定的范围内，保留了数据的原始分布。最小-最大缩放的数学公式为：

x`= (X−Xmin)/(Xmax-Xmin)

其中，x’为缩放后的结果，x为原始数据，x_min为数据的最小值，x_max为最大值。

以下是一个使用最小-最大缩放的示例：

# 生成一组数据
data <- iris

# 使用preProcess()函数进行最小-最大缩放
preObj <- preProcess(data[, 1:4], method = "range")

# 对数据进行转换
data_scaled <- predict(preObj, data[, 1:4])

# 查看缩放的结果
head(data_scaled)

结果展示：

  Sepal.Length Sepal.Width Petal.Length Petal.Width
1   0.22222222   0.6250000   0.06779661  0.04166667
2   0.16666667   0.4166667   0.06779661  0.04166667
3   0.11111111   0.5000000   0.05084746  0.04166667
4   0.08333333   0.4583333   0.08474576  0.04166667
5   0.19444444   0.6666667   0.06779661  0.04166667
6   0.30555556   0.7916667   0.11864407  0.12500000

3.3 特征选择

特征选择是数据预处理中的一个重要环节，它的目的是在保证数据有效性的同时，减少多样性和噪声，提高模型的性能。在特征选择中，我们需要评估每个特征对模型的重要性，并选择最重要的特征进行建模。这样可以降低机器学习模型的复杂度，提高模型的泛化能力。

常见的特征选择方法包括过滤式、包裹式和嵌入式三种方法.

过滤式特征选择

过滤式特征选择是最简单和最快速的特征选择方法之一。它的基本思路是预先对特征进行排序，并选择排名最高的特征，代价是可能会忽略特征之间的交互作用。常用的过滤式特征选择方法包括卡方检验、相关系数和信息增益等。

以卡方检验为例，以下是一个使用卡方检验进行特征选择的示例：

# 载入必要的包
library(caret)

# 生成一组数据
data <- iris

# 计算特征和标签之间的卡方检验统计量以及相关的p值
chi_square <- apply(data[, 1:4], 2, function(x) chisq.test(x, data$Species)$statistic)

# 对卡方检验统计量进行排序
rank_chi_square <- rank(-chi_square)

# 选择排名靠前的特征
selected_features <- names(data[, 1:4])[rank_chi_square[1:2]]

# 查看选择的特征
selected_features

结果展示：

# 查看选择的特征
# selected_features
[1] "Petal.Length" "Petal.Width"

包裹式特征选择

包裹式特征选择是更为精确的特征选择方法，它的主要思想是将特征子集视为一个黑箱，并使用学习算法进行评估。包裹式特征选择往往需要更长的计算时间，在特征选择过程中也会带来过拟合的风险。在包裹式特征选择中，我们通常使用向前搜索、向后搜索或随机搜索来进行特征选择。

以向前搜索为例，以下是一个使用向前搜索进行特征选择的示例：

# 载入必要的包
install.packages("FSelector")
library(FSelector)
library(caret)


# 生成一组数据
data <- iris

# 进行基于卡方检验的特征选择
varSel <- cfs(Species~., iris)

# 查看选择的特征
varSel

结果展示：

[1] "Petal.Length" "Petal.Width"

嵌入式特征选择

嵌入式特征选择是一种更加高级的特征选择方法，它的思想是将特征选择嵌入到机器学习算法中，考虑到特征之间的交互关系以及算法本身带有的正则化机制。在嵌入式方法中，机器学习算法会将特征的重要性作为算法的一部分进行学习，提高了机器学习算法的性能和稳定性。

以下是一个使用Lasso算法进行特征选择的示例：

#载入必要的包
library(glmnet)

# 生成一组数据
data <- iris

# 将数据集划分为特征矩阵和标签向量
x <- as.matrix(data[, 1:4])
y <- as.numeric(as.factor(data$Species))

# 使用Lasso算法进行特征选择
lasso_mod <- cv.glmnet(x, y, alpha = 1)

# 查看选择的特征
elected_features <- coef(lasso_mod, s = “lambda.min”)
elected_features

结果展示：

5 x 1 sparse Matrix of class "dgCMatrix"
                      s1
(Intercept)   0.93207339
Sepal.Length  .         
Sepal.Width  -0.09512694
Petal.Length  0.15246659
Petal.Width   0.65519060

和上面的两个结果一致：都是"Petal.Length"和"Petal.Width"。

3.4 特征变换

在机器学习中，特征变换指的是通过对原始特征进行转换来构建新特征的过程。特征变换能够提高机器学习模型的性能，主要是因为它们可以消除噪声、削减维度、提取标准化的特征等。

主成分分析（PCA） 和线性判别分析（LDA） 是两种常用的特征变换技术。PCA是一种无监督的数据转换技术，它通过找到高维数据的主成分来将数据从高维投影到低维，以求得更少的特征，从而帮助我们更好地理解数据所包含的信息。LDA是一种有监督的数据变换技术，它在构造特征时需要标签信息，在此基础上寻求最优的分类边界。

这部分是机器学习的范畴，我们这里是入门学习，这里不予深入。

3.5 特征构造

特征构造指的是通过对现有特征进行组合、转换或生成新的特征来增强机器学习模型的能力和性能。这个过程可以帮助我们更好地描述数据，提高模型对数据的拟合能力，并且可以反映数据之间的复杂关系。

特征构造过程通常涉及以下几个步骤：

数据理解：我们需要深入理解数据集的特征和问题，并在此基础上提出特征构造的想法。
特征设计：基于数据理解，我们可以通过将特征进行加、减、乘、除等方式的组合，或根据经验和领域知识来创造新的有用特征。
特征生成：在特征设计的基础上，我们可以生成新的特征，并逐步优化这些特征。在这个过程中，我们需要关注特征的正确性和有效性。
特征评估：我们需要使用新特征和模型评估工具来评估特征的效果和影响，看看它们是否能够如预期的那样提高模型的性能。

常用的特征构造方法包括：

离散化/分箱：将连续的特征值分为若干大小相等的离散的区间，从而将连续特征转换为离散特征。
缺失值处理：将缺失值填充为特定值，如平均数、中位数、众数等，或创建新的特征来描述缺失值的情况。
时间序列分析：根据时间序列数据的周期性和趋势来创造新特征，例如，最大值、最小值、平均值、波动率、汇总统计量等。
特征交叉：将两个或多个特征组合在一起，构造出新的、更具表达力的特征。
特征变换：基于公式或其他特征变换技术，将特征进行转换，以改变其分布或值域。

通过运用上述方法中的一种或多种，我们可以创建新的有用特征，从而增强机器学习模型的能力和性能。

这部分也是机器学习的部分，不与深入。如果对这部分感兴趣，欢迎关注我，后期会推出这部分的课程。

四、结论

数据清洗和预处理是数据科学家所面临的关键问题，对机器学习模型的训练和预测具有至关重要的作用。R语言作为一种广泛使用的工具，具有许多特点和优点，可以帮助我们更好地管理、操作和分析数据。

未来，我们将看到越来越多的新兴技术被开发和应用于数据清洗和预处理，以提高机器学习模型的性能和鲁棒性。这些新兴技术将在AutoML、可解释AI、数据隐私和安全、多模态学习等方面展现出更加广泛的应用和重要性。

《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
无题琴韵无声
问了几家门诊部都没有科兴疫苗，突然自我感觉这种品牌的疫苗是不是少一些，于是又无端滋生焦虑感，可别一拖再拖影响孩子上学，学校要求下学期开学得接种完新冠疫苗。我在这种自制的焦虑的驱使下，立马上网查询看哪里能打到北京科兴的疫苗，终于找到了，大喜。与珊宝一起打车过去（路比较远，早想借此机会让她徒步拉练一下的计划泡汤了）。到达目的地，一看到医院大门前一条长龙似的队伍就知道那里应该是打疫苗的地方。迅速过去排队
数幸福D10 3c807316efec
王多妈妈幸福能力提升计划依靠皇上托举皇上做一个五半三平的小女人一：感知到的幸福和快乐1：点赞皇上①下班前皇上问我晚上吃饭准备怎么弄，我们买点菜回家做饭吧皇上问我想吃什么，我说多可以，皇上很用心的准备晚饭，一回到家皇上先回家做饭，我说后备箱还有我的行李，皇上说等一下我再下来拿好吗？语气特别好，眼神多是商量的，皇上现在总是有意识的考虑我的感受②吃完饭我们准备一起接女儿放学，皇上说碗他洗，我想着一起收拾
黄景瑜工作人员怒怼营销号！肖战事件就是他的前车之鉴板凳吃瓜小分队
无论社会怎样浮躁，我们自己也不可以浮躁。战胜浮躁的关键是明白自己真正的需要，保持一颗平常心，不要盲目攀比，不要羡慕别人，更不要唯利是图。一辈子很短，我们不能总是望着别人的精彩，羡慕着别人的人生，而忘记了经营自己生活，要知道，通过努力，你也能成为让人仰望的明星。如今，随着娱乐产业越来越成熟，每年的新星也是扎堆冒出。在我看来，与前几年不同的是，如今的新生代质量明显好过从前。“更专业了，更有礼貌了”也是
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
“元宇宙”带不动Meta？基本业务已“后院起火”！小扎举步维艰！链科天下
由于宏观经济疲软、市场动荡，“放缓”已经成为美国科技股的主线逻辑，曾风光无限的科技巨头Meta也开始一路下行、举步维艰。据彭博社报道，Meta已宣布计划裁员并重组团队以削减预算，这是该公司2004年成立以来首次大幅削减预算。此次裁员或受到业绩低迷的影响，Q2财报显示Meta业绩远不及预期，上市以来营收同比出现首次下滑，净利连续三季度下降。扎克伯格表示，“希望经济能够稳定下来，但从目前的情况来看并非
2022-1-12晨间日记云卷云舒_a1b9
起床：6：20就寝：23：00天气：阴心情：还好纪念日：法考主观体出分的日子叫我起床的不是闹钟是梦想年度目标及关键点：备考初级会计师；坚持运动，减重，阅读，学习本月重要成果：报名今日三只青蛙/番茄钟学习听课；瑜伽课；记账盘点成功日志-记录三五件有收获的事务1.收到鲜花2.早起做早餐3.引导孩子做计划财务检视支出严重超预算，检视一月的预算是否合理人际的投入同学联系；开卷有益-学习/读书/听书听初级课
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
人要有自知之明孟冬廿六
今天中午跟一学妹聊天，谈起结婚找对象的问题，小姑娘年龄不算大，二十七岁，但是整个人很清醒很现实，她如今在一国企上班，吃住都不花钱，再加上她经常出差，补助奖金这一块儿也不少，一年下来七七八八的有个小二十万，这对于一个小姑娘来说已经非常不错了，她计划这两年自己付首付买房，然后想要买辆MINI，小姑娘一米七六的个子，长得漂亮有气质，家庭条件也不错，所以对于择偶方面也有一定的要求，最好是事业单位的，父母有
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
假期开始了木子争
今天上午的考试结束后，假期就算开始了，只不过明天再去批改一下试卷就可以了。时间过得真快，不知不觉中一个学期就过去了，今年也马上就结束了，想想当初自己的目标和计划，好多都还没有实现。以后就更要好好的做事情了，坚持说到做到，按照自己的计划踏踏实实地去做事情。趁假期好好调整自己。
2022-04-10 凤凰语言艺术吴老师
读刘院日更《再读稻盛和夫：习惯于用自己的承诺，倒逼自己成功》有感过去讲做人做事要“不言实行”，换言之，比起豪言壮语，默不作声、埋头实干才是美德。现如今社会，闷头干有时候也会失去动力。因为闷头干没有外界的监督，制定的计划只有自己知道，即使没有百分百完成，别人也不知道，久之就养成了得过且过的心态。就像当初自己花了不少钱报名学习日语一样，当时只是闷头学，没有开公失去了众人的监督，以致于后来因为工作和日常
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
黄丽红日精进98/105 做自己小太阳
感恩感恩今日份的拍照ing感恩今日份电视重新可以看感恩妹妹帮忙晾衣服感恩在路上的自己感恩我的朋友们和家人见1.今日份看了胡歌的一个节目，2010年的，10年之前，他的真实和有爱感动了我，不愧是我喜欢的胡歌2.今日份每日一练终于自己开始了调整后计划，流行病也开始复习，一切在路上3.妆容精致心情没好，在家注意收拾自己，画个淡妆最起码要精神面貌佳，回村后的我已经很像大妈了！！！感1.自己也是一个温暖的人
2022-11-25 疫情卷土而来快乐微笑每一天
原计划本周因比赛休息两天半，结果一个阳性患者疫情转变了所有，轮休课表换掉，继续周五上课；比赛顺延，假期顺延，相对应确诊病例所在区域封闭。这疫情何时是一个尽头，谁也无法知晓，唯有进出带好口罩，保护自己，方能战胜疫情。疫情无情，人间温暖，期待疫情早日过去，大地重返平安和谐。
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
360前端星计划-动画可以这么玩马小蜗
动画的基本原理定时器改变对象的属性根据新的属性重新渲染动画functionupdate(context){//更新属性}constticker=newTicker();ticker.tick(update,context);动画的种类1、JavaScript动画操作DOMCanvas2、CSS动画transitionanimation3、SVG动画SMILJS动画的优缺点优点：灵活度、可控性、性能
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

数据清洗、数据处理入门！R语言我来了，数据不再零散！

一、引言

二、数据清洗

2.1 数据质量检查

2.2 数据清洗包的使用案例

三、数据预处理

3.1 数据划分

3.2 特征缩放

3.3 特征选择

3.4 特征变换

3.5 特征构造

四、结论

你可能感兴趣的:(R语言新星计划,r语言,人工智能,开发语言)