数据派THU

手把手教你用R处理常见的数据清洗问题（附步骤解析、R语言代码）

作者：James D. Miller

翻译：王雨桐

校对：万文菁

本文约5300字，建议阅读10+分钟。

本文将介绍数据清洗过程的主要步骤，并通过案例和代码演示如何利用R语言进行数据清洗。

R是进行运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。此外，由于它独立于平台、短期内不会消失，所以生成的程序可以在任何地方运行。并且，它具备非常棒的辅助资源。

本文摘录自James D.Miller撰写的《数据科学统计学》（Statistics for Data Science）一书，该书由Packt Publishing出版。

R是一种易上手的语言和环境，它本身很灵活且专注于统计计算，因此成为运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。

此外，以下是用R进行数据清洗的其他原因：

由于大量数据科学家都在使用R，所以它短时间内不会消失。
R独立于平台，因此可以在任意地方运行程序。
R有绝佳的辅助资源---Google一下，你就可以看到。

注：尽管作者将示例数据命名为“赌博数据”（Gamming Data），它只是用来演示代码的赌博数据。

离群点

对离群点最简单的解释是：离群点是和其余数据不匹配的数据点。按照惯例，任何过高、过低或者异常（基于项目背景）的数据都是离群点。作为数据清洗的一部分，数据科学家通常要识别出离群点并用通用的方法解决它：

删除离群点的值，甚至是离群点对应的实际变量。
转换变量值或变量本身。

让我们来看一下实际案例中如何用R识别并解决数据离群点。

老虎机在赌博界十分流行（老虎机的操作方法是把硬币投入到机器中，并拉动把手来决定回报）。如今大部分老虎机都电子化了，编程使它们的所有活动都能被持续追踪。在本文的案例中，赌场的投资者希望利用这些数据（以及各种补充数据）来调整盈利策略。换句话说，什么能让老虎机赚更多钱？是机器的主题还是类型？新机器比旧机器或老式机器更有利可图吗？机器的位置会产生怎样的影响？低面额的机器会赚更多钱吗？我们尝试用离群点来找到答案。

给定一个集合或赌博数据库（格式为逗号分隔或CSV文本文件），其中包括的数据如老虎机的位置、钱的面额、月份、日、年、机器类型、机器的年龄、促销、优惠券、天气和投币量（投币量是放入机器的钱币总额减去支付的数额）。

作为一个数据科学家，第一步要对数据进行综评（有时称为概述），此时我们要确定是否存在异常值，第二步是解决这些离群点。

步骤一数据概述

R使这一步骤变得非常简单。尽管可以通过很多方式编程求解，但我们要尝试用最少的程序代码或脚本来解决问题。将CSV文件定义为R的变量（命名为MyFile）并将文件读入为数据框（命名为Mydata）：

MyFile<-"C:/GammingData/SlotsResults.csv"

MyData<- read.csv(file=MyFile, header=TRUE, sep=",")

在统计学上，箱型图是一种简单的方式以得到统计数据集的分布、变异性和中心（或中位数）相关信息，所以我们将用箱型图来研究我们能否识别出中位数Coin-in以及能否找到离群点。为了达成这些，我们可以让R画出文件中每个老虎机的Coin-in值，绘制箱型图的函数如下：

boxplot(MyData[11],main='GammingData Review', ylab = "Coin-in")

注：Coin-in是文件中的第11列，所以直接将它作为boxplot函数的参数。此外还添加了一个可选择的参数（再次强调，本文已尽量保持代码的简洁度），以便在可视化图中添加标题。

执行前文的代码可以得到下图效果，包括中位数（中位数在箱型图中是中间横穿的线）以及四个离群点：

步骤2-处理离群点

现在我们发现数据中确实存在离群点，我们要解决这些点以保证它们不会对本研究产生负面影响。首先，我们知道Coin-in有负值是不合理的，因为机器输出的钱币一定不会比投入到机器中的硬币多。基于这个原则，我们可以从文件中删除Coin-in为负值的记录。此外，R可以帮助我们用subset生成一个新的数据框，新数据集中只有Coin-in中的非负值。

我们要将subset数据框命名为noNegs：

noNegs<- subset(MyData, MyData[11]>0)

接下来，我们要再一次画图以确定已经删除负值离群点:

boxplot(noNegs[11],main='GammingData Review', ylab = "Coin-in")

这就产生了新的箱型图，如下图中所示：

我们可以用同样的方法去除Coin-in中极端的正值（大于1500美元）得到另一个数据子集并再次画图：

noOutliers<-subset(noNegs, noNegs[11]<1500)

boxplot(noOutliers[11],main='GammingData Review', ylab = "Coin-in")

当你对数据进行不同的迭代后，建议你保存大部分版本的数据（如果不是最重要的）。你可以用write.csv这个R函数：

write.csv(noOutliers,file="C:/GammingData/MyData_lessOutliers.csv")

注：大部分数据科学家在整个项目中采取通用的命名规律。文件的名字应该尽可能清晰以便今后帮助你节省时间。此外，特别是在处理大量数据时，你需要注意内存空间的问题。

以上代码的输出结果如下：

领域知识

接下来，另一个数据清洗的技术是基于领域知识清理数据。这并不复杂，这种技术的关键是使用数据中无法察觉的信息。例如，当我们知道Coin-in不可能有负值时，我们排除了Coin-in负值的情况。另一个案例是飓风Sandy袭击美国东北部的时间。在这段时间内，机器的Coin-in值都很低（非零）。数据科学家应该基于信息判断是否要移除某段特定时期内的数据。

有效性检查

交叉验证是一种帮助数据科学家在数据库中使用规则的技术。

注：有效性检查是统计数据清洗中最普遍的形式，并且是数据开发者和数据科学家都非常熟悉的流程。

数据清洗时可以设定任意数量的有效性原则，这些原则要遵循数据科学家的意图或目标。例如有如下原则：数据类型（例如，某个字段一定要是数值型），范围限制（数据或日期要在一个特定范围内），要求（某个字段不能为空或没有值），唯一性（一个字段，或字段的结合，一定是数据库中唯一的），组成员（这个值一定是列表中的值），外键（案例中一定要被定义的明确的值或满足特殊规则），正则表达式模式（简单地说就是这个值的格式满足预设的格式），交叉字段验证（案例中的字段组合要满足特定标准）。

按照前文提到的内容，我们来看一些案例，从数据类型开始（也称为强制原则）。R提供的六个强制函数如下：

as.numeric
as.integer
as.character
as.logical
as.factor
as.ordered
as.Date

这些函数，结合一些R的知识，使得在数据库中转换数据变得简单。例如，以前文的赌博数据为例，我们可以生成新的赌博结果文件，其中年龄值被存为字符型（或文本值）。为清理它，我们需要将其转化为数据型。我们可以运用以下R代码完成快速转化：

noOutliers["Age"]<-as.numeric(noOutliers["Age"])

一个需要注意的地方：用这种简单方法时，如果有数据不能转化，需要将其设定为NA值。在类型转换中，最大的工作是理解需要输入什么数据以及哪些数据类型是合法的；R有很广泛的数据类型，包括标量、向量（数值型，字符型，逻辑型），矩阵，数据框及列表。

数据清洗中我们要关注的另一个领域是正则表达式。在实践中，特别是当处理的数据来源于很多渠道时，数据科学家确实面对如下问题：字段不是理想的格式（对于当下目标而言）或者字段值的格式不一致（可能会引发错误的结果）。例如日期、社会安全号码（SSN）以及手机号码。基于数据的来源，你不得不重新输入（如前文描述），但是通常情况下，你需要基于目标将数据重新定义为可以使用的模式。

注：重新输入数据是很重要的，这样R就知道将值作为目前的数据并且你可以正确使用各种R数据函数。

一个常见的案例是当数据包括形式为YYYY/MM/DD的日期数据时，你想按每周汇总的形式呈现出时间序列分析，或者其他需要日期值的操作但是可能需要重新定义日期格式，或者你需要将其变为R日期类型。所以，假定一个新的赌博文件——只有两列数据：日期和投币量，这个文件是一个老虎机每天的投币量。

新的文件记录如下截图所示：

数据科学家可以用各种数据清洗的案例。从验证每个数据点的数据类型入手，我们可以用R函数class来验证文档的数据类型。首先（如我们在前文案例中所作），读入CSV文件存为数据框：

MyFile<-"C:/GammingData/SlotsByMachine.csv"

MyData<- read.csv(file=MyFile, header=TRUE, sep=",")

随后，我们可以使用class函数，如下图截图所示：

从上图中可以看到用class来显示数据类型。

MyData是用来保存赌博数据的数据框，日期Date是向量类型，投币量Coinin是一个整数。所以，数据框和整数是有意义的，但是要注意R将日期设置为向量（factor）类型。向量是分类变量，在汇总统计、绘图和回归中非常有用，但它不是非常适用日期型。为了解决这个问题，我们可以使用R函数substr和paste，如下所示:

MyData$Date<-paste(substr(MyData$Date,6,7),substr(MyData$Date,9,10), substr(MyData$Date,1,4),sep="/")

以上代码重新定义了日期字段的格式。它将数据字段值分成三部分(月、日和年)然后按照理想的顺序(/分隔符(sep))粘贴在一起，如下截图所示:

我们发现这一行脚本将日期字段转换为字符类型，最后我们可以用as.Date函数将值重设为日期（Date）类型:

稍微尝试一下，就可以重新格式化来得到理想的字符串或字符数据点。

改善数据

通过改善进行数据清理是另一种常见的技术，添加相关信息、事实或数据使得数据变得完整(可能更有价值)。这些附加数据的来源可以是用数据中现有信息或从其他来源添加信息进行计算。数据科学家花费时间完善数据的原因有很多。

基于当前的目的或目标，数据科学家补充的信息可能用于参考、比较、对比或发现趋势。

典型的用例包括:

衍生事实计算
对比日历与财政年度的使用
转换时区
货币转换
添加当前和前期指标
计算价值，如每天总出货量
保持缓慢变化的维度

注：作为数据科学家，你要经常用脚本来改善数据，这个方法要比直接编辑数据文档好得多，因为这样出错的可能性更低并且可以维持原始文件的完整性。此外，建立脚本可让你将改善的过程重复应用于多个文件或收到的新版文件中，不需要重做同样的工作。

回到我们的赌博数据中，假定我们在接收老虎机的投币量文档，同时公司在美国大陆外的地方设立赌场。这些新地点正在向我们发送文件，并且数据将纳入到我们的统计分析中。我们发现这些国际文件是以当地货币计算的投币量。为了正确地对数据建模，我们要将数据转化为美元。

场景如下：

文件来源：英国

使用货币：英镑

将英镑转化为美元的公式十分简单，只要用数额乘以汇率即可。所以，在R中：

MyData$Coinin<-MyData$Coinin* 1.4

以上代码可以完成我们想要的转换；然而，数据科学家要决定那种货币将被转化（英镑）以及汇率应当是多少。这并不是什么大问题，但是我们可以尝试创建一个用户定义的函数来确定要使用的汇率，如下所示：

getRate<- function(arg){

    if(arg=="GPB") {

      myRate <- 1.4

    }

    if(arg=="CAD") {

      myRate <-1.34

    }

    return(myRate)

}

尽管之前的代码更简单，但以上代码说明了创建逻辑的要点，以便我们今后可以重复使用：

最终，为了使整个过程更完美，我们要将函数储存（在R文档中）以便将来使用：

source("C:/GammingData/CurerncyLogic.R")

随后:

MyFile<-"C:/GammingData/SlotsByMachine.csv"

MyData<- read.csv(file=MyFile, header=TRUE, sep=",")

MyData$Coin<- MyData$Coinin * getRate("CAD")

注：当然，在最理想的情况下，我们可改进函数以便在表或文件中根据国家代码查找汇率，这样汇率能够随即时价值而改变并且可以从程序中解耦数据。

数据调和

基于研究分析的整体目标，数据科学家可以通过数据调和来转换、翻译、或将数据值映射到其他理想值。最普遍的案例是性别或国家代码。例如，如果你的文档中将性别编码为0和1或M和F，你想将数据转化为一致的MALE或FEMALE。

关于国家代码，数据科学家想要绘制地区的汇总：北美、南美和欧洲，而不是分开的美国、加拿大、墨西哥、巴西、智利、英国、法国和德国。在这种情况下，将产生合计值如下：

北美=美国+加拿大+墨西哥

南美=巴西+智利

欧洲=英国+法国+德国

需要强调的是，数据科学家可能会将所有包括性别的调查文档合并在一起，称为gender.txt，但是文档中的性别编码不同（1，0，M，F，Male和Female）。如果我们尝试用R函数表，我们会看到如下可理解的结果：

如果在最理想的状态下进行可视化分析：

lbs= c("Male", "Female")

pie(table(MyData),main="Gambling by Gender")

我们看到如下截图：

为了解决性别数据编码不一致的问题，我借用了前文案例中的概念并生成简单的函数来帮助我们重新编码：

setGender<- function(arg){

if(substr(arg,1,1)=="0"| toupper(substr(arg,1,1))=="M") { Gender <- "MALE" }

if(substr(arg,1,1)=="1"| toupper(substr(arg,1,1))=="F") { Gender <- "FEMALE" }

return(Gender)

}

此次，我加入了toupper函数，因此我们不必担忧大小写，并且有substr来控制长度大于一个字符的值。

注：假定参数的值是0，1，m，M，f，F，Male或Female，否则将会引发报错。

由于R将性别作为向量类型，我发现很难应用简单的函数，所以我决定生成新的R数据框来容纳调和后的数据。并且用一个循环来读入文档中的记录并将其转化为Male 或Female：

MyFile<-"C:/GammingData/Gender.txt"

MyData<- read.csv(file=MyFile, header=TRUE, sep=",")

GenderData<-data.frame(nrow(MyData))

for(iin 2:nrow(MyData))

{

x<-as.character(MyData[i,1])

GenderData[i,1] <-setGender(x)

}

现在我们将通过以下语句得到更适合的可视化结果：

lbls= c("Male", "Female")

pie(table(GenderData),labels=lbls, main="Gambling by Gender")

以上代码的输出结果如下所示：

标准化

大多数主流数据科学家都已经注意到在开始统计研究或分析项目之前，将数据标准化作为数据清理过程一部分的重要性。这是很重要的，如果没有标准化，量纲不同的数据点对分析的贡献会不均等。

如果你认为在0到100之间的数据点比0到1范围内的变量影响更大，你可以理解数据标准化的重要性。使用这些未经过标准化的变量，事实上在分析中赋予较大范围的变量更多的权重。为了解决这一问题并均衡这些变量，数据科学家试图将数据转化为可比的量纲。

数据点的中心化是数据标准化中最常见的例子（尽管还有很多）。为了使数据点中心化，数据科学家把文件中的每个数据点减去所有数据的平均值。

R不是做运算，它提供了scale函数，其默认方法可以通过一行代码将文件中的数值中心化或缩减。让我们来看一个简单的例子。

回到老虎机的案例中！在我们的赌博文件中，你可能还记得有一个字段叫投币量（Coinin），它是一个表示投入到机器中美元总额的值，这被看作衡量机器盈利能力的指标。这似乎是我们盈利能力分析中使用的一个重要的数据点。然而这些金额可能是误导性的，因为不同的机器有不同面额（换句话说，一些机器接受美分，而其他机器接受一角硬币或美元）。也许机器面值的差别造成了不同的量纲，我们可以使用scale函数来解决这种情况。首先，我们在下面的截图中看到，Coin.in的值:

我们可以通过以下语句对数据点Coin.in进行中心化处理：

scale(MyData[11],center = TRUE, scale = TRUE)

center的值决定了如何行中心化。center为TRUE是需要对应的行减去Coin.in均值（省略NA）。scale的值决定了如何行缩放（在中心化之后）。如果scale的值是TRUE且center值是TRUE，那么缩放是通过除以（中心化后的）Coin.in的标准差来进行的。如果center值是False，将得到均方根值。

在下图截屏中看到了差别：

原文标题：How to tackle common datacleaning issues in R

原文链接：https://www.kdnuggets.com/2018/05/ packt-tackle-common-data-cleaning-issues-r.html

译者简介

王雨桐，统计学在读，数据科学硕士预备，跑步不停，弹琴不止。梦想把数据可视化当作艺术，目前日常是摸着下巴看机器学习。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：datapi），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

你可能感兴趣的:(手把手教你用R处理常见的数据清洗问题（附步骤解析、R语言代码）)

深入学习Nginx：从入门到实践小码快撩 nginx 学习运维
引言Nginx，全名“EngineX”，是一款高性能的HTTP和反向代理服务器，由俄罗斯程序员IgorSysoev开发。以其轻量级、高并发处理能力和稳定性而闻名于世，广泛应用于负载均衡、动静内容分离、API网关、缓存服务以及静态文件服务等多个场景。本文旨在为读者提供一份详尽的Nginx技术学习指南，助您快速掌握并应用这一强大工具。。一、事件驱动模型在Nginx中，事件驱动模型是其高效处理并发连接的
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
基于Java的智能家居设计：模块化智能插座的设计与实现 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
智能家居,Java,模块化设计,智能插座,物联网,MQTT,RESTfulAPI1.背景介绍智能家居已成为现代生活的重要趋势，它通过将各种智能设备连接到网络，实现对家居环境的自动化控制和远程管理。智能插座作为智能家居的基础设备之一，能够远程控制电器开关，监测电器功耗，并根据用户需求实现定时开关等功能。传统的智能插座往往采用单片机或嵌入式系统，功能相对单一，难以扩展和升级。随着物联网技术的快速发展，
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
决策树的核心思想 code 旭 AI人工智能学习决策树算法机器学习
一、决策树的核心思想本质：通过特征判断对数据集递归划分，形成树形结构。目标：生成一组“若-则”规则，使数据划分到叶子节点时尽可能纯净。关键流程：特征选择：选择最佳分裂特征（如信息增益最大）。节点分裂：根据特征取值划分子节点。停止条件：节点样本纯度过高或样本数过少时终止。二、数学公式与理论1.信息熵（InformationEntropy）衡量数据集的混乱程度：H(D)=−∑k=1Kpklog⁡2pk
本地部署Hive集群克里斯蒂亚诺罗纳尔多阿维罗 hive hadoop 数据仓库
规划服务机器Hive本体部署在Node1元数据服务所需的关系型数据库(MYSQL)部署在Node1安装MYSQL数据库#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch
卡尔曼滤波算法从理论到实践：在STM32中的嵌入式实现 DOMINICHZL STM32 算法 stm32 嵌入式硬件
摘要：卡尔曼滤波（KalmanFilter）是传感器数据融合领域的经典算法，在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波，并给出基于STM32硬件的完整工程案例。一、卡尔曼滤波核心思想1.1什么是卡尔曼滤波？卡尔曼滤波是一种最优递归估计算法，通过融合预测值（系统模型）与观测值（传感器数据），在噪声干扰环境下实现对系统状态的动态估计。其核
IEC104协议解析上海研博数据后端
一、IEC104协议核心特性与应用场景IEC104（IEC60870-5-104）是电力系统中广泛使用的通信协议，基于TCP/IP实现主从站（SCADA与RTU/变电站设备）的实时数据交互‌。其核心功能包括：1.四遥操作‌：‌遥测‌（YC）：采集电压、电流等模拟量数据（如类型标识0x0D）‌。遥信‌（YX）：监测开关状态等数字量信号（如M_SP_NA_1单点遥信）‌。遥控‌（YK）：远程控制断路器
ffplay 使用文档介绍码流怪侠 FFmpeg ffplay 播放器音视频直播转码
ffplayffplay是一个简单的媒体播放器，它是FFmpeg项目的一部分。FFmpeg是一个广泛使用的多媒体框架，能够解码、编码、转码、复用、解复用、流化、过滤和播放几乎所有类型的媒体文件。ffplay主要用于测试和调试，因为它提供了一个命令行界面，可以方便地查看媒体文件的详细信息，如视频帧、音频波形等。它支持多种视频和音频格式，并且可以实时显示解码过程中的统计信息。使用文档原文地址：http
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
uniapp uview u-textarea maxlength无效问题尤小白 uview组件库 uni-app 前端
watch:{'dataModel.question':{handler(val){if(val.length>=200){this.dataModel.question=val.substr(0,200)}},immediate:true,deep:true,},},
uniapp 滚动尺走，带你去玩前端 javascript 开发语言
scale组件代码（部分class样式使用到了uview1.0的样式）{{item/10}}exportdefault{name:'Scale',components:{},props:{value:{type:String,default:'0.0'},//最小值min:{type:Number,default:0,},//最大值max:{type:Number,default:100,},//
修改uview组件样式无效走，带你去玩 uni-app
在自己的components组件目录下修改uview组件样式不起效果，添加如下代码与metnods平级即可exportdefault{options:{styleIsolation:'shared'},}
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
MySql索引使用沐千熏 mysql 数据库
索引类型#主键索引：PRIMARY这设立主键后数据库自动建立索引，InnoDB为聚簇索引，主键索引列不能为空（NUll）；#唯一索引：UNIQUE索引列的值必须唯一。可以为空值，但是必须只有一个；#普通索引（组合索引）：NORMAL也称为非唯一索引，允许重复值和NULL值。一个索引可以包含多个列，多个列共同组成一个复杂的索引；#全文索引：FULLTEXTFullText（MySQL5.7之前，只有
【LLM】预训练的具体流程 FOUR_A LLM python 人工智能深度学习大模型
分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型
android屏幕旋转生命周期,Activity、Fragment生命周期---横竖屏切换的生命周期老K先生 android屏幕旋转生命周期
先贴出一张大家众所周知activity流程图onCreate():创建Activity调用，用于Activity的初始化，还有个Bundle类型的参数，可以访问以前存储的状态。onStart():Activity在屏幕上对用户可见时调用，但还不可与用户交互onRestart():在activity停止后，在再次启动之前被调用。onResume():Activity开始和用户交互的时候调用，这时该A
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
递推和递归_一文学会递归递推 HR刀姐递推和递归
递归算法和递推算法无论是在ACM竞赛还是项目工程上都有着极为广泛的应用，但想要完全掌握两者的思想并不容易，对于刚刚接触编程的人来说更是这样，我在初次接触递归递推时就吃了很多的苦头，除了当时对编程语言不太熟悉之外，最大的原因就是难以理解其中的思想，本文将二者结合代码分别讲解，力求以"理论+实践"的方式使读者明白两种算法。一箭双雕，一文双递。一.递归和递推的区别学习递归递推的一个容易遇到的问题就是混淆
飞控简析-从入门到跑路序章 skyman满天星飞控简析 pixhawk 无人机开源飞控
一、序言茫茫天数此中求，世道兴衰不自由万万千千说不尽，不如推背去归休本人搞飞控差不多两年了，从一开始什么都不懂的真·小白，到现在的高级小白，我已经经历了太多太多。因为感觉飞控是一个比较小众的产品，所以国内的资料并不是很完善，有些文章重复太多了，而且每个人看问题的视角是不一样的。我虽然只是个半瓶水，但是也想为国内的飞控圈子做一点贡献。二、学飞控有没有前途这个话题有点小，大一点的问法应该是学嵌入式有没
固定表头、首列 —— uniapp、vue 项目菲力蒲LY vue.js uni-app 前端
项目实地：也可以在【微信小程序】搜索体验：xny.handbook另一个体验项目：官网一、效果展示二、代码展示（1）html部分股票代码建议投金额实际投金额建议股数实际股数◎原单价涨出-单价↑跌出+单价↓+○预赚+●实赚-○预赔-●实赔操作{{item.stockCode}}{{item.calculAdvsIvsMoney}}{{item.calculRealIvsMoney}}{{item.t
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
zookeeper程序员指南 weixin_30326741 java 运维 shell
1简介本文是为想要创建使用ZooKeeper协调服务优势的分布式应用的开发者准备的。本文包含理论信息和实践信息。本指南的前四节对各种ZooKeeper概念进行较高层次的讨论。这些概念对于理解ZooKeeper是如何工作的，以及如何使用ZooKeeper来进行工作都是必要的。这几节没有代码，但却要求读者对分布式计算相关的问题较为熟悉。本文的大多数信息以可独立访问的参考材料的形式存在。但是，在编写第一
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
一体化便携式气象站：从农业到环保，助力各行各业发展 tianhe8888_ 气象站便携式气象站气象监测站
【TH-PQX5】随着科技的飞速进步，气象监测技术也在不断创新与发展。一体化便携式气象站，作为气象监测领域的佼佼者，以其小巧、便捷、功能全面的特点，正逐渐成为各行各业不可或缺的监测工具。从农业到环保，从科研到应急，一体化便携式气象站正以其独特的优势，助力各行各业的发展。一、一体化便携式气象站的基本概述一体化便携式气象站是一种集多种气象要素监测于一体的便携式设备。它通常包括温度传感器、湿度传感器、风
转基因大豆检测仪：快速精准识别，确保大豆安全品质 tianhe8888_ 转基因检测仪转基因检测设备
【TH-ZJY1】在现代农业与食品工业中，转基因作物的安全性一直是公众关注的焦点。为了确保大豆及其制品的安全品质，转基因大豆检测仪应运而生。这种高科技设备以其快速、精准的检测能力，为大豆产业链的安全监管提供了有力支持。一、工作原理基因检测技术转基因大豆检测仪主要依赖于先进的基因检测技术，如聚合酶链反应（PCR）、荧光原位杂交（FISH）或基因芯片等。这些技术能够特异性地识别大豆DNA中的转基因片段
洛谷P5731 【深基5.习6】蛇形方阵 westdata-Tm 数组算法模拟
P5731【深基5.习6】蛇形方阵题目描述给出一个不大于999的正整数nnn，输出n×nn\timesnn×n的蛇形方阵。从左上角填上111开始，顺时针方向依次填入数字，如同样例所示。注意每个数字有都会占用333个字符，前面使用空格补齐。输入格式输入一个正整数nnn，含义如题所述。输出格式输出符合题目要求的蛇形矩阵。输入输出样例#1输入#14输出#112341213145111615610987说
雨滴谱仪：准确掌握降水情况，助力道路维护 tianhe8888_ 雨滴谱仪降水天气现象仪雨滴
【TH-YD1】在气象监测与交通管理中，对道路降水情况的实时监测是至关重要的。雨滴谱仪作为一种高精度、智能化的降水天气现象监测设备，凭借其独特的工作原理和卓越的性能，在实时监测道路降水情况方面发挥着重要作用。一、引言降水是自然界中一种常见的天气现象，对道路交通、农业生产、城市排水等多个领域都有着重要影响。为了准确掌握降水情况，及时采取应对措施，科学家们研发了雨滴谱仪这一先进的气象监测设备。雨滴谱仪
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam