公众号Codewar原创作者

R数据分析：数据清洗的思路和核心函数介绍

好多同学把统计和数据清洗搞混，直接把原始数据发给我，做个统计吧，这个时候其实很大的工作量是在数据清洗和处理上，如果数据很杂乱，清洗起来是很费工夫的，反而清洗好的数据做统计分析常常就是一行代码的事情。

Data scientists only spend 20% of their time creating insights, the rest wrangling data.

想想今天就给大家写一篇数据处理的常用函数介绍吧。全是自己的一丢丢经验，肯定不会是最优的，仅仅是给个参考，因为在R中同一个目的的实现方法太多了，找到适合自己的才是最好的。我争取尽量清晰地一步一步给大家展示一下整个清洗数据的流程。

在R语言中我们会用一系列的方法把我们的数据清洗过程连起来，整个的思路就是从原始数据开始，一步一步形成我们的最终可以用来做统计的数据。

整体上我们数据处理的步骤可以包含下面5个部分，也是有顺序的5步：

Importing of data（数据导入）
Column names cleaned or changed（列名的清洗转换）
De-duplication（去重）
Column creation and transformation (e.g. re-coding or standardising values)（生成新变量）
Rows filtered or added（数据选择）

本文就带着大家一步一步走一遍，中间会详细说明一些核心函数的用法，希望对大家有点帮助。当然了，以下内容默认您已经理解dplyr包的基础，比如Pipes%>%符号。

数据导入

数据导入大家应该都没有问题，就算有问题网上搜搜一般都可以解决，导入数据的方法有很多种，这儿会推荐大家直接用右上角的菜单import data，或者使用rio包的import函数。我现在有一个已经导入的原始数据raw如下图：

数据导入进来之后我们首先应该整体上看看变量类型，变量名称都是如何的，以此决定我们是不是将变量名初步改改，或者变量类型也得改改，就是首先得有个整体把握，此时推荐大家运行一下skim函数，这个是帮助我们了解数据整体形式的十分方便的函数，请大家把summary忘掉，直接运行skim：

skimr::skim(raw)

函数的输出包括整体的数据有多少行多少列，列的不同类型（数值，字符，时间）有几种，然后不同的列的类型还会输出我们关心的指标，比如字符型的列都会有每一列的缺失比例，极值，非重复值，空白等：

比如对于每一个数值型的列都会有缺失数量，均值标准差百分位数，直方图等等我们关心的东西：

反正就是大家用skim函数就可以从整体上把握住我们的数据的样子了。

另外还会推荐大家用names函数看看数据的列名，有了对数据集的整体把握和全部的变量名，我们可以紧接着进行下一步：变量名的转换。

列名的清洗转换

转化的目的就是使得之后的操作调用变量可以更加的清晰和方便，我可以瞅瞅我的原始数据的列名：

names(raw)

在查看列名时我们需要关注一下列名是不是符合以下要求：

在可读性高的情况下尽可能短
没空格
没有特殊字符（&, #, <, >, …）
样式统一(e.g. all date columns named like date_onset, date_report, date_death…)

对照上面的标准我们其实就可以知道目前我的原始数据raw的列名中，infection date中出现了空格，date onset . infection date这两个列名的也有空格而且形式应该统一以下比较好；然后…28这个列名有特殊符号，这些最好都先得改改。

当我们的数据集非常大的时候，比如有好几千个变量的时候，改列名或者列名统一也是一件比较繁琐的事情，这个时候会推荐大家用clean_names()函数自动修改一下，之后再写代码微调，这样对大型数据库处理起来可以节省大量时间，对我们的数据raw我们可以写出如下代码：

data <- raw %>% 
  janitor::clean_names()

运行上面的代码后我们再看data的列名就可以发现至少特殊字符和空格的问题统统都没有了：

上面属于粗犷的处理，但是还有其它的问题，反正实际情况中大家也免不了需要改列名的，此时可以用rename函数进行列名的手动修改，基本格式是新名=旧名，如下：

raw %>% 
  janitor::clean_names() %>% 
  rename(date_infection       = infection_date,
         date_hospitalisation = hosp_date,
         date_outcome         = date_of_outcome)

运行代码后我们就可以看到所有设定的列名都被改好了。

很多时候我们是从一个很大的微观数据库中摘变量来分析的，就是常常我们只需要那些我们用得着的变量，这时可以用select函数，这个大家用的比较多，这儿分享几个在使用select的时候的辅助函数，将这些辅助函数和select结合起来会使得效率更高，这些函数有一个统一的名字叫做“tidyselect” helper functions，常见的如下图：

比如我就想选择所有的数值型变量来分析我就可以写出如下代码：

select(where(is.numeric))

比如我就想找变量名中包含某个字符的变量，我就可以用contain函数，比如我现在手里是一个母子配对数据集，变量既有母亲的也有孩子的，我就可以用contain方便滴筛选出来母子的年龄：

 select(contains("age"))

上面的代码会将所有包含“age”这个字符串的变量都筛出来；同样的道理我们还可以用ends_with() and starts_with()筛出来大型数据集中以某个字符开头和结尾的列，比如一个纵向随访数据集每一波的cesd都是以cesd开头为列名的我们就可以用starts_with()将所有随访的cesd都筛出来。还有matches()函数也可以帮助实现列名的匹配筛选，比如在raw数据中，用如下代码就可以筛选出所有列名中含有“onset”，“hosp”，“fev”的列

raw %>% 
  select(matches("onset|hosp|fev")) %>%  
  names()

上面一步就实现了将fever的发病时间，入院时间，住院时长这些变量都筛出来，指导这些操作在处理大型数据库的时候就会省事很多。

反正，整体的操作都是非常灵活的，会有很多细节需要学习，但是大家要掌握的是我知道有这么一个函数可以解决这个问题，我就先记住函数名，具体细节可以边用边查，整体的学习过程就是这样。

新变量生成和变量转换

在数据处理中我们还会涉及到变量的改变和根据原有变量生成新变量，变量生成和转换都可以用mutate来实现，具体规则就是：

mutate(new_column_name = value or transformation)

就上面这个式子，用起来可就是包罗万象，比如在你的数据中有身高体重，我想计算一个新的变量叫做bmi，则可以写出代码如下：

  mutate(bmi = wt_kg / (ht_cm/100)^2)

还有很多的新变量生成和转换的应用场景，比如完全复制一个变量，新列全是7，用另外的变量计算，两个变量的值贴一起形成新变量：

 raw%>%                       
  mutate(
    new_var_dup    = case_id,             # 完全复制
    new_var_static = 7,                   # 新列全是7
    new_var_static = new_var_static + 5,  #用另外的变量计算新变量
    new_var_paste  = stringr::str_glue("{hospital} on ({date_hospitalisation})") # 两个变量的值贴一起形成新变量
    )

还有很多很多的操作都是在mutate中完成的。

我们常常还会有的需求是一次性处理好多个变量，比如一次性将所有的变量都转换为字符类型，这个时候为了代码的整洁统一我们依然可以用mutate和across，结合.cols和.fns参数就行，比如下的代码就是将3个列全部转换为字符串，大家不用特意再去用lapply或者写循环什么的：

raw %>% 
  mutate(across(.cols = c(temp, ht_cm, wt_kg), .fns = as.character))

还有几个小技巧，比如我想将数据库的所有列都进行某一个操作，我不用将所有的列名都敲出来，只需要用everything函数就可以，比如用下面的代码就实现将数据的所有列转换为字符型：

raw %>% 
  mutate(across(.cols = everything(), .fns = as.character))

大家把握住一个原则就是列的生成转换就是用mutate就行，然后涉及到选择的时候我们一定记得要结合辅助函数“tidyselect” helper functions。要有这个意识。

还有一个函数要给大家介绍一下就是coalesce()

很多时候我们一个变量有两种测量方式，比如有自我报告的体重，还有物理测量的体重，我们通常的想法是以物理测量的为准，当物理测量有缺失我们用自我报告的数据来填补，这么一个过程我们就可以用coalesce函数一步搞定，如下：

所以说我们在使用mutate的时候我们可以根据需要结合coalesce函数，比如下面的代码就实现了在raw数据集中当village_detection缺失时用village_residence的值填补：

raw %>% 
  mutate(village = coalesce(village_detection, village_residence))

变量重新编码

变量重新编码也是常见的操作，它也是属于变量转换的大框框里面的，所以我们依然是用mutate，比如在我们的raw数据中，我们有个变量hospital，这个变量有很多的水平，其实好多水平是一样的：

table(raw$hospital, useNA = "always")

这种情况在我们自己录入的数据库中经常会出现

就是"Mitylira Hopital"和"Mitylira Hospital"，和"Military Hopital"其实都可以看成是录入的时候录错了，其实他们都是"Military Hospital"，这个时候我们要做的就是重新编码变量，可以用mutate和recode实现我们的需求：

raw%>% 
  mutate(hospital = recode(hospital,
                     # for reference: OLD = NEW
                      "Mitylira Hopital"  = "Military Hospital",
                      "Mitylira Hospital" = "Military Hospital",
                      "Military Hopital"  = "Military Hospital",
                      "Port Hopital"      = "Port Hospital",
                      "Central Hopital"   = "Central Hospital",
                      "other"             = "Other",
                      "St. Marks Maternity Hopital (SMMH)" = "St. Mark's Maternity Hospital (SMMH)"
                      ))

上面的代码运行完，我们再看相应的错误的录入都正确地归为相应水平了

大家还应该掌握的使用逻辑判断进行变量重新编码的方法，这个时候需要用到replace()，ifelse()andif_else()和case_when()，给大家写一个case_when的例子，这个函数就是在我们需要根据某个变量的值生成新变量的时候使用，比如我们根据age_unit的不同取值，生成新变量age_years，我们就可以用case_when()：

raw %>% 
  mutate(age_years = case_when(
            age_unit == "years"  ~ age,       
            age_unit == "months" ~ age/12,    # 年龄单位为月，age_years就等于年龄/12
            is.na(age_unit)      ~ age,       # 年龄单位缺失的话，默认成“年”,age_years就等于age
            TRUE                 ~ NA_real_)) #其余所有情况都归为age_years缺失

在使用case_when的时候我们可以将想设定的都设定好，余下的情形都可以用关键字TRUE代表，就想上面代码的最后一行那样，对于age_unit这个变量的其余的所有情况我们都认为age_years为缺失。

缺失值替换

缺失值转换依然可以在mutate中完成，因为它依然是在变量转化的框架里：

因为我们的hospital这个变量其实是有很多的缺失值的，我们希望将相应的缺失值都替换成missing，我们就可以写出如下代码：

raw %>% 
  mutate(hospital = replace_na(hospital, "Missing"))

有一种情况需要注意，就是因子变量中有NA，我们如果用replace_na会报错，上面代码中hospital变量是字符型的，所以没有问题。就是对于一个因子来讲，它本身水平就是固定的，有了NA，我们将NA进行替代，比如替代成missing，其实missing它并不是因子原来本身的一个水平，所以会报错，这个时候我们可以用fct_explicit_na()函数。

fct_explicit_na()函数会直接将因子变量中的NA进行相应的替换，替换的值也自动成为该因子的一个水平。

数值变量转分类变量

就是说我们有时候想将连续变量转成分类变量分析，这个时候常常会用到的函数有age_categories()，cut()，quantile()，ntile()

看一个age_categories()的例子：

raw%>% 
  mutate(
    age_cat = age_categories(             
      age_years,                            
      breakers = c(0, 5, 10, 15, 20,        
                   30, 40, 50, 60, 70)))

上面的代码就将age_years这个连续变量化成了分类变量，分的节点就是breakers参数的向量中，quantile()，ntile()则可以帮助我们快速地划分节点。分类过后就可以用table函数查看每个类别的数量，上面的代码就是将连续变量age_years用breakers参数中的点进行了划分，划分后形成了分类变量，结果如下：

有时候我们对划分的结果会不放心，比如这个类别到底是开区间还是闭区间，当然这些都是有参数可以调的，为了确认我们也可以做交叉表格，我么可以把原来的连续变量和生成的分类变量进行交叉：

table("Numeric Values" = raw$age_years,   
      "Categories"     = raw$age_cat,
      useNA = "always")

通过这么样一个操作我们就可以判断是不是相应的连续变量都被正确地划分到了相应的类别中：

还有一种比较特别的需求，我们虽然想按连续变量分组，但是我想每个组的人数相同，这个时候结合ntile()就可以实现，比如我想把age_years化成分类变量，且规定每一类人数相同，我就可以写出如下代码：

ntile_data <- raw %>% 
  mutate(even_groups = ntile(age_years, 10))

去重

去重大家就去研究一个函数，叫distinct就行。

行的过滤和添加

给数据库的行进行改变大家都会，但是要在原先的数据框中间插入一行怎么办呢？

可以用addrow，比如我想在原来的数据集raw的第二行之前插入一行，我可以用如下代码：

raw %>% 
  add_row(row_num = 666,
          case_id = "abc",
          generation = 4,
          `infection date` = as.Date("2020-10-10"),
          .before = 2)

该行的每一个变量都需要规定一下，没设定的都会空着，.before = 2的意思就是在原来数据框的第二行之前插入。

按规则进行行的选择

选择行也是用的比较多的，比如我就想选性别为女的行，或者我就想选择某些变量没有缺失的行等等，选择行我们是用filter，但是在以是否缺失为条件的时候大家不要去用filter(!is.na(column) & !is.na(column))这个时候推荐大家用drop_na，通过drop_na就可以将某个变量有确实的行全拿掉。

横向计算

正常我们计算变量都是纵向依次计算的，比如最开始写的BMI计算的例子，有时候我们需要对一个观测的多个变量进行计算，比如一个病人有好多症状，我想对每个病人症状个数求和，本质上这是一个横向计算的问题，我就可以使用rowwise()函数，用完之后记得ungroup（）一下：

row %>%
  rowwise() %>%
  mutate(num_symptoms = sum(c(fever, chills, cough, aches, vomit) == "yes")) %>% 
  ungroup() %>% 
  select(fever, chills, cough, aches, vomit, num_symptoms)

比如上面的代码就计算好了每一个病人的症状个数。

小结

今天给大家写了数据处理中的一些函数和处理的一般流程：导入数据后先整体把握，第二步规范列名，列搞定之后第三步就是去重，去完重就是生成新变量，变量转换；最后一步就是行的选择和添加。每一个步骤中给大家写了一点点例子，感谢大家耐心看完，自己的文章都写的很细，重要代码都在原文中，希望大家都可以自己做一做，请转发本文到朋友圈后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先记得收藏，再点赞分享。

也欢迎大家的意见和建议，大家想了解什么统计方法都可以在文章下留言，说不定我看见了就会给你写教程哦，有疑问欢迎私信。

【大数据分析】Spark SQL查询：使用SQL命令 sword_csdn Spark spark 数据分析 sql
对于使用关系型数据库或分布式数据库的用户可能更容易和更自然地使用SQL，比如Hive。在SparkSQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。Spark支持两种SQL方言：SQL和HQL。Spark社区推荐的是HQL，因为HQL具有更丰富的功能。要使用HQL，需要使
人工智能专业毕业设计题目精选：推荐合集 HaiLang_IT 毕业设计选题计算机视觉人工智能目标检测
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了计算机专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
跨语言语义理解与生成：多语言预训练方法及一致性优化策略网罗开发 AI 大模型人工智能深度学习负载均衡
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
编程语言難釋懷开发语言
在当今数字化的时代，编程语言作为人与计算机交流的桥梁，扮演着至关重要的角色。无论是开发一款手机应用、创建一个网站还是实现复杂的数据分析，选择合适的编程语言都是成功的关键之一。本文将带你走进编程语言的世界，探索它们的基本概念、类型以及如何根据项目需求选择最合适的工具。一、什么是编程语言？编程语言是一种用于编写计算机程序的形式化语言，它定义了一套规则和语法，让开发者能够指示计算机执行特定任务。编程语言
本地运行 DeepSeek-R1 的成本究竟多高？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读本地运行DeepSeek-R1的成本究竟多高？DeepSeek让人们对大规模生成式模型的追求更进一步，甚至有人想在本地跑下规模高达671B参数的版本。但要在家里开这种“巨无霸”，可不是闹着玩的：光是推理就对硬件提出了非常高的要求。这篇文章将大致拆解一下，如果真想在个人电脑上运行DeepSeek-R1，可能需
R语言应用实战-基于R语言的判别分析：fisher判别法，距离判别法以及Bayers判别法（附源代码）文宇肃然 R语言实战应用案例精讲 R语言数据分析分类回归深度学习
前言判别分析（DiscriminatAnalysis)是多变量统计分析中用于判别样本所属类型的一种统计分析法。它所要解决的问题是在一些已知研究对象用某种方法已经分成若干类的情况下确定新的样本属于已知类别的哪一类。判别分析在处理问题时，通常要给出一个衡量新样品与各已知类型接近程度的描述统计模型即判别函数，同时也指定一种判别规则，借以判定新的样本归属。以下是我为大家准备的几个精品专栏，喜欢的小伙伴可自
HMSC联合物种分布模型中环境变量、物种属性、系统发育、数据分层设置综合案例 weixin_贾地理遥感生态模型物种分布生物多样性 Hmsc模型物种属性系统发育群落生态贝叶斯统计混合效应
联合物种分布模型（JointSpeciesDistributionModelling，JSDM）在生态学领域，特别是群落生态学中发展最为迅速，它在分析和解读群落生态数据的革命性和独特视角使其受到广大国内外学者的关注。在学界不同研究团队研发出不同的联合物种模型，其中由芬兰的Ovaskainen教授领导的团队研发的R语言程序包Hmsc发展势头最为强劲。Hmsc是物种群落分层模型的缩写(Hierarch
r语言面板数据回归_R语言之回归分析你的麦克疯 r语言面板数据回归
回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛，下列表格向我们展示了回归的不同类型以及其用途。本章为R语言回归分析之上部分，主要向读者们展示如何运用R语言完成ols(普通最小二乘)回归：简单线性回归、多项式回归、多元线性回归的语言编程示例，以及检验回归分析中统计假设的方法。回归类型用途简单线性用一个量化的解释变量来预测一
【R语言数据分析】基于R语言对中、美两国GDP分析（R语言大作业） m0_73866147 数据分析大数据 r语言
目录一、研究意义二、数据来源三、读取数据读取数据代码运行结果截图四、数据分析绘制箱线图建立箱线图代码运行结果截图五、建立回归模型建立回归模型代码运行结果截图有关于相关系数的计算与检验六、回归分析确定回归方程七、预测中国和美国未来的GDP值、预测中国的GDP赶超美国的时间数据可视化八、总结一、研究意义GDP作为衡量一个国家经济发展的重要指标，被赋予了非常重要的意义，深刻反映着当下经济发展的现状。中美
R语言中的偏最小乘回归（Partial Least Squares Regression, PLSR）和判别分析（Discriminant Analysis, 程序才子 r语言回归开发语言 R语言
R语言中的偏最小乘回归（PartialLeastSquaresRegression,PLSR）和判别分析（DiscriminantAnalysis,DA）偏最小乘回归（PartialLeastSquaresRegression,PLSR）与判别分析（DiscriminantAnalysis,DA）是R语言中常用的数据建模和预测技术。它们可以用于解决回归问题和分类问题。本文将介绍PLSR和DA的基本
判别分析在R语言中的实现 FgVector r语言开发语言
判别分析是一种常用的统计方法，用于将样本数据分配到已知类别中。在R语言中，我们可以使用多个包来实现判别分析，例如MASS、caret和lda等。本文将介绍如何使用R语言实现判别分析，并提供相应的源代码。安装和加载所需的包首先，我们需要安装并加载需要的R包。在R控制台中执行以下命令：install.packages("MASS")#安装MASS包install.packages("caret")#安
AI赋能下的2025商业新契机：AI无人自动直播引领财富增长 V__17671155793 人工智能 python chatgpt gpt-3 gpt
AI赋能下的2025商业新契机：AI无人自动直播引领财富增长！在科技飞速发展的时代，每一次重大的技术突破都有可能重塑商业格局，创造全新的财富机遇。如今，随着人工智能技术的深度应用，AI无人自动直播正成为2025年最具潜力的造富新赛道，为广大商家提供了前所未有的发展契机，助力其在激烈的市场竞争中展翅腾飞。一、传统直播困境与AI无人自动直播的破局之道回顾直播行业的发展历程，传统直播模式在经历了初期的爆
面试基础--分布式任务调度系统设计方案 WeiLai1112 后端面试 java 后端架构中间件
分布式任务调度系统设计方案以下是一个基于实际项目经验设计的分布式任务调度系统方案，结合北京互联网大厂面试要求，涵盖架构图、调用关系图、设计图和数据流转时序图。1.系统概述分布式任务调度系统主要用于处理高并发、大规模的任务分发和执行场景。常见应用场景包括：异步任务处理（如邮件发送、消息通知）定时任务调度（如统计报表生成）分布式计算任务（如数据分析）本方案设计一个高可用、可扩展的分布式任务调度系统，包
主要空间数据挖掘方法 CodeYoung7 总结归纳数据挖掘地理信息
文章出自：http://blog.csdn.net/shaoz/article/details/6847925张新长马林兵等，《地理信息系统数据库》[M]，科学出版社，2005年2月第二章第二节空间数据空间数据挖掘是多学科和多种技术交叉综合的新领域，其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。1、空间分析方法利用GIS的各种空间
二分查找！！！！ xiaolin0333 #二分查找算法二分查找
比如有个从小到大排列的数组：[5,7,7,8,8,10]找到第一个≥8的数的位置左闭右闭：vectornums{5,7,7,8,8,10};inttarget=8;intlower_bound1(){intl=0,r=nums.size()-1;while(l<=r){//[l,r]intm=l+(r-l)/2;if(nums[m]
ChatGPT和DeepSeek打造科研与办公的高效引擎 AAIshangyanxiu 编程算法统计语言农林生态遥感 chatgpt
一、2024大语言模型最新进展与ChatGPT各模型讲解1、2024AIGC技术最新进展介绍（生成式人工智能的基本概念与原理、最新前沿技术和发展趋势简介）2、国内外大语言模型（ChatGPT4O、Gemini、Claude、Llama3、PerplexityAI、文心一言、星火、通义千问、Kimi、智谱清言、秘塔AI等）对比分析3、OpenAI12天12场直播新功能解读与演示（ChatGPTO1模
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
java防抖，防止表单重复提交，aop注解形式 One_for_all96版 java 开发语言
importjava.lang.annotation.ElementType;importjava.lang.annotation.Retention;importjava.lang.annotation.RetentionPolicy;importjava.lang.annotation.Target;/***防抖注解*/@Target(ElementType.METHOD)//作用到方法上@R
php glob 指定目录,php使用glob函数快速查询指定目录文件的方法_php技巧程序员小智和大鹏 php glob 指定目录
本文实例讲述了php使用glob函数快速查询指定目录文件的方法。分享给大家供大家参考。具体如下：php搜索当前目录所有文件,代码如下:$array=glob('*.*');print_r($array);/*Array([0]=>1.php[1]=>10.php[2]=>11.php[3]=>2.asp[4]=>3.asp[5]=>4.aspx[6]=>5.html[7]=>6.php[8]=>7
DeepSeek混合专家模型：低成本高精度革新多语言AI应用智能计算研究中心其他
内容概要当前人工智能领域正经历从通用模型向垂直化、场景化应用的关键转型，DeepSeek混合专家模型（MoE）通过突破性的架构设计，为这一进程提供了技术范本。该模型采用分治策略的混合专家架构，通过动态激活670亿参数中的子模块处理特定任务，既保证了模型规模带来的知识广度，又显著降低了计算资源的冗余消耗。在此基础上，其多模态处理能力不仅覆盖80余种自然语言的高精度互译，还实现了视觉符号与文本语义的跨
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
23. AI-概述真上帝的左手 23.AI ai 人工智能
文章目录前言一、AI1.简介2.发展3.应用场景前言AI‌ 随着技术的发展，AI正变得越来越强大和普及，其在解决复杂问题和提高人类生活质量方面的潜力日益显现。一、AIAI（ArtificialIntelligence，人工智能）1.简介 AI（ArtificialIntelligence，人工智能）是计算机科学的一个分支，旨在开发智能系统，使其能够执行通常需要人类智能的任务，例如学习、推理、问
joint_info smpl AI算法网奇 python基础计算机视觉人工智能
生成代码：出处：https://github.com/DART-Lab-LLUI/Metrabs_PoseEstimationdefget_joint_info():joint_names_smpl=('pelv,lhip,rhip,bell,lkne,rkne,spin,lank,rank,thor,ltoe,rtoe,neck,lcla,rcla,head,lsho,''rsho,lelb,r
商城项目秒杀通过Redisson设置信号量和秒杀随机码的设计保证秒杀业务稳定-----商城项目旧约Alatus 电商项目 #Spring-Boot框架 #Spring-Cloud框架 spring boot 分布式 spring spring cloud 后端微服务 jvm
packagecom.alatus.mall.seckill.service.impl;importcom.alatus.common.utils.R;importcom.alatus.mall.seckill.constant.SecKillConstants;importcom.alatus.mall.seckill.feign.CouponFeignService;importcom.ala
postgresql实时同步到mysql 数据库
应客户要求，需要同步数据到他们自己的数据库用于简单的数据分析，但这部分数据在postgresql，客户又不想再建pg，想直接同步到他们现有的mysql库，实时性倒是不要求。考虑到1、异构数据库同步2、只同步指定客户的行数据有之前同步到es的经验，同样使用了腾讯oceanus，其它工具没搞定客户库中创建表CREATETABLEtb_1(idbigintprimarykey,didbigint,gid
【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决没枕头我咋睡觉大语言模型语言模型人工智能自然语言处理
背景：本地下载了DeepSeek-R1-Distill-Qwen-7B模型后，通过ollamacreateDeepSeek-R1-Distill-Qwen-7B-fds7b.mf加载模型启动后回答混乱，无法使用。解决方法重新下载模型，选择了DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf重新编写ds7b.mf文件，文件内容如下：FROM/root/zml/DeepSe
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距 c++服务器开发人工智能 deepseek
生成式人工智能开发商OpenAI公司首席执行官SamAltman最近在RedditAMA问答活动中承认，该公司在开源软件研究方面站在了“历史错误的一边”。尽管OpenAI公司尚未发布其开源模型，但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样，其最新的推理模型o3-mini现在展示了其思维链（CoT）跟踪的更详细版本。此前，OpenAI公司的推理模型仅展示了CoT的高级概述，这使
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
windows系统不弹出用户控制中心今天吃了嘛o windows
解决电脑频繁弹出用户账户控制的方法！是不是每次打开电脑都看到那个烦人的用户账户控制弹窗？1️⃣首先，按下Win+R键，打开运行窗口，输入“msconfig”并按下回车。2️⃣接下来，切换到“工具”选项卡，找到“更改UAC设置”，然后点击“启动”。3️⃣在弹出的用户账户控制设置对话框中，选择“为从不通知”，然后点击确定。
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

R数据分析：数据清洗的思路和核心函数介绍

数据导入

列名的清洗转换

新变量生成和变量转换

去重

行的过滤和添加

小结

你可能感兴趣的:(R,数据挖掘,数据分析,人工智能)