悟乙己

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

data.table可是比dplyr以及Python中的pandas还好用的数据处理方式。

网络上充斥的是data.table很好，很棒，性能棒之类的，但是从我实际使用来看，就得泼个水，网上博客都是拿一些简单的案例数据，但是实际数据结构很复杂的情况下，批量操作对于data.table编码来说，会显得很繁琐，相比来说，让我多等1分钟的data.frame结构，我还是愿意等的。

data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。（参考来源：R高效数据处理包dplyr和data.table，你选哪个？）

在使用data.table时候，需要预先布置一下环境：

[html]  view plain 
      copy
 print ? 
     
data<-data.table(data)  

如果不布置环境，很多内容用不了。或者通过as.data.table的操作来构建数据集。

一些老式的数据操作方法可以见我的其他博客：

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

同时，data.table与data.frame数据呈现方面，还有有所不同的。

data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。

注意:

data.table之后，一些常规的data.frame的操作就失效了，譬如：

data[,-1]、data[,1]这样的操作就不是这么用的了。

——————————————————————————————————————————————

一、重要的key()

data.table中的key是整个框架里面的灵魂，通过设置，data.table整个数据就会按照key变量重新排序。这意味着，输出的数据也是按照某种规律的，而且通过设置了Key,配套的代码编译也受到了简化。

设置key的方式有很多种：

1、创建数据时直接设置key

dt <- data.table(a=c('A','B','C','A','A','B'),b=rnorm(6),key="a")

2、setkey()函数设置

setkey(dt,a)

setkey(DT, colA, colB)，可以使得检索和分组更加快速。同时设置两个key变量的方式，也是可以的。

查看数据集是否有key的方式：

key(data)    #检查该数据集key是什么？
haskey(data) #检查是否有Key
attributes(data)

key()可以告诉你，数据集中的Key是哪几个变量？

haskey()输出结果为:true/false

——————————————————————————————————————————————

二、数据筛选

1、列筛选 .()

from_dplyr = select(tb, ID)   
from_data_table = tb[,"ID"]
from_data_table = tb[,.(ID)]

三种数据筛选的方式，dplyr包、base基础包、data.table包。其中，dplyr是select语句，data.table中要注意.()的表达方式。

而且，.()格式只在data.table格式下有效，不然会报错。data.table中，还有一个比较特立独行的函数：

使用:=引用来添加或更新一列（参考：R语言data.table速查手册）

DT[, c("V1","V2") := list(round(exp(V1),2), LETTERS[4:6])]
DT[, c("V1","V2") := NULL]

通过list的方式来更新了数据，以及使用null的方式来删除列。

2、按条件行筛选

从前用subset的方式进行筛选比较多，

new<-subset(x,a>=14,select=a:f)

（1）单变量

现在data.table与dplyr

from_dplyr = filter(hospital_spending,State %in% c('CA','MA',"TX")) 
from_data_table = hospital_spending_DT[State %in% c('CA','MA',"TX")]

dplyr用filter，content满足某种条件的进行筛选，而data.table的筛选方式很传统，比较简单。筛选hospital_spending_DT数据集中，State变量，满足"CA"、“MA”、"TX"内容的行。

在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。

（2）多变量筛选，用&|等

from_dplyr = filter(tb,State=='CA' & Claim.Type!="Hospice") 
from_data_table = hospital_spending_DT[State=='CA' & Claim.Type!="Hospice"]

（3）还有一些复杂结构：

dt[a=='B' & c2>3, b:=100]   #其他结构

在dt数据集中，筛选a变量等于"B"，c2变量大于3，同时将添加b变量，数值等于100.

（4）★key的改造

通过预先设置key，然后再来进行筛选的方法，更加高效，而且节省时间。来看看例子：

ans1 <- try[try$gender=="M" & try$buy_online=="Y",]
#使用”==”操作符，那么它会扫描整个数组，虽然data.table用这种方法也可以提取，但很慢，要尽量避免。

setkey(try,gender,buy_online)  #设置key为两个变量，数据已经按照x值进行了重新排序
ans2 <- DT[list("M","Y")]      #更为简洁，并且迅速

这里有一个重要的点:使用”==”操作符，那么它会扫描整个数组，虽然data.table用这种方法也可以提取，但很慢，要尽量避免。
这里先设置key，然后直接通过list(M,Y)就可以达到第一条代码的效能，而且时间更短。

——————————————————————————————————————————————

三、数据排序

有了key,其实有了一定排序功能在里面。

from_dplyr = arrange(hospital_spending, State)
from_data_table = setorder(hospital_spending_DT, State)

from_dplyr = arrange(hospital_spending, desc(State))
from_data_table = setorder(hospital_spending_DT, -State)

dplyr中是arrange函数，而data.table是setorder函数，同时降序的方式。

dplyr的降序是，arrange(data,desc(x))，而data.table的降序是setorder(data,-x)

——————————————————————————————————————————————

四、分组求和、求平均

mygroup= group_by(try,gender,buy_online)
from_dplyr<-summarize(mygroup,mean=mean(new_car))                          #dplyr用两步    

from_data_table<-try[,.(mean=mean(new_car)),by=.(gender,buy_online)]       #data.table用一步

dplyr：先用group_by设置分组，然后利用summarize求平均，mean=mean()；

data.table，在try数据集中，通过by=.(x,y)来分组，而且可以设定x/y两种分组，来求new_car的平均值。

（1）data.table多种方式混合输出：

mydata[,.(sum(Ozone,na.rm=T),sd(Ozone,na.rm=T))]                           #求和、求标准差操作
DT[,list(MySum=sum(v),
         MyMin=min(v),
         MyMax=max(v)),
   by=.(x)]                                                                #多种方式联合

多种方式混合，而且代码编译上也会有很多不同之处。DT数据集按照x分组，然后计算v变量的和、最小值、最大值。

（2）dplyr函数利用%>%（链式操作）来改进：

链式操作是啥意思呢？

%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。

from_dplyr=try %>% group_by(gender,buy_online) %>% summarize(mean=mean(new_car))

——————————————————————————————————————————————

五、数据合并

最常见的合并函数就是merge，还有sql的方式（常见的合并方式可见：

R语言数据集合并、数据增减、不等长合并

）。

在data.table中有三类数据合并的方式：

1、直接用[]

data_one[data_two,nomatch=NA,mult="all"]

以第一个数据为基准，依据key进行合并，只出现重复部分（data_one数据必须设置key，data_two默认第一行为Key）。很简洁的方式，举例：

DT = data.table(x=rep(c("a","b","c"),each=3), y=c(1,3,6), v=1:9)
X = data.table(c("b","c"),foo=c(4,2))
#以DT为基准
setkey(DT,x)
DT[X] 
#以X数据集为基准
setkey(X,V1)
X[DT]

现在有DT、X两个数据集，先设置DT数据集的key，然后DT[X]来合并，后者相同。还有nomatch的设置可以见第六小节。

nomatch用来设置未匹配到的数据如何处理，nomatch=0则认为未匹配到的删除。

melt用来设置是否都显示匹配内容。

2、on=""方式

DT[X, on="x"]

这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。

3、第三种方式：key-merge

setkey(DT,x)
setkey(X,V1)
merge(DT, X)

预先设置两个数据集的key后，也可以用比较常见的merge函数来进行数据合并。

——————————————————————————————————————————————

六、额外的参数（来源：R语言data.table速查手册）

1、mult参数

mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素
返回匹配到键值所在列(V2列)所有行中的第一行

> DT["A", mult ="first"]
   V1 V2 V3 V4
1: 1 A -1.1727 1

2、nomatch参数——未匹配样本处理

nomatch参数用于控制，当在i中没有到匹配数据的返回结果，默认为NA，也能设定为0。0意味着对于没有匹配到的行将不会返回。
返回匹配到键值所在列(V2列)所有包含变量值A或D的所有行：

 DT[c("A","D"), nomatch = 0]
   V1 V2    V3 V4
1: 1 A -1.1727 1
2: 2 A  0.6651 4
3: 1 A -1.0604 7
4: 2 A -0.3825 10

nomatch=0对于没有匹配到的将不显示。跟merge中的all差不多。

3、.SD和.SDcols

> DT[, lapply(.SD,sum), by=V2,
+    .SDcols = c("V3","V4")]
   V2      V3 V4
1:  A -1.2727 22
2:  B -1.2727 26
3:  C -1.2727 30

.SD是一个data.table，他包含了各个分组，除了by中的变量的所有元素。.SD只能在位置j中使用。
.SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。

4、修改列名、行名

#把名字为"old"的列，设置为"new"
> setnames(DT,"old","new") 
#把"V2","V3"列，设置为"V2.rating","V3.DataCamp"
> setnames(DT,c("V2","V3"),c("V2.rating","V3.DataCamp"))

5、setcolorder()

#setcolorder()可以用来修改列的顺序。
setcolorder(DT,c("V2","V1","V4","V3")) 
#这段代码会使得列的顺序变成：
 "V2" "V1" "V4" "V3"

——————————————————————————————————————————————

实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？

在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。

除了行，就是列的问题了。在data.table操作列，真的是费劲。。。

常规来看，

data[，.(x)] 还有 data$x

如果有很多名字很长的指标，data.table中如果按列进行遍历呢？

data[,1]是不行的，选中列的方式是用列名。于是只能借助get+names的组合。

for (i in 1:5){
data[,.(get(names(data)[i]))]
}

这个是我目前在遍历时候用到的代码，不知道观众有没有更好的呢？

2016-11-28补充：

留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用：

data.table取列时，可以用data[,1,with=FALSE]取data的第一列，相对于对数据框的操作

这样就可以像普通的数据框一样使用，谢谢留言区大神！！！！

参考文献：

些许案例，代码参考自以下博客，感谢你们的辛勤：

1、R语言data.table简介

2、超高性能数据处理包data.table

3、R语言data.table速查手册

4、R高效数据处理包dplyr和data.table，你选哪个？

你可能感兴趣的:(R︱数据操作与清洗,R的数据操作与清洗)

华为昇腾服务器部署DeepSeek模型实战 gzroy 人工智能语言模型
在华为的昇腾服务器上部署了DeepSeekR1的模型进行验证测试，记录一下相关的过程。服务器是配置了8块910B3的显卡，每块显卡有64GB显存，根据DeepSeekR1各个模型的参数计算，如果部署R1的Qwen14B版本，需要1张显卡，如果是32B版本，需要2张，Llama70B的模型需要4张显卡。如果是R1全参数版本，则需要32张显卡，也就是4台满配的昇腾服务器。这里先选择32B的模型进行部署
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
【系统架构设计师】论文：论信息系统的安全体系数据知道系统架构安全系统架构设计师软考高级论文架构
论文：论信息系统的安全体系文章目录摘要正文总结摘要2023年2月，我参加了某水库管理信息系统项目的实施。通过系统的实施和运行，实现防汛、供水、发电、闸门监控、水文等各种数据的采集、分析、存储，并通过网络及时地向有关部门汇报，以便相关领导进行调度指挥，为领导决策提供大力支持，为业务人员办公提供服务。系统的应用将有效提高某市政府水库管理所的工作效率。我作为该项目的项目负责人，主要负责项目管理，同时负责
银行排队问题之单队列多窗口服务[天梯赛 -- 栈和队列] 苏慕TRYACE 算法数据结构 c++
文章目录题目描述思路AC代码题目描述输入样例9020115161210105103301831253123输出样例参考文章思路队列模拟存储结构：使用结构体，存储每一个客户的到达时间和处理时间==（最大为60，大于60的，按60处理）==；用两个数组分别存储每一个窗口的办理人数和该窗口结束上一次处理的时间点具体流程：由于题目给定的顾客顺序是按照时间先后，因此我们顺序处理即可1.依次遍历每一个窗口，用
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例楼台的春风嵌入式开发 STM32 嵌入式 c语言 mcu 自动驾驶嵌入式硬件 stm32 物联网
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例目录ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例引言一、ADC（模数转换器）1.ADC的基本概念2.ADC的工作原理3.ADC的主要类型4.ADC的技术指标5.ADC的应用场景6.ADC在嵌入式系统中的使用案例二、DAC（数模转换器）1.DAC的基本概念2.DAC的工作原理3.DAC的主要类型4.DAC的技术指标5
嵌入式学习DAY28 --- 线程、同步和互斥问题、如何实现同步和互斥？楼台的春风嵌入式学习多线程 c语言嵌入式 linux ubuntu
嵌入式入门学习笔记，遇到的问题以及心得体会！DAY28概述：一、线程二、同步和互斥问题三、如何实现同步四、如何实现互斥笔记：一、线程1、什么是线程：（1）线程是轻量级的进程（2）线程存在于进程内，不能独立存在（3）线程参与CPU调度，进程是系统资源分配最小单位，线程是系统调度的最小单位（4）在单核CPU中，多线程并发属于伪并发，但是不牵扯虚拟地址空间的切换，所以开销比进程间切换要小很多（5）在多核
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
内外网隔离文件传输解决方案｜系统与钉钉集成+等保合规，安全提升70% CSTechAI 钉钉安全中间件安全架构
内外网隔离文件传输解决方案｜系统与钉钉集成+等保合规，安全提升70%##一、背景与痛点在内外网隔离的企业网络环境中，员工与外部协作伙伴（如钉钉用户）的文件传输面临以下挑战：1.**安全性风险**：内外网直连可能导致病毒传播、数据泄露。2.**操作繁琐**：传统方式需频繁切换网络环境，降低工作效率。3.**审计缺失**：缺乏文件传输的完整日志记录，难以追溯责任。**系统**通过智能中转架构，在保障网
标准制修订信息管理系统：推动企业标准化管理的数字化转型 CSSoftTechAI 运维零售
在数字化转型的浪潮中，标准化管理作为企业高质量发展的基石，正面临着前所未有的机遇与挑战。我们基于多年行业实践经验，推出标准制修订信息管理系统，助力企业实现标准化工作的全生命周期管理与全价值链共享，推动标准化管理从“传统分散”向“智能协同”转型。##行业痛点：标准化管理的挑战1.标准体系不完善：缺乏动态化管理能力，难以适应快速变化的业务需求。2.管理分散，信息孤岛：标准化工作分散在不同部门，无法实现
腾讯云放大招：3 行代码让 DeepSeek “入住” 微信小程序 BuluAI 腾讯云微信小程序云计算
小程序开发的革命性突破近日，技术圈迎来一则重磅消息——腾讯云推出全新功能，仅需3行代码，就能让DeepSeek大模型“入住”微信小程序，这无疑为开发者们带来了一场革命性的变革。在过去，将大模型能力集成到微信小程序中，过程复杂繁琐，代码量庞大，高门槛让众多开发者望而却步。但如今，腾讯云的这一创新举措，直接将难题“秒解”。开发者们只需轻松敲下3行代码，即可实现DeepSeek大模型在微信小程序中的接入
【Unity 监狱内部环境资产包】Jails Interior 提供了完整的监狱内部结构，包括牢房、走廊、审讯室、看守室等，并配备了大量高质量的家具、铁栏、门窗和其他装饰，快速搭建沉浸式的监狱场景 Unity游戏资源学习屋 Unity插件
JailsInterior是一款专为Unity设计的监狱内部环境资产包，适用于犯罪题材、恐怖游戏、警察模拟、逃脱解谜等类型的游戏。该插件提供了完整的监狱内部结构，包括牢房、走廊、审讯室、看守室等，并配备了大量高质量的家具、铁栏、门窗和其他装饰，帮助开发者快速搭建沉浸式的监狱场景。详细介绍1.逼真的监狱内部环境提供完整的监狱场景，包括牢房、走廊、审讯室、警卫室等，能够用于各类犯罪、逃脱、警察题材的游
淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
Jmeter 性能-稳定性测试TPS计算软件测试媛软件测试技术分享自动化测试 jmeter 软件测试功能测试
1、普通计算公式TPS=总请求数/总时间1按照需求得到基础数据，比如在去年第xxx周，某平台有5万的浏览量那么总请求数我们可以估算为5万（1次浏览都至少对应1个请求）总请求数=50000请求数总时间：由于不知道每个请求的具体时间，按照普通方法，可以按照一天的时间进行计算总时间=1天=1*24小时=24*36001秒套入公式可得：TPS=50000/24*3600秒=0.58tps1结论：按照普通计
MySQL 查询缓存技术深度解析 Minxinbb 数据库 mysql 数据库 dba
在现代数据库管理系统中，查询性能优化是提升应用响应速度和用户体验的关键环节。MySQL作为一款广泛使用的开源关系型数据库，提供了查询缓存功能，用于缓存查询结果，从而在后续相同的查询请求时能够快速返回结果，减少数据库的负载和查询时间。本文将深入探讨MySQL查询缓存技术的原理、配置、使用方法以及优化策略。一、查询缓存的基本原理（一）缓存机制概述MySQL查询缓存的核心思想是将查询语句和其对应的查询结
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
ollama的docker 使用教程贾斯汀玛尔斯数据湖 AI Docker容器 docker eureka 容器
好的，下面是Ollama在Docker中的使用教程。我将详细描述如何在Docker容器中运行Ollama，包括安装、配置和常用操作。OllamaDocker使用教程Ollama可以通过Docker运行，提供了一个简洁且隔离的环境来使用AI模型。本文将引导你如何在Docker中设置和使用Ollama。目录前提条件拉取OllamaDocker镜像启动Ollama容器基本命令操作停止容器<
基于JavaSpringboot+Vue实现前后端分离房屋租赁系统网顺技术团队成品程序项目 vue.js 前端 javascript 课程设计 spring boot mybatis
基于JavaSpringboot+Vue实现前后端分离房屋租赁系统作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基于JavaSpringboot+
Jmeter如何计算TPS qq_492448446 Jmeter java
1.在jmeter中计算出接口请求的个数1175+1172+1172+174+200+416+384+1174=58672.计算接口平均响应时间计算每个接口的请求次数乘以平均响应时间，所有接口相加，然后除以所有接口的数量总和，得到接口的平均响应时间(1175*1819+1172*1207+1172*772+174*1233+200*1213+416*592+384*595+1174*1669)/(
安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
市面上采用多进程架构的游戏或游戏引擎的案例深入分析你一身傲骨怎能输软件架构设计架构游戏游戏引擎
《绝地求生》（PUBG）《绝地求生》（PUBG）是一款采用多进程架构的游戏，这种设计帮助它在处理复杂的游戏逻辑和网络通信时提高了性能和稳定性。以下是一些关于《绝地求生》如何利用多进程架构的具体细节：多进程架构的优势性能优化：多进程架构允许游戏将不同的任务分配到多个处理器核心上运行，这样可以充分利用现代多核CPU的计算能力。例如，游戏的物理计算、AI逻辑、渲染和网络通信可以在不同的进程中并行处理，从
DeepSeek预测25考研分数线 GIS前端嘉欣考研前端 GIS webgis
25考研分数马上要出了。目前，多所大学已经陆续给出了分数查分时间，综合往年情况来看，每年的查分时间一般集中在2月底。等待出成绩的日子，学子们的心情是万分焦急，小编用最近爆火的“活人感”十足的DeepSeek帮大家预测一下25考研的分数线。一起来看看吧~影响国家线的关键因素1）报考人数2023年考研报名人数为474万（首次下降），2024年回升至438万（官方未公布，网传数据存疑）。若2025年报考
接入DeepSeek后，智慧园区安全调度系统的全面提升 Guheyunyi 安全数据分析 python 智慧城市人工智能信息可视化
随着人工智能技术的快速发展，智慧园区的安全管理正逐步向智能化、自动化方向迈进。DeepSeek作为先进的人工智能解决方案，为智慧园区安全调度系统注入了强大的技术动力。通过接入DeepSeek，智慧园区安全调度系统在多个方面实现了显著提升，进一步增强了园区的安全性、管理效率和用户体验。1.智能化监控：从被动到主动传统的监控系统主要依赖人工查看视频画面，容易出现漏检或误判。接入DeepSeek后，智慧
数学推理中在推理规模化下检查假阳性解硅谷秋水大模型机器学习人工智能语言模型深度学习机器学习人工智能
25年2月来自中科大和微软亚洲研究院的论文“ExaminingFalsePositivesunderInferenceScalingforMathematicalReasoning”。语言模型的最新进展已带来各种基准测试中数学推理能力的显著提升。然而，大多数基准测试依赖于自动评估方法，这些方法仅使用启发式方法比较最终答案，而不验证底层推理步骤。这种限制导致假阳性解，其中模型可能会产生正确的最终答案
Salesforce联手阿里云，销售易联手腾讯，还在靠”卖血求生“的CRM独立玩家何去何从？ saas
销售易官宣与腾讯战略合作升级，腾讯集团副总裁、腾讯政企业务总裁李强担任销售易董事长，销售易创始人史彦泽继续担任CEO。这场"资本+技术+生态"的强强联合，将行业竞争推向新维度，融资竞赛不再是SaaS企业生存的唯一筹码，中国企服市场正在发生深层变革。消息一出，便受到很多人的关注，这首当其中，最高兴的算要数销售易的客户，源自其将获得的三大核心价值升级，腾讯将进一步开放云计算、大数据、AI等核心技术能力
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
【OpenTiny调研征集】共创技术未来，分享您的声音！前端vue.js开源
欢迎参与2025年OpenTiny开源社区用户调研征集调研背景随着OpenTiny开源项目的不断发展，我们一直致力于为开发者提供高质量的Web前端开发解决方案。为了更好地满足用户需求，提升项目的实用性和易用性，我们决定发起一项用户调研活动，诚挚邀请您参与。调研目的了解用户需求：收集您在使用OpenTiny开源项目过程中的需求、问题和建议，以便我们更好地改进和优化。提升用户体验：通过您的反馈，我们将
基于微信小程序的宠物寄养平台的设计与实现图灵软件设计 JAVA SSM 小程序微信小程序小程序 spring boot maven 后端 java mybatis
现在宠物寄养管理中已有一些商家使用了基本的管理软件，这些软件都是依靠客户端，只可以特定人员使用，不能实现信息的共享。虽然可以帮助工作人员减少工作量，但从根本上还是无法满足用户的需求。这些软件都还是基于网络发展之初的要求，没有利用现代网络的技术，体现不了更为实用的功能。依靠客户端的系统开发时没有考虑园际化的问题，所以也满足不了国际化的要求。最近几年来，我国网络快速发展，传统的管理方式也越来越适应不了
mysql实时同步到es 数据库
测试了多个方案同步，最终选择oceanu产品，底层基于Flinkcdc1、实时性能够保证，binlog量很大时也不产生延迟2、配置SQL即可完成，操作上简单下面示例mysql的100张分表实时同步到es，优化备注等文本字段的like查询创建SQL作业CREATETABLEfrom_mysql(idint,cidintNOTNULL,gidbigintNOTNULL,contentvarchar,c
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
HarmonyOS Next智能家居控制系统的模型转换与数据处理实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能家居控制系统中模型转换与数据处理技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能家居系统需求与技术选型（一）功能需求分析设备状态监测需求智能家居控制系统需要实时监测各种智能设
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他