Adore丶无风

R语言数据处理

一、读取数据

1.读取txt/csv数据

R中用来操作excel的包比较多,常见的包括readxl,openxlsx,xlsx等,对于较大的数据集xlsx包无论是读取还是写入都比较慢,我最常用的还是openxlsx,如果仅仅是读取也可以考虑readxl

a. 全部读取

setwd('C:\\Users\\lstid\\Desktop\\test')
library(data.table)
df <- read.csv('测试文档.txt',header = F)  
df <- fread('测试文档.txt',header = F,encoding = 'UTF-8')

b. 逐行读取

setwd('C:\\Users\\lstid\\Desktop\\test')
library(plyr)
con <- file("测试文档.txt", "r")  
line=readLines(con,n=1,encoding = "UTF-8")  
result <- data.frame()  
while(length(line) != 0 ) {  
	res <- as.data.frame(line)
	result <- plyr::rbind.fill(result,res)  
	line=readLines(con,n=1)  
}
close(con)

2.读取excel数据

a. 全部读取

library(readxl)
df <- read_xlsx('demo.xlsx',sheet = 'Sheet1')

b. 读取指定位置数据

library(openxlsx)
# 这里需要注意的是列名设置,T和F的不同导致结果的第一列不一样,其他参数可以查看帮助文档
df <- read.xlsx('demo.xlsx', sheet = 'Sheet1', startRow = 5, colNames = FALSE)

3.读取数据库数据(以mysql为例)

library(RMySQL)  
# 建立链接
con <- dbConnect(RMySQL::MySQL(), # 驱动  
                 host = 'localhost', # 数据库地址  
                 port = 3306, # 端口号 
                 username = 'root', # 账户名  
                 password = 'yan1224',# 账户密码  
                 dbname = 'test' # 数据库名称)
# 查询(读取)
select_sql <- 'select * from table_name limit 1'  
select_res <- dbGetQuery(con,select_sql)
	
# 写入
df <- iris
# 主要参数是append 还是oevrwrite
dbWriteTable(con,'iris',df,row.names = F,append = T)

# 关闭链接  
dbDisconnect(con)

### 在mysql数据库的操作过程中,由于中文经常出现乱码  所以最关键的就是对字符编码的设置

dbSendQuery(con,'SET NAMES gbk')
# 大部分用gbk可以解决,但有时候又要设置为utf8,根据实际情况进行调整

二、数据检查

1.查看前后指定行的数据信息

前几行数据

df <- read_xlsx('demo.xlsx',sheet = 'Sheet1')
head(df,3)  # 指定读取几行数据,默认6行

# A tibble: 3 x 3
      a b         c
    
1     1 s        10
2     2 qe       11
3     3 r        12

后几行数据

df <- read_xlsx('demo.xlsx',sheet = 'Sheet1')
tail(df,5)   # 指定读取几行数据,默认6行

# A tibble: 5 x 3
      a b         c
    
1    15 r        24
2    16 hy9      25
3    17 s        26
4    18 qe       27
5    19 r        28

2.查看各个数据类型信息

df <- read_xlsx('demo.xlsx',sheet = 'Sheet1')
str(df)

# 结果如下:
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	19 obs. of  3 variables:
 $ a: num  1 2 3 4 5 6 7 8 9 10 ...
 $ b: chr  "s" "qe" "r" "hy6" ...
 $ c: num  10 11 12 13 14 15 16 17 18 19 ...

3.查看缺失信息

library(readxl)
library(mice)
df <- read_xlsx('demo.xlsx',sheet = 'Sheet1')
md.pattern(df)

 # 结果 
   a b c  
19 1 1 1 0
3  1 0 0 2
   0 3 3 6

三、数据筛选

1.筛选符合条件的数据

单一条件筛选

library(dplyr)

mtcars %>% filter(cyl == 4)

    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
2  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
3  22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
4  32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
5  30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
6  33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
7  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
8  27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
9  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
10 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
11 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

多条件同时满足

library(dplyr)

mtcars %>% filter(cyl == 4 & vs == 0)

   mpg cyl  disp hp drat   wt qsec vs am gear carb
1  26   4 120.3 91 4.43 2.14 16.7  0  1    5    2

多条件满足其一

library(dplyr)

mtcars %>% filter(cyl == 4 | mpg %in% c(21,22.8))

    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
4  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
5  22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
6  32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
7  30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
8  33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
9  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
10 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
11 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
12 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
13 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

2.筛选指定的行

library(dplyr)

mtcars %>% slice(1)

  mpg cyl disp  hp drat   wt  qsec vs am gear carb
1  21   6  160 110  3.9 2.62 16.46  0  1    4    4

mtcars %>% slice(n())  # 选取最后一行
  mpg cyl disp  hp drat   wt qsec vs am gear carb
1 21.4   4  121 109 4.11 2.78 18.6  1  1    4    2

3.筛选指定的列

library(dplyr)
mtcars %>% select(mpg,cyl) %>% head()

mtcars %>% select(starts_with('c')) %>% head()

mtcars %>% select(ends_with('t')) %>% head()

 drat    wt
  3.90 2.620
  3.90 2.875
  3.85 2.320
  3.08 3.215
  3.15 3.440
  2.76 3.460

mtcars %>% select(contains('s')) %>% head()

 disp  qsec vs
 160 16.46  0
 160 17.02  0
 108 18.61  1
 258 19.44  1
 360 17.02  0
 225 20.22  1

4.筛选出单列数据(返回的不是数据框)

library(dplyr)
mtcars %>% pull(vs)

[1] 0 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 1 0 0 0 1

四、重命名列

rename 重命名列兵返回全部列

library(dplyr)

iris  %>% rename(花萼长度 = Sepal.Length) %>% head()

   花萼长度 Sepal.Width Petal.Length Petal.Width Species
1      5.1         3.5          1.4         0.2  setosa
2      4.9         3.0          1.4         0.2  setosa
3      4.7         3.2          1.3         0.2  setosa
4      4.6         3.1          1.5         0.2  setosa
5      5.0         3.6          1.4         0.2  setosa
6      5.4         3.9          1.7         0.4  setosa

select 值返回重新命名的列

library(dplyr)

iris  %>% select(花萼长度 = Sepal.Length) %>% head()

  花萼长度
1      5.1
2      4.9
3      4.7
4      4.6
5      5.0
6      5.4

五、数据排序

升序

library(dplyr)
iris  %>% arrange(Sepal.Length,Petal.Length) %>% head()

 Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          4.3         3.0          1.1         0.1  setosa
2          4.4         3.0          1.3         0.2  setosa
3          4.4         3.2          1.3         0.2  setosa
4          4.4         2.9          1.4         0.2  setosa
5          4.5         2.3          1.3         0.3  setosa
6          4.6         3.6          1.0         0.2  setosa

倒序

library(dplyr)

mtcars %>% dplyr::arrange(desc(mpg,disp)) %>% head()


   mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
2 32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
3 30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
4 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
5 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
6 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2

六、添加新列

添加新列并返回全部

library(dplyr)

mtcars %>% mutate(新列 = 100) %>% head()

mtcars %>% mutate(new_cyl = cyl * 100) %>% head()

   mpg cyl disp  hp drat    wt  qsec vs am gear carb new_cyl
1 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4     600
2 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4     600
3 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1     400
4 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1     600
5 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2     800
6 18.1   6  225 105 2.76 3.460 20.22  1  0    3    1     600

添加新列只返回新增列

mtcars %>% transmute(new_cyl = cyl * 100) %>% head()

  new_cyl
1     600
2     600
3     400
4     600
5     800
6     600

七、数据去重

基于指定列去重,并只返回该列

library(dplyr)

mtcars %>% distinct(cyl)

  cyl
1   6
2   4
3   8

基于指定列去重,并返回全部列

library(dplyr)

mtcars %>% distinct(cyl,.keep_all = T)

  mpg cyl disp  hp drat   wt  qsec vs am gear carb
1 21.0   6  160 110 3.90 2.62 16.46  0  1    4    4
2 22.8   4  108  93 3.85 2.32 18.61  1  1    4    1
3 18.7   8  360 175 3.15 3.44 17.02  0  0    3    2

八、数据拆分

合并多列形成新列

library(tidyr)
data1 <- data.frame(id= c('A','B','C'),time = 1:3,lr = c(100,200,300),ht = c(50,60,70))
   id time  lr ht
1  A    1 100 50
2  B    2 200 60
3  C    3 300 70

df4 <- unite(data1,id_time,id,time,sep='-') #中间的分割符号可以随意设置

   id_time  lr ht
1     A-1 100 50
2     B-2 200 60
3     C-3 300 70

拆分某列形成新的两列

df5 <- separate(df4,id_time,c('id','time'),sep = '-')

	id time  lr ht
	1  A    1 100 50
	2  B    2 200 60
	3  C    3 300 70

九、表格转换

gather函数是将原来宽表的变量作为新的一列，用以分类，原来宽表的值逐一对应。参数key是给予新的分类变量命名，value是给予新表数值型变量命名，对原来表的变量前加 - 表示该变量不参与变形，保持单独一列。

宽表变长表

library(tidyr)
	data1 <- data.frame(id= c('A','B','C'),time = 1:3,lr = c(100,200,300),ht = c(50,60,70))
	 id time  lr ht
	1  A    1 100 50
	2  B    2 200 60
	3  C    3 300 70

	df2 <- gather(data1,key = xx,value = yy,-id,-time)
	id time xx  yy
	1  A    1 lr 100
	2  B    2 lr 200
	3  C    3 lr 300
	4  A    1 ht  50
	5  B    2 ht  60
	6  C    3 ht  70

长表变宽表

spread函数与gather互相对应，只是变形之后列的顺序可能发生变化。（注意与data1的对比）

	df3 <- spread(df2,key= xx,value =  yy )
	
	 id time ht  lr
	1  A    1 50 100
	2  B    2 60 200
	3  C    3 70 300

十、窗口函数

排名(排序)

#新增一列排序,row_number
diamonds %>% select(price) %>% mutate(price_rn = row_number(price)) %>% head(6)

 price price_rn
      
1   326        1
2   326        2
3   327        3
4   334        4
5   335        5
6   336        6


#新增一列排序,min_rank
diamonds %>% select(price) %>% mutate(price_mrank = min_rank(price)) %>% head(6)

  price price_mrank
         
1   326           1
2   326           1
3   327           3
4   334           4
5   335           5
6   336           6


#新增一列排序,dense_rank
diamonds %>% select(price) %>% mutate(price_drank = dense_rank(price)) %>% head(6)

  price price_drank
         
1   326           1
2   326           1
3   327           2
4   334           3
5   335           4
6   336           5

偏移函数
两个偏移函数lead()和lag()：
lead(column,n)：按照某种分组排序规则之后,向下取某列数据的第n行记录
lag(column,n)：按照某种分组排序规则之后,向上取某列数据的第n行记录

diamonds %>% 
  arrange(price) %>% 
  select(price) %>%
  mutate(price_lead1 = lead(price,1), 
         price_lead2 = lead(price,2),
         price_lag1 = lag(price,1), 
         price_lag2 = lag(price,2)) %>%
  head(5)


 price price_lead1 price_lead2 price_lag1 price_lag2
                            
1   326         326         327         NA         NA
2   326         327         334        326         NA
3   327         334         335        326        326
4   334         335         336        327        326
5   335         336         336        334        327

累计聚合函数

diamonds %>% 
  select(price) %>% 
  head(6) %>%
  mutate(price_cumsum = cumsum(price), 
         price_cummean = cummean(price),
         price_cummax = cummax(price), 
         price_cummin = cummin(price),
         price_cumprod = cumprod(price))

 price price_cumsum price_cummean price_cummax price_cummin
                                   
1   326          326          326           326          326
2   326          652          326           326          326
3   327          979          326.          327          326
4   334         1313          328.          334          326
5   335         1648          330.          335          326
6   336         1984          331.          336          326

聚合函数
聚合函数是对某一列数据，使用分组函数和排序函数进行处理之后（可以省略），使用聚合函数，返回一个值。主要有：
first(column)：按照某种规则分组排序后（可选），取第一行数据记录
last(column)：按照某种规则分组排序后（可选），取最后一行数据记录
nth(column，n)：按照某种规则分组排序后（可选），取第n行的记录
n()：按照某种规则分组排序后（可选），count计数，不去重
n_distinct()：按照某种规则分组排序后（可选），count计数，去重

diamonds %>% 
  head(6) %>% 
  select(price) %>% 
  summarise(price_first = first(price), 
            price_last = last(price), 
            price_nthprice = nth(price,3),
            price_n = n(), 
            price_disn = n_distinct(price))

price_first price_last price_nthprice price_n price_disn
                                 
1         326        336            327       6          5

十一、数据集取样

随机无重复取样

sample_n(mtcars, 10)

随机有重复取样

sample_n(mtcars, 50, replace = TRUE)

随机无重复并且以指定列数据为权重取样

sample_n(mtcars, 10, weight = mpg)

十二、分组聚合

在R中group_by函数通常与summarise函数一起使用,完成分组聚合操作

library(dplyr)

# 统计每个分组下的记录数
mtcars %>%
  group_by(cyl) %>%
  summarise(n())

   cyl `n()`
   
1     4    11
2     6     7
3     8    14

# 统计每个分组中指定列的平均值和中位数
mtcars %>%
  group_by(cyl) %>%
  summarise(mean(disp),
            median(hp))

  cyl `mean(disp)` `median(hp)`
                  
1     4         105.          91 
2     6         183.         110 
3     8         353.         192.

备注:这一篇是R语言中tidyverse包针对数据处理的文档集合。不一定包含所有方法和实际需要,为方便查询,后续要保持不同情况的更新

你可能感兴趣的:(R语言,数据处理)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
【Golang】使用 Golang 语言和 excelize 库将数据写入Excel 不爱洗脚的小滕 golang excel 开发语言
文章目录前言一、Excelize简介二、代码实现1.获取依赖2.示例代码三、总结前言在数据处理和分析中，Excel作为一种常见的电子表格格式，被广泛应用于各种场景。然而，如何在Go语言中有效地处理Excel文件呢？在这篇博客中，我将介绍如何使用Go语言和excelize库将数据写入Excel文件。一、Excelize简介Excelize是一个用于读取和写入MicrosoftExcel™(XLSX)
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
Python round函数详解寒秋丶 Python 自动化测试性能测试 python 开发语言测试开发软件开发软件测试自动化测试性能测试
大家好，在Python编程中，经常需要对数字进行舍入操作。无论是在金融领域的货币计算，还是科学计算中的数据处理，都可能需要使用到四舍五入功能。为了满足这一需求，Python提供了一个内置函数round()，它能够方便地对数字进行舍入操作。在本文中，将深入探讨Python中round()函数的用法和特性。将从基本语法开始，逐步深入，讨论该函数在不同情况下的行为，以及如何在实际编程中灵活运用。无论您是
Python办公自动化案例（二）：对比两个Excel数据内容并标出不同衍生星球 python excel 高阶办公办公自动化
案例：对比两个word文档并找出不同。在数据处理和分析的日常工作中，我们经常需要比较两个Excel文件的差异。这可能是为了验证数据的一致性、检查数据的准确性，或者在版本控制中追踪更改。手动比较这些文件不仅耗时，而且容易出错。幸运的是，Python的openpyxl库提供了一种自动化这一过程的方法。步骤1：安装openpyxl在命令行中输入以下命令来安装pipinstallopenpyxl步骤2:编
外卖霸王餐返利外卖会员卡小程序开发闹小艾 good506070 微信小程序小程序
外卖霸王餐返利外卖会员卡小程序开发"社交电商赋能下的外卖返利小程序"是专为商家与用户双赢而设计的创新平台。以下是其开发方案的详细步骤：一、需求梳理：首先，我们需要明确小程序的核心功能和特色。包括设定活动类型、返利策略，以及用户体验友好的界面设计。二、技术决策：技术选型是关键。我们采用小程序的开发框架，利用JavaScript作为前端开发语言，并结合微信提供的API进行后端接口调用与数据处理。三、账
【python版】示波器输出的csv文件（时间与电压数据）如何转换为频率与幅值【方法②】 cxylay python python 开发语言示波器 csv文件频谱频域时域
要将示波器输出的CSV文件中包含的时间与电压数据转换为频率与幅值数据，你可以按照以下步骤进行处理。这里假设你的数据是一个周期性信号，可以通过傅里叶变换来实现这种转换。1、准备数据①导入CSV文件首先，使用Python、Excel或任何数据处理工具导入你的CSV文件。CSV文件中应该有两列数据，分别为时间（time）和电压（voltage）。②检查数据确保时间列的单位是一致的（例如秒），电压列是以伏
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
GIS数据处理软件：地理信息与遥感领域的智慧引擎 GeoSaaS 地理信息智慧城市数据库人工智能大数据 gis
在地理信息与遥感技术的广阔天地间，数据处理软件如同一座桥接驳岸的智慧引擎，将海量的原始数据转化为决策的金矿，推动着城市规划、环境保护、灾害管理、资源开发等领域的深度变革。本文将深入解析其核心功能、技术前沿、应用实例及未来展望，探析数据处理软件如何为地理信息与遥感技术插上智慧的翅膀。数据处理软件的核心技术与功能矩阵数据清洗与格式转换：自动去除冗余杂乱码、异常值，格式标准化数据，确保后续处理的准确性与
边缘计算网关在机床数据采集中的应用-天拓四方各自安好吧边缘计算人工智能
随着工业4.0和智能制造的快速发展，机床作为制造业的核心设备，其数据采集与分析对于提升生产效率、保证产品质量、优化加工过程具有重要意义。传统的数据采集方式存在数据传输速度慢、实时性差、数据处理能力有限等问题。为了解决这些问题，边缘计算网关在机床数据采集领域的应用逐渐受到关注。本文将详细探讨边缘计算网关在机床数据采集中的应用，并分析其带来的优势。一、边缘计算网关概述边缘计算网关是一种集成了数据采集、
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
python 编译器spyder 安装_离线安装spyder的Python环境 weixin_39552037 python 编译器spyder 安装
一、介绍：要求在不联网、无法使用anaconda的情况下，在一台离线的win7设备上配置Spyder的python的开发环境，用于提高数据处理效率，且安装方法在win732位和64位的各种设备上均可流畅安装。二、问题难点总结：1.离线安装Python的第三方函数库Python在联网情况下安装第三方包很容易，但离线安装操作比较复杂，如某第三方库a，联网状态下仅一行代码pipinstalla，然而离线
Python库之Numpy的简介、安装、使用方法详细攻略 shadowtalon Python python numpy 开发语言
Python库之Numpy的简介、安装、使用方法详细攻略引言在Python的数据处理和科学计算领域，Numpy库无疑是最核心的库之一。它提供了高性能的多维数组对象和一系列用于操作这些数组的工具。本篇文章将详细介绍Numpy的基本概念、安装方法以及如何使用Numpy进行数据处理。一、Numpy简介1.1什么是NumpyNumpy（NumericalPython）是一个开源的Python科学计算库，它
智能合约系统DAPP开发 I592O929783 智能合约区块链
智能合约系统DAPP（去中心化应用）的开发是一个复杂且综合性的过程，它结合了区块链技术、智能合约编程、前端开发以及安全性等多方面的知识和技能。以下是对智能合约系统DAPP开发过程的详细概述：一、需求分析明确应用场景：首先，需要明确DAPP的应用场景，如金融、游戏、社交等。功能需求：确定DAPP需要实现的具体功能，包括数据处理、用户交互等。用户群体：了解目标用户群体的需求和习惯，以便更好地设计DAP
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
Java 学习路线：语言、框架、中间件与数据库高危型 java
Java是一门功能强大、应用广泛的编程语言，适用于企业级应用、Web开发、大数据处理、Android开发等各种场景。这里为大家介绍了一下我认为较为合适的学习路线一、Java基础1.1Java语言基础1.1.1安装JDK和IDE安装JDK：下载JDK：访问Oracle官网，下载最新的JavaDevelopmentKit（JDK）。安装JDK：按照操作系统要求安装JDK并配置环境变量。Windows上
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
【IC】芯片金属层（Metal Layer）守月满空山雪照窗 IC 信息与通信
芯片的金属层（MetalLayer）是指集成电路芯片内部用于信号传输和电源分配的导电层。这些金属层通常是由铝、铜或其他导电材料制成，通过在芯片的不同部分之间布线，实现电路功能。以下是对芯片金属层的详细介绍：金属层的作用信号传输：金属层用于在芯片内传输电信号，将各个功能单元连接起来，实现逻辑运算和数据处理。电源分配：提供芯片内各个功能单元的电源和接地，确保电路的正常工作。散热：金属层可以帮助芯片散热
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他