在这个数据驱动和人工智能生成内容(AIGC)快速发展的时代,R语言作为一款强大的统计分析和数据可视化工具,正在各个领域中发挥着越来越重要的作用。
R语言诞生于1993年,由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学开发。它是一种专门用于统计计算和图形展示的编程语言,广泛应用于数据分析、机器学习、数据挖掘等领域。R语言的开源特性使其在全球范围内得到了广泛的应用和发展。
在AIGC中,数据预处理和清洗是至关重要的一步。R语言提供了多种工具和包,如dplyr、tidyr等,能够高效地进行数据清洗和预处理。
示例代码:使用dplyr进行数据清洗
library(dplyr)
创建一个示例数据框
data <- data.frame(
id = 1:5,
name = c("Alice", "Bob", "Charlie", "David", "Eve"),
age = c(25, 30, 35, 40, 45),
salary = c(50000, 60000, 70000, 80000, 90000)
)
过滤年龄大于30的记录
filtered_data <- data %>% filter(age > 30)
打印过滤后的数据
print(filtered_data)
R语言在文本分析和生成方面也有广泛的应用。通过使用tm、text2vec等包,可以进行文本挖掘、情感分析、主题建模等任务。
示例代码:使用tm包进行文本分析
library(tm)
创建一个示例文本语料库
corpus <- Corpus(VectorSource(c("R语言在AIGC中的应用", "文本分析是AIGC的重要组成部分")))
进行文本预处理
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
创建文档-词项矩阵
dtm <- DocumentTermMatrix(corpus)
打印文档-词项矩阵
print(dtm)
R语言在机器学习和模型构建方面也有丰富的应用。通过使用caret、randomForest等包,可以进行分类、回归、聚类等机器学习任务。
示例代码:使用caret包进行机器学习
library(caret)
加载示例数据集
data(iris)
划分训练集和测试集
set.seed(123)
trainIndex <- createDataPartition(iris$Species, p = 0.8, list = FALSE)
trainData <- iris[trainIndex, ]
testData <- iris[-trainIndex, ]
训练随机森林模型
model <- train(Species ~ ., data = trainData, method = "rf")
进行预测
predictions <- predict(model, testData)
打印预测结果
print(predictions)
R语言在数据可视化和报告生成方面也有广泛的应用。通过使用ggplot2、shiny等包,可以生成高质量的数据可视化图形和交互式报告。
示例代码:使用ggplot2进行数据可视化
library(ggplot2)
创建一个示例数据框
data <- data.frame(
x = 1:10,
y = rnorm(10)
)
生成散点图
ggplot(data, aes(x = x, y = y)) +
geom_point() +
ggtitle("示例散点图") +
theme_minimal()
在金融领域,R语言被广泛用于数据分析和预测。通过使用quantmod、forecast等包,可以进行股票价格预测、风险评估等任务。
示例代码:使用quantmod进行股票价格预测
library(quantmod)
获取股票数据
getSymbols("AAPL")
绘制股票价格图
chartSeries(AAPL, type = "candlesticks", theme = "white")
在医疗领域,R语言被用于数据分析和建模。通过使用survival、glmnet等包,可以进行生存分析、疾病预测等任务。
示例代码:使用survival进行生存分析
library(survival)
加载示例数据集
data(lung)
进行生存分析
fit <- survfit(Surv(time, status) ~ sex, data = lung)
绘制生存曲线
plot(fit, col = c("red", "blue"), xlab = "时间", ylab = "生存概率")
legend("topright", legend = c("男性", "女性"), col = c("red", "blue"), lty = 1)
在社交媒体领域,R语言被用于数据分析和情感分析。通过使用twitteR、syuzhet等包,可以进行社交媒体数据挖掘、情感分析等任务。
示例代码:使用twitteR进行社交媒体数据分析
library(twitteR)
设置Twitter API密钥
api_key <- "your_api_key"
api_secret <- "your_api_secret"
access_token <- "your_access_token"
access_secret <- "your_access_secret"
进行身份验证
setup_twitter_oauth(api_key, api_secret, access_token, access_secret)
搜索推文
tweets <- searchTwitter("#AIGC", n = 100, lang = "en")
打印推文内容
print(tweets)
随着深度学习技术的快速发展,R语言与深度学习框架的集成将成为未来的一个重要方向。通过使用Keras、TensorFlow等包,R语言可以进行深度学习模型的构建和训练。
示例代码:使用Keras进行深度学习
library(keras)
加载示例数据集
data <- dataset_mnist()
数据预处理
x_train <- data$train$x
y_train <- data$train$y
x_test <- data$test$x
y_test <- data$test$y
构建模型
model <- keras_model_sequential() %>%
layer_flatten(input_shape = c(28, 28)) %>%
layer_dense(units = 128, activation = "relu") %>%
layer_dense(units = 10, activation = "softmax")
编译模型
model %>% compile(
optimizer = "adam",
loss = "sparse_categorical_crossentropy",
metrics = c("accuracy")
)
训练模型
model %>% fit(x_train, y_train, epochs = 5, validation_data = list(x_test, y_test))
随着云计算技术的普及,R语言与云计算平台的集成将成为未来的一个重要趋势。通过使用googleCloudRunner、aws.s3等包,R语言可以在云端进行大规模数据分析和模型训练。
示例代码:使用googleCloudRunner进行云端分析
library(googleCloudRunner)
设置Google Cloud项目
cr_project_set("your_project_id")
创建一个云端任务
job <- cr_job_create(
name = "my_job",
image = "rocker/r-ver:4.0.3",
script = "my_script.R"
)
提交任务
cr_job_run(job)
随着自动化技术的发展,R语言与自动化工具的集成将成为未来的一个重要方向。通过使用plumber、rvest等包,R语言可以进行自动化数据采集、处理和报告生成。
示例代码:使用plumber创建API
library(plumber)
创建一个API
#* @get /hello
function() {
return("Hello, AIGC!")
}
运行API
pr() %>% pr_run(port = 8000)
R语言在AIGC时代中展现出了强大的应用潜力。从数据预处理、文本分析、机器学习到数据可视化,R语言在各个领域都有广泛的应用。随着与深度学习框架、云计算平台和自动化工具的集成,R语言在未来的AIGC应用中将发挥更加重要的作用。通过不断学习和实践,我们可以更好地利用R语言,推动AIGC技术的发展和应用。
- 当当:https://product.dangdang.com/29788167.html
- 京东:https://item.jd.com/14798900.html
学R语言、练语法、取数据、预处理、可视化、回归分析、方差分析、聚类分析、生存分析、因子分析、基于机器学习的预测分析系统……一书在手,精通R语言统计分析与可视化!
本书循序渐进、深入讲解了R语言数据统计分析与应用的核心知识,并通过具体实例的实现过程演练了知识点的用法和流程。全书共16章,分别讲解了R语言基础、R语言数据统计语法基础、数据获取和处理、绘制可视化统计图、描述性统计分析、探索性数据分析、推论统计、回归分析、方差分析、非参数统计分析、主成分分析、聚类分析、生存分析、因子分析、基于机器学习的患者再入院预测分析系统和中概科技指数统计分析与投资系统。全书简洁而不失其技术深度,内容丰富全面,历史资料翔实齐全。同时,本书易于阅读,以极简的文字介绍了复杂的案例,同时涵盖了其他同类图书中很少涉及的历史参考资料,是学习R语言数据统计分析与应用的实用教程。
张良康,浙江大学统计学博士,现就职于恒瑞医药,负责医药临床试验数据分析和统计工作,参与临床试验方案设计沟通和讨论,为临床试验方案中统计学相关内容提供技术支持,包括研究设计方法的选择、样本量计算、随机和盲法、统计方法的选择等。使用R语言、SAS、SPSS等统计分析技术高达8年以上,擅长数据挖掘、分析和统计工作。具有多年的数据统计分析经验,对商务数据、销售数据、科研数据、医学数据和金融数据的统计分析工作也颇有研究。
目录
第1章R语言基础
1.1 R语言的发展历程2
1.2 R 语言的特点2
1.3 获取并安装R语言运行环境3
1.3.1 在Windows操作安装R语言3
1.3.2 在Linux操作和macOS操作安装R语言5
1.4 R语言开发工具:R GUI5
1.4.1 命令行方式运行R语言程序6
1.4.2 文件方式运行R语言程序6
1.5 R语言开发工具:RStudio7
1.5.1 安装RStudio7
1.5.2 RStudio界面简介9
1.5.3 使用RStudio开发R语言程序10
1.6 认识个R语言程序:简易数据统计与格式化输出11
1.6.1 新建R语言工程11
1.6.2 编写程序文件12
1.7 R语言和数据处理14
1.7.1 R语言的优势14
1.7.2 数据处理和数据分析的区别14
第2章R语言数据统计语法基础
2.1 基本的内置函数17
2.1.1 数学和统计函数17
2.1.2 字符和字符串处理函数19
2.1.3 文件操作函数21
2.1.4 概率分布函数25
2.1.5 日期函数和时间函数27
2.2 内置数据处理函数33
2.2.1 查看、筛选和编辑数据33
2.2.2 合并数据35
2.2.3 分组和汇总38
2.2.4 排序40
2.2.5 转换42
2.3 apply函数族43
2.3.1 apply函数族中的函数43
2.3.2 函数apply()44
2.3.3 函数lapply()45
2.3.4 函数sapply()46
2.3.5 函数vapply()47
2.3.6 函数mapply()49
2.4 数据重塑与变形50
2.5 数据查询与过滤51
2.5.1 使用dplyr包进行数据查询和过滤52
2.5.2 使用sqldf包进行SQL风格的查询53
第3章数据获取和处理
3.1 数据获取和处理简介56
3.2 使用键盘输入数据57
3.3 处理CSV数据58
3.3.1 读取CSV文件59
3.3.2 写入CSV文件60
3.3.3 数据转换和处理61
3.4 处理Excel数据64
3.4.1 R语言和Excel文件64
3.4.2 使用readxl包64
3.4.3 使用openxlsx包66
3.5 处理XML数据67
3.5.1 使用XML包68
3.5.2 使用xml2包 70
3.6 处理JSON数据72
3.6.1 JSON包72
3.6.2 使用jsonlite包73
3.6.3 使用RJSONIO包75
3.6.4 使用tidyjson包76
3.7 处理MySQL数据78
3.7.1 和MySQL相关的包78
3.7.2 使用RMySQL包78
3.7.3 使用RMariaDB包80
3.7.4 使用DBI包81
3.7.5 dplyr包和dbplyr包82
3.8 从网页抓取数据84
3.8.1 使用rvest包抓取数据84
3.8.2 使用httr包抓取数据85
3.8.3 使用XML包抓取数据87
3.8.4 使用jsonlite包抓取数据88
3.9 数据准备与清洗88
3.9.1 缺失数据处理89
3.9.2 异常值检测和处理91
3.9.3 异常值检测方法小结93
第4章绘制可视化统计图
4.1 R语言绘图简介97
4.1.1 常用的绘图包97
4.1.2 基本绘图函数plot()97
4.2 单变量绘图99
4.2.1 绘制直方图99
4.2.2 绘制条形图102
4.2.3 绘制饼形图106
4.2.4 绘制箱线图107
4.2.5 绘制密度图109
4.3 双变量绘图112
4.3.1 绘制双变量条形图112
4.3.2 绘制散点图116
4.3.3 绘制折线图118
4.3.4 绘制箱线图(双变量)120
4.4 绘制多变量图122
4.4.1 绘制气泡图123
4.4.2 绘制热力图125
4.5 文件数据的可视化128
4.5.1 CSV文件数据的可视化128
4.5.2 Excel文件数据的可视化130
4.5.3 XML文件数据的可视化131
4.5.4 JSON文件数据的可视化132
4.5.5 MySQL数据库数据的可视化134
第5章描述性统计分析
5.1 描述性统计分析简介137
5.2 平均数、中位数和众数137
5.2.1 计算平均数138
5.2.2 计算中位数140
5.2.3 计算众数142
5.3 方差和标准差143
5.3.1 计算方差144
5.3.2 计算标准差145
5.4 百分位数147
5.4.1 常见的百分位数147
5.4.2 计算百分位数148
第6章探索性数据分析
6.1 EDA简介151
6.2 检测重复值151
6.2.1 检测重复值简介151
6.2.2 R语言检测重复值的方法152
6.3 数据可视化方法155
6.4 相关性分析162
6.4.1 相关性分析的基本信息162
6.4.2 皮尔逊相关系数163
6.4.3 斯皮尔曼相关系数165
6.4.4 肯德尔相关系数166
第7章 推论统计
7.1 抽样和抽样分布169
7.2 置信区间169
7.2.1 置信区间的概念169
7.2.2 总体均值的置信区间170
7.2.3 总体比例的置信区间173
7.2.4 总体方差的置信区间176
7.3 假设检验177
7.3.1 假设检验的基本步骤178
7.3.2 假设检验中的类型179
7.4 抽样方法181
7.4.1 随机抽样181
7.4.2 抽样183
7.4.3 分层抽样184
7.4.4 多阶段抽样185
7.5 推论统计的方向小结185
7.5.1 参数推断185
7.5.2 非参数推断186
第8章 回归分析
8.1 回归分析简介189
8.2 线性回归和多元线性回归189
8.2.1 线性回归189
8.2.2 多元线性回归194
8.3 逻辑回归197
8.3.1 逻辑回归简介197
8.3.2 逻辑回归的应用领域197
8.3.3 使用逻辑回归模型198
8.4 非线性回归201
8.4.1 非线性回归简介201
8.4.2 使用非线性回归模型202
8.5 条件回归203
8.5.1 条件回归简介203
8.5.2 使用条件回归模型204
第9章 方差分析
9.1 方差分析简介207
9.2 单因素方差分析208
9.2.1 单因素方差分析的步骤208
9.2.2 单因素方差分析的应用209
9.3 多因素方差分析212
9.3.1 多因素方差分析简介212
9.3.2 两因素方差分析213
9.3.3 多因素方差分析216
9.4 协方差分析218
9.4.1 协方差分析方法简介218
9.4.2 协方差分析的应用218
第10章 非参数统计分析
10.1 非参数统计的方法233
10.2 秩和检验233
10.2.1 秩和检验简介233
10.2.2 使用秩和检验234
10.3 Wilcoxon符号秩检验236
10.3.1 Wilcoxon符号秩检验简介236
10.3.2 使用Wilcoxon符号秩检验236
10.4 Kruskal-Wallis检验239
10.4.1 Kruskal-Wallis检验简介240
10.4.2 使用Kruskal-Wallis检验240
10.5 Friedman检验247
10.5.1 Friedman检验简介248
10.5.2 使用Friedman检验248
10.6 卡方检验250
10.6.1 卡方检验简介250
10.6.2 卡方拟合度检验251
10.6.3 卡方独立性检验252
10.7 符号检验254
10.7.1 符号检验简介254
10.7.2 使用符号检验254
第11章 主成分分析
11.1 PCA简介257
11.1.1 PCA的概念257
11.1.2 PCA的应用领域257
11.2 PCA的数学原理258
11.2.1 主成分的提取258
11.2.2 PCA的可解释性259
11.3 PCA的应用:信用卡欺诈检测260
11.3.1 准备R语言包260
11.3.2 导入数据集261
11.3.3 计算ROC和AUC262
11.3.4 可视化处理263
11.3.5 显示混淆矩阵265
11.3.6 探索数据265
11.3.7 相关性分析267
11.3.8 使用随机森林模型268
11.3.9 欺诈预测270
11.3.10 结论272
第12章 聚类分析
12.1 聚类分析简介274
12.1.1 聚类分析的基本概念274
12.1.2 聚类分析的方法274
12.1.3 聚类分析的应用领域275
12.2 K均值聚类276
12.2.1 K均值聚类简介276
12.2.2 K均值聚类的应用277
12.3 层次聚类280
12.3.1 层次聚类简介280
12.3.2 层次聚类的应用281
12.4 DBSCAN聚类285
12.4.1 DBSCAN简介285
12.4.2 DBSCAN的应用领域286
12.4.3 使用DBSCAN聚类算法286
12.5 高斯混合模型聚类289
12.5.1 高斯混合模型聚类简介289
12.5.2 高斯混合模型聚类的应用289
12.6 谱聚类295
12.6.1 谱聚类简介295
12.6.2 谱聚类的应用295
第13章 生存分析
13.1 生存分析简介299
13.1.1 生存分析的基本概念299
13.1.2 生存分析的应用领域300
13.1.3 用R语言实现生存分析300
13.2 Kaplan-Meier生存曲线302
13.2.1 Kaplan-Meier生存曲线的解释303
13.2.2 Kaplan-Meier生存曲线的构建303
13.3 Cox比例模型307
13.3.1 Cox比例模型简介307
13.3.2 Cox比例模型的应用307
13.4 心血管疾病的生存分析实战309
13.4.1 数据集简介309
13.4.2 数据预处理310
13.4.3 二元变量分布315
13.4.4 连续变量分布317
13.4.5 死亡事件计数与生存时间324
13.4.6 相关性分析328
13.4.7 变量选择的机器学习模型331
13.4.8 生存分析337
13.4.9 总结343
第14章 因子分析
14.1 因子分析简介345
14.1.1 因子分析的基本概念345
14.1.2 因子分析的应用领域346
14.2 因子分析方法346
14.2.1 常用的因子分析方法346
14.2.2 大似然估计法347
14.2.3 小二乘法349
14.2.4 广义小二乘法351
14.2.5 主轴因子分析353
14.2.6 因子旋转355
14.2.7 因子得分估计357
14.3 因子分析的应用:心血管疾病因素分析358
14.3.1 设置环境358
14.3.2 数据准备和探索359
14.3.3 相关性分析362
14.3.4 总结371
第15章 基于机器学习的患者再入院预测分析
15.1 背景简介373
15.2 需求分析373
15.3 分析374
15.4 简介375
15.4.1 功能简介375
15.4.2 模块结构375
15.5 技术分析376
15.5.1 dplyr:数据预处理376
15.5.2 psych:心理学和社会科学研究376
15.5.3 ROSE:不平衡处理377
15.5.4 caret模型训练和评估377
15.6 数据处理378
15.6.1 导入数据集378
15.6.2 数据预处理380
15.7 方案389
15.7.1 划分训练集和集390
15.7.2 数据集平衡390
15.7.3 交叉验证391
15.7.4 模型比较394
15.8 第二方案396
15.8.1 数据集拆分和数据平衡396
15.8.2 逻辑回归模型拟合和预测397
15.8.3 计算处理397
15.8.4 逻辑回归模型的拟合、预测和评估398
15.8.5 使用交叉验证方法训练决策树模型399
15.8.6 使用交叉验证方法训练随机森林模型400
15.8.7 实现朴素贝叶斯模型401
15.9 模型训练和评估402
15.9.1 数据预处理402
15.9.2 逻辑回归模型的训练和评估403
15.9.3 决策树模型的训练和评估404
15.9.4 随机森林模型的训练和评估404
15.9.5 朴素贝叶斯模型的训练和评估405
15.10 结论406
第16章 中概科技指数统计分析与投资
16.1 背景简介409
16.2 需求分析409
16.3 分析410
16.3.1 目标410
16.3.2 模块410
16.3.3 数据处理流程411
16.4 技术栈411
16.4.1 Tidyquant:财务数据分析411
16.4.2 Tidyverse:数据处理工具412
16.4.3 Loess平滑算法:非参数统计方法412
16.5 数据处理412
16.6 中概股技术分析413
16.6.1 股票价格和收益分析413
16.6.2 配对分析统计图420
16.6.3 MACD技术分析统计图422
16.6.4 OBV技术分析统计图424
16.6.5 CCI技术分析统计图430
16.6.6 Chaikin AD Line技术分析统计图436
16.6.7 相对表现比率统计图437
16.6.8 RSI技术分析统计图439
16.6.9 交易差价技术分析统计图444
16.6.10 CCI密度图446
16.6.11 自定义指数技术分析统计图448
- 当当:https://product.dangdang.com/29801293.html
- 京东:https://item.jd.com/14833140.html
全面讲解Word/Excel/PPT/AI办公所有知识点和操作技能,10小时全程同步视频+Windows 11操作教学视频+1000个办公常用模板+新功能+重点知识+海量学习资源,指引Office办公从入门到精通全过程,大幅提升Office操作技能!
本书通过精选案例引导读者深入学习,系统地介绍使用Word/Excel/PPT办公应用的相关知识以及AI的辅助与应用。
本书分为4篇,第1篇“Word办公应用篇”主要介绍Word的基本操作,使用图和表格美化Word文档,以及长文档的排版等;第2篇“Excel办公应用篇”主要介绍Excel的基本操作,初级数据处理与分析,图表、数据透视表和数据透视图,以及公式和函数的应用等;第3篇“PPT办公应用篇”主要介绍PowerPoint的基本操作,动画和多媒体的应用,以及放映幻灯片等;第4篇“Office AI助手——Copilot篇”主要介绍Copilot助力文本处理与改写、数据处理与分析、演示文稿的制作与美化等。
本书不仅适合计算机初级、中级用户学习,也可以作为各类院校相关专业学生和计算机培训班学员的教材或辅导用书。