R语言入门学习----基于R语言的数据分析与可视化(二)R语言课程纲要与学习安排

R语言课程纲要

  • 数据分析与可视化流程
      • · 数据分析与可视化是与从数据中提取信息相关的一系列过程。
      • · 具体流程
      • · 数据:个体(+ 时间)*变量结构
      • · 信息:
  • 学习安排
      • · 总体框架
      • · 课程纲要
          • R语言基础知识
          • R语言数据处理
          • R语言数据分析
          • R语言数据可视化

数据分析与可视化流程

· 数据分析与可视化是与从数据中提取信息相关的一系列过程。

· 具体流程

数据收集
数据整理
探索性分析
建模性分析
结果输出

细化一点,我们可以从数据和信息两个角度去了解:

· 数据:个体(+ 时间)*变量结构

数据分析与可视化所研究的对象就是数据。数据一般用到的结构就是个体、变量与时间维度的结构。

个体 时间 变量i
个体1 时间1 89
个体1 时间2 99
个体2 时间1 56
个体2 时间2 64

每一行对应的是一个个体或是个体在某一时间上的一个情况,具有每一个变量或者属性的一些信息。
这个数据在统计学中可以接触到,它属于面板数据,它对应的是多个个体在不同时间上的数据。如果我们去掉时间维度这一列,只保留个体与变量两列,这样就是一个截面数据,它对应的是多个个体在某一时间节点上的数据。

· 信息:

数据分析与可视化是从数据中提取信息的一个过程,信息主要分为三类:

  • 变量分布(交通意外与损失的分布)
  • 变量关系(烟龄与是否患肺癌之间的关系)
  • 个体关系(两个省份在消费上是否存在相似—聚类)
    (超市内货架排布,商品之间是否存在联动—关联规则)

数据分析要与业务相结合,不要忽略数据背后的系统与机制
不要忘记数据从何而来,我们数据分析与可视化的工作最后要落实到何处,不能为了分析而分析,分析的结果要回到业务与系统相关联。

产生数据
解释预测
系统
数据分析

学习安排

· 总体框架

基于R语言的数据分析和可视化入门
R语言基础知识
数据整理
数据分析
数据可视化

第一部分的内容就是R语言基础知识的介绍,从第二部分开始就是具体的数据分析工作怎么去展开,包括从数据的整理到数据分析,再到最后的数据可视化。

· 课程纲要

R语言基础知识

数据分析与可视化,对象是数据,对数据的认识不够深,不够了解数据,接下来的分析与可视化的工作无法展开

  • R中的数据
    • 赋值
    • 数据类型
    • 数据对象类型(数据结构)
    • 数据对象属性
    • 特殊值
  • R基础操作
    • 数学运算
    • 字符运算
    • 逻辑运算
  • 条件与循环语句
  • 自定义函数
  • 包管理
  • R语言一个最大的优势之一就是丰富多样的包,包的的使用与管理也是我们需要学习的
  • 帮助、代码书写风格
    • 获取帮助
    • 来自Google的R语言编码风格指南
      良好的代码书写风格有助于以后的工作中便于与他人交流
  • Rmarkdown
    在做数据分析与可视化的过程中会得到很多结果需要呈现给大家,与大家交流,Rmarkdown就提供了一个非常良好的报告方式
    就像这篇文章使用的富文本编辑器,以及有道云笔记都是基于Rmarkdown的语法来完成的,从呈现的结果来看,层次感比较清晰,便于阅读
R语言数据处理

在了解了R语言的基础知识,对于数据有了足够的认识之后,我们就会进入到具体的数据处理和数据分析与可视化的内容中,首先我们需要进行的就是数据处理,并不是任意拿到的数据都可以用来进行分析与可视化的。在数据分析与可视化的过程中,数据处理是最基础的环节,60%~80%的时间都会用在数据处理上。

  • 数据生成函数
    • 随机数生成
    • seq和rep函数
    • 抽样
  • 数据导入与导出
    • 外源格式数据导入
    • 批量数据导入导出
    • 数据导出
  • 数据整理
    • 样本筛选、变量筛选、生成新变量
    • 长宽数据转换
    • 数据合并
R语言数据分析

数据处理之后就是具体的数据分析,这一部分的内容借鉴了一个比较传统的统计学的范式,主要内容包括假设分析、方差分析、普通线性回归、logistic回归等等,在这一部分对于没有统计学基础的,建议单独学习一下,我这边也是自己买了统计学的教材与习题可以同步学习。

  • 描述性统计分析
  • 假设检验
    • 均值检验
    • 方差检验
  • 方差分析
    • 因子
    • 汇总
    • 方差分析
  • 一般线性回归
    应用于因变量是连续型变量的情况
    • 建立模型
    • 模型解释
    • 模型诊断与优化
  • logistic回归
    应用于因变量是二分类变量的情况
    • 建立模型
    • 模型解释
    • 模型评价
  • 分析结果格式化:broom包
    在R语言中进行数据分析之后,最后得到的R结果可能不是我们理想的结果,应用到相关的papper或者报告中去格式需要一定的调整,好在R中提供了一个格式化分析结果的工具broom包,便于对分析结果的格式化。
R语言数据可视化

数据分析完之后,最后一大块就是数据的可视化,分为两条学习路径,一条是图形路径,一条是内容路径:图形路径就是去学习每种图形的画法,内容路径是根据要展现的内容来进行学习,这里是以内容路径来学习,主要是单变量分析图示和多变量关系图式,其他图示也会有介绍和学习。

  • 单变量分布图示
    • 连续型变量分布:直方图、密度图
    • 分类型变量分布:条形图
  • 多变量关系图示
    • 两个连续型变量间关系
    • 两个分类型变量间关系
    • 分类型变量与连续型变量间关系
  • 其他图示
    • 散点图附加变量分布
    • 变量相关图
  • 图形细节调整
    • 标题
    • 坐标轴
    • 图例
    • 背景

你可能感兴趣的:(R语言,编程语言)