R语言学习笔记3--描述统计

上一章最后的典型购房者问题,解题思路如下:

以年龄举例,当购房者的年龄都是离散的值的时候,趋势就不是特别明显,给数据分析带来了麻烦。所以需要给样本做一个分组,如年龄可以分成10-1920-2930-39,,,

于是我列出变量名和输出

Age   年龄   1=10~192=20~293=30~394=40~495=50~596=60+

Gender 性别   1=男  2=

Race 种族  1=汉族  2=少数民族

Income  月收入  1=0~99992=10000~199993=20000~299994=30000~399995=40000+

Marital 婚姻情况  1=未婚  2=已婚  3=分居  4=李毅  5=丧偶

Home 是否有房  1=房主  0=租房者

于是在R中写入(数据是我编的):

> age<-c(3,1,4,4,5,2,3)
> gender<-c(1,2,1,1,1,2,2)
> race<-c(1,2,1,1,2,1,2)
> income<-c(4,3,2,5,4,4,3)
> marital<-c(1,1,2,2,4,3,2)
> home<-c(1,0,0,0,1,0,0)
> house<-data.frame(age,gender,race,income,marital,home)
>table(house)

函数table的作用是使用交叉分组的因子来生成频数表。比如

> table(income)
income
2 3 4 5 
1 2 3 1 

说明收入是2的样本为1,收入是3的样本为2

于是table(house)会自动选择前两个变量作为交叉因子。结果(节选如下)


, , race = 2, income = 4, marital = 4, home = 1

   gender
age 1 2
  1 0 0
  2 0 0
  3 0 0
  4 0 0
  5 1 0

意思为:, , race = 2, income = 4, marital = 4, home = 1, 而且年龄=5,性别=1的消费者购买房子的可能性为最大。


在写下一章之前先简单阐述一下概率和统计里的一些基本知识,这样以后的很多只是也可以更好的阐述,也更容易明白R语言的重大作用。

描述统计:

具体的描述统计的解释可参照百度百科。最常用的描述统计量有:1

样本量:通常用n表示

算数平均值:mean

标准差:standard deviation. 标准差是对分数变异的测量。

Q1:第一四分位数

Q3:第三四分位数

对于上面的house表,如果想得到粗略的描述性统计结果,使用

> summary(house)
      age            gender           race           income     
 Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :2.000  
 1st Qu.:2.500   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:3.000  
 Median :3.000   Median :1.000   Median :1.000   Median :4.000  
 Mean   :3.143   Mean   :1.429   Mean   :1.429   Mean   :3.571  
 3rd Qu.:4.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:4.000  
 Max.   :5.000   Max.   :2.000   Max.   :2.000   Max.   :5.000  
    marital           home       
 Min.   :1.000   Min.   :0.0000  
 1st Qu.:1.500   1st Qu.:0.0000  
 Median :2.000   Median :0.0000  
 Mean   :2.143   Mean   :0.2857  
 3rd Qu.:2.500   3rd Qu.:0.5000  
 Max.   :4.000   Max.   :1.0000  






你可能感兴趣的:(R语言)