上一章最后的典型购房者问题,解题思路如下:
以年龄举例,当购房者的年龄都是离散的值的时候,趋势就不是特别明显,给数据分析带来了麻烦。所以需要给样本做一个分组,如年龄可以分成10-19,20-29,30-39,,,
于是我列出变量名和输出
Age 年龄 1=10~19,2=20~29,3=30~39,4=40~49,5=50~59,6=60+
Gender 性别 1=男 2=女
Race 种族 1=汉族 2=少数民族
Income 月收入 1=0~9999,2=10000~19999,3=20000~29999,4=30000~39999,5=40000+
Marital 婚姻情况 1=未婚 2=已婚 3=分居 4=李毅 5=丧偶
Home 是否有房 1=房主 0=租房者
于是在R中写入(数据是我编的):
> age<-c(3,1,4,4,5,2,3)
> gender<-c(1,2,1,1,1,2,2)
> race<-c(1,2,1,1,2,1,2)
> income<-c(4,3,2,5,4,4,3)
> marital<-c(1,1,2,2,4,3,2)
> home<-c(1,0,0,0,1,0,0)
> house<-data.frame(age,gender,race,income,marital,home)
>table(house)
函数table的作用是使用交叉分组的因子来生成频数表。比如
> table(income)
income
2 3 4 5
1 2 3 1
说明收入是2的样本为1,收入是3的样本为2
于是table(house)会自动选择前两个变量作为交叉因子。结果(节选如下)
, , race = 2, income = 4, marital = 4, home = 1
gender
age 1 2
1 0 0
2 0 0
3 0 0
4 0 0
5 1 0
意思为:, , race = 2, income = 4, marital = 4, home = 1, 而且年龄=5,性别=1的消费者购买房子的可能性为最大。
在写下一章之前先简单阐述一下概率和统计里的一些基本知识,这样以后的很多只是也可以更好的阐述,也更容易明白R语言的重大作用。
描述统计:
具体的描述统计的解释可参照百度百科。最常用的描述统计量有:1
样本量:通常用n表示
算数平均值:mean
标准差:standard deviation. 标准差是对分数变异的测量。
Q1:第一四分位数Q3:第三四分位数
对于上面的house表,如果想得到粗略的描述性统计结果,使用
> summary(house)
age gender race income
Min. :1.000 Min. :1.000 Min. :1.000 Min. :2.000
1st Qu.:2.500 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:3.000
Median :3.000 Median :1.000 Median :1.000 Median :4.000
Mean :3.143 Mean :1.429 Mean :1.429 Mean :3.571
3rd Qu.:4.000 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:4.000
Max. :5.000 Max. :2.000 Max. :2.000 Max. :5.000
marital home
Min. :1.000 Min. :0.0000
1st Qu.:1.500 1st Qu.:0.0000
Median :2.000 Median :0.0000
Mean :2.143 Mean :0.2857
3rd Qu.:2.500 3rd Qu.:0.5000
Max. :4.000 Max. :1.0000