小白数据挖掘进阶之路----(房租预测)赛题与数据

在刚开始对数据处理之前,我们应该要对这个数据有个充分的了解

赛题分析:

比赛要求参赛选手根据给定的数据集,建立模型,预测房屋租金。数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等。这是典型的回归预测。

1. 预测指标

回归结果评价标准采用R-Square
R2(R-Square)的公式为: 残差平方和
在这里插入图片描述
总平均值:
在这里插入图片描述
在这里插入图片描述
R²用于度量因变量的变异中可自由变量解释部分所占的比例,取值范围是0到1,R²越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以R²也称为拟合优度的统计量。yi表示真实值,y^i表示预测值,得分越高拟合效果越好。

对比赛数据做EDA,这样才能更加了解你的数据
小白数据挖掘进阶之路----(房租预测)赛题与数据_第1张图片
在这里需要导入几个需要用到的包
小白数据挖掘进阶之路----(房租预测)赛题与数据_第2张图片
对于GBDT以及XGboost, LightGBM的原理,这里有一篇博客讲的比较好,可参考:https://blog.csdn.net/q383700092/article/details/60954996
了解了这些之后,之后就是对我们的数据进行读取。常用的包是pandas,对pandas不了解的朋友可以查看官方文档,或者看十分钟学会pandas:https://blog.csdn.net/u012111465/article/details/77803102

1.缺失值分析
小白数据挖掘进阶之路----(房租预测)赛题与数据_第3张图片
小白数据挖掘进阶之路----(房租预测)赛题与数据_第4张图片
2.是否有单调序列
小白数据挖掘进阶之路----(房租预测)赛题与数据_第5张图片
这里的单调特征序列很大可能是时间,在金融领域经常会用到,对时间周期进行采样。
3.查看特征的分布
小白数据挖掘进阶之路----(房租预测)赛题与数据_第6张图片
4.统计特征值频次大于100的特征,在这里可以将小于100的直接统一归类为其他的
小白数据挖掘进阶之路----(房租预测)赛题与数据_第7张图片
5.Label分布
小白数据挖掘进阶之路----(房租预测)赛题与数据_第8张图片
进行了这几个步骤后,我们就对这个赛题的数据有了一定的了解,接下来就要进行特征工程,不知道什么是特征工程的小伙伴,建议先看:https://www.zhihu.com/question/29316149/answer/110159647

题外话:现在也有一行代码生成数据分析报告,那就让我们一起来看一看这个骚操作
pandas_profiling简介
如果你想更方便快捷地了解数据的全貌,泣血推荐一个python库:pandas_profiling,这个库只需要一行代码就可以生成数据EDA报告。
pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。
对于数据集的每一列,pandas_profiling会提供以下统计信息:
1、概要:数据类型,唯一值,缺失值,内存大小
2、分位数统计:最小值、最大值、中位数、Q1、Q3、最大值,值域,四分位
3、描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
4、最频繁出现的值,直方图/柱状图
5、相关性分析可视化:突出强相关的变量,Spearman, Pearson矩阵相关性色阶图

并且这个报告可以导出为HTML,非常方便查看。
pandas_profiling安装
安装pandas_profiling可以使用pip、conda或者下载文件安装,非常方便。
我这里使用pip方式,在命令行输入:pip insatll pandas-profiling
使用pandas_profiling生成数据探索报告
report = pp.ProfileReport(data)
report
导出为html文件
report.to_file(‘report.html’)

你可能感兴趣的:(数据挖掘)