《集体智慧编程》第8章 构建价格模型 个人笔记

第8章 构建价格模型

8.1 K-最近邻算法

本书使用KNN进行回归,对所有样本点和待预测点的距离进行升序排序,取top k,这个k个样本的目标值的均值作为预测点的预测值。
可以为近邻点分配权重,距离越近权重越大,可以通过反函数、减法函数、高斯函数等求权重,然后对top k样本计算加权平均作为预测值。

8.2 交叉验证

交叉验证是将数据拆分成训练集与测试集的一系列技术的统称。这采用多次hold-out cv。

8.3 不同类型的变量

对于不同类型的变量,其变量本身的重要性大小就不一样,比如有些变量特别大,使用欧式距离计算时这些大变量容易掩盖其他一些变量的影响。所以这里可采取按比例缩放的方法,最简单的形式是将每个维度上的数值乘以一个在该维度上的常量。

常采用归一化预处理数据

本章比较简单,唯一有意思的地方可能就是在于它用knn进行了回归,其他书基本都是在做分类。介绍了几种knn回归的trick,可以借鉴

你可能感兴趣的:(集体智慧编程)