机器学习知识经验分享之四:随机森林预测二手车价格(已实现预测代码)

文章目录

  • 前言
  • 一、随机森林概念
  • 二、随机森林的思想
  • 三、随机森林预测二手车价格
  • 总结


前言

本系列文章将对机器学习知识进行分享总结。便于大家从理论层面了解人工智能基础原理,从而更好的运用算法发论文写作以及实际应用。关注即免费获取大量人工智能学习资料。


随机森林(Random Forest),简称RF。作为新兴起的、高度灵活的一种机器学习算法,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。个人理解就是通过随机森林的策略分析大量数据之间的内在规律,然后训练得到一个模型,然后一组包含对应变量参数的新数据后,得到一个预测确定的结果。

一、随机森林概念

随机森林是一种机器学习算法。机器学习中有一种大类叫集成学习(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮。集成算法大致可以分为:Bagging,Boosting 和 Stacking 三大类型。
随机森林既可以胜任分类任务又可以胜任回归任务。机器学习中有两种任务,回归和分类,而随机森林可以同时胜任这两种任务。其中分类任务是对离散值进行预测(比如将一景图像中的植被,建筑,水体等地物类型分类);回归任务是对连续值进行预测(比如根据已有的数据预测明天的气温是多少度,预测明天某基金的价格)

二、随机森林的思想

前面已经提到过,随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。随机森林采用Bagging的思想,所谓的Bagging就是:(1)每次有放回地从训练集中取出 n 个训练样本,组成新的训练集;(2)利用新的训练集,训练得到M个子模型;(3)对于分类问题,采用投票的方法,得票最多子模型的分类类别为最终的类别;对于回归问题,采用简单的平均方法得到预测值。随机森林以决策树为基本单元,通过集成大量的决策树,就构成了随机森林。

三、随机森林预测二手车价格

用随机森林预测二手房的价格案例。部分代码如下,完整代码请关注下方公众号后私信获取。

import joblib


class CarPrice:
	def __init__(self):
		self.onehot = None
		self.scaler = None
		self.predictor = None

	def load_models(self):
		print("load_models")
		model_dir = "./models"
		self.onehot = joblib.load(f"{model_dir}/01.joblib")
		self.scaler = joblib.load(f"{model_dir}/02.joblib")
		self.predictor = joblib.load(f"{model_dir}/03.joblib")

carPrice = CarPrice()
carPrice.load_models()

机器学习知识经验分享之四:随机森林预测二手车价格(已实现预测代码)_第1张图片

总结

本文介绍了随机森林概念和思想,以及通过随机森林预测市场二手车的价格,后续将持续进行分享更新机器学习相关知识。关注即免费获取大量人工智能学习资料。

参考文献:苏 浩. 基于深度学习的遥感图像目标检测方法[D].本文仅用于学术分享,侵权联系删除。

你可能感兴趣的:(机器学习知识分享,随机森林,集成学习)