原来STATA也可以做机器学习或深度学习的内容,真的是学习了

微信公众号  大数据金融统计 大数据时代中的金融统计 今天

用STATA实现机器学习

STATA●机器学习

STATA●1 什么是机器学习

机器学习是通过分析研究数据集,挖掘大数据中存在的潜在价值,主要步骤为:数据准备、寻找规律、规律。数据挖掘任务主要有关联分析、分类分析、异常分析和演变分析等。

在大数据时代背景下,数据挖掘是重要的工作内容。对于大数据的挖掘是从海量的大型数据库中挖掘数据中存在的潜在价值和有效的信息,从而为企业各项决策提供支撑。通过对数据集进行高度自动化研究,然后总结出归纳性的逻辑推理,从中发现潜在模式,为企业或者商家提供决策依据。现阶段,数据挖掘给商业领域带来诸多价值,例如,推进企业市场营销策略的制定,提供有用的决策支撑。

通过运用数据挖掘,预测客户类别,有助于企业设定高效的市场营销。对于分类问题,数据挖掘中常用的方法有逻辑回归、支持向量机、神经网络、决策树、随机森林等。

逻辑回归是一种广义的线性回归,一般情况下其因变量是二分类变量。起初Logistic回归主要应用于流行病学,用于预测发生某种情况的概率,对于某种疾病的影响因素进行分析。但随着此方法的普及,越来越多的领域也开始运用逻辑回归分方法去分析解决一些实际问题。

支持向量机运用超平面进行分类,该平面建立了数据之间的边界,这些数据点就在代表特征值的多维空间中。支持向量机的主要目标就是建立一个平面边界,即超平面,对多维空间进行划分。支持向量机综合了近邻学习和线性回归两方面的学习内容,具有强大的数据处理能力,能够对非常复杂关系建立模型。

神经网络主要是在一组输入信号和输出信号之间建立模型,而模型的选择是基于大脑对输入信号的反应。就像大脑使用神经元相互连接的细胞网络来组建成一个庞大的处理器,神经网络使用神经元的网络来解决问题。神经网络是一种黑箱方法,对于输入信息和输出信息都有明确的定义,但是中间的计算过程相当复杂。

决策树通过利用树形结构对输入特征的最终结果之间的关系进行建模分析,是由决策点、状态节点和结果节点组成。而随机森林是由多个决策树组合而成,是决策树的集成。

STATA●2 机器学习算法如何用stata实现

现以机器学习当中决策树算法为例,来看看如何在stata中实现决策树算法吧!

首先介绍一下相关stata命令:

ssc install crtrees

sysuse auto, clear

crtrees price trunk weight length foreign gear_ratio, seed(12345)

crtrees price trunk weight length foreign gear_ratio, seed(12345) stop(5) reg(weight) lssize(0.6) detail

 然后,再来看看结果吧:

你可能感兴趣的:(原来STATA也可以做机器学习或深度学习的内容,真的是学习了)