从零开始的机器学习 L2自学笔记:什么是机器学习(2)

1.4机器学习的原理

对机器学习比较好的理解方式是通过数学的角度。在数学上给定一个未知函数f(x_{i};\beta ),机器学习的目标就是通过训练数据\left \{ x_{i} ,y_{i}\right \}_{i=1}^{n}来学习此未知函数f(x_{i};\beta ),其中\beta为未知的参数向量。换句话说,就是给计算机训练数据集,使计算机自己寻找规律拟合出一个\hat{y_{i}}=\hat{f}(x_{i};\hat{\beta })形式的函数,并且使\hat{y_{i}}y_{i}的均方误差最小。

1.5机器学习和计量经济学的关系

1.5.1目的不同

表面上,机器学习通常使用大数据,计量经济学使用的样本数据相对较少,随着计量经济学愈来愈多地使用大数据,这种区别也逐渐模糊。

本质上,机器学习的主要目的是“预测”(prediction),而计量经济学侧重点是“因果推断”(casual inference)。

具体的解释是,机器学习是根据x_{i}预测y_{i},但是得到\hat{y_{i}}=\hat{f}(x_{i};\hat{\beta })的过程是一个黑箱操作,无法知道具体的方法,并且\hat{y_{i}}=\hat{f}(x_{i};\hat{\beta })本身的经济含义难以解释,每个x_{i}前的系数\hat{\beta }代表的经济学意义无从得知,因此,机器学习的“可解释性”(interpretable")很差。机器学习只关注拟合出来的\hat{y_{i }}y_{i}是否相近,根本不在乎模型是否在经济学意义上解释不解释得通。

相反,计量经济学的主要目标则是“因果推断”,即判断x_{i}y_{i}的因果关系,经济学家通常会对f\left ( x_{i};\beta \right )的函数形式作很强的假设,如假设经典线性回归模型f\left ( x_{i};\beta \right )={x_{i}}'\beta,因为这样假设的模型的\beta容易解释。经济学只关注\hat{\beta }在统计上的显著性,即\beta是否=0,和\hat{\beta }的大小。由于对函数f\left ( x_{i};\beta \right )的形式作出了较强的假设,因此预测效果较差。

 1.5.2方法论的区别

(1)机器学习:主要使用“最优化”方法,基本思路是最小化某个“目标函数”或“损失函数”,最优化问题没有“解析解”,所以通常是通过“迭代算法”获得近似的“数值解”,度量机器学习的效果也很简单,直接比较\hat{y_{i }}y_{i}的距离大小即可。

(2)计量经济学:计量经济学也是追求“最优化”,但是因为追求的重点是不可观测的参数\beta,所以在估计出\hat{\beta }之后,无法直接比较两者之间的距离,而是使用“大样本理论”,证明当样本容量趋于无穷大的时候,\hat{\beta }会(依概率)收敛到真实参数\beta,并且\hat{\beta }服从正态分布等性质;并辅之以小样本的“蒙特卡洛模拟”(Monte Carlo simulation)进行验证

1.5.3机器学习和计量经济学的融合

例如,某地区实施了扶贫政策,经济学家们想评估政策的效应。这个时候,该地区扶贫之后的状态可以度量,但最关键的信息却无法观测,即此地区如果没有实施扶贫会怎么样。经济学家们通常对这种“反事实的结果”进行估计和预测,这也是“鲁宾因果模型”(Rubin's Causal Model)的核心思想(Rubin,1974)。由于机器学习关注重心恰好是预测,因此在因果推断方面机器学习大有用武之地

学习书目:陈强《机器学习及python应用》

你可能感兴趣的:(自学笔记,机器学习,人工智能)