R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据

全文链接:http://tecdat.cn/?p=29841

最近我们被客户要求撰写关于非参数估计的研究报告。在应用的设置中,我们经常遇到分类数据类型和连续数据类型的组合。 熟悉传统非参数核平滑方法的人会明白,这些方法假定基础数据本质上是连续的,但事实往往并非如此。 一种同时处理连续数据和分类数据存在的方法称为“频率”方法,其中数据被分解为对应于分类变量假设值的子集(“单元格”),然后才将密度或位置应用于每个单元格中剩余的连续数据。

非参数频率方法被广泛认为是不令人满意的,因为它们通常会导致使用样品分裂引起的大量效率损失。​

在本文中,我们通过许多经验应用来说明R的使用。 选择每个应用程序是为了在应用的环境中突出显示特定的计量经济学方法。 

非参数无条件PDF和 CDF估计

间歇泉是位于黄石国家公园的旅游景点。 这个包含 n = 272 次观测的著名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和等待下一次喷发的时间(以分钟为单位)(等待)。 公园服务使用此数据集来模拟预期持续时间,具体取决于自上次喷发以来经过的时间量。 然而,对联合分布进行建模本身就很有意义,并且核估计器很容易揭示联合 PDF 和 CDF 的基本双峰性质。 在本例中,我们加载旧的间歇泉数据并计算密度和分布函数。 结果如图所示。 请注意,在此示例中,我们一步进行带宽选择和估计

R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第1张图片

R> summary(Fhful)

 R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第2张图片

以下代码将生成图。

R> plot(f.fthful

如果用参数模型(例如二元正态(对称、单峰和单调递减)来模拟这种密度,当然无法揭示核估计容易揭示的底层结构。

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第3张图片

 图 :Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。

 非参数条件PDF和CDF估计

我们考虑Giovanni Baiocchi(Baiocchi 2006)的GDP增长,涵盖1951-1998年期间的21个地区。总共有n = 1, 008个观测值,以及两个变量,GDP和年份。首先,我们计算带宽。请注意,这可能需要一两分钟,具体取决于计算机的速度。我们覆盖搜索方法的默认容差,因为目标函数表现良好(当然通常不要这样做),然后我们计算 npcdens 对象。请注意,在本例中,我们一步进行带宽选择和估计。

R> fat <- npns(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

 R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第4张图片

R> Fat <- npst(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

 R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第5张图片

图绘制了意大利 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图 。

R> plot

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第6张图片

图显示,收入分配已从1950年代初的单峰分配演变为1990年代的明显双峰分配。此结果对带宽选择具有鲁棒性,无论是使用简单的经验法则还是数据驱动的方法(如可能叉验证)都可以观察到。核方法很容易揭示这种演变,如果使用收入分配的参数模型(例如,单峰对数正态分布通常用于模拟收入分配),则很容易被忽略。

非参数分位数回归

我们再次考虑乔瓦尼·拜奥奇(Giovanni Baiocchi)的GDP增长。首先,我们计算交叉验证带宽的可能性(默认)。我们覆盖了搜索方法的默认容差,因为目标函数表现良好(当然,通常不要这样做)。然后我们使用Li和Racine(2008)的方法计算结果的条件分位数估计。例如,我们计算第 25、50 和 75 个条件分位数。请注意,这可能需要一两分钟,具体取决于计算机的速度。请注意,对于此示例,我们首先调用 npcdistbw 以避免不必要的带宽对象重新计算。

R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plot
R> lines(It$year, mode.q0.25quantile )

此应用程序的一个很好的功能是解释变量是有序的,并且每年存在多个观测值。将绘图函数与有序数据一起使用会生成一个箱线图,该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。然后可以直接将这些非平滑分位数估计值与通过直接估计平滑CDF获得的估计值进行比较,如图所示。

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第7张图片

GDP 面板上的非参数分位数回归。

参考文献

Aitchison J, Aitken CGG (1976).“核方法的多元二元判别。”生物计量学,63(3),413-420。

Baiocchi G (2006). “Economic Applications of Nonparametric Methods.” Ph.d. thesis, University of York

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据_第8张图片


最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

 

你可能感兴趣的:(拓端,拓端tecdat,拓端数据,算法,python,开发语言)