转载:主成分分析和因子分析文献阅读报告

文献一.《用主成分分析和聚类分析方法进行水文分区》

一.问题提出

水文分区是水文地理研究的基本问题之一。区域河流系统是一个复杂的、多指标、分层次的递阶结构系统, 指标之间存在错综繁杂的内在联系。传统的靠定性描述和少数定量指标进行分区划类的方法, 往往不能揭示研究对象本质的差别和多因素之间的组合关系,带有不同程度的主观任意性。文章以福建省为例,通过主成分分析和聚类分析,对16条河流进行分区归类。

二.数量分析和处理

1)选择指标

选取的10个水文特征指标为:X1,集水面积;X2,多年平均降水量;X3,多年平均年径流深;X4,多年平均陆面蒸发;X5,多年平均年径流系数;X64~6月径流季节分配;X77~9月径流季节分配;X8,汛期4~9月径流季节分配;X9,非汛期10~3月径流季节分配;X10,连续最大四个月径流所占百分比。

2)主成分分析

经主成分分析,前4个主成分累积方差贡献为91.41%。第一主成分F1,反映多年平均年陆面蒸发和7~9月径流百分比。第二主成份是以年径流深和年降水量起主要作用的,反映了降雨补给型河流的基本特征。第三主成分是以连续最大4个月径流百分比与4~6月径流百分比起主要作用的,刻画了径流的年内分配差异状况第四主成分主要反映集水面积和年降水量地域分异的信息。

3)聚类分析

根据因子载荷值,计算各站点在4个主成分上的得分,用主成分得分值取代原始数据。计算任意两个样本之间的欧氏距离, 列出距离阵再按最小距离归类。16条河流按7621被归为四个类,分别代表闽江中上游河流,闽东南沿海河流及汀江流域河流,闽东北沿海河流,闽南沿海短小河流。

三.结论

对福建省16条主要河流上的16个水文站的10个观测指标,通过主成分分析得到4个主成分,再根据各样本的主成分得分值进行聚类,将16条河流分为4类。文章建立了数值分析模型, 对地表河流系统的分析由定性走向定量, 纠正和克服了传统水文地理分析所难以避免的一些偏差和弊端, 更深刻地揭示了系统内部复杂的内在联系, 对区域水资源开发和管理有一定的实践指导意义。

 

文献二.《基于主成分分析的区域外贸竞争力综合评价研究》

. 提出问题

为了准确评价我国区域外贸竞争力,通过构建一个区域外贸竞争力的综合评价指标体系,根据2009年的统计数据,运用主成分分析法对广东、浙江、江苏和上海三省一市的区域外贸竞争力进行了实证分析,随后提出了一些改进建议。

. 指标体系构建及数据分析

从外贸规模,外贸质量,外贸潜力三个方面考虑,构建了10个指标。分别为X1,出口总额;X2,净出口总额;X3,出口贡献率;X4,市场占有率;X5,工业制成品;X6,人均出口额;X7,出口依存度;X8,贸易竞争指数;X9,出口增长优势指数;X10,出口增长率。

2009年广东,浙江,江苏,上海的以上10个指标数据进行标准化,做主成分分析,得到2个主成分,累计贡献率达到86.127%。计算主成分的综合得分并排名,依次是广东,江苏,浙江,上海。

. 结论

通过分析, 作者认为外贸居于全国前列的广东、江苏、浙江和上海在一些外贸竞争力指标数据上需要提升,区域外贸竞争力有待提高。

 

文献三.《基于因子分析的浙江省区域金融中心选址研究》

一.问题提出

金融中心是大量的金融企业和金融机构集聚的结果,金融企业选址需要考虑当地的综合条件能否使金融企业获得最大的净收益。文章试图采用因子分析法对浙江省11个城市的综合条件进行分析,并通过各城市综合得分的排序,找出适宜建立建设区金融中心的城市。

二.数据分析过程

1)指标选择

结合前人研究的成果以及在数据可得并能量化的条件下,作者考虑了4个对金融企业的选址影响最大因素。①经济实力(包括:X1GDP 总量;X2,社会商品零售总额;X3,固定资产投资额;X4,实际利用外资额);②地理区位(包括:X5 货运量;X6,客运量;X7,总人口数);③信息通讯(包括:X8 电信业务总额;X9,固定电话普及率;X10,移动电话普及率;X11 互联网普及率);④金融发展(包括:X12,金融机构存款余额;X13,金融机构贷款余额X14,城乡居民储蓄存款余额;X15,保费收入)。

2)因子分析

对以上15个金融中心选址指标变量进行因子分析,用主成分法提取主因子,通过因子分析,得到3个公因子,其累计方差贡献率达95.025%。其中,公因子F1为综合经济实力因子。公因子F2为地理区位因子。公因子F3为信息通讯因子。根据因子得分系数矩阵,计算各公因子的公式为:

F1=-0.013X1-0.094X2+⋯⋯+0.036X15

F2=-0.170X1+0.312X2+⋯⋯-0.140X15

F3=-0.032X1-0.101X2+⋯⋯-0.065X15

再由各公因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,计算出各城市的综合得分为:

Y= 0.484F1+0.276F2 +0.240F3

由上式计算出浙江省11个城市的综合得分,并进行排序。其中杭州,宁波杭州和宁波的综合竞争力在11 个城市中处于领先地位。

三.结论

杭州是浙江省综合竞争力最高的城市,具有最强的区域经济实力,是建设浙江区域金融中心的最佳城市。宁波在经济实力上稍逊于杭州,但是在地理区位和信息通讯因子上的得分均高于杭州。杭州和宁波各具优势,在建设区域金融中心这个问题上,决策者还需综合考虑其他因素。

 

文献四.《关于结合应用因子分析和多元逐步回归完善趋势面分析的探讨》

一. 问题提出的背景

作者曾经对山东省某县恶性肿瘤死亡率做过地域分布的趋势面分析,发现胃癌和鼻咽癌的死亡率在该地区呈现规律性分布趋势,但是趋势面方程拟合优度不是很高,提示除地理因素以外还有其他重要的影响因素在起作用,但是趋势面分析无法找出其他影响因素。为弥补完善趋势面分析在应用时的不足,作者采用因子分析和多元逐步回归分析对死亡率资料进行分析,找出地理因素以外的其它影响因素,为疾病预测及预防提供依据。

.  数据处理及分析

1)因子分析及分组

对山东省某县2000~ 2002 17 个乡镇10种恶性肿瘤标化死亡资料进行因子分析,根据特征根大于1的原则,选取4个公因子,根据因子载荷阵,将前2 个公因子上负荷较大的肿瘤合并为一组,后2 个公因子上负荷较大的肿瘤归为另一组。即胃癌、食管癌、结肠癌、白血病、乳腺癌和鼻咽癌为一组; 肺癌、肝癌、膀胱癌和宫颈癌为一组。通过作相关分析发现, 每一组内肿瘤都有很大关联性, 而组与组之间关联性不大,说明每一组内的恶性肿瘤之间可能有共同的致病因素。

2)多元逐步回归

分别以胃癌和鼻咽癌死亡率为因变量, 以地理位置坐标( x , y ) 和同一组的其他恶性肿瘤死亡率为自变量, 进行多元逐步回归分析。

胃癌的逐步回归回归方程拟合优度为71. 6%,引入的自变量是地理位置横坐标x 、食管癌、乳腺癌, 且回归系数都为正, 说明自变量是危险因素,随着地理横坐标x 和食管癌、乳腺癌死亡率的增大, 胃癌死亡率呈逐渐升高趋势, 胃癌的死亡率由西向东逐渐升高。

鼻咽癌的逐步回归回归方程拟合优度为47.5%,引入的自变量是地理位置横坐标x 和白血病,且回归系数都为负, 说明自变量是保护因素,随着地理横坐标x 和白血病死亡率的增大, 鼻咽癌死亡率呈逐渐降低趋势, 鼻咽癌的死亡率由西向东逐渐降低。

. 结论

作者通过因子分析和多元回归分析结合应用, 先通过因子分析将10 大恶性肿瘤进行了分组, 然后分别以胃癌和鼻咽癌死亡率为因变量, 以地理位置坐标( x , y ) 和同一组的其他恶性肿瘤死亡率为自变量, 进行多元逐步回归分析,找出了恶性肿瘤死亡率的地理因子和其他影响因素。为临床“早发现、早诊断、早治疗”提供了理论依据,而且对该地区恶性肿瘤病因的确定以及今后的发病趋势预测有十分重要的意义。

 

小结

1)由文献一和文献四可见,多元回归分析的方法并不都是单独运用的。文献一中,先对河流的评价指标做主成分分析,再根据主成分得分值聚类,从而对不同河流进行了分区归类。文献四,则是因子分析和回归分析结合,先将10大癌症进行分组,在组内进行逐步回归,从而找出胃癌,鼻咽癌发生的地理因子和其他癌症之间的关系。

2)文献二与文献三极为相似,前者用主成分分析,后者用因子分析,都是对若干城市地区的某一方面的能力(外贸竞争力,作为备选金融中心的竞争力)进行评价,都要对若干指标进行降维,计算综合得分,再进行排名。在这两篇文献中,主成分分析和因子分析并没有什么差异。

3)在主成分或公因子个数的确定时,既可以根据累积方差贡献大于85%来确定,也可以根据特征根大于1来确定,在对指标进行主成分分析和因子分析后,既可以计算综合得分来排序,也可以根据分析的结果来对原始变量进行归类,这根据研究的具体问题需要来决定。

 

参考文献

[1]于宏.用主成分分析和聚类分析方法进行水文分区[J].

[2]张智越.基于主成分分析的区域外贸竞争力综合评价研究[J].价格月刊,2010401:83~86

[3]龚勇,周迎迎.基于因子分析的浙江省区域金融中心选址研究[J].经济丛刊,20095:19~21

[4]罗盛,张锦,陈景武.关于结合应用因子分析和多元逐步回归完善趋势面分析的探讨[J].数理医药学杂志,2010,23(5):613~614

转载于:https://www.cnblogs.com/julia/archive/2011/08/22/2149657.html

你可能感兴趣的:(转载:主成分分析和因子分析文献阅读报告)