统计期刊阅读笔记

2020.6.6
“提升编程能力在数据科学领域占有一席之地 "
作者:阮敬(首都经济贸易大学)
原文下载链接
期刊:《中国统计》
这个期刊影响因子并不很强,大概是零点几吧;相比于《统计研究》(影响因子比较高),内容更为通俗易懂,《统计研究》的文章还真是不是我这类文盲有兴趣就能够拜读的……
《中国统计》刊登了好几篇作者阮敬教授的文章,在这篇文章中,作者提到有关一开始的面向过程的编程语言特点,是一种科学思维每一步就是一个过程,过程之间有很强的连续性、逻辑性……然后又引用了一句恩格斯的哲学文章中的一句话----“必须先研究十五,而后才能研究过程;必须先知道一个事物是什么,而后才能觉察到事物中所发生的变化”(出自《路德维系·费尔巴哈和德国古典哲学的终结》),过渡到了面向对象的编程语言的理解 ……原来学经济的人这么看待这两类语言,涨知识了。
统计期刊阅读笔记_第1张图片


学术报告 黄斐博士:预测模型和数据分析在精算领域的一些应用
文献来源:狗熊会的一篇推送
英文摘要

Actuarial science is the discipline that applies mathmatical and statistical method to assess risk in insurance, finance and other industries and professions. This talk will first briefly introduce the profound connection between actuarial science and data science and why actuaries are called data scientists in the insurance field. After that, I will focus on sharing some actuarial research in the field of predictive modelling and data analytics using statistical and machine learning methods, including the application of tensor decomposition to predict morality rates , modelling advanced-age morality using extreme value theory , and exploring the impact of big data and indirect discrimination in the insurance pricing.

摘要部分

精算学(actuarial science)是一门运用数学和统计学方法评估和管理保险、金融等领域风险的学科(discipline)。本次演讲首先为大家简单地介绍精算学和数据科学的深刻联系并解释为什么精算师会被称作保险领域的数据科学家(注意到这里的后置定语in the insurance field紧挨着data science ,所以意在修饰数据科学家而非精算师)。之后,我将结合自己的研究介绍一些统计和机器学习方法在精算领域的应用,包括应用张量分解(tensor decomposition)预测死亡率,应用极值理论(extreme value theory)分析高龄死亡率,以及探讨大数据和间接歧视(indirect discrimination)在保险定价的影响。

·model·这个词,不能老是干巴巴地译成“建模”,还可以像上述翻成“分析”(多么广泛的小词啊)
学术报告内容部分笔记:
精算主要是衡量和管理风险与不确定性,这和主要研究不确定性的统计学有着紧密联系,比如精算师克莱姆受工作的影响在统计学领域做了很多贡献,还有柯尔莫哥洛夫也在精算杂志上面发表期刊;精算师需要概率论、统计学、计算科学、经济学、金融等知识储备。
黄斐博士主要介绍了自己的两篇文章,分别对分析人口死亡率、高龄人口死亡率的预测和大数据时代下间接歧视(proxy/indirect discrimination)等做了简单介绍。
其中,提到矩阵分解中的张量分解(tensor decompositon),它和SVD分解的区别在于:SVD适用于2维数据的降维处理,而张量分解是对3维及其以上的降维处理;
The Truck Decomposition 像是扩展版的SVD,通过中间插一个cube,允许秩不相同的矩阵做乘法。
年龄和人口死亡率的图像大致呈对勾型,也就是说婴儿和老人的死亡率相对较高,而且老人的死亡率波动性较强,不便于分析和预测。
在医疗保障体系逐渐完善和人口老龄化的今天,寿险(Life insurance)需要对于高龄人口死亡率进行预测 ,而现在科研 值得注意的是寿险运用的极值理论,和统计学中的极值理论不同的是,它不丢弃非极值数据。
现有的方法有Threshold life ,缺点是不光滑,不连续,有跳跃点,据此,黄斐博士提出Smooth Threshold Life Table Model,得到光滑的、连续的模型。
保险精算中所提到的歧视是中性词,是一种合理的歧视,具体比如:20岁的人买寿险和50岁的人,买寿险价格是不同。而在实际中,有些国家是明文规定不允许保险对诸如种族、国籍、性别差异做不同定价的。兴起的大数据进一步暴露了歧视问题的存在,并有了潜在歧视( proxy discrimination)的概念。什么是潜在歧视?黄老师举了一个简单的例子:根据要求,保险公司是不允许根据司机性别做不同的车险定价,但是大数据可以分析出一个与性别极为相近的变量,并利用这个变量做不同的车险定价,比如说男士更喜欢使用带有大发动机的车子,而女士喜欢用带有小发动机的。
具体消除歧视的方法,有:数据预处理、模型正则化
对模型结果进行处理等。
我感觉很多大拿在听这个报告,因为会后的提问都很有水平……


2020/6/10
学术报告 基于移动设备SDK脱敏数据的地区人群聚集度与疫情发展的相关研究
报告人:周静 ,中国人民大学统计学院
资源来源:狗熊会的一篇推送
整体来说,工作大概是根据实际疫情防控的需要,构造了一个 地区人群聚集度(CNN) 的指标,用来识别高风险地区和评价各地区的隔离管控力度。构造过程大概是基于描述分析的手段进行分析,不断尝试……(大概听着是这意思)
数据来源:极光大数据提供SDK脱敏数据。
SDK:software development kit ,软件开发工具包,好像是一段程序,被嵌入在APP的安装包中,就会采集使用APP的终端信息。
脱敏数据:在不妨碍科研需要的情况下,脱离 敏感信息(涉及用户隐私等)的数据。
貌似没什么新知识……


2020/6/18
如何用数据说话
报告人:王兆军,南开大学统计与数据科学学院
John-Tuky ,提出FFT(快速傅里叶变换)、箱线图(Box-Plot)
费希尔根据女士品茶提出了假设检验,值得一提的是女士品茶是小样本问题,而小样本问题并不是样本容量越大越好,这是与大样本问题的显著区别。
Carl.Pearson一开始在德国学哲学,后来深受导师Karl马克思的影响,于是将自己的姓改为了Karl,他就孟德尔的豌豆杂交实验提出了拟合优度检验。
南丁格尔发现士兵多半死于病后感染不能及时医治,提出玫瑰图,说服英国当局开设战地医院。

你可能感兴趣的:(统计学,期刊阅读笔记)