统计相关小tip

第一次看到对nominal, ordinal, interval 和ratio types解释的这么简单清楚的介绍：

https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/

2017-02-06

1）Exploring the Impact of Inter-smell Relations on

Software Maintainability: An Empirical Study （ICSE 2013）：

PCA 主成分分析用在一篇论文里来分析collocated code smell

2）Analyzing the Impact of Antipatterns on Change-Proneness Using Fine-GrainedCliff's delta effect size （WCRE 2012）用来验证一个分布比另一个分布值要大或者小（R中的orddom包），配合wilcoxon test验证2个分部差异显著，便能很好的支持自己的观点。

Source Code Changes

前提是：这2个都具体原理是啥。

http://www.cnblogs.com/lafengdatascientist/p/5554167.html

感觉这个好像特别适合实验。。

Fisher-score，可以用在监督方法中评估单个feature的discriminative effect。

poisson distribution可以来对一堆数据进行异常点的检测，可以自动推测出一个阈值（在某个条件下）

Cohen's kappa，可以评估你的预测结果，与别人真实打分结果的inter-aggrement的程度。这个在评估工具，涉及到与人为评分比较时比较有用。https://en.wikipedia.org/wiki/Cohen%27s_kappa

观察2 groups的数据是否存在difference。可以使用mann-whiteney test（wilcoxon test）（这个一般用p-value值表示差异显著），然后辅助Cliffs delta effect size（表示差异有多大）。

研究2组相关性的一般用spearman相关系数啥的。

要做多元素对目标元素的影响，一般用回归模型的，当目标元素是bool类型时，一般用逻辑回归。

1。直方图的分类数一般来说大致等于样本容量的平方根比较合适

2。简单随机抽样一般抽的数目少于总体数目的5%时，才能保证样本中个体的独立性。

3。p-value的值在统计过程中应用了中心极限定理，所以为了使得这个方法有效，样本容量

必须足够大，通常应大于或等于30。有时假设检验对小样本也是有效的。

4。当总体标准差不知，但样本标准差知，且样本容量足够大，则假设检验的p-value则用正太

分布的z-分值来计算即z检验。当样本容量比较小，则用t统计量来检验即t检验。但无论样本容量大小，

只要总体标准差是已知的，均适合用z检验来检验原假设算出相应的p-value。

这里有一个前提，就是你认为的变量服从或者近似服从正太分布。

5。不要求样本来自正太分布的假设检验叫任意分布假设检验，也叫非参数检验。

6. Testing the differences between the activities of future

committers and the activities of developers

We conducted a Wilcoxon signed-rank test. A nonparametric

tests which does not assume a normal distribution

as is the case in our data set.

统计相关小tip

你可能感兴趣的:(统计相关小tip)