统计相关小tip

第一次看到对nominal, ordinal, interval 和ratio types解释的这么简单清楚的介绍:

https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/

2017-02-06

1)Exploring the Impact of Inter-smell Relations on

Software Maintainability: An Empirical Study (ICSE 2013):

PCA 主成分分析用在一篇论文里来分析collocated code smell

2)Analyzing the Impact of Antipatterns on Change-Proneness Using Fine-GrainedCliff's delta effect size (WCRE 2012)用来验证一个分布比另一个分布值要大或者小(R中的orddom包),配合wilcoxon test验证2个分部差异显著,便能很好的支持自己的观点。

Source Code Changes

前提是:这2个都具体原理是啥。

http://www.cnblogs.com/lafengdatascientist/p/5554167.html

感觉这个好像特别适合实验。。


Fisher-score,可以用在监督方法中评估单个feature的discriminative effect。

poisson distribution可以来对一堆数据进行异常点的检测,可以自动推测出一个阈值(在某个条件下)

Cohen's kappa,可以评估你的预测结果,与别人真实打分结果的inter-aggrement的程度。这个在评估工具,涉及到与人为评分比较时比较有用。https://en.wikipedia.org/wiki/Cohen%27s_kappa

观察2 groups的数据是否存在difference。可以使用mann-whiteney test(wilcoxon test)(这个一般用p-value值表示差异显著),然后辅助Cliffs delta effect size(表示差异有多大)。 

研究2组相关性的一般用spearman相关系数啥的。

要做多元素对目标元素的影响,一般用回归模型的,当目标元素是bool类型时,一般用逻辑回归。

1。直方图的分类数一般来说大致等于样本容量的平方根比较合适

2。简单随机抽样一般抽的数目少于总体数目的5%时,才能保证样本中个体的独立性。

3。p-value的值在统计过程中应用了中心极限定理,所以为了使得这个方法有效,样本容量

必须足够大,通常应大于或等于30。有时假设检验对小样本也是有效的。

4。当总体标准差不知,但样本标准差知,且样本容量足够大,则假设检验的p-value则用正太

分布的z-分值来计算即z检验。当样本容量比较小,则用t统计量来检验即t检验。但无论样本容量大小,

只要总体标准差是已知的,均适合用z检验来检验原假设算出相应的p-value。

这里有一个前提,就是你认为的变量服从或者近似服从正太分布。

5。不要求样本来自正太分布的假设检验叫任意分布假设检验,也叫非参数检验。

6. Testing the differences between the activities of future

committers and the activities of developers

We conducted a Wilcoxon signed-rank test. A nonparametric

tests which does not assume a normal distribution

as is the case in our data set.

你可能感兴趣的:(统计相关小tip)