課程連結:
台灣交通大學 統計學(一) Statistics I 唐麗英老師
[統計學筆記及整理]
第一章.概論
單元一.基本名詞
統計學(Statistics)
統計學是在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映資料,並由樣本推論群體,使在不確定的情況下做成決策的科學方法。
群體或母體(population)
研究某一現象或問題時,針對發生此一現象或問題的對象(個體)進行調查,調查的全體對象即是所謂的母體,也代表被蒐集的這些個體(object)資料所組成的資料檔(data set)。
樣本(sample)
群體的一部分,實際情況較不容易收集群體資料,所以會改取樣本資料(需具有研究特徵代表性)。
實驗單位(experimental unit)
針對有研究興趣之個體(如:人、事、物、…) 收集資料,則此「個體」即稱為實驗單位。
參數(parameter)
由群體資料所計算之群體表徵值(能代表研究群體某特徵的數值)。
統計量(statistic)
由樣本資料所計算之樣本表徵值(能代表研究群體某特徵的數值)。
例 1:某養雞場欲由 30 隻隨機抽出之母雞來估計母雞的體重。請指出此例欲研究之群體、樣本、實驗單位、參數及統計量各為何?
群體:養雞場所有的雞的特徵(體重、年齡...)
樣本:這30隻雞的特徵
實驗單位:養雞場的雞
參數:群體平均體重、群體體指率、群體某項指標(如健康指標)....
統計量:樣本平均體重、樣本體指率、樣本某項指標(如健康指標)....
單元二.隨機變數(Random Variable)
●質變數、定性變數或類別變數(Categorical Random Variable)
(定性)隨機變數的各結果不以數量表示,而依其特性之類別表之。ex.性別、國籍、物種...
●量變數、數值變數(Numerical Random Variable)
(定量)隨機變數的各結果可以數量表示。
1.離散型
經由計數的方式取得資料。ex.不良數
2.連續型
經由量測的方式取得資料。ex.長度
例 2:決定下列隨機變數為定性或定量,若為定量則決定其屬離散型或連續型。
a) 晶片上之缺陷點數
定量、離散
b) 每個產品的重量
定量、連續
c) 造成不良產品可能之原因
定性
第二章.敘述統計(Descriptive Statistics)
單元一.如何以圖形來展示資料 (Graphs)
一、定性資料如何以圖來表示?
利用條圖(Bar Graph),柏拉圖(Pareto Diagram),單圓圖(Pie Chart)。
1.條圖:
條圖是用來比較及對照不同時期或類別間的差異。
作法:
1)水平軸---種類,對每一種類繪入直立條棒。
2)垂直軸---觀察值的次數,相對次數或百分比。
3)每一條棒有相同寛度。
4)條棒彼此之間不相連接。
2.單圓圖:
單圓圖是用來顯示一個單一總合量如何攤分於各種類別中。
作法:
1)計算出各類別所佔百分比。
2)各類別在單圓圖中所占之角度為該類別在總量中所占百分比×360°。
3.柏拉圖:
義大利經濟學家柏拉圖(Vilfredo Pareto)認為社會上大部份的財富是操縱在少數人的手中。同理,在改善製程品質時,通常造成品質不良或缺失的因素也符合柏拉圖原理。因此柏拉圖分析是依據「重要少數,瑣細多數」(80/20)法則,找出造成問題最關鍵之幾個少數因素,以有效改善問題。
作法:
1)水平軸---種類,對每一種類繪入直立條棒。
2)垂直軸---觀察值的次數,相對次數或百分比。
3)每一條棒須有相同寛度。
二、定量資料如何以圖來表示?
利用點圖(Dot Diagram)或直方圖(Histogram)。
1.點圖:
點圖可用以顯現資料之分佈型態。
作法:
1)水平軸---數線(標有數據的直線)。
2)在數線上繪入點。
2.直方圖:
直方圖是次數分佈的圖形表示,是由直立的條狀或矩
形所構建。
作法:
1)水平軸---代表各組之所有組界。
2)垂直軸---代表觀察值的次數,相對次數或百分比。
3)在水平軸上畫矩形,這些矩形須有相同寬度並且須相連在一起。
單元二.常用統計量或指標
一、原始數據特徵值之計算
原始連續型數據分析之特徵主要可分為以下四大類:
1. 集中趨勢(Central Tendency of Location)
2. 變異(Dispersion)、離中趨勢
3. 偏態(Skewness)
4. 峰態(Kurtosis)
1.集中趨勢:
「集中趨勢指標」是表示一組數據中央點位置所在的一個指標,最常用的集中趨勢指標:平均數、中位數、眾數。
1)平均數(mean):
算術平均數。
例 :請找出下列群體數據之平均數: 0, 7, 3, 9, -2, 4, 6
mean:3.857
2)中位數(median):
將一組數據由小至大排序後,最中間的那一個數值稱為中位數,為分位數(quantile)的一種。
補充:
分位數(英語:Quantile),亦稱 分位點,是指用分割點(cut point)將一個隨機變量的機率分布範圍分為幾個具有相同機率的連續區間。分割點的數量比劃分出的區間少1,例如3個分割點能分出4個區間。
常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。
例 :請找出下列樣本數據之中位數: 9, 2, 7, 11, 14
2,7,9,11,14 (ans:9)
3)眾數(mode):
在一組數據,出現次數最多的數值稱之。
例 :請找出下列樣本數據之眾數: 3, 3, 2, 1, 4, 2, 3
3:四次,2:一次,1:一次,4:一次,(ans:3)
何時用平均數?何時用中位數或眾數?
平均數對離群值非常敏感,而中位數或眾數則對離群值較不敏感。因此,當資料中有離群值時,則使用中位數或眾數,否則,使用平均數。
2.離中趨勢(Dispersion)
「變異指標」是表示一組數據間差異大小或數值變化的一個量數,三個主要量測變異之指標,全距(Range)、變異數或標準差(Variance and Standard Deviation)、變異係數(Coefficient of Variation)
1) 全距(R):
全距是用來衡量一組數據差異大小或數值變化最簡單的方法。
●用全距之缺點:
當一組數據中有 離群值 出現或 資料量太大(n>10)時,全距並非一個很好的衡量數據變異的量數,因其無法解釋最小與最大值之間,數據分佈的情形。
2) 變異數和標準差(Variance and Standard Deviation):
變異數單位為原來的單位的平方,而標準差與原來相同。
例 :請找出下列樣本數據之平均數、變異數及標準差:5, 8, 1, 2, 4
使用numpy求標準差:
3) 偏態(Skewness):
「偏態」是用來說明一組數據分佈的形態,單峰分佈有三種形態之偏態:
●偏態係數
樣本偏態係數之公式如下:
4) 峰度(Kurtosis):
樣本峰度係數之公式如下:
二、盒鬚圖
●何謂盒鬚圖(Box-Whisker Plot,簡稱 Box Plot)?
盒鬚圖是資料的一種圖形展示法。此圖可同時標出資料之集中趨勢、變異、偏態、最小值、最大值等。此圖又稱「五指標摘要圖」(five-numbersummary plot)
●盒鬚圖之主要功用:
從視覺上即可有效的找出資料之主要的表徵值。
●盒鬚圖之其它功用:
1.可同時 比較 數組資料
例 :比較四個班級的數學成績
2.可辦認出離群值
●何謂離群值(Outliers)?
離群值是遠大於或遠小於同一筆數據中之其它值之數據。
●如何利用盒鬚圖辨認出離群值?
1)超過盒鬚圖之盒 1.5(Q3-Q1)至 3(Q3-Q1)距離內之值可當作可
能之離群值或極端值。
2)超過盒鬚圖之盒 3(Q3-Q1)距離外之值可當作非常可能之離群值。
註:Q3-Q1=第 75百分位數-第 25百分位數=中四分位距(InterquartileRange, IR)
例 :下列資料為三條生產線的良率,請依下例資料繪製盒鬚圖。
生產線3條圖: