複習下統計學主要內容:
- 收集數據。因為數據太多,需要使用Sampling(抽樣)。
- 敘述數據。歸納數據的特徵,比如中位數、平均數和標準差等等。
- 圖形化數據。使用圖表和分佈圖來使統計結果變成圖形,使得數據可視化。
- 數據相關性。比如可以使用Regression(回顧分析)檢驗兩個數據的相關係數。
- 預測未來發生的概率。如果真的有相關性,可以利用相關性預測未來。
- 預測工具。比如決策樹和蒙特卡羅模擬。
上一篇學習了數據的收集:Sampling,本文學習統計敘述。
數據很多,不可能一個一個敘述,敘述數據就是研究怎麼用少一點的數據來描述整組數據。比如用平均年薪這一個平均數來敘述所有人的年薪。
具體有:
- Measures of centrality,數據的中值,最主要是平均數(mean)/中位數(medium)/眾數(mode)。
- Measures of dispersion,數據距離中值的偏離程度,主要有標準差/方差/變異係數/四分位距。
- Measures of symmetry, 數據的對稱性,數據的分佈是偏平均值的左邊還是右邊,偏度可以為正、負或為0,常態分佈的偏度為0。
- Measures of extremes,數據的厚尾情況,描述數據是否有極大值或極小值。
Measures of centrality 數據的集中程度
- 平均數(mean),通常是算術平均,即所有數值加總再除以個數。
- 中位數(median),所有數值從低到高排列,最中間的即是中位數。
- 眾數(mode),所有數值中出現次數最多的數值。
平均數很重要,但是如果分佈不是對稱分佈的話,中位數往往比平均數更有參考意義。
舉例:108年平均工資為64.4萬,中位數為:49.8萬,眾數為36萬左右。
source:https://earnings.dgbas.gov.tw/template.html?selectid=1
輸入平均工資64.4進入薪資分佈圖比較,發現排在約66.6%的位置,也就是說2/3的人的薪水不到平均工資。
所以使用平均工資來宣傳有點像欺騙,實質上只有1/3的人可以超過平均工資,因為平均薪水被極小比例的高薪水的人拉高了。
Measures of dispersion 數據的離散程度
- range/decile
- standard deviation/variance
- coefficient of variation
- standard error
1**.數據的分佈範圍**
range,全距,數據的最大值減去最小值。
decile 十分位數,第1、第2…第9十分位數係指將所有的數據由小到大排列,取位於第10%、第20%…第90%的數字。
比如薪水的D1,第10%約為28萬;D9,第90%約為117萬。
source:https://earnings.dgbas.gov.tw/experience_sub_01.aspx
2.Standard deviation,SD
- varience,變異數,離均差平方和的平均值。(如果是母體的話,除以n;如果是樣本的話,除以n-1)
- standard deviation,標準差,變異數的平方根。標準差越大,代表數據與其平均值的差異越大,即數據的離散程度越大。
如何計算:Measures of spread: range, variance & standard deviation
3.coefficient of variation變異係數
Coefficient of variation=varience/mean,即變異數除以平均值。
變異數和標準差有單位的影響,比如身高和體重的單位不同,變異數和標準差也單位不同,不能互相比較。
也有基數的影響,比如蘋果今年股價為120-150,而GE股價為7-15,變異數和標準差之間也不能互相比較。所以引入變異係數來解決這個問題。
4.standard error of the mean,SEM,平均值標準誤差
衡量的是樣本的均值和母體的均值的差異程度。
standard error of the mean=樣本標準差/樣本個數的平方根。樣本個數越多,平均值標準誤差越小。此處的樣本個數是指從樣本中取多少來做平均值,如果從數量為1000個的樣本中取16個數值來平均,SEM即為標準差除以16的平方根。
5.標準差和平均值標準誤差的比較(SD和SEM比較)
標準差適用於樣本,衡量樣本中數據的分散程度。而平均值標準誤差作用在於用樣本的平均值來估計母體的平均值範圍。
比如我們研究股票的年收益,股票存在的歷史超過100年,未來也會存在很長一段時間。但是我們目前只有100年的數。
此處母體為股票的年收益(過去和未來),如果股票一直存在,這個母體裡的個體可以是無限的。
我們想知道母體的年收益的平均數,只能靠目前擁有的100年的樣本來推算。
假設我們把過去100年的年收益做個簡單的平均,這時n=100,平均值標準誤差為=標準差/100的平方根。
根據中央極限定理:母體中抽取樣本的平均值會呈現常態分佈。
所以可以根據常態分佈的特徵來歸納母體的平均值和樣本的平均值之間的範圍。
假設平均年收益為10%,平均值標準誤差為:2%,那:
68%的平均值在1個標準差範圍內,即12%-8%。
95%的平均值在2個標準差範圍內,即14%-6%。
99.99966%的平均值在6個標準差範圍內(管理學上的6 sigma)。
教學:
Standard Deviation and Standard Error of the Mean
Measures of symmetry 數據的對稱性
Skewness,偏度,衡量對稱性。
偏度為負表示絕大多數的值分佈於平均值的右側,偏度為正表示大多數的值位於平均值的左側。
了解偏度有利於幫我們判斷平均值是否具有參考價值。
正偏度,Mode<median<mean,右邊的尾巴長,就像平均年薪會被分佈很少的但是年薪很高的人拉高一樣。
負偏度,Mode>median>mean,左邊的尾巴長,均值被很多小數值拉低。
source:https://en.wikipedia.org/wiki/Skewness
舉例,計算SPY 1928-2020年的年收益率的Skewness為-0.47,偏度為負。
Measures of extremes
Kurtosis,峰度,或者尾態,尾態是衡量分佈有沒有極端值。
峰度高就意味著有很多大於或小於均值的極端差值,峰度越大,尾巴越厚。
Kurtosis的計算是參考常態分佈的。常態分佈的峰度為0。
Leptokurtic Distribution,厚尾分佈,峰度大於0,更有可能有極大值或極小值。
Platykurtic Distribution的峰度小於0,比較少有極端值。
舉例:計算SPY 1928-2020年的年收益率的Kurtosis為0.11,大於0,表示比較容易有極端值。
source:https://www.youtube.com/watch?v=-pb86fuZqr8
Excel計算:
可以使用Excel-Data-Descriptive Statistics 計算。
教學連接:Mean, Skewness, Kurtosis, and Confidence Intervals in Excel | Quick and Effective
eg:使用SPY500從1928年到現在的年收益率(不包含股息),excel自動計算的數據敘述。數據表格下載:
總結:
統計敘述就是用少數的幾個數字來概括所有的數據的特徵。對於一般人來說,知道什麼意思就可以了和怎麼用就可以了,計算可以靠Excel。
其他參考資料:
可汗學院的教學視頻: