《如何閱讀一本書》裡提到要先掌握一本書的大體框架,再一個一個的研究每個章節的內容。Learning How to Learn裡提到可以使用自上而下top-down和自下而上(bottom-up)相結合的學習方法,這樣知識的組塊(chunk)更好。

學習一個知識先掌握整體的架構,就好像在頭腦中先形成一個大的拼圖框架,然後在具體學習每個細節,像是具體的拼拼圖的每個部分。這樣完成的知識拼圖記得最牢,日後也最方便提取使用。

好的老師知道怎麼教學生可以讓學習效果最好。達摩德仁教授就是使用這樣的方法,先是給一個大的框架,讓我們頭腦裡有個概念。然後在具體的每個部分詳細說明,填充每個細節知識。

前篇文章 學統計1:為什麼要學一點點統計學 提到了我的學習目的和學習方法,這篇文章進入正題,跟隨老師學習統計學的六大組成內容。

統計學是研究Data的科學,從收集數據到分析數據到處理數據,目的從數據中提煉出有用的信息,幫助個人和決策者在面對不確定性的時候做出決策。

比如想去從沒去過的餐廳吃飯,但不確定這個餐廳值不值得去,會先研究下這個餐廳的評分,如果看到一堆數據表示餐廳有4分以上,我們選擇去,這時候統計就是幫我們處理不確定性並讓我們做決策。但是不保證這個決策就是一定是對的,有可能去了之後發現餐廳的評分灌水,因為是通過送東西吸引顧客給予5分評價。衛福部每年也會研究很久流感病毒株的數據,最終選擇將某幾種病毒株加入疫苗,但是有些年事後卻發現選錯了。

統計學包含:

  • 收集數據。因為數據太多,需要使用Sampling(抽樣)。
  • 敘述數據。歸納數據的特徵,比如中位數、平均數和標準差等等。
  • 圖形化數據。使用圖表和分佈圖來使統計結果變成圖形,使得數據可視化。
  • 數據相關性。比如可以使用Regression(回顧分析)檢驗兩個數據的相關係數。
  • 預測未來發生的概率。如果真的有相關性,可以利用相關性預測未來。
  • 預測工具。比如決策樹和蒙特卡羅模擬。

Data數據的類型:

  • Quantitative Data,可以量化的數據,比如次數/人數/身高/價格等等

  • Qualitative Data,不能量化的數據,比如疼痛指數/推薦指數,為了方便統計,常常使用0-10來量化。

  • Discrete Data,數據只能取一定的數值(不必是整數),比如考試分數/鞋子的尺碼等

  • Continuous Data,數據是連續性的,可以取任何的數值,比如身高/體重/溫度/長度等

統計學主要內容:

1.收集數據-sampling

統計學對於數據研究的第一步是:收集數據。

統計的關鍵在於如何抽樣,抽樣的好不好影響統計的結果。

收集數據有下面兩個關鍵詞:

  • Population,研究對象的母體。比如民調的總體應該是全體擁有投票權的國民。
  • Sample,抽取一部分樣本來代表總體。抽取的樣本數常常是1000個人。

統計中因為時間/成本/工作量等等關係,常常會抽取一個樣本數來概括總體的特徵。比如用1000人的樣本來概括所有國民的民調,用500個大公司的樣本來推估所有公司在2020年的營運情況。

因為抽樣不好會產生下面兩個問題:

  • Bias,偏見,統計的偏見來自於樣本本身/數據的分析者/數據的擁有者。比如化妝品公司在DM上會宣傳某產品的測試功效,其實樣本是公司挑選的,數據是公司負責分析的,數據和統計結果也是公司擁有的,這樣就難免偏見,這樣的統計想要什麼結果就可以做成什麼結果。
  • Nosie,雜訊,用樣本數來推舉整體的特徵難免有雜訊產生,有錯誤存在。比如之前的大選民調,有一個候選人故意讓其支持者在接到民調時不要回覆選擇支持誰。這樣的結果必然有雜訊。

不僅做統計的人要要意識到統計的偏見和雜訊,我們日常中面對統計結果的時候,也要考慮到這個結果是有可能帶有偏見和雜訊的。

2.描述數據

一組數據可以非常巨大難以一個一個描述,所以統計會總結數據的特徵來方便我們理解數據。有如下幾種方法:

  • Measures of location,一個數據在數據組中的位置,最主要是平均數(mean)/中位數(medium)/眾數(mode)。
  • Measures of dispersion,數據的離散程度,主要有標準差/方差/變異係數/四分位距。
  • Measures of skewness,數據的偏度,數據的分佈是偏平均值的左邊還是右邊,偏度可以為正或負或無法定義。

source:https://zh.wikipedia.org/wiki/偏度

3.圖型化數據分佈-histogram/distribution

可以用直方圖來使得數據更加的可視化,畢竟我們人類的大腦對圖形更有概念。

source:https://zh.wikipedia.org/wiki/直方图

如果數據符合某一種分佈型態,還可以做成分佈圖,這樣就可以直接利用此種分佈的各種特徵。

比如最有名的分佈就是常態分佈。

source:https://zh.wikipedia.org/wiki/正态分布

數據分佈包含:

  • Discrete distribution,只能取一定數值的分佈,比如直方圖。

  • Continuous distribution,可以取任何數值的分佈,比如線型圖。

  • Symmetric distribution,對稱分佈,多數分佈集中在中線附近,兩邊對稱,常態分佈就是一種對稱分佈。

  • Asymmetric distribution,不對稱分佈。

4.數據相關性

有時會研究不同的兩個變量或者多個變量之間的是否具有相關性。

  • 單純紀錄,只是研究並紀錄變量之間是否正相關、負相關或沒有相關性。比如研究股票價格和利率是否一起移動,利率漲股票價格是漲還是跌。
  • 研究因果關係,研究變量之間是否具有因果關係,是A變量的改變導致B變量的改變還是B變量的改變導致A變量的改變。如果發現利率漲股票價格會跌,可以研究是否具有因果關係,是利率上漲導致股票價格跌呢?還是股票價格跌導致利率上漲?
  • 利用因果關係預測,如果具有因果關係,就可以用來預測。如果研究利率上漲會導致股票價格下跌,那麼就可以根據未來可能的利率走勢預測股價的漲跌。

5.預測發生的概率

概率描述的是事件發生的可能性,是統計學和數據分析裡最重要的內容。

事件發生的可能性包括:

  • Discrete event,比如預測公司是否會破產,還是會繼續存活下去。
  • Continuous variable,比如公司的盈利能否超過1億美金。

可以通過下列因素預測事件未來發生的可能性:

  • 通過歷史數據預測。
  • 通過變量的分佈預測結果的分佈。比如估計成長率從5%到20%不等,營業利潤率介於10%到20%之間,預測股價的分佈。

6.預測工具

主要有以下的預測工具:

Probit/Logit,多元概率比回歸模型/邏輯回歸模型。

Decision Trees,決策樹理論。

Monte Carlo Simulations,蒙特卡羅模擬。

總結:

統計就是收集數據、處理數據並得出結論,根據結論處理我們遇到的不確定性,做出決策。雖然依據統計做出的決策不見得完全正確,但是應該也比瞎猜好。

本文是為了掌握整體的架構,接下來會一個部分一個部分具體的學習。

其他相關資料:

全部的統計課程:Statistics - A Full University Course on Data Science Basics

注:本站所有學習達摩德仁教授課程的心得文章均已獲達摩德仁教授授權。