跳到主要內容區

電訪實作與母體機率分配估計 - 台灣大學數學系 朱雅琪

banner

課程介紹

這門課所討論的主軸是:如何用蒐集到的樣本去估計母體(Population)之機率分佈(Probability Distribution)中的參數(Parameter)!一般來說,統計理論假設所蒐集到的樣本來自一個龐大而無法被完整探索的母群體,而母群體服從(follow)一個帶有(未知)參數的機率分佈。如何從樣本去估計母體機率分佈中的參數是統計上重要的問題之一,這門課主要就是在回答這個問題。

課程主要分成理論與實作兩個部分。理論的部分是使用佩芳老師自己編製的講義上課。首先介紹樣本空間、事件、條件機率、獨立性、期望值與變異數以及其計算方式與運算原則,而後講解隨機變數及其機率分佈的概念,介紹常見的離散型隨機變數(discrete random variable)以及其機率分佈,比如卜瓦松分佈(Poisson distribution)、幾何分佈(geometric distribution)等。其他還有常見的連續型隨機變數(continuous random variable) 及其機率分佈,例如指數分配(exponential distribution)、伽瑪分配(Gamma distribution)、常態分配(normal distribution)等。最後,則是回答主要問題,介紹最常見的參數估計方法----最大概似估計法(maximum likelihood estimation, MLE)。

在實作的部分,第一天的課堂上,全班被帶到成大統計系的電話訪問中心進行資料蒐集。我們使用蘇老師設計的問卷,自己打電話蒐集資料,而後利用程式語言R去估計母體背後的參數,把學到的理論用程式去加以實踐。R語言的部份老師一開始會先利用一個小時左右的課堂時間簡單起個頭,接著課堂中會穿插練習使用R語言來驗證理論,也提供額外的R語言講義讓我們自學。除此之外,蘇老師也希望我們針對蒐集到的資料來嘗試資料分析,作為最後一天上台報告的主題。報告是採分組進行的方式,各組針對蒐集到的資料,決定想要探討的幾個議題,而後一樣利用R語言進行資料分析。原則上,老師中間三天的課堂最後都會提供半小時到一小時的時間供各組討論,但各組通常需要花課堂外的時間進行額外的討論以完成報告。

課程評量方面,五天的課程裡面一共有三份作業、一個分組報告,按照模組化課程的規定,會有出席分數。

修課心得

我覺得這門課程對我的影響最大的是實作部份。我大學部念的是台大數學系,本來就學過一些統計相關的課程,但從來都只是用紙筆推導一些理論、算一些「課本例題」,完全沒想過理論中或是課本上的資料要如何取得,更不用說體驗資料取得的困難。透過這次自己打電話蒐集資料,才知道以前只考慮理論的時候,都把資料蒐集想像得太過容易。但現實狀況與想像卻是天差地遠。在這次電訪中,我一共撥出80通左右的電話,但只成功訪問到5位民眾,而且這當中有4位都是老人家,因為白天大家都出門上班,幾乎都沒有中年人會接電話。另外,有一通電話非常可惜,接電話是一位年輕媽媽,雖然不算樂意,但願意接受訪問。可惜訪問到一半,電話中傳來小孩子的哭聲,這位媽媽必須要去安撫她的孩子,訪問只好中斷,因此這次的訪問就不是一筆可以使用的資料。這些經驗才讓我意識到原來資料蒐集過程裡面會有許多的問題產生:可能是回收的資料量很低,可能是資料的來源集中在某族群的受訪者造成偏差(bias),也可能是資料蒐集過程中會有突發狀況等等。

除了蒐集資料的部分,資料分析的過程也讓我反思到:「即使數據是客觀的,但除了數字以外,任何對於數據的文字描述都是主觀的」。在做報告的過程裡面,我總是在想要怎麼評論所蒐集的數據才會相對客觀,也在思考自己要如何把數據的解釋「貼切」的表達出來。除了資料分析者(我們)想法上所造成的偏差外,資料分析者用來解釋數據的文字也很有可能造成誤差,而這當中包含了作者的文字表達以及讀者對文字的理解所造成的失真。平常自己在看報導,方便起見都還是會習慣直接看作者對於數據的解讀或是所下的結論,特別是當文字的描述乍看合理時,就很容易以為是事實,卻忘記這其實還只是一種主觀的角度。這提醒了我對事情的判讀、評論要更加小心,同時也讓我意識到對於不一樣的觀點要更加有耐心去理解並尊重,因為沒有誰比較客觀的差別。

總體來說,這門課實作部分的經驗,以及隨後帶給我的思考是我最大的收穫。

關鍵字 #成大模組化 #電話訪問 #R程式語言 #偏差bias #機率

link

瀏覽數: