數據分析 | 科學Online

Z-檢定、t-檢定

2016/05/11

Z-檢定、t-檢定 (Z-test,Student’s t-test)
國立臺灣大學農藝學系黃纕淇

一、前言

假設今天我們獲得一筆隨機樣本資料，且此樣本取自於未知來源的族群，該如何判斷此樣本是否來自於某一特定的族群？我們通常會用平均值和變異數來表示某一族群的特性，而本篇主要介紹樣本資料是否來自於某一特定平均值族群的檢定，在此會介紹當族群標準差 \(\sigma\) 已知的\(Z\)-檢定及當族群標準差 \(\sigma\) 未知的\(t\)-檢定。

繼續閱讀→

假設檢定

2016/04/29

尚無留言

假設檢定(Test of Hypothesis)
國立臺灣大學農藝學系副教授劉力瑜

某公司想了解在雞飼料中加入魚骨粉後，雞每月平均產蛋量是否高於原本餵食一般飼料的每月平均產蛋量 \(20\) 個，因此，以加入魚骨粉的飼料餵食 \(100\) 隻雞一段時間後，發現把魚骨粉加入飼料中餵食後，每隻雞每月平均產蛋量為 \(23\) 個。單純從數據來看，\(23 > 20\)，代表加入魚骨粉可提昇雞蛋產量嗎？其實不一定。

繼續閱讀→

F分布

2016/04/08

尚無留言

F分布 (F-distribution)
國立臺灣大學農藝所生物統計組碩士班顏芷筠

前言

變異數同質性 (homogeneity of variance) 是許多假說檢定法需要遵守的前提假設。舉例來說，為了檢定不同品牌的燈泡的使用壽命是否有顯著的差異，我們從賣場購滿 A、B、C 三種品牌的燈泡各五顆，並實際將所有燈泡點亮、記錄燈泡壽命小時數。這個試驗有三組獨立的樣本、樣本大小各為 \(5\)，分別取自 A、B、C 三種品牌的三個母體。我們希望可以從檢定過程中，了解三個品牌燈泡壽命小時數的母體平均數之間是否有顯著差異，常用的方法為變方分析，可是此方法有前提假設如下列三項：

繼續閱讀→

母體變異數v.s.樣本變異數

2016/03/11

有 3 則留言

母體變異數(\(\sigma^2\))v.s.樣本變異數(\(s^2\))
國立臺灣大學農藝學系吳博雅

一、前言

每當收集完一筆資料後，可能會非常零亂、複雜，很難看出該筆資料的特性，那我們又如何整理這些資料呢？常常會畫圖表示資料的分布情形，也會計算其平均數 (mean)、中位數 (median)、眾數 (mode)…等來看該筆資料的中心位置，同時，還會計算全距 (range)、變異數 (variance)…等，來看該筆資料的分散程度，如此一來，資料收集者可以簡單敘述該資料的特性，讓有興趣者可以快速了解，取得所需的資訊，而這類的數據分析可統稱為敘述統計學 (Descriptive Statistics)。

繼續閱讀→

從數學建模觀點看最「適配」直線(二)

2014/08/26

尚無留言

從數學建模觀點看最「適配」直線(二)
（The best fit straight line in the view of mathematical modeling）
國立臺灣師範大學數學所博士班黃俊瑋

連結：從數學建模觀點看最「適配」直線(一)

當我們觀察某組二維數據之散佈圖後，若發現這兩變數間呈現出正比趨勢，或具高度的直線相關時，自然會聯想到利用直線 \(y=\beta_0+\beta_1x\) 模型來適配這組二維數據。

假設這條理想的直線為 \(y=\beta_0+\beta_1x\)，數學上一般會利用最小平方法（least squares method）來探求此理想直線的參數 \(\beta_0\) 與 \(\beta_1\)。統計學裡，將每一筆資料 \((x_i,y_i)\) 的觀察值 \(y_i\) 與此直線的垂直差距稱為「殘差（residual）」，當然殘差平方越小，表示該筆資料與最佳直線的垂直距離也越小，即越接近該直線。

因此，直觀上我們不難想像，當一條直線能使得所有資料的殘差平方和越小，則此直線越「適配」這組資料，亦即適配度越佳（goodness of fit）。而所謂的最小平方法，本質上即是使得所有殘差之平方和最小時，所得之直線，此直線即為一般所謂的迴歸直線、最小平方直線或也被稱為最適配直線、最佳直線等。例如圖一當中的紅色直線即為這些數據的最適配直線，而藍色線段所示即當中某些資料 \(y_i\)的殘差。

繼續閱讀→

從數學建模觀點看最「適配」直線(一)

2014/08/26

尚無留言

從數學建模觀點看最「適配」直線(一)
（The best-fit straight line in the view of mathematical modeling）
國立臺灣師範大學數學所博士班黃俊瑋

二千年前，天文學家托勒密 (Ptolemy, c.90-c.168) 的地心說，以地球為中心建立了太陽依圓形軌道繞地球運轉的天體運動模型，更一般性地，他在《天文學大成》（Almagest）一書中闡述了天體的運動軌跡為大圓的數學模型。

到了十六世紀天文學家哥白尼 (Copernicus, 1473-1543) 則改成以太陽為中心，地以圓形軌道繞日運行，大大簡化了模型的複雜度（將托勒密理論中的均輪和周轉圓，從原本的77個化減化34個）。

再到十七世紀克卜勒 (Kepler, 1571-1630) 除了接受哥白尼的日心說之外，依據其老師弟谷 (Tycho Brahe, 1546-1601) 的大量觀測數據，進一步建立了地球以橢圓形軌道繞太陽運行的天體運動定律，而這樣的數學模型更為「簡潔」而且「漂亮」。上述大家耳熟能詳的例子，都是現實生活與天文學研究中的數學建模實例。

繼續閱讀→

標準差

2014/08/16

尚無留言

標準差 (Standard Deviation)
臺北市立和平高中黃俊瑋教師

給定一筆資料 \(x_1\)、\(x_2\)、\(\cdots\)、\(x_n\)，算術平均數 \(\mu=\frac{\sum_{i=1}^{n}x_i}{n}\) 一般用作為數據的代表值或衡量數據集中趨勢的統計量。雖然，算術平均數是數據重要代表值，但是可能發生下列情況：甲班與乙班某次數學考試的平均數皆為 \(50\) 分，但甲班同學的成績皆分佈在 \(40-60\) 分之間，而乙班約一半的學生都是 \(90\) 分以上，另一半學生都是個位數。這樣來看，這兩班的成績雖有相同的「中心」，即算術平均數，但它們整體的分散、分佈、變異情況大不相同。此時「\(50\) 分」這個數字之於兩班成績的意義以及可解釋數據的程度亦不同。

繼續閱讀→