數據分析

Z-檢定、t-檢定

Z-檢定、t-檢定 (Z-test,Student’s t-test)
國立臺灣大學農藝學系 黃纕淇

一、前言

假設今天我們獲得一筆隨機樣本資料,且此樣本取自於未知來源的族群,該如何判斷此樣本是否來自於某一特定的族群?我們通常會用平均值和變異數來表示某一族群的特性,而本篇主要介紹樣本資料是否來自於某一特定平均值族群的檢定,在此會介紹當族群標準差 \(\sigma\) 已知的\(Z\)-檢定及當族群標準差 \(\sigma\) 未知的\(t\)-檢定。

假設檢定

假設檢定(Test of Hypothesis)
國立臺灣大學農藝學系副教授 劉力瑜

某公司想了解在雞飼料中加入魚骨粉後,雞每月平均產蛋量是否高於原本餵食一般飼料的每月平均產蛋量 \(20\) 個,因此,以加入魚骨粉的飼料餵食 \(100\) 隻雞一段時間後,發現把魚骨粉加入飼料中餵食後,每隻雞每月平均產蛋量為 \(23\) 個。單純從數據來看,\(23 > 20\),代表加入魚骨粉可提昇雞蛋產量嗎?其實不一定。

F分布

F分布 (F-distribution)
國立臺灣大學農藝所生物統計組碩士班 顏芷筠

  • 前言

變異數同質性 (homogeneity of variance) 是許多假說檢定法需要遵守的前提假設。舉例來說,為了檢定不同品牌的燈泡的使用壽命是否有顯著的差異,我們從賣場購滿 A、B、C 三種品牌的燈泡各五顆,並實際將所有燈泡點亮、記錄燈泡壽命小時數。這個試驗有三組獨立的樣本、樣本大小各為 \(5\),分別取自 A、B、C 三種品牌的三個母體。我們希望可以從檢定過程中,了解三個品牌燈泡壽命小時數的母體平均數之間是否有顯著差異,常用的方法為變方分析,可是此方法有前提假設如下列三項:

母體變異數v.s.樣本變異數

母體變異數(\(\sigma^2\))v.s.樣本變異數(\(s^2\))
國立臺灣大學農藝學系 吳博雅

一、前言

每當收集完一筆資料後,可能會非常零亂、複雜,很難看出該筆資料的特性,那我們又如何整理這些資料呢?常常會畫圖表示資料的分布情形,也會計算其平均數 (mean)、中位數 (median)、眾數 (mode)…等來看該筆資料的中心位置,同時,還會計算全距 (range)、變異數 (variance)…等,來看該筆資料的分散程度,如此一來,資料收集者可以簡單敘述該資料的特性,讓有興趣者可以快速了解,取得所需的資訊,而這類的數據分析可統稱為敘述統計學 (Descriptive Statistics)。

從數學建模觀點看最「適配」直線(二)

 從數學建模觀點看最「適配」直線(二)
(The best fit straight line in the view of mathematical modeling)

國立臺灣師範大學數學所博士班黃俊瑋

連結:從數學建模觀點看最「適配」直線(一) 

當我們觀察某組二維數據之散佈圖後,若發現這兩變數間呈現出正比趨勢,或具高度的直線相關時,自然會聯想到利用直線 \(y=\beta_0+\beta_1x\) 模型來適配這組二維數據。

假設這條理想的直線為 \(y=\beta_0+\beta_1x\),數學上一般會利用最小平方法(least squares method)來探求此理想直線的參數 \(\beta_0\) 與 \(\beta_1\)。統計學裡,將每一筆資料 \((x_i,y_i)\) 的觀察值 \(y_i\) 與此直線的垂直差距稱為「殘差(residual)」,當然殘差平方越小,表示該筆資料與最佳直線的垂直距離也越小,即越接近該直線。

因此,直觀上我們不難想像,當一條直線能使得所有資料的殘差平方和越小,則此直線越「適配」這組資料,亦即適配度越佳(goodness of fit)。而所謂的最小平方法,本質上即是使得所有殘差之平方和最小時,所得之直線,此直線即為一般所謂的迴歸直線、最小平方直線或也被稱為最適配直線、最佳直線等。例如圖一當中的紅色直線即為這些數據的最適配直線,而藍色線段所示即當中某些資料 \(y_i\)的殘差。 

從數學建模觀點看最「適配」直線(一)

從數學建模觀點看最「適配」直線(一)
(The best-fit straight line in the view of mathematical modeling)

國立臺灣師範大學數學所博士班黃俊瑋

二千年前,天文學家托勒密 (Ptolemy, c.90-c.168) 的地心說,以地球為中心建立了太陽依圓形軌道繞地球運轉的天體運動模型,更一般性地,他在《天文學大成》(Almagest)一書中闡述了天體的運動軌跡為大圓的數學模型。

到了十六世紀天文學家哥白尼 (Copernicus, 1473-1543) 則改成以太陽為中心,地以圓形軌道繞日運行,大大簡化了模型的複雜度(將托勒密理論中的均輪和周轉圓,從原本的77個化減化34個)。

再到十七世紀克卜勒 (Kepler, 1571-1630) 除了接受哥白尼的日心說之外,依據其老師弟谷 (Tycho Brahe, 1546-1601) 的大量觀測數據,進一步建立了地球以橢圓形軌道繞太陽運行的天體運動定律,而這樣的數學模型更為「簡潔」而且「漂亮」。上述大家耳熟能詳的例子,都是現實生活與天文學研究中的數學建模實例。

標準差

標準差 (Standard Deviation)
臺北市立和平高中黃俊瑋教師

給定一筆資料 \(x_1\)、\(x_2\)、\(\cdots\)、\(x_n\),算術平均數 \(\mu=\frac{\sum_{i=1}^{n}x_i}{n}\) 一般用作為數據的代表值或衡量數據集中趨勢的統計量。雖然,算術平均數是數據重要代表值,但是可能發生下列情況:甲班與乙班某次數學考試的平均數皆為 \(50\) 分,但甲班同學的成績皆分佈在 \(40-60\) 分之間,而乙班約一半的學生都是 \(90\) 分以上,另一半學生都是個位數。這樣來看,這兩班的成績雖有相同的「中心」,即算術平均數,但它們整體的分散、分佈、變異情況大不相同。此時「\(50\) 分」這個數字之於兩班成績的意義以及可解釋數據的程度亦不同。

Pages