Z-檢定、t-檢定
Z-檢定、t-檢定 (Z-test,Student’s t-test)
國立臺灣大學農藝學系 黃纕淇
一、前言
假設今天我們獲得一筆隨機樣本資料,且此樣本取自於未知來源的族群,該如何判斷此樣本是否來自於某一特定的族群?我們通常會用平均值和變異數來表示某一族群的特性,而本篇主要介紹樣本資料是否來自於某一特定平均值族群的檢定,在此會介紹當族群標準差 \(\sigma\) 已知的\(Z\)-檢定及當族群標準差 \(\sigma\) 未知的\(t\)-檢定。
母體變異數(\(\sigma^2\))v.s.樣本變異數(\(s^2\))
國立臺灣大學農藝學系 吳博雅
一、前言
每當收集完一筆資料後,可能會非常零亂、複雜,很難看出該筆資料的特性,那我們又如何整理這些資料呢?常常會畫圖表示資料的分布情形,也會計算其平均數 (mean)、中位數 (median)、眾數 (mode)…等來看該筆資料的中心位置,同時,還會計算全距 (range)、變異數 (variance)…等,來看該筆資料的分散程度,如此一來,資料收集者可以簡單敘述該資料的特性,讓有興趣者可以快速了解,取得所需的資訊,而這類的數據分析可統稱為敘述統計學 (Descriptive Statistics)。
從數學建模觀點看最「適配」直線(二)
(The best fit straight line in the view of mathematical modeling)
國立臺灣師範大學數學所博士班黃俊瑋
當我們觀察某組二維數據之散佈圖後,若發現這兩變數間呈現出正比趨勢,或具高度的直線相關時,自然會聯想到利用直線 \(y=\beta_0+\beta_1x\) 模型來適配這組二維數據。
假設這條理想的直線為 \(y=\beta_0+\beta_1x\),數學上一般會利用最小平方法(least squares method)來探求此理想直線的參數 \(\beta_0\) 與 \(\beta_1\)。統計學裡,將每一筆資料 \((x_i,y_i)\) 的觀察值 \(y_i\) 與此直線的垂直差距稱為「殘差(residual)」,當然殘差平方越小,表示該筆資料與最佳直線的垂直距離也越小,即越接近該直線。
因此,直觀上我們不難想像,當一條直線能使得所有資料的殘差平方和越小,則此直線越「適配」這組資料,亦即適配度越佳(goodness of fit)。而所謂的最小平方法,本質上即是使得所有殘差之平方和最小時,所得之直線,此直線即為一般所謂的迴歸直線、最小平方直線或也被稱為最適配直線、最佳直線等。例如圖一當中的紅色直線即為這些數據的最適配直線,而藍色線段所示即當中某些資料 \(y_i\)的殘差。
從數學建模觀點看最「適配」直線(一)
(The best-fit straight line in the view of mathematical modeling)
國立臺灣師範大學數學所博士班黃俊瑋
二千年前,天文學家托勒密 (Ptolemy, c.90-c.168) 的地心說,以地球為中心建立了太陽依圓形軌道繞地球運轉的天體運動模型,更一般性地,他在《天文學大成》(Almagest)一書中闡述了天體的運動軌跡為大圓的數學模型。
到了十六世紀天文學家哥白尼 (Copernicus, 1473-1543) 則改成以太陽為中心,地以圓形軌道繞日運行,大大簡化了模型的複雜度(將托勒密理論中的均輪和周轉圓,從原本的77個化減化34個)。
再到十七世紀克卜勒 (Kepler, 1571-1630) 除了接受哥白尼的日心說之外,依據其老師弟谷 (Tycho Brahe, 1546-1601) 的大量觀測數據,進一步建立了地球以橢圓形軌道繞太陽運行的天體運動定律,而這樣的數學模型更為「簡潔」而且「漂亮」。上述大家耳熟能詳的例子,都是現實生活與天文學研究中的數學建模實例。
標準差 (Standard Deviation)
臺北市立和平高中黃俊瑋教師
給定一筆資料 \(x_1\)、\(x_2\)、\(\cdots\)、\(x_n\),算術平均數 \(\mu=\frac{\sum_{i=1}^{n}x_i}{n}\) 一般用作為數據的代表值或衡量數據集中趨勢的統計量。雖然,算術平均數是數據重要代表值,但是可能發生下列情況:甲班與乙班某次數學考試的平均數皆為 \(50\) 分,但甲班同學的成績皆分佈在 \(40-60\) 分之間,而乙班約一半的學生都是 \(90\) 分以上,另一半學生都是個位數。這樣來看,這兩班的成績雖有相同的「中心」,即算術平均數,但它們整體的分散、分佈、變異情況大不相同。此時「\(50\) 分」這個數字之於兩班成績的意義以及可解釋數據的程度亦不同。