從數學建模觀點看最「適配」直線(二)
從數學建模觀點看最「適配」直線(二)
(The best fit straight line in the view of mathematical modeling)
國立臺灣師範大學數學所博士班黃俊瑋
當我們觀察某組二維數據之散佈圖後,若發現這兩變數間呈現出正比趨勢,或具高度的直線相關時,自然會聯想到利用直線 \(y=\beta_0+\beta_1x\) 模型來適配這組二維數據。
假設這條理想的直線為 \(y=\beta_0+\beta_1x\),數學上一般會利用最小平方法(least squares method)來探求此理想直線的參數 \(\beta_0\) 與 \(\beta_1\)。統計學裡,將每一筆資料 \((x_i,y_i)\) 的觀察值 \(y_i\) 與此直線的垂直差距稱為「殘差(residual)」,當然殘差平方越小,表示該筆資料與最佳直線的垂直距離也越小,即越接近該直線。
因此,直觀上我們不難想像,當一條直線能使得所有資料的殘差平方和越小,則此直線越「適配」這組資料,亦即適配度越佳(goodness of fit)。而所謂的最小平方法,本質上即是使得所有殘差之平方和最小時,所得之直線,此直線即為一般所謂的迴歸直線、最小平方直線或也被稱為最適配直線、最佳直線等。例如圖一當中的紅色直線即為這些數據的最適配直線,而藍色線段所示即當中某些資料 \(y_i\)的殘差。

