用機器學習技術開發美國空軍飛行員的決策支援系統

2024 年 07 月 10 日2024 年 07 月 09 日 CASE PRESS SHAP值, 共型預測, 可解釋人工智慧, 高斯貝式網路

分享至

近年來隨著疫情的衝擊，一些航空公司為了因應航班取消所帶來的虧損，進行了相關的人事調整，但隨著疫情的收束，人才需求又成了迫切的議題。隨之而來議題，也讓民間的航空企業和軍方的空軍需求形成了拉鋸關係，如何確保飛行員等相關航空人員的配置，又能因應時代需求，正考驗整體航空事業。

撰文｜王冠云

空軍的嚴格標準與機師培訓

根據波音與空中巴士等飛機製造商的研究報告，未來航空業的市場仍然會增長，不只是人們以飛機來進行移動的需求增加，發達的電子商務物流也有增加對於空運的需求。長期而言，未來20年將增加約65萬名的飛行員。

在航空業缺人才的情況下，美國空軍更加面臨著飛行員短缺的嚴峻狀況。美國空軍 (United States Air Force, USAF) 參謀長David Goldfein表示，要減輕飛行員短缺帶來的衝擊，加速訓練過程、擴大招募範圍、留用合適人才、減少培訓耗損等方法，都是可以執行的策略。

Wasilefsky等人 (2024) 發表於《Decision Support System》（決策支援系統）期刊的文章，為了減少飛行員培訓時所耗損的人力，開發了一套決策支援系統，藉由機器學習的輔助，讓系統能推薦具有競爭力和潛力的飛行人才。同時，作為軍方使用的系統，該系統必須滿足五大原則：明確的權責歸屬、公平、可追蹤、可信賴、可治理。然而，機器學習模型可能因為背後進行了過於複雜的計算，讓人腦難以直觀解釋模型的數學式，因此被視為「黑盒子」，但這樣的模型就違背了軍方系統所應該遵循的原則。不過，Wasilefsky等人 (2024) 為了突破這個盲點，使用SHAP值和共型預測 (conformal prediction) 來解釋模型，用來估計每個特徵量對於預測結果的效果量，以及使用更透明且容易處理的方式來預測不確定性，並且給予預測量的區間值。

成為空軍飛行員之前的層層考驗與模型訓練

要成為空軍飛行員的一員，必須要經過層層的訓練課程及考核之後，才有可能正式加入飛官的行列。整個過程的進行相當耗時，Wasilefsky等人 (2024) 所開發的決策支援系統，網羅了2010年到2018年過往美國空軍的資料來進行模型的訓練與調校。

在進行模型訓練的時候前，研究者使用了共型預測 (conformal prediction) 的手法來進行資料數據的分割。Wasilefsky等人 (2024) 將資料分為三個資料集，資料集一和資料集二是訓練集，而資料集一主要用來進型特徵量選擇的訓練，資料集二則是用以測試模型表現，資料集三則是校正用資料集，最後用以建立共型分數 (conformity score)。在研究者的算式假設中，共型分數可視為誤差項，越小代表越具有一致性。

資料收集部分，Wasilefsky等人 (2024) 收集的特徵量來源包含學術GPA分數、飛行時數、PCSM考試分數、TBAS分數、AFOQT分數等，其中也包含了性格測試分數，並且考量了其他人口統計變項，如性別、種族、教育程度等等。在眾多的訓練特徵量中，使用Boruta技術，將特徵量收斂，並且進行模型的訓練。而根據Boruta所篩選出來的特徵重要度，PCSM分數、AFOQT分數以及飛行時數是較為重要的特徵量。

美國空軍飛行員選拔及訓練流程｜來源：Wasilefsky et al., 2024。中文為本文作者參考常用用法翻譯，非美國國防官方認證中文翻譯

模型訓練方面，Wasilefsky等人 (2024) 分為兩個方向，其中之一是使用貝式網路 (Bayesian network) 來進行計算，這種模型的特色在於以條件機率來評估預測目標。而根據前一段提到的特徵量選取結果，在計算線性高斯貝式網路 (Linear Gaussian Bayesian Network, L-GBN) 的時候，也以Boruta所表示的各個特徵量的重要度來進行模型觀察變項的選擇，主要分成兩個層面，一個是以測驗成績為基準，一個是以專家意見為基準。最後，模型計算的結果顯示，以專家意見為基礎來選擇的特徵量，所計算出來的模型誤差較低，顯現了如何確保考核委員會的專家委員們的專業度與公平判斷，是相當重要的。

另一方面，模型訓練還使用了各個常用的機器學習模型，包含XGBoost、多層感知器 (multi-layer perceptron, MLP)、支持向量回歸 (support vector regression, SVR)、隨機森林 (Random Forest)、CatBoost、LightGBM等。結果顯示，SVR模型的誤差最小，因此，也使用了SVR模型來進行SHAP值的運算，以便求得各個特徵量在模型運算時的重要度。以解釋性而言，最具有影響力的前四個特徵量分別是PCSM分數、USAFA的出身背景、飛行時數以及學業GPA成績。值得注意的是，從USAFA出身的訓練生更具有潛質，而隨著飛行時數的累積，正向的影響越大，若是飛行時數低，甚至會帶來些微負面影響。

決策支援系統的可行性

有了以上模型計算的基礎，Wasilefsky等人 (2024) 試著建立了一個使用者介面，整合成了空軍飛行員申請者選擇系統 (Air Force Pilot Applicant Selection System, AF-PASS)，而這個決策支援系統，目標是設計給最後一道關卡，專業飛行員訓練 (SUPT) 委員會的委員使用。

不過，雖然研究者以美國國防部的系統標準初步開發了這個決策支援系統，但是其中用來解釋的數學式以及圖表，仍然必須經過一定程度的教育訓練後，才容易使人閱讀，依舊不夠直觀。此外，SUPT往往必須服膺於美國空軍的需求，目前的模型雖然根據過往八年的資料進行訓練，但每年仍然有一定程度的策略更新，使得人才的需求有些微不同的變化。

Wasilefsky等人 (2024) 在論文末尾也表示，目前開發的系統仍然不能取代人才選拔的流程，但是，即使只是作為國防部內的個人用途，目前設計出的架構仍然非常有幫助。例如，可以協助SUPT委員會在進行判斷時部分的討論依據。而除了空軍以外，其他領域若是要設計具有可解釋性的AI工具，也很有參考價值。

參考文獻

(Visited 300 times, 1 visits today)

分享至