深度學習與天文影像一窺星系的形態與物理

2020 年 10 月 14 日2021 年 12 月 27 日 intern 形態, 星系, 電腦視覺

分享至

撰文 / Balboa Crenshaw （現職為數據科學家）

星系的形態

也許對機器學習有初步認識的你，知道深度學習常常被用於圖像分辨，舉凡如人臉、物件，甚至是指紋等分析。在最近幾年，天文學家也順水推舟，將其應用在天文影像的分析與分類。當中最著名、最廣泛的應用，莫過於星系形態（Morphology）的分類！

也許你對星系的「形態」這個詞感到陌生，但是這門學問其實就是研究星系的「形狀」（shape）。就像人有高矮胖瘦，星系也有各式各樣的形態，就像圖一這張「哈伯音叉圖」（Hubble tuning-fork diagram）：

圖一、哈伯音叉星系分類圖（圖片來源：NASA & ESA）

上圖最左邊，代表形狀偏向圓與橢圓的「橢圓星系」（Ellipticals）；右邊則是形狀與我們銀河系相近的「螺旋星系」（Spirals）；而螺旋星系又可以分為一般的螺旋星系，與中心有棒狀系統的「棒旋星系」（Bar-spiral）。把這三個大分支畫在一起，就像一個音叉一般，所以有了「音叉圖」這個稱號。

這個音叉圖星系分類法，是由天文學家Edwin Hubble所提出，已有百年歷史。隨著科學知識的進展，更複雜與更符合物理事實的星系形態分類也相繼被提出，不過基於篇幅，這裡就暫時不去討論更多細節。然而要注意的是：一個世紀以前，在機器學習與大數據分析誕生之前，甚至連電腦都還沒出現的時候，天文學家，尤其是那些研究星系天文物理的人，就已經著手對星系進行分析與分類（classification），並且完全靠著他們的肉眼！

20世紀中期之後，隨著大型天文望遠鏡的誕生，星系影像也大量產生，星系形態之間的界線也越來越模糊，天文學家意識到也許需要電腦的輔助。終於，大數據分析、深度學習與人工神經網路幫了星系天文學家一個大忙。2015年，一群天文學家將深度學習技術運用在星系形態的分類上。約五萬個星系，圖二只是他們所得到的一部分結果。由上而下，每一行分別是：橢圓、螺旋、橢圓與螺旋混合形、不規則螺旋與不規則形星系，各有不同的形態，你分辨的出來嗎？

圖二、運用深度學習進行星系形態分類的結果（圖片來源：M. Huertas-Company et al., 2015.）

值得一提的是，這些星系影像正是由大名鼎鼎的哈伯太空望遠鏡（Hubble Space Telescope）所拍攝，就在同一個Hubble提出音叉分類圖的一個世紀之後。

背後的物理

星系的形態固然重要，但天文學家更在乎背後的「物理」：哪些星系比較活躍？哪些星系聚集了較多的星星？哪些星系在宇宙早期就生成了？這些問題也許比「哪些星系是橢圓形」還來的重要。於是就在最近，天文學家又開始為「星系的物理」進行分類。

要為星系的物理進行分類，最直覺的方式就是以該星系所處的演化階段為依據。簡單來說，我們可以依據星系的影像，來分辨該星系目前正經歷其生命中的哪一個「階段」。當然，關於星系的演化，各類學說目前可說是百家爭鳴；這裡要介紹的，是在星系生成的過程中，一段稱作「藍塊」（Blue nugget，BN）的階段。在這個階段，星系的中心有大量恆星生成，溫度相當高，顏色也因此偏藍。

懂了關於「藍塊」的物理，就可以開始設計機器學習的模型了。天文學家模擬出35個虛擬星系，並將每個星系不同時期、不同觀測角度的影像集合起來，共約五萬張「人工星系影像」。因為是人工模擬出的影像，所以每一個都有相對應的「標記」（label），分別是：「前藍塊階段」（Pre-BN）、「藍塊階段」（BN）與「後藍塊階段」（Post-BN）（如圖三）。這五萬張帶有標記的影像，便是後續機器學習時所使用的「訓練集」（Training set）。

圖三、訓練集中的12張人工星系影像。上、中、下行分別為標記「前藍塊階段」（Pre-BN）、「藍塊階段」（BN）與「後藍塊階段」（Post-BN）三個階段（分類）。你看得出來這些都是人工模擬產生的星系嗎？你分辨得出三種分類的影像有什麼不同嗎？（圖片來源：M. Huertas-Company et al., 2018.）

天文學家所使用的模型是「卷積神經網路」（Convolutional neural network，CNN），這是一種屬於深度學習的人工神經網路。如圖四所示，CNN的輸入端是星系的影像，影像資訊接著在三層的「卷積層」（Convolutional layers）中進行運算，最後得到最佳的分類。

圖四、用以進行星系影像物理分類的CNN模型。（圖片來源：M. Huertas-Company et al., 2018.）

就算肉眼實在難以分辨圖三的影像之間到底有哪些不同，但卻難逃電眼──CNN模型的正確率高達80%。

在天文學的挑戰

在天文資訊與影像爆發的年代，深度學習無疑能夠幫助天文學家更有效率地運用這些資源，並了解影像背後的物理，但眼前的挑戰也不小。例如：天文影像通常是遙遠、微弱的星光，影像中的「雜訊」不可不防，若未妥善處理則會大大影響機器學習的效率與準確度；此外，天文觀測所使用的波段不一，如何整合這些不同波段的影像十分重要。當然，模型所表現出的誤差與不確定性，也不排除有更深層的原因，隱含了更多人類未知的物理。

參考資料

“The Hubble tuning fork – classification of galaxies“, spacetelescope.org, 2020.
M. Huertas-Company et al., “Catalog of Visual-like Morphologies in the 5 CANDELS Fields using Deep Learning”, The Astrophysical Journal Supplement Series, vol. 221, no. 1, p. 8, 2015.
M. Huertas-Company et al., “Deep Learning Identifies High-z Galaxies in a Central Blue Nugget Phase in a Characteristic Mass Range”, The Astrophysical Journal, vol. 858, no. 2, p. 114, 2018

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

Facebook Twitter Line Email 分享

(Visited 244 times, 1 visits today)

分享至

views