深度學習與天文影像 一窺星系的形態與物理

深度學習與天文影像 一窺星系的形態與物理

撰文 / Balboa Crenshaw (現職為數據科學家)

星系的形態

也許對機器學習有初步認識的你,知道深度學習常常被用於圖像分辨,舉凡如人臉、物件,甚至是指紋等分析。在最近幾年,天文學家也順水推舟,將其應用在天文影像的分析與分類。當中最著名、最廣泛的應用,莫過於星系形態(Morphology) 的分類!

也許你對星系的「形態」這個詞感到陌生,但是這門學問其實就是研究星系的「形狀」(shape)。就像人有高矮胖瘦,星系也有各式各樣的形態,就像圖一這張「哈伯音叉圖」(Hubble tuning-fork diagram):

圖一、哈伯音叉星系分類圖(圖片來源:NASA & ESA)

上圖最左邊,代表形狀偏向圓與橢圓的「橢圓星系」(Ellipticals);右邊則是形狀與我們銀河系相近的「螺旋星系」(Spirals);而螺旋星系又可以分為一般的螺旋星系,與中心有棒狀系統的「棒旋星系」(Bar-spiral)。把這三個大分支畫在一起,就像一個音叉一般,所以有了「音叉圖」這個稱號。

這個音叉圖星系分類法,是由天文學家Edwin Hubble所提出,已有百年歷史。隨著科學知識的進展,更複雜與更符合物理事實的星系形態分類也相繼被提出,不過基於篇幅,這裡就暫時不去討論更多細節。然而要注意的是:一個世紀以前,在機器學習與大數據分析誕生之前,甚至連電腦都還沒出現的時候,天文學家,尤其是那些研究星系天文物理的人,就已經著手對星系進行分析與分類(classification),並且完全靠著他們的肉眼!

20世紀中期之後,隨著大型天文望遠鏡的誕生,星系影像也大量產生,星系形態之間的界線也越來越模糊,天文學家意識到也許需要電腦的輔助。終於,大數據分析、深度學習與人工神經網路幫了星系天文學家一個大忙。2015年,一群天文學家將深度學習技術運用在星系形態的分類上。約五萬個星系,圖二只是他們所得到的一部分結果。由上而下,每一行分別是:橢圓、螺旋、橢圓與螺旋混合形、不規則螺旋與不規則形星系,各有不同的形態,你分辨的出來嗎?

圖二、運用深度學習進行星系形態分類的結果(圖片來源:M. Huertas-Company et al., 2015.)

值得一提的是,這些星系影像正是由大名鼎鼎的哈伯太空望遠鏡(Hubble Space Telescope)所拍攝,就在同一個Hubble提出音叉分類圖的一個世紀之後。

背後的物理

星系的形態固然重要,但天文學家更在乎背後的「物理」:哪些星系比較活躍?哪些星系聚集了較多的星星?哪些星系在宇宙早期就生成了?這些問題也許比「哪些星系是橢圓形」還來的重要。於是就在最近,天文學家又開始為「星系的物理」進行分類。

要為星系的物理進行分類,最直覺的方式就是以該星系所處的演化階段為依據。簡單來說,我們可以依據星系的影像,來分辨該星系目前正經歷其生命中的哪一個「階段」。當然,關於星系的演化,各類學說目前可說是百家爭鳴;這裡要介紹的,是在星系生成的過程中,一段稱作「藍塊」(Blue nugget,BN) 的階段。在這個階段,星系的中心有大量恆星生成,溫度相當高,顏色也因此偏藍。

懂了關於「藍塊」的物理,就可以開始設計機器學習的模型了。天文學家模擬出35個虛擬星系,並將每個星系不同時期、不同觀測角度的影像集合起來,共約五萬張「人工星系影像」。因為是人工模擬出的影像,所以每一個都有相對應的「標記」(label),分別是:「前藍塊階段」(Pre-BN)、「藍塊階段」(BN) 與「後藍塊階段」(Post-BN)(如圖三)。這五萬張帶有標記的影像,便是後續機器學習時所使用的「訓練集」(Training set)。

圖三、訓練集中的12張人工星系影像。上、中、下行分別為標記「前藍塊階段」(Pre-BN)、「藍塊階段」(BN) 與「後藍塊階段」(Post-BN)三個階段(分類)。你看得出來這些都是人工模擬產生的星系嗎?你分辨得出三種分類的影像有什麼不同嗎?(圖片來源:M. Huertas-Company et al., 2018.)

天文學家所使用的模型是「卷積神經網路」(Convolutional neural network,CNN),這是一種屬於深度學習的人工神經網路。如圖四所示,CNN的輸入端是星系的影像,影像資訊接著在三層的「卷積層」(Convolutional layers)中進行運算,最後得到最佳的分類。

圖四、用以進行星系影像物理分類的CNN模型。(圖片來源:M. Huertas-Company et al., 2018.)

就算肉眼實在難以分辨圖三的影像之間到底有哪些不同,但卻難逃電眼──CNN模型的正確率高達80%。

在天文學的挑戰

在天文資訊與影像爆發的年代,深度學習無疑能夠幫助天文學家更有效率地運用這些資源,並了解影像背後的物理,但眼前的挑戰也不小。例如:天文影像通常是遙遠、微弱的星光,影像中的「雜訊」不可不防,若未妥善處理則會大大影響機器學習的效率與準確度;此外,天文觀測所使用的波段不一,如何整合這些不同波段的影像十分重要。當然,模型所表現出的誤差與不確定性,也不排除有更深層的原因,隱含了更多人類未知的物理。

 

參考資料

  1. The Hubble tuning fork – classification of galaxies“, spacetelescope.org, 2020.
  2. M. Huertas-Company et al., “Catalog of Visual-like Morphologies in the 5 CANDELS Fields using Deep Learning”, The Astrophysical Journal Supplement Series, vol. 221, no. 1, p. 8, 2015.
  3. M. Huertas-Company et al., “Deep Learning Identifies High-z Galaxies in a Central Blue Nugget Phase in a Characteristic Mass Range”, The Astrophysical Journal, vol. 858, no. 2, p. 114, 2018

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 1 times, 1 visits today)
views