電腦視覺重建光纖傳輸影像

2018 年 11 月 26 日2022 年 01 月 04 日 intern CNN, 內視鏡, 多模光纖, 失真, 散斑圖

分享至

編譯／台大農藝林采萱

光纖傳輸

光導纖維（光纖）由玻璃或塑料製成，資訊在內以光的形式全反射傳輸，在長距離通訊上，信息耗損低於傳統電線，故主要應用於講究訊息品質的通訊網路或醫療內視鏡診斷。假若要增加光纖的訊息承載量，則適合採用多模光纖（multi-mode fibers, MMFs），其核心直徑大於單模光纖（Single-mode fibers），並可以傳輸多種模式的光，所具備的多重通道，可以同時傳輸不同的信息流，但有兩個致命缺點。

一是多模光纖可通過的頻寬窄於單模光纖，因此僅適合短距離傳輸。二是隨著纖維距離拉長或是數值孔徑（numerical aperture）增大，經多模光纖傳輸的影像色散情形更加嚴重，接收端所收到的信息失真，尤其「圖像」訊息退化為肉眼無法直接辨識的斑點圖案─「散斑圖」，影響內視鏡圖像的判讀，降低醫療診斷上的效率與準確度。

刊載於著名光學研究期刊Optica的該篇研究，便是出於上述因素，嘗試以深度神經網絡（deep neural networks）還原經多模光纖傳輸退化為斑點的圖像資訊。研究以手寫數字為例，訓練機器由散斑圖辨識出原先的數字。除可改善醫療內視鏡成像，協助醫療人員確實掌握影像中所呈現的生理結構，更可增加光纖傳輸的信息量與光功率。

來自瑞士洛桑聯邦理工學院，主導該研究的Demetri Psaltis說：「我們使用深度神經網絡架構從光纖的混亂輸出訊息中解析回輸入圖像。我們證明：對於長達1公里的纖維來說，這是可能發生的！」他們創造了一個新的里程碑，打破多模光纖先天上的距離限制，從模糊中找出規律，提升多模光纖在影像傳輸應用上的可靠性。

解析模糊圖像

圖一、實驗裝置（Navid et al, 2018）

研究團隊架設了一個多模光纖的傳輸系統，以雷射光源照亮數字圖像作為系統輸入端，經過多個鏡片、光纖後映照在CCD感光耦合元件，從類比訊號轉為數位訊號，再從數位圖像去解讀數字、重建原始圖像，並驗證網絡模型的分類正確率。同時，在系統之中裝設一個空間光調制器（spatial light modulator，SLM），用以調整光源的振幅及相位，測試此兩種變化經過光纖輸出後是否對判別結果有影響。

研究人員使用高達兩萬個0到9的手寫數字為樣本。以雷射光照亮數字後，光束會通過約有4,500個通道的光纖傳輸到遠端的攝像頭，接著以電腦測量所捕獲圖像的光強度變化。每個樣本除原始圖像外，經SLM分別改變振幅和相位的兩種轉換圖、經光纖傳輸的散斑圖與各數字散斑間的差異，共五大類圖都被分別記錄、收集，作為神經網路的參照。在這個龐大的數據庫中，其中一萬六千個被用以訓練神經網路，兩千個用於驗證，餘下兩千個用於測試模型可靠度。

解析模糊圖像

圖二、手寫數字0和4的原始圖像(左)與傳輸後退化為散斑圖(右)。（Navid et al, 2018）

從散斑圖中來看，確實數字的結構受到多模光纖導致的色散影響而改變，單靠人眼的視覺判斷沒有能力辨別出原始數字為何。為此，Psaltis和他的團隊建立了兩個深度神經網絡：

VGG type CNN（Visual Geometry Group type convolutional neural network）：辨識散斑圖與SLM調整重建後的圖像並分類；
U-net type CNN：由散斑圖重建SLM調整影像。

深度神經網絡仿造人腦的運作模式，有著與大腦類似的功能。透過多層人工神經元處理輸入，第一層的每個神經元執行一個小運算後將結果傳遞到下一層神經元，一層一層建立輸入與輸出的關係，構築成完整的神經網絡。上述兩種深度神經網絡皆為卷積神經網路，被廣泛使用於圖像和語音辨識，並以反向傳播算法對模型進行訓練。CNN分辨圖片時會以局部區域特徵來做比較，並以「卷積」作為篩選機制計算圖片中有多少相符的特徵，同時可透過池化（pooling）來壓縮圖片，僅保留重要資訊，在經過多層針對不同特徵的處理層疊加後，再一起進行判斷分類。

參與此研究的博士生Eirini Kakkava表明「如果追溯神經網絡的起源，這就是來自於我們的大腦，它的運作機制比想像中簡單。當一個人盯著物體看的時候，大腦中的神經元會被激活，代表大腦識別出一件熟悉的物體。我們的大腦可以成功做到識別，這是因為大腦在我們的生活之中一直接受到相似類別物體的圖像或訊息的刺激訓練，進而改變了神經元之間的聯繫關係與強度。」因此，研究人員基本上遵循著相同過程來訓練人工神經網絡，教導網絡識別特定圖像（在此為手寫數字），直到網絡能夠識別從沒看過、未參與訓練的同類型圖像，再加以判斷，並分類到正確類別。

辨認數字

儘管對人類來說，每個手寫數字輸出的散斑圖像看起來都大同小異，實在很難從其中分出到底是0到9中的哪一個數字，然而神經網絡卻能夠捕捉其中細微差異。VGG type CNN若直接以散斑圖回溯原始影像，經過0.1公尺光纖傳輸仍可達到九成的分類準確率；若以SLM調整重建後的圖像回溯原始影像，則可達97.5%。然而當光纖長度越長，分類準確率越低，當光纖長達一公里時，準確率已低於70%，甚至以散斑圖為基礎的回溯影像，準確率已降至三成以下。不過整體而言，經SLM調整的重建影仍是較佳的回溯依據。

圖三、兩種輸入─散斑圖(實線)或經SLM調整的重建影像(虛線)─的分類準確率隨傳輸距離增加而降低。（Navid et al, 2018）

解決多模光纖問題的有效方法

比起以往透過對輸出進行全息測量來重建光纖傳輸圖像的方法，機器學習提供了更有效率且簡單的解決方式。此外，許多環境因素會隨光纖長度增長而變得更糟，例如溫度變化或氣流波動而造成的雜訊，而神經網絡也能排除這些干擾。

深度神經網絡具備重建多模光纖傳輸之訊息的卓著能力，可望改善現有的通信網路與醫療內視鏡檢查。因為，電信信號通常必須經過數千米的光纖來傳輸訊息，訊號失真在所難免，或可以機器學習減低。醫療人員則可以使用超薄纖維探針來探查人體內的神經束和動脈圖像，而無需複雜的全息記錄器，也不用擔心操作時因病患移動而造成的圖像失真。因此Psaltis的團隊接下來計劃將這項技術實際應用於醫療檢查，以更貼近真實應用環境，並探索機器學習技術的可能和局限，解決多模光纖傳輸的根本問題。

編譯來源

The Optical Society, “Machine learning technique reconstructs images passing through a multimode fiber : Approach could improve medical diagnostics, telecommunications“, ScienceDaily, 2018.

參考資料

N. Borhani, E. Kakkava, C. Moser, and D. Psaltis. “Learning to see through multimode fibers“, Optica, 2018.

(本文由教育部補助｢AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 177 times, 1 visits today)

分享至