讓電腦「看圖說故事」:運用大語言模型的視覺問答
大語言模型除了解決自然語言處理的相關問題之外,在「視覺」等其他多模態學習領域方面,也可以有不同的應用,視覺問答 (Visual Question Answering, VQA) 就是其中一個當今人工智慧發展方面一個重要的研究方向。而知識型視覺問答 (Knowledge-Based VQA, KB-VQA) 更是進一步挑戰了模型的推理能力,要讓系統除了理解圖像之外,還要能理解使用者提出的問題,再整合外部知識以產生正確答案。以人類而言,看似直觀的「看圖回答問題」,對於人工智慧而言,必須整合好幾段模組才有可能發生!
撰文|王冠云

現有方法的侷限性
視覺問答 (VQA) 是讓機器可以在給定的圖片中,針對使用者提出的自由形式的問題來進行回答,例如,隨機看到如下方的圖片之後,詢問電腦「左手邊的那個食物是什麼?」看看電腦是否能回答那是什麼食物。如果能順利完成一張圖片、一組問答的話,就表示電腦能夠順利的完成一組視覺問答了。

而如果要優化VQA模型,大致可以分成幾種方法來優化,例如製作更好的視覺特徵、使用更具有效能的模型架構,或者是提升學習的演算法等等,而自從「Transformer」架構在處理自然語言問題取得成功之後,也有許多研究開始將Transformer架構優化進VQA模型之中。
更有甚者,如果要把VQA模型應用到更高等的知識層次的議題方面,則會進一步的需要建成「KB-VQA」,而早期這類型的系統,大多需要仰賴固定的知識庫來取得答案,而這些知識來自於非常廣泛的知識來源,例如「ConceptNet」、「Wikipedia」等等,另外,除了這些外在的知識庫來源之外,也可以直接使用大語言模型 (LLM) 本身所具有的「隱性知識」,畢竟在如OpenAI等大公司在進行LLM訓練的時候,早已經餵過LLM非常大量的訓練資料,使得大語言模型本身已經具有一定的知識量,在回應問題以及組織答案方面,也具有一定的潛力。
不過,Yu等人 (2025) 認為,過去的這些方法仍然無法充分發揮LLM的能力,比方說,在進行圖說生成的時候,LLM會生成漫無目的的內容,讓生成出來的文字缺乏意義感。或者即使使用了「少樣本學習」來引導LLM產出文字,但是實際上若去驗證其正確性,仍然還是距離人類真正想要的任務效果有段差距。
全新的視覺問答新框架─Prophet
Yu等人 (2025) 為了開發更好的視覺問答系統,提出了一個新框架「Prophet」,取名的核心概念是「提示LLM以答案啟發進行知識視覺問答 (prompt LLMs with answer heuristics for knowledge-based VQA)」。在這個新框架當中,透過兩個階段來強化LLM的推理能力。
第一階段是「答案啟發生成 (Answer Heuristics Generation)」,先訓練一個不依賴外部知識的基本VQA模型,具有推論功能,然後它能夠針對問題,提出k個可能的答案,然後再仰賴少樣本學習,讓模型能夠因此可以從潛在的答案當中選出一個適合的答案。
第二階段則是「強化提示生成 (Heuristics-Enhanced Prompting)」針對大語言模型背後所設計的提示工程部分,在系統提示詞裡面,包含了提示詞標題、上下文案例組合、以及測試輸入輸出,而這個提示詞標題以及內容,使用自然語言寫成,不過針對模型在前一階段所生成的各個候選答案,模型會針對那些問答組合進行評估,考慮上下文的關聯之後,來決定寫出要推給LLM來進行判斷的提示詞。也就是說,它會在N組可能的潛在候選答案中,寫出T組可能的提示詞,所以總共會有非常多種可能性讓LLM進行最終答案的文字生成。用這樣的方法,可以更加強KB視覺問答的穩定性和表現。
而除了以圖像以及語言文字為基礎的Prophet框架之外,Yu等人 (2025) 也提出了多模態模型的框架「Prophet++」,加入了其他大型多模態模型 (Large Multimodal Models, LMMs),例如GPT4o、LLaVa等,讓模型除了有原本VQA模型的功能之外,再多了可以將多模態資料也轉成圖說的形式,成為模型生成答案的特徵量之一。也就是更能全面的理解問題的語境和視覺內容,整合性更高。
讓電腦「看圖說故事」,超越現有方法的新框架
Yu等人 (2025) 的研究達成了非常好的模型表現,作者在四個不同的知識型VQA資料集上面做測試,包含OK-VQA、A-OKVQA、ScienceQA的IMG子資料集以及TextVQA。最後的結果顯示Prophet框架在所有資料集上均超越了現有的最佳方法,正確率達到了6成,甚至可以超越,比起其他模型可能只有4成的正確率來說,提升了相當多的正確率表現。而且若是VQA的問答是選擇題式的問答,Prophet的正確率甚至能超越8成,也是超越了其他方法只有4~5成正確率的表現。最出色的表現,則是出現在ScienceQA的IMG子資料集部分,Prophet++這個多模態模型,可以讓正確率達到9成。
而能夠擁有很好的模型表現,也來自於該研究團隊已經測試VQA的新架構很長的一段時間,他們認為,這個框架其實也告訴了研究者與開發者,再進行提示詞設計的時候,提供給LLM各種可能的答案候選,以答案來進行啟發,其實也能有效的幫助LLM選出正確的答案。
而Prophet這個框架,整合了現有的VQA模型、LLM,甚至是LMM,對於未來要開發更具有幫助的AI應用工具而言,具有相當的助益。正如我們人類在進行解題時,常常能夠過答案得到某些線索和啟發,AI也同樣如此,不過,針對某些資料庫,AI的正確率仍然還不足以真正完美到八九成以上,科學家們仍然有許多空間,可以再持續加強訓練更好的模型。
參考文獻
- Z. Yu, X. Ouyang, Z. Shao, M. Wang and J. Yu, "Prophet: Prompting Large Language Models With Complementary Answer Heuristics for Knowledge-Based Visual Question Answering," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 8, pp. 6797-6808, Aug. 2025, doi: 10.1109/TPAMI.2025.3562422.
