讓電腦「看圖說故事」:運用大語言模型的視覺問答

大語言模型除了解決自然語言處理的相關問題之外,在「視覺」等其他多模態學習領域方面,也可以有不同的應用,視覺問答就是其中一個當今人工智慧發展方面一個重要的研究方向。而知識型視覺問答更是進一步挑戰了模型的推理能力,要讓系統除了理解圖像之外,還要能理解使用者提出的問題,再整合外部知識以產生正確答案。以人類而言,看似直觀的「看圖回答問題」,對於人工智慧而言,必須整合好幾段模組才有可能發生!

Read more