「人工化學智慧」應用大語言模型 (LLM) 的化學分析工具

分享至

大語言模型 (LLM) 的出現,讓人們看到了人工智慧所能展現的高度自主性,LLM能完成不少跨領域的任務,並且展現很不錯的自然語言處理能力。不過,面對一些看似簡單的數學計算或是化學式轉換的任務時,大語言模型卻會出現誤差。為了解決這個限制,並且發揮LLM的效用,必須整合其他工具,讓LLM變得具有計算及分析能力。

撰文|王冠云

來源:MotionElements
LLM的侷限以及系統整合

目前最被廣泛討論的GPT-4及GPT-3等大語言模型,在計算數學式如:12345乘以98765這題時,沒有辦法正確的算出答案,甚至每次詢問時,所得到的答案皆不相同。為了解決這個問題,由於大語言模型背後的參數具有高度的複雜性,且模型相當龐大,因此為了調校使用情境,讓大語言模型更具備不同領域的應用能力,出現了所謂的「提示工程 (prompt engineering)」,藉由使用者提供並改善「prompt」的方法,透過對話時所給予LLM的提示,來獲得想要的答案。

另一種提升LLM能力的方法,則是透過不同系統的串接,將需要計算及分析的問題,引導LLM使用另一個系統來進行運算。以化學為例,目前已經有不少化學分析工具被開發出來(例如RXN for Chemistry或是AIZynthFinder等軟體),雖然他們仍然在獨立的環境中運行,但如果能將這些系統都整合起來,應該就能發揮他們更多的可能性。

 

將「問題解決流程」標準化

在Bran等人 (2024) 的研究中,發展了一個名為「ChemCrow」的代理人 (agent),即是利用了LLM所具有的自然語言處理能力,並且透過其他專家系統的整合,讓LLM也能擁有化學的知識。

研究者們把問題解決的流程變得更有系統性,如此一來,可以讓使用者與LLM之間的「prompt」也變得具有一致性。在問題解決的思考迴圈中,共分四個步驟:第一步驟、思考:推理、計畫;第二步驟、行動:選擇工具;第三步驟、行動輸入:使用工具;第四步驟、觀察:分析。

在進行第一步驟以及第四步驟時,餵給LLM以及最後LLM所出來的結果,可能來自於專家設計的化學工具或者是使用者定義清楚特定的任務,比方說:「規劃並執行殺蟲劑的合成」。接著在第二步驟的這個階段,LLM會去挑選適合的工具,在Bran等人 (2024) 的研究中,工具來自於研究者所整合的18種工具,例如「SIMLES與CAS轉換」、「安全管理」、「文獻搜尋」、「合成計畫」等等,包含基礎的分子式工具、安全管理工具、普遍通識工具、反應式工具等等,將一套化學反應所會接觸到的各個層面的工具都整合進來。而實際上在執行第三步驟的時候,LLM就能應用這些工具,來得到使用者需要的分析。

 

進行14種化學任務的研究成果

為了驗證系統的表現,Bran等人 (2024) 的研究中設定了14種任務,並且請專家評分表現。任務通常都需要請系統協助進行有機合成、分子設計、或是一些化學邏輯任務,除此之外,任務也可能需要提供成本預算、創新性等等其他有助於研究推展的觀點及方案。例如其中一個任務,是使用者請系統合成「Safinamide」,並且評估需要多少費用。又或者,是使用者請系統合成「阿斯匹林」,並且提供所有反應物的「GHS(全球化學品統一分類和標簽制度)」資料。

在進行這些任務時,以研究者所提出的「ChemCrow」的工作流程,就會依照上述所提及的四步驟迴圈來進行。系統會先理解使用者所提出的那句話,再將那句話的需求及目標來轉換成對應的步驟,最後才會輸出要提供給使用者的答案。

研究者們將ChemCrow和沒有額外使用工具的GPT-4進行比較,以驗證整合了18種工具之後的系統,是不是更能有效地回答具有化學專業的問題。結果顯示,ChemCrow的表現在超過半數以上的任務比GPT-4還要更好,尤其是在複雜度比較高的任務的情境之下,更能凸顯差異。

而研究者也指出了使用ChemCrow以及單純使用GPT-4的優缺點,使用GPT-4時,能得到較為完整的句子,但是在分子式、反應、過程等方面,會非常容易出現「幻覺 (hallucations)」,也就是提供一些似是而非的錯誤訊息。此外,GPT-4也難以進行詮釋,並且沒有最新的資訊。不過,若是加入了整合性工具,使用ChemCrow的話,可以更正確地回答出化學領域相關的解決方案,而且整合多樣工具,也具備模組化和可擴充的彈性。不過,他仍然偶爾會出現錯誤的結論,並且非常高度仰賴其所整合的工具品質。

 

對於未來化學相關研究開發的幫助

Bran等人 (2024) 在論文結論指出,ChemCrow是結合了LLM的理解力以及具有計算功能且具備化學專家知識的工具之後整合而成的系統,在研究中,計劃出了殺蟲劑的合成,以及做出了幾個有機催化劑和其他特定物質的合成等等。未來,該系統的應用場景可能是幫助加速新藥試驗或是其他複雜的分子反應的設計。

不過,研究者也提醒,目前對於系統的評價方法,在研究中並沒有提出一個最佳的方案。目前在研究中使用了14個任務來進行評分,仍然需要更大規模的測試來確保系統的穩定性。

 


參考文獻

  1. Cox, S., Schilter, O., Baldassari, C., White, A. D., & Schwaller, P. (2024). Augmenting large language models with chemistry tools. Nature Machine Intelligence, 6(5), 525-535.
  2. White, A. D., Hocky, G. M., Gandhi, H. A., Ansari, M., Cox, S., Wellawatte, G. P., Sasmal, S., Yang, Z., Liu, K., Singh, Y., & Peña Ccoa, W. J. (2023). Assessment of chemistry knowledge in large language models that generate code. Digital Discovery, 2(2), 368-376.
  3. White, A. D., & Hocky, G. (2022). Associated Data for Do large language models know chemistry (v1.0). Zenodo.
  4. RXN for Chemistry
  5. AIZythFinder
  6. 研究者使用的14項任務
(Visited 215 times, 1 visits today)

分享至
views