AI大模型搞不懂SEC文件 GPT-4閉卷試九成錯 Llama 2僅19%準
原文刊於信報財經新聞「EJ Tech 創科鬥室」
現時在不少大型金融企業,無論分析師或投資者,都開始於營運層面引進人工智能(AI)技術。外媒報道,美企Patronus AI最近一項研究發現,坊間多款大型語言模型(LLM),均無法準確分析美國證券交易委員會(SEC)的文件。號稱性能最佳的GPT-4 Turbo,在測試中仍有15%答案失準,「閉卷」(closed book)測試失敗率更達88%,對金融應用誤差太大,料跟真正落地尚有距離。
Patronus AI團隊成員具備Meta Platforms背景,一直希望以公正獨立的角度,成為AI界別的評級機構,增強企業對生成式人工智能(Generative AI)的信心。該企最新產品為數據集FinanceBench,做法是從上市公司向SEC提交的文件,包括收益報告、電話會議紀錄等,再與15名金融專家合作開發一萬組問答。
被計數及推理問題考起
為評估主流4款LLM,包括OpenAI自家的GPT-4和GPT-4 Turbo、Anthropic發表的Claude 2、Meta Platforms開發的Llama 2,回答財務問題的表現,Patronus AI精選了150條問題作考核,例如「超微半導體(AMD)在2022財政年度有否報告客戶集中度?」不過,並非所有答案可「搬字過紙」,有些問題要動動腦筋,甚至要計數或推理。
初步分析發現,GPT-4 Turbo在「閉卷」測試,即無法存取任何SEC原始文件,150條問題中只能答對14次,失敗率高達88%。
不過,當有SEC文件可供取閱時,GPT-4 Turbo準確度飆至85%,但仍有15%答案失準。另外開源AI模型Llama 2,即使附上文件供參考,依然產生嚴重「幻覺」,答錯機會率高達七成,整體準確度只得19%。
難滿足受監管行業要求
至於Anthropic旗下Claude 2,能夠從上文下理歸納答案,大概答中75%比例問題,但有21%問題答錯,其餘內容未有作答。
Patronus AI聯合創辦人兼技術總監Rebecca Qian稱,就算為AI提供詳盡的參考內容,AI模型經常拒答問題。她強調,特別在受監管的行業,即使AI模型的答案只有十分之一答錯,誤差範圍也不能接受。
Patronus AI今年9月獲種子輪融資300萬美元(約2340萬港元),由美國風投Lightspeed Venture Partners領投。Patronus AI團隊認為,把大型語言模型納入產品中,挑戰之一是它難以捉摸──即使每次輸入數據一樣,惟無法保證答案始終如一。有見及此,有必要進行更嚴格的測試,以確保AI可以正確運行、不會偏離主題,並提供可靠的結果。
翻查資料,彭博早於今年4月已計劃把GPT風格的AI功能整合到其終端軟件中。摩根大通於5月,也開發類似ChatGPT的服務,為客戶提供投資建議。根據OpenAI的使用政策,該企禁止在沒有合格人員審查下,提供度身訂造的財務建議。同時,必須向模型用戶提供免責聲明,告知對方正使用AI及其局限性。