微軟研究院新突破:如何讓AI在專業領域更靠譜? 原創
01、概述
在人工智能的世界里,大型語言模型(LLMs)就像是瑞士軍刀,多才多藝,幾乎無所不能。但是,當它們遇到需要特定領域知識的任務時,比如醫療保健、法律和金融,這些萬能的模型就顯得有些力不從心了。這是為什么呢?因為它們在訓練時使用的數據集往往缺乏最新的專業信息,導致它們在回答專業問題時可能會“幻覺”——也就是說,給出的答案可能不準確,甚至是錯誤的。
問題的根源
LLMs在處理一般知識時表現出色,但當涉及到專業或時效性查詢時,它們的表現就不盡如人意了。這是因為大多數模型都是在靜態數據上訓練的,它們的知識庫無法隨時更新。想象一下,一個醫療AI模型如果不能訪問最新的醫療指南,它又怎么能提供準確的醫療建議呢?
當前解決方案:微調和RAG
為了解決這個問題,研究人員嘗試了多種方法,其中之一就是微調。微調可以讓模型在特定領域的數據上重新訓練,使其更好地適應特定任務。但這種方法既耗時又需要大量的訓練數據,而且可能會導致模型過于專業化,反而在一般查詢上表現不佳。
另一種方法是檢索增強生成(RAG),它允許模型在生成答案的過程中實時檢索外部數據。這種方法更靈活,可以提高模型的準確性和相關性。但RAG也有它的挑戰,比如如何處理非結構化數據,比如文本、圖像和表格等。
02、微軟研究院的新方法
微軟亞洲研究院的研究人員提出了一種新的方法,他們將用戶查詢分為四個不同的級別:明確事實、隱含事實、可解釋理由和隱藏理由。這種分類有助于定制模型檢索和處理數據的方法,確保它為特定任務選擇最相關的信息。
四個查詢級別
- 明確事實:比如“法國的首都是哪里?”這樣的問題,答案可以直接從外部數據中檢索得到。
- 隱含事實:需要更多的推理,比如結合多條信息來推斷結論。
- 可解釋理由:涉及特定領域的指南。
- 隱藏理由:需要深入推理,通常涉及抽象概念。
方法的優勢
這種方法使LLMs能夠區分這些查詢類型,并應用適當級別的推理。例如,在沒有明確答案的隱藏理由查詢中,模型可以推斷模式并使用特定領域的推理方法生成回答。這樣,模型在檢索所需信息和提供準確、基于上下文的回答方面變得更加高效。
實踐成果
研究還突出了這種方法的顯著成果。在醫療保健和法律分析等專業領域,模型的性能顯著提高。例如,在醫療保健應用中,模型將幻覺率降低了高達40%,提供了更加可靠和有根據的回答。在法律系統中,模型在處理復雜文檔和提供詳細分析方面的準確性提高了35%。
03、結語
這項研究為在專業領域部署LLMs的一個基本問題提供了關鍵的解決方案。通過引入一個基于復雜性和類型的查詢分類系統,微軟研究院的研究人員開發了一種方法,提高了LLMs輸出的準確性和可解釋性。這個框架使LLMs能夠檢索最相關的外部數據,并有效地將其應用于特定領域的查詢,減少幻覺并提高整體性能。研究表明,使用結構化查詢分類可以提高高達40%的結果,這是AI驅動系統向前邁出的重要一步。通過解決數據檢索問題和整合外部知識,這項研究為各種行業的更可靠和強大的LLM應用鋪平了道路。
參考:
?
本文轉載自公眾號Halo咯咯 作者:基咯咯
