難倒吳恩達(dá)的LLM評(píng)估,有解嗎?
吳恩達(dá)提出LLM-as-a-Judge的幾點(diǎn)困境
吳恩達(dá)老師提出了大語(yǔ)言模型評(píng)估的兩種主要類型
- 是非性評(píng)估(具備明確的非對(duì)即錯(cuò)的響應(yīng))
- 質(zhì)量性評(píng)估(結(jié)果只存在好壞程度的標(biāo)準(zhǔn))
基于以上兩類的評(píng)估類型,吳恩達(dá)提出了使用如下幾點(diǎn)困境。
創(chuàng)建用于測(cè)量LLM的有標(biāo)記的測(cè)試集成本高昂
在評(píng)估LLM性能時(shí),創(chuàng)建一個(gè)有標(biāo)記的測(cè)試集是非常必要的。然而,手動(dòng)標(biāo)記數(shù)據(jù)集不僅耗時(shí),而且成本高昂。這對(duì)資源有限的團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。
人類專家來(lái)評(píng)估改進(jìn)不切實(shí)際,高級(jí)的LLM評(píng)估改進(jìn)可靠性不夠
雖然人類專家可以提供高質(zhì)量的評(píng)估,但在實(shí)際操作中,這種方法并不可行。主要原因是專家資源稀缺且昂貴。另一方面,使用高級(jí)的LLM進(jìn)行評(píng)估雖然可以降低成本,但其評(píng)估結(jié)果存在噪聲,導(dǎo)致其可靠性仍然存在問(wèn)題。
實(shí)施評(píng)估產(chǎn)生的額外token成本及時(shí)間成本
每次評(píng)估都需要額外消耗大量的計(jì)算資源,特別是在處理大規(guī)模數(shù)據(jù)時(shí)。這不僅增加了時(shí)間成本,還帶來(lái)了額外的token成本。這對(duì)需要頻繁評(píng)估的團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)不小的負(fù)擔(dān)。
LangSmith的工程化解法
LangSmith以few-shot和持續(xù)于人類對(duì)齊作為其理論根基提出了一個(gè)新穎的工程化解決方案。即將人類對(duì) LLM-as-a-Judge 輸出的糾正存儲(chǔ)為 few-shot 示例,然后在未來(lái)的迭代中將其反饋到提示中。
其實(shí)現(xiàn)的的具體邏輯如下:
基于few-shot提升評(píng)估正確率
首先,LangSmith提出了一種基于few-shot學(xué)習(xí)的方法來(lái)提升LLM評(píng)估的正確率。通過(guò)將少量示例作為輸入,模型可以更好地理解評(píng)估標(biāo)準(zhǔn),從而提高評(píng)估的準(zhǔn)確性。
Aligning LLM-as-a-Judge with Human Preferences
使用反饋收集作為一種程序化地將LLM評(píng)估與人類偏好對(duì)齊
其次,LangSmith還引入了反饋收集機(jī)制,通過(guò)程序化地將LLM評(píng)估與人類偏好對(duì)齊。具體來(lái)說(shuō),用戶可以對(duì)LLM的評(píng)估進(jìn)行修正,這些修正將作為示例反饋給模型,以便在未來(lái)的評(píng)估中參考。
LangSmith自動(dòng)化反饋收集流程,并自動(dòng)化實(shí)現(xiàn)持續(xù)改進(jìn)
為了簡(jiǎn)化操作,LangSmith實(shí)現(xiàn)了自動(dòng)化反饋收集流程。用戶在應(yīng)用中對(duì)評(píng)估結(jié)果進(jìn)行修正后,這些修正將自動(dòng)存儲(chǔ)并用于未來(lái)的評(píng)估。這種持續(xù)改進(jìn)的機(jī)制使得評(píng)估過(guò)程更加高效和準(zhǔn)確。
OpenAI的前沿研究-CriticGPT
OpenAI也一直在探索LLM評(píng)估的新方法。他們開(kāi)發(fā)了一種名為CriticGPT的模型,旨在讓AI成為更嚴(yán)苛的評(píng)判者,其思路是訓(xùn)練一個(gè)專門挑錯(cuò)的模型:
訓(xùn)練模型識(shí)別錯(cuò)誤
- OpenAI讓人類標(biāo)注員在ChatGPT生成的代碼里故意植入一些微妙的bug。
- 標(biāo)注員扮演代碼審查員的角色,寫下他們對(duì)這些bug的評(píng)論。
- 用這些數(shù)據(jù)來(lái)訓(xùn)練CriticGPT,讓它學(xué)會(huì)如何發(fā)現(xiàn)和指出代碼中的問(wèn)題。
對(duì)抗訓(xùn)練提升模型能力
在訓(xùn)練過(guò)程中,標(biāo)注員會(huì)插入一些隱蔽的bug,并驗(yàn)證這些bug是否能夠騙過(guò)當(dāng)前版本的CriticGPT。通過(guò)這種方法,CriticGPT被迫不斷進(jìn)化,以便發(fā)現(xiàn)越來(lái)越隱蔽的問(wèn)題。
強(qiáng)制采樣束搜索(FSBS)
CriticGPT使用了一種稱為強(qiáng)制采樣束搜索(FSBS)的技術(shù),這種技術(shù)可以在生成評(píng)論時(shí)保持全面性,同時(shí)減少“幻覺(jué)”和“雞蛋里挑骨頭”現(xiàn)象。這使得CriticGPT能夠生成更為準(zhǔn)確和有用的評(píng)論。
具體來(lái)說(shuō),F(xiàn)SBS會(huì)強(qiáng)制模型生成多個(gè)不同的評(píng)論片段,用獎(jiǎng)勵(lì)模型對(duì)這些片段進(jìn)行評(píng)分,最后根據(jù)評(píng)分和一個(gè)長(zhǎng)度修正因子來(lái)選擇最佳的評(píng)論組合。
通過(guò)調(diào)整長(zhǎng)度修正因子,可以在評(píng)論的全面性和準(zhǔn)確性之間找到最佳平衡點(diǎn),既不會(huì)錯(cuò)過(guò)重要問(wèn)題,又不會(huì)過(guò)度挑剔。
結(jié)論
評(píng)估大規(guī)模語(yǔ)言模型的輸出質(zhì)量是一個(gè)復(fù)雜且重要的任務(wù)。LLM-as-a-Judge概念雖然有其困境,但通過(guò)LangSmith和OpenAI的前沿研究,我們看到了有效解決這些問(wèn)題的希望。
- LangSmith通過(guò)few-shot學(xué)習(xí)和自動(dòng)化反饋收集機(jī)制,顯著提升了評(píng)估的準(zhǔn)確性和效率。
- OpenAI的CriticGPT則通過(guò)不斷進(jìn)化和創(chuàng)新技術(shù),幫助人類標(biāo)注員更好地識(shí)別和糾正錯(cuò)誤。
這些進(jìn)展不僅推動(dòng)了AI評(píng)估技術(shù)的發(fā)展,也為未來(lái)的AI應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。
