UC伯克利:給大模型測MBTI,Llama更敢說但GPT-4像理工男
如果你經常在不同大模型之間來回切換,或許會發現不同模型的回復語氣有細微差異,如同有不同的性格。
那么,LLM究竟有沒有「性格」這種維度的特征?最近加州大學伯克利分校發表的新研究VibeCheck就證實了這種推測。
論文地址:https://arxiv.org/abs/2410.12851
評價LLM,不止于準確度
如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現?當前的基準測試大多只關心正確性,然而當我們評論一個人類寫作者的時候,關注的維度就會擴展到創造力、寫作風格等眾多維度。
對于那些經常使用不同模型的用戶,他們早已熟悉不同模型回復時表達方式上的差異,比如下面這張圖中,ChatGLM的文字顯得非常全面且嚴謹,透著濃濃的學術風。
但對于同一個問題,kimi的回復會包含更多具體的例子,但解釋的語言更為簡潔。
了解這些差異,對于那些使用基座大模型進行下游應用的開發者,會有所幫助。
例如,若我們發現Llama的回復更加友好,那么說明Llama更適合進行客服類任務,而回復更為正式的Claude則更適合編程類任務。
然而該如何系統性地了解這些差異?自然是「用魔法戰勝魔法」,也就是用大模型來評價不同大模型的表現,而這正是VibeCheck在做的事。
下圖展示了VibeCheck的核心模塊,包括給出提示詞、不同大模型做出回復,以及定性評價三部分。
VibeCheck的核心模塊
給出了一組約200個的提示詞后,研究者收集了不同大模型及人類的回復,并招募了200名人類評審員,兩兩比較這些回復并對「友好性」進行打分后計算平均分。
此外,人類評審員還會對大模型和人類回復的細微差異進行描述,例如,他們發現:
- 大模型的回答通常很正式,而人類的回答則更口語化
- 大模型提供客觀答案,人類使用主觀表達
- 大模型拒絕回答其知識范圍之外的問題
除了人類評審員,VibeCheck還調用了GPT-4o mini來評價不同大模型的回復,結果發現與人類的評估結果相符。也就是說,GPT-4o mini也能發現上述人類評審員總結的細微差異。
下面是VibeCheck考察的10個評估維度,包括
- 自信:使用試探性或不確定的語言。
- 細節程度:提供簡短或包含細節的回答。
- 正式性:隨意、對話式的非正式語言,或復雜,學術性的語言
- 情感基調:保持中立或超然,或者在回應中表達熱情或同理心
- 創意:堅持標準、可預測的答案,或提供具有新穎想法或想象性場景的回應
- 明示性:使用模糊、隱晦的語言,或直接且明確地陳述事物
- 幽默詼諧:以直接嚴肅的方式回應,或使用幽默、俏皮語言、文字游戲
- 參與程度:被動呈現信息,或通過修辭疑問、互動性語句主動吸引讀者
- 邏輯嚴謹:提供結論而缺乏充分論證,或構建有充分支持的論點,推理清晰
- 簡潔性:使用冗長的語言和過多的細節,或使用最少的詞匯清晰表達觀點
有了VibeCheck,你可以給出自己定義的問題以及不同大模型的回復,之后由代碼自動生成多維度的評估,具體可參考論文附帶的GitHub倉庫。
倉庫地址:https://github.com/SutekhVRC/VibeCheck
主流LLM的細微差異
接下來看看三種主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之間的對比。
在使用眾包及游戲排位賽的大模型評價平臺Chatbot Arena上,Llama3的表現被認為優于GPT-4及Claude3。但經由VibeCheck的評估可發現,其中另有玄機。
結果發現,Llama3更愿意參與敏感或暴力話題,對倫理的重視較少,回復更加具有對話性(例如使用更多的你,我這樣人稱代詞)和幽默感,而這些正是Chatbot Arena的用戶所關注的特征.正因為人機偏好對齊做得好,Llama3才能獲得這樣的好評。
接下來,VibeCheck還考察了文本摘要生成、數學及描述圖片這三個具體應用中不同大模型的差異,并根據這些差異解釋了為何用戶對不同大模型存在偏好。
例如,Command X和TNLG是兩個用于文本摘要/總結生成的大模型,然而經過VibeCheck的拆解,可發現:
1)Command X通常明確陳述引言和結論,TNLG則使用斷斷續續的句子
2)Command X能提供具體例子或軼事來說明觀點
3)Command X能夠捕捉到一個故事的多重視角和情感方面,TNLG則更客觀
這些特征決定了,相比TNLG,人類評審員會更加偏好Command X。與此同時,VibeCheck能夠分別以71.29%的和61.42%的準確率預測模型在前述10個維度的PK結果和人類評審員的評價。
而在數學問題上,Llama-405B的回復相比GPT-4o更加詳細,對解題步驟的講解巨細靡遺,而GPT-4偏向于使用如Latex這樣的正式符號。
然而,在數學相關問題上,用戶偏向于使用正式的語氣并頻繁使用符號,對大模型思維過程的過度解釋與人類偏好呈負相關。
VibeCheck能夠以97.09%的準確率預測模型在上述10個維度上的對決結果,并以72.79%的準確率預測用戶偏好。
在描述圖像的任務中,研究發現GPT-4V更多使用詩意的語言,并將標題結構為一個動態故事,推斷圖像中主體的個性和情感,而Gemini則堅持更直白的描述。
VibeCheck能夠實現接近完美的99.13%模型匹配準確率(相比人類給出的評價)和89.02%偏好預測準確率
結論
隨著大模型的應用范圍越來越廣,距離我們的日常生活越來越近,我們會不自覺地將大模型擬人化,而人是會具有個性的。
雖然VibeCheck更多關注文字相關的任務,但未來可以使用類似的框架,去評價不同的文生圖及文生視頻模型,考察這些模型的產出是否也存在微妙的「個性」差異。
搞清楚這些差異,就相當于開發了一條全新的藍海賽道,讓當下純粹卷模型準確性的大模型廠商有了差異化競爭的可能,從而讓各種性格的大模型得以百花齊放。
而基于大模型開發具體應用的開發者,也可以關注不同大模型在語氣、氛圍上的細微差異,選擇合適自己應用場景的大模型,或者通過微調,讓大模型在某項指標上有所改進。
例如可以根據VibeCheck的評價結果改進得到更幽默的大模型,而不必招募人類評審員。
更關鍵的是,通過VibeCheck具體的拆解,我們可發現,用戶對不同任務的偏好存在差異。
例如在回答人文類的問題時,更具有對話感、語氣更友好的大模型受歡迎;而在解答數學問題時,回答簡潔且語氣正式的大模型用戶評價更高。
這樣細致的拆解,能夠讓我們更好地進行人機偏好對齊,從而讓大模型能更貼心地為人類服務。