68頁論文再錘大模型競技場!Llama4發布前私下測試27個版本,只取最佳成績
大模型競技場的可信度,再次被錘。
最近一篇名為《排行榜幻覺》(The Leaderboard Illusion)的論文在學術圈引發關注。
圖片
它指出,如今被視為LLM領域首選排行榜的Chatbot Arena,存在諸多系統問題。比如:
- 少數大廠可以私下測試多個模型版本,Llama4在發布前甚至測了27個版本,然后只公開最佳表現。
- 數據訪問不平等,專有模型獲得的用戶反饋數據顯著多于開源模型。
- 試用Arena數據訓練,可提升模型性能高達112%。
- 205個模型被悄悄靜默棄用,遠超過官方列出的47個。
大神卡帕西也站出來表示,他個人也察覺出了一些異樣。
有一段時間,Claude-3.5是我覺得最好用的模型,但是在競技場中排名很低。當時我在網上也看到了類似的反饋。
圖片
對于最新質疑,大模型競技場官方Lmrena.ai已經給出回應:
- 確實幫助廠商進行測試,最后發布最受歡迎的版本;
- 但這不代表競技場有偏見,排行榜反映數百萬人類的個人真實偏好。
圖片
快速刷榜不符合模型進步實際情況
具體來看這項研究,它收集了243個模型的200+萬場競技場battle,并結合私人真實測試,通過模擬實驗確定了不同情況下對模型排名的影響。
圖片
主要挖掘出了4方面問題。
圖片
第一,私人測試和有選擇性的結果報告。
少數大模型廠商(如Meta、Google、Amazon)被允許私下測試多個模型變體,并只公開最佳表現的版本。
比如,Meta在Llama 4發布前曾私下測試27個變體,加上多模態、代碼等榜單,Meta可能一共測試過43個變體。
圖片
這種“最佳N選1”策略導致排名膨脹。
例如,當測試5個變體時,期望分數增加了約20分;當測試20個變體時,增加了約40分;當測試50個變體時,增加了約50分。
圖片
研究團隊認為,當多個大模型廠商采用這種策略時,他們實際上是在相互競爭各自變體分布的最大值,而非真實的模型能力。
我們觀察到,像Google、OpenAI和xAI在短時間內輪番霸榜,表明他們都在采用類似的策略。
例如,2024年11月期間,Google的Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周內先后占據榜首。類似地,2025年3月4日,OpenAI的GPT-4.5和xAI的Grok-3同一天爭奪榜首位置。
這種排行榜的快速變化不太可能反映真實的技術進步,因為開發和完善一個全新的基礎模型通常需要數月時間。
相反,這很可能是多個大模型廠商同時使用“最佳N選1”策略的結果,每個提供商都試圖優化自己變體池中的最大值。
此外,團隊還發現大模型廠商可以撤回表現不好的模型。
第二,數據訪問不平等。專有模型獲得的用戶反饋數據顯著多于開源模型。
圖片
Google和OpenAI分別獲得了約19.2%和20.4%的所有測試數據,而全部83個開放權重模型僅獲得約29.7%的數據。
圖片
第三,大模型廠商使用競技場數據進行訓練,排名可以顯著提升。
我們觀察到,將競技場訓練數據比例從0%增加到70%,在ArenaHard上的勝率從23.5%提高到了49.9%,實現了一倍多的增長。
這還是一個保守估計,因為部分提供商擁有數據訪問優勢。
第四,研究發現,許多模型被”靜默棄用”(減少采樣率至接近0%)。
在243個公開模型中,有205個被靜默棄用,遠超過官方列出的47個。這種做法特別影響開源和開放權重模型,會導致排名不可靠。
圖片
在提出問題后,研究團隊還給出了5點改進建議:
- 禁止提交后撤回分數
- 限制每個提供商的非正式模型數量
- 公平應用模型棄用政策,所有模型一視同仁
- 實施公平采樣方法
- 提高模型棄用透明度,即時通知被淘汰模型
這項研究由Cohere團隊、普林斯頓大學、斯坦福大學等機構研究人員共同提出。
其中Cohere也是一家大模型廠商,由Transformer作者Aidan Gomez等人創辦,推出了Command R+系列模型。
“競技場不應該是唯一基準參考”
大模型競技場誕生2年來,因為機制的特殊性,其參考價值越來越高,大廠發模型也必來這里打榜,甚至是將未發布模型提前在此預熱造勢。
它最大的優勢在于基于人類偏好評估,用戶可以在同一平臺上同時運行多個聊天機器人模型,如GPT-4、ChatGPT-3.5等,并針對相同的問題或任務進行比較分析,可以更直觀感受不同模型的差異。
最近一段時間,由于Llama4刷榜風波,給競技場的可信度也造成了一定影響。
圖片
對于這篇質疑論文,官方現在已做出回應。反駁了一些問題:
- LMArena模擬的缺陷:圖7/8中的模擬存在問題。這就像說:NBA球員的平均三分命中率是35%。斯蒂芬·庫里擁有NBA球員最高的三分命中率42%。這不公平,因為他來自NBA球員的分布,而所有球員都有相同的潛在平均水平。
- 數據不實:文章中的許多數據并不反映現實:請參閱幾天前發布的博客了解來自不同提供商測試模型數量的實際統計數據。例如,開放模型占比為40%,而非文章聲稱的8.8%!
- 112%性能提升的誤導性說法:這一說法基于LLM評判基準而非競技場中的實際人類評估。
- 政策并非“不透明”:我們設計并公開分享了政策,且這一政策已存在一年多。
- 模型提供商并非只選擇“最佳分數披露”:任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計劃的生產模型。我們會繼續使用新數據對模型進行至少一個月的測試。這些要點一直在我們的政策中明確說明。
- 展示非公開發布模型的分數毫無意義:對于通過API或開放權重不公開可用的預發布模型顯示分數沒有意義,因為社區無法使用這些模型或自行測試。這會違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規則:如果模型在排行榜上,它應該可供使用。
- 模型移除不平等或不透明的說法不實:排行榜旨在反映社區興趣,對最佳AI模型進行排名。我們也會淘汰不再向公眾開放的模型,這些標準在我們與社區進行私人測試的整個期間都已在政策中公開說明。
至于情況到底如何,可能還要等子彈飛一會兒。
不過這倒是也給AI社區提了個醒,或許不能只參考一個榜單了。
卡帕西就給出了一個備選項:OpenRouter。
OpenRouter可以提供一個統一API接口來訪問使用不同模型,而且更加關注實際使用案例。
盡管在多樣性和使用量上還不夠優秀,但我認為它有很大潛力。
參考鏈接:
[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890