成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o mini排名雪崩,大模型競技場規則更新,奧特曼刷分小技巧無效了

人工智能 新聞
在新規則下,奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降,谷歌Gemini-1.5-flash小模型也有所回落。

大模型競技場規則更新,GPT-4o mini排名立刻雪崩,跌出前10

圖片

新榜單對AI回答的長度和風格等特征做了降權處理,確保分數反映模型真正解決問題的能力。

想用漂亮的格式、增加小標題數量等技巧討好用戶、刷榜,現在統統沒用了。

在新規則下,奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降,谷歌Gemini-1.5-flash小模型也有所回落。

Claude系列Llama-3.1-405b大模型分數則紛紛上漲。

圖片

只計算困難任務(Hard Prompt)的情況下,大模型在風格控制榜單中的優勢更加明顯。

圖片

此前GPT-4o mini小模型一度登頂,與GPT-4o滿血版并列第一,與網友的體感明顯不符。

Lmsys大模型競技場這個一度被Karpathy推薦的評價標準,口碑也跌落到“只能反映用戶喜好而不是模型能力了”。

Lmsys組織痛定思痛,先是公開了GPT-4o mini參與的1000場battle數據,從而分析出模型拒絕回答率、生成內容長度、和格式排版是影響投票結果的幾個因素。

而且奧特曼還在GPT-4o mini發布之前,暗示了正是按照人類偏好做優化的。

圖片

現在,Lmsys進一步推出了控制這些因素的新算法,而且還只是規劃中的第一步。

圖片

如何控制風格的影響?

假設有模型A擅長生成代碼、事實和無偏見的答案等,但它的輸出非常簡潔。

模型B在實質內容(例如正確性)上不是很好,但它輸出的內容長而詳細、格式排版華麗。

那么哪個更好?

答案不是唯一的,Lmsys嘗試用數學方法找出一個模型的得分有多少是內容或風格貢獻的。

此外,最近也已經有研究表明,人類對排版漂亮和更詳細的AI回答可能存在偏好性。

圖片

通過在Bradley-Terry回歸中添加樣式特征,如響應長度、markdown小標題的數量、列表和加粗文本數量作為自變量。

這是統計學中的一種常用技術,最近被AlpacaEval LC等用于大模型評估。

在回歸中包含任何混雜變量(例如回答長度),可以將分數的增加歸因于混雜變量,而不是模型能力本身。

相關代碼已在Google Colab上公開。

此外團隊還對“只控制長度”和“只控制格式”做了消融實驗。GPT-4o mini、谷歌Gemini系列分數受格式影響更大。

圖片

不過這種做法也存在局限性,比如可能存在未觀察到的混雜因素,例如長度和回答質量之間的正相關,這些因素沒有被考慮在內(例如思維鏈提示)。

有不少網友表示,調整后的困難任務榜單與自己的主觀印象更吻合了。

圖片

也有人覺得,正是榜單和沖榜的大模型公司這種來回博弈,才能讓整個領域一起進步。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-24 12:40:44

2024-07-29 15:37:17

AI訓練

2025-02-17 12:24:43

2024-10-16 15:07:57

2024-06-05 13:09:26

2024-05-31 14:23:15

2024-12-31 12:35:46

2024-06-21 09:51:17

2025-05-26 09:05:00

2024-09-06 13:31:31

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-09-06 13:00:29

2024-07-22 15:13:24

2024-05-30 13:13:43

2024-07-19 12:43:34

2024-07-04 15:26:56

2024-04-22 08:40:00

LLM模型開源

2024-11-22 12:39:56

2025-05-26 08:33:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www国产成人免费观看视频,深夜成人网 | 午夜电影一区二区 | 日韩第一区 | 男女爱爱福利视频 | 在线视频国产一区 | 婷婷色婷婷 | 超碰综合| 欧美一区二区三区久久精品 | 国产做a爱免费视频 | 久久国产成人午夜av影院武则天 | 久久久一区二区 | 在线观看中文字幕视频 | 欧美中文一区 | 国产成人一区二区三区电影 | 国产情品 | 亚洲一区在线日韩在线深爱 | 中文字幕不卡 | 日韩中文在线视频 | 国产一区二区在线免费观看 | 在线中文视频 | 日韩精品一区二区三区中文字幕 | 狠狠天天 | 欧美日韩电影在线 | 欧美男人天堂 | 天天综合久久 | 欧美精品一区二区三区四区 | 日韩视频在线免费观看 | 亚洲激情网站 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 日韩最新网址 | 成人黄页在线观看 | 国产精品国产精品国产专区不卡 | 午夜免费看视频 | 国产成人精品久久二区二区 | 麻豆精品国产91久久久久久 | 免费在线一区二区 | 中文字幕视频一区 | 亚洲成人毛片 | 2020国产在线 | 黄色在线观看 | 成人黄视频在线观看 |