成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI大牛karpathy點贊SEAL榜單,LLM評估的狀況過去是非常糟糕的!

人工智能
即使LLM開發者盡了最大努力,防止測試集滲透到訓練集中(以及答案被記住)也是困難的。當然,你可以盡力過濾掉完全匹配的項。你也可以過濾掉近似匹配的項,比如使用n-gram重疊等。但是你如何過濾掉合成數據重寫,或者有關數據的相關在線討論呢?

lmsys.org的一個嚴肅的競爭對手已經加入了對LLMs(大型語言模型)評估的討論中:SEAL Leaderboards——對領先前沿模型進行的私密、專家評估。

SEAL Leaderboards的設計原則:

??私密 + 無法被利用。在評估上不會過度擬合! 

??領域專家評估 

??持續更新,包含新數據和模型

https://x.com/karpathy/status/179587366648140201https://x.com/karpathy/status/179587366648140201

Andrej Karpathy(原OpenAI的創始成員和研究科學家,也是特斯拉人工智能和自動駕駛部門(Autopilot)原負責人)的一些觀點:

  • LLM評估正在改進,但不久前它們的狀況非常糟糕,因為定性體驗經常與定量排名不符。
  • 好的評估很難構建——在特斯拉,Karpathy可能花了1/3的時間在數據上,1/3在評估上,還有1/3在其他所有事情上。它們必須全面、代表性強、質量高,并測量梯度信號(即不要太容易,也不要太困難),在定性和定量評估一致之前,有很多細節需要考慮和正確處理。
  • 任何公開(非私有)的測試數據集不可避免地會滲透到訓練集中。這是人們強烈直覺上懷疑的事情,也是為什么最近的GSM1k引起了轟動。https://arxiv.org/html/2405.00332。
  • 即使LLM開發者盡了最大努力,防止測試集滲透到訓練集中(以及答案被記住)也是困難的。當然,你可以盡力過濾掉完全匹配的項。你也可以過濾掉近似匹配的項,比如使用n-gram重疊等。但是你如何過濾掉合成數據重寫,或者有關數據的相關在線討論呢?一旦我們開始常規地訓練多模態模型,你如何過濾掉數據的圖像/截圖?你如何防止開發者,例如,向量嵌入測試集,并特別針對與測試集在嵌入空間中高度一致的數據進行訓練?
  • 大家關心的并非所有LLM任務都可以自動評估(例如,想想摘要等),在這種情況下,你希望涉及人類。當你這樣做時,你如何控制所有涉及的變量,比如人們有多關注實際答案,或者長度,或者風格,或者如何處理拒絕等。
  • 好的評估出人意料地困難,工作量巨大,但非常重要。

SEAL Leaderboards一些大模型評估結果,包括一些領先大模型:

- GPT-4o - GPT-4 Turbo - Claude 3 Opus - Gemini 1.5 Pro - Gemini 1.5 Flash - Llama3 - Mistral Large

圖片圖片

圖片圖片

圖片圖片

SEAL Leaderboards  https://scale.com/leaderboard


責任編輯:武曉燕 來源: PaperAgent
相關推薦

2024-08-07 10:05:00

LLM大模型技術

2024-11-21 14:30:00

模型訓練

2025-02-17 14:34:52

2021-05-27 10:07:49

網絡安全主管網絡安全網絡攻擊

2009-05-07 09:02:15

思科錢伯斯營收

2020-01-10 15:15:53

Redis點贊數據庫

2025-05-08 09:00:00

知識圖譜LLMSQL

2024-06-11 14:17:47

2023-02-02 13:22:40

AICIFAR數據集

2010-05-31 10:43:52

李彥宏

2020-12-03 11:00:29

Spring ClouRedis數據庫

2018-08-09 20:41:29

人工智能AI神經網絡

2018-09-17 21:30:13

GDPR數據保護條例數據隱私

2024-02-19 00:12:50

AI代碼

2024-04-15 12:43:26

人工智能LLM

2025-03-25 09:16:00

模型AI數據

2024-06-04 14:08:00

2023-07-05 15:18:42

AI自動駕駛

2024-08-23 11:54:56

2024-08-09 14:13:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区欧美在线 | 毛片网站在线观看视频 | 欧美精品一区二区三区四区五区 | 亚洲高清中文字幕 | caoporn免费| 精品久久久久久亚洲综合网 | 亚洲综合一区二区三区 | 亚洲天堂av网 | 亚洲一区国产精品 | 欧美成人一区二区 | 免费在线日韩 | 久久久久国产 | 久久久久久久久淑女av国产精品 | 欧美精品在欧美一区二区 | 亚洲欧美高清 | 中文字幕免费视频 | 欧美成人a∨高清免费观看 色999日韩 | 国产精品亚洲二区 | 午夜精品一区二区三区免费视频 | 久久亚洲精品国产精品紫薇 | 成人在线视频免费观看 | 久久久久国产精品 | 999久久久| 成人三级网址 | 久久精品国产99国产精品亚洲 | 久草视频在线播放 | 色在线免费视频 | 免费在线精品视频 | 综合天天久久 | 青青草一区二区 | 欧美成人a∨高清免费观看 老司机午夜性大片 | 国产中文字幕亚洲 | 亚洲欧洲日韩精品 中文字幕 | 精品1区 | 99热视| 精品伦精品一区二区三区视频 | 9久久婷婷国产综合精品性色 | 久久日本| 天天看天天爽 | 中文字幕二区 | 国产999精品久久久 午夜天堂精品久久久久 |