成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

測試時訓練(TTT)太強了!

發(fā)布于 2024-11-21 14:15
瀏覽
0收藏

論文筆記分享,標題:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

測試時訓練(TTT)是個新概念:在推理過程中使用從輸入數(shù)據(jù)派生的損失暫時更新模型參數(shù)

文章的結(jié)論:

測試時訓練(TTT)太強了!-AI.x社區(qū)

TTT 顯著提高了 ARC 任務上的性能,與基線微調(diào)模型相比,準確率提高了高達 6 倍;將 TTT 應用于一個 8B 參數(shù)的語言模型,在 ARC 的公共驗證集上達到了 53%的準確率,將公共和純神經(jīng)網(wǎng)絡方法的最新水平提高了近 25%。通過將我們的方法與最近的程序生成方法相結(jié)合,獲得了 61.9%的 SoTA 公共驗證準確率,與人類評分接近。

ARC 任務:一個評估語言模型抽象推理能力的基準測試。通過一系列視覺謎題任務來考驗模型解決新問題的能力。 每個任務由2D網(wǎng)格(大小可達30×30)組成,網(wǎng)格中包含由多達10種不同顏色的形狀或模式。輸出是通過將一個直觀且共同的變換規(guī)則或函數(shù)應用于輸入網(wǎng)格來獲得的。

算法步驟:

測試時訓練(TTT)太強了!-AI.x社區(qū)

  • 從訓練輸入-輸出對中創(chuàng)建留一法任務,然后通過基于規(guī)則的變換來增強數(shù)據(jù)集。

測試時訓練(TTT)太強了!-AI.x社區(qū)

  • 在測試時訓練期間,使用LoRA來優(yōu)化。為每個任務學習一個特定的LoRA適配器,而不是為所有任務學習一個單一的適配器。

測試時訓練(TTT)太強了!-AI.x社區(qū)

  • 使用幾何變換生成多個預測候選,然后通過貪婪解碼方案進行預測。采用分層投票策略,首先在每個變換內(nèi)進行投票,然后對每個變換的候選進行全局投票,以確定最終預測。

測試時訓練(TTT)太強了!-AI.x社區(qū)

本文轉(zhuǎn)載自??NLP前沿??


收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 久久69精品久久久久久久电影好 | 国产aaaaav久久久一区二区 | 草草视频在线播放 | 国产视频1区 | 超级碰在线 | 中文字幕一区二区三区不卡在线 | 久久精品亚洲精品国产欧美 | 在线观看第一区 | 国产成年人小视频 | 久久久这里只有17精品 | 天天拍夜夜爽 | 亚洲成人a v | 国产成人免费视频网站高清观看视频 | 少妇诱惑av | 亚洲国产精品一区二区久久 | 日韩电影中文字幕 | 久久国产精品一区 | 黄网免费| jvid精品资源在线观看 | 久草精品视频 | 成人免费视频在线观看 | 亚洲成人观看 | 亚洲一区二区三区四区五区中文 | 欧美精品一区二区三区四区 在线 | 国产丝袜一区二区三区免费视频 | 久久国产精品-国产精品 | 亚洲成人一区 | 亚洲精品一区二区 | 欧美色性 | 美女爽到呻吟久久久久 | 国产一级视频在线观看 | 国产欧美一区二区三区久久手机版 | 午夜激情网 | 成人在线播放网站 | 激情的网站 | 99国产精品久久久久久久 | 91视频进入 | 亚洲精品在线看 | 成人1区2区 | 精品国产91久久久久久 | 国产真实精品久久二三区 |