成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈

發布于 2024-8-9 16:42
瀏覽
0收藏

將語言模型不斷地擴大規模是可以提高它們的能力。而日常運用的時候,通常將推理限制在一次。要是對于同一個問題進行多次反復的采樣生成,那么是否能夠覆蓋正確的答案?是否能夠被準確的撈出?


三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區

最近一項研究進行如下的探索。整個過程如上圖所示,它分為兩個步驟,準備一個問題,然后遵循重復采樣程序,通過具有正溫度(代表著回答多樣性)的LLM中采樣來為給定問題生成很多的K個候選解決方案。第二個步驟使用特定領域的驗證器從生成的樣本中選擇最終答案。

<簡單總結一下:可以多次生成,但是成本要低且要包含正確答案。在解決了第一個問題之后,還要解決從K個答案,例如10000個中挑出那個正確的。>

1.覆蓋率能上去

覆蓋率的定義為被解決問題的比例,被解決的問題至少要在K個答案中被解開一次。這項研究對SWE-bench Lite這個基準進行重復采樣回答,使用DeepSeek-V2-Coder-Instruct來解決問題具有15.9%的正確率,若僅僅生成一次的回答(樣本)。若讓其生成250次的回答,則覆蓋率飆升至56%。這個成績也遠遠強于前沿模型的單次回答43%正確率。

細心的讀者會提出抗議,會不會比較費錢。其實按照當前的API定價,即便用調用5次的DeepSeek模型,也比GPT-4o或Claude 3.5 Sonnet的單次回答性價比更高且能夠解決更多的問題。<下面就是價格的對比圖!>


三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區


研究中發現,覆蓋率和樣本數量之間的關系通常是對數線性的,可以用指數冪律來建模,這表明存在推理時間縮放定律。

在解決 GSM8K和MATH的數學單詞問題時,Llama-3模型在10000次的樣本中對于正確答案的覆蓋率增長到95%以上。 從樣本集合中選擇正確解決方案的常用方法(例如多數投票或獎勵模型)在超過數百個樣本時會趨于穩定。


三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區


在五項任務中,值得注意的是,使用重復采樣,能夠將SWE-bench Lite上的解決率從15.9%提高到56%。

三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區

本次的研究將評估限制在MATH和CodeContests數據集上,以最大限度地降低推理成本,測試中幾乎每個模型的覆蓋率都有所增加,當應用重復采樣時,較小的模型顯示出最明顯的覆蓋率增加。

在CodeContests上,Gemma-2B的覆蓋率增加了300多倍,從pass@1<1代表1次抽樣>的0.02%增加到pass@10k<10k代表10000次抽樣>的7.1%。使用Pythia-160M解決MATH問題時,覆蓋率從pass@1 的0.27%增加到pass@10k的57%。

這種跨模型覆蓋率增加模式的例外是在 CodeContests 上評估的 Pythia 系列則為例外,所有Pythia模型在這個數據集上的覆蓋率都為零,即便10,000個樣本也是如此。推測可能是因為Pythia接受的特定的編碼數據比 Llama和Gemma少。


三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區


重復采樣可以放大較弱模型的功能,并超越來自較強模型的單個樣本。在這里還是需要證明這種放大比使用大規模的參數模型更具成本效益。上圖將之前抽樣次數的成本采用FLOP(視為成本指標)重新繪制了統計圖。

在MiniF2F、GSM8K和MATH的評估指標上,當FLOP預算固定時,Llama-3-8B-Instruct總是比更大(且更昂貴)的70B模型獲得更高的覆蓋率。然而對于 CodeContests,70B模型幾乎總是更具成本效益!!

每次查詢折算的FLOP公式如下:

三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區


LLM的Loss與其訓練計算算力之間的關系已通過??縮放定律<鏈接溫習!>??講解得很是清晰。這些定律在經驗上已經被驗證,并激發了模型開發人員的信心,相信只要投資大量的算力則能夠得到很棒的模型。

受到訓練縮放定律的啟發,旨在更好地描述覆蓋率和樣本預算(即多次推理的計算量)之間的關系,這里觀測到兩個很有意思的想象:

  • 覆蓋率和樣本數量之間的關系通常可以用指數冪律建模。

三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區

  • 對于給定的任務,來自同一家族的不同模型的覆蓋率曲線類似于具有相似斜率但不同水平偏移的 S 曲線

    三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區

2.如何選擇對的

覆蓋率上去了,那么如何萬里挑一呢?研究發現在沒有自動驗證器的領域中,從許多代中識別出正確的樣本仍然是未來研究的重要方向。

既然已經存在N個回答,如何挑選一個最為最后的答案,就像人生如何選擇一樣至關重要。第2階段關注的重點在于多次采樣中如何選擇出最佳答案,以便提高正確率。目前存在主流的三種方法:多數投票(Majority Voting),獎勵模型選擇(Reward Model Selection),獎勵模型多數投票(Reward Model Majority Voting)。

三個臭皮匠與一個諸葛亮:覆蓋率與正確率的博弈-AI.x社區

研究表明,隨著樣本數量的增加,前面三種組合式的選擇會隨著樣本數量的增加而增加,但在100個樣本左右達到飽和。而覆蓋率(圖4)會隨著樣本數量的增加而繼續增加,并超過95%。

<!!注意,覆蓋率意味著這么多的備選答案存在正確的,但是并不代表算法可以檢索出正確作為最后的答案!!>

在多數投票的情況下,這種成功率飽和很容易解釋。隨著樣本數量的增加,分配給每個答案的投票比例會穩定下來,因此成功率也會穩定下來。對于某些GSM8K和MATH問題,正確解決方案的采樣概率為1%或更低,因此它們只是少數樣本。隨著樣本數量的增加,更多問題會出現罕見的正確解決方案,從而增加覆蓋率,但不會提高多數投票的成功率。

為了充分利用重復采樣的優勢,識別出正確解答一定要能夠解決這些“大海撈針”的場景,識別出稀有的正確樣本。在數學應用題中,現有工具無法自動驗證答案,研究者發現覆蓋率與確定最終答案的方法選擇存在很大差距。

<即便抽樣了N次,還是要選擇一個不是?!>。

當使用Llama-3-8B-Instruct解決數學問題時,覆蓋率從100個樣本的79.8%增加到10,000個樣本的95.3%。然而,多數投票和使用獎勵模型來選擇最終解答的方法在樣本預算較低的情況下趨于飽和,在同一范圍內僅從38.7%擴展到39.8%。

<即便有了正確答案,還是選不中!?>。

這些結果表明構建強大的驗證器仍然是一個懸而未決的問題。

本文轉載自??魯班模錘??,作者: 龐德公 ????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品资源在线 | 人人爽人人爽人人片av | 久久久看 | 一级片在线观看 | 久久6视频 | 亚洲播放| 成年网站在线观看 | 一级特黄a大片 | 伦理午夜电影免费观看 | 青青草中文字幕 | 免费看国产a | 婷婷久 | 国产精品久久久久久久久久久免费看 | 福利影院在线看 | 一二三四在线视频观看社区 | 女人毛片a毛片久久人人 | 国产欧美精品区一区二区三区 | 国产精品7777777 | 岛国视频 | 欧美激情综合网 | 精品亚洲国产成av人片传媒 | 国产精品色婷婷久久58 | 国产成年人视频 | www国产成人免费观看视频,深夜成人网 | 成人在线视频网 | 浮生影院免费观看中文版 | 亚洲高清视频一区二区 | 亚洲一区二区三区在线免费 | 久久精品久久久久久 | 国产精品久久久久国产a级 欧美日韩国产免费 | 久久人人爽人人爽 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 国产精品久久久久久久久图文区 | 青青草在线播放 | 亚洲精品乱码久久久久久蜜桃 | 国产精品一区二区视频 | 国产在线二区 | 四虎影院欧美 | 91麻豆精品国产91久久久久久 | 国产高清自拍视频在线观看 | 黄免费观看 |