成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10行代碼讓大模型數學提升20%,“野路子”研究谷歌也測上了,主要作者全靠自學成才

人工智能 新聞
幾名獨立學者提出了大模型采樣的改進方案,引起了開源社區的關注。

只要不到10行代碼,就能讓大模型數學能力(GSM8k)提升20%!

幾名獨立學者提出了大模型采樣的改進方案,引起了開源社區的關注。

目前該方法已在Mistral-7B上取得成效,在Llama3-70B上的測試也正在進行。

圖片

這種方法叫做最小p采樣(min-p sampling),目的是平衡生成文本的連貫性和多樣性

簡單說就是讓模型在不同場合發揮不同的特性,例如在事實問題上保持性能穩定,在寫作等場景中又能發揮創意。

目前該方法已在Mistral-7B上取得成效,在Llama-70B上的測試也即將進行。

圖片

在論文中作者提到,該方法已經獲得了開源社區的廣泛應用。

圖片

同時作者還透露,Anthropic和谷歌等閉源模型廠商也已經或正在針對min-p進行測試。

圖片

消息也得到了谷歌方面的確認,從OpenAI跳槽到谷歌的開發者社區負責人Logan Kilpatrick已經回復說“On it”(在做了)。

圖片

微軟Copilot的研究人員Abram Jackson看了后表示,這是他看到的首個有關推理過程token采樣的改進,未來還有很大進步空間。

圖片

值得一提的是,這項受到廣泛關注的研究,主要作者Minh Nhat Nguyen根本沒系統學過CS,而是靠自學成才

在一家名為Apart Research的AI安全研究機構幫助下,Minh和團隊其他成員一起完成了該項目。

圖片

動態調整抽樣閾值

min-p是一種動態截斷抽樣方法,其核心是根據每一步token分布的最大概率,來縮放最小概率閾值

這樣做的目的,主要在于平衡生成文本的連貫性和多樣性,特別是在temperature較高的條件下。

具體來說,min-p引入了一個基礎概率閾值p_base,表示進入采樣池的最低概率要求。

在每一步生成token時,min-p會將p_base與當前概率分布中最大的token概率p_max相乘,得到一個縮放后的絕對閾值p_scaled。

只有概率大于等于p_scaled的token,才能夠進入采樣池。

當模型對某個token的預測概率非常高(即p_max很大)時,p_scaled的值也會很高,導致采樣池大幅縮小,絕大多數低概率token被過濾,只留下少數高把握的選擇,確保了輸出的連貫性;

圖片

而當模型對所有token的預測概率都比較接近(p_max較低)時,p_scaled的值也會相應變低,放寬了對采樣池的要求,納入更多中等概率的token,給予模型更多發揮空間,生成更加多樣化的內容。

圖片

在確定采樣池后,min-p會根據temperature對token概率分布進行縮放。

它將token的對數概率除以一個溫度參數τ,并進行歸一化后,就得到了temperature縮放后的概率分布。

大于1的τ值會使概率分布更加平緩,增加低概率token被選中的機會;

τ小于1時則會使分布更加尖銳,強化高概率token的優勢。

最后,min-p從縮放后的采樣池中,按照調整后的概率分布,隨機抽取下一個token。

穩定性和創意,“我全都要”

min-p方法的效果究竟如何呢?作者使用了Mistral-7B作為基礎模型進行了測試,我們來分場景看一下結果。

在推理任務中,作者采用了GPQA數據集。當temperature為1時,可以看到min-p相比于過去的top-p顯現出了微小的優勢。

隨著temperature增加,GPQA得分整體上呈現出了下降趨勢,但可以觀察到min-p的下降明顯比top-p更慢。

直到temperature達到3時min-p的下降趨勢才變得明顯,此時top-p的得分已接近0。

也就是說,相比于top-p,min-p在推理任務中更好地保持了所需要的穩定性

圖片

同樣需要保持穩定性能的還有數學類任務,這里作者使用了GSM8K數據集進行了測試。

結果min-p所對應的分數隨temperature的下降比在GPQA中更快,但仍然緩于top-p方式。

圖片

第三類任務是創意寫作,這時對穩定性的要求就不是那么高了,而是需要模型發揮更多的創意。

這項測試使用AlpacaEval數據集完成,實驗數據是從開源社區的一名獨立評估者那里獲得的。

實驗結果顯示,在temperature=1.5、min-p=0.1的設置下,min-p的性能尤其突出,可生成top-p方法難以生成的創意寫作內容。

在該參數下,min-p方法得到的文本獲得了58.12%的人類評判優選率,遠高于其他方法在類似設置下的表現。

圖片

論文地址:https://arxiv.org/abs/2407.01082
GitHub:https://github.com/menhguin/minp_paper/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-26 14:22:18

2025-02-25 08:06:05

2017-01-10 14:59:03

開發者故事

2011-04-02 10:50:36

WebHTML 5

2020-01-21 22:00:34

程序員技能開發者

2016-01-27 10:36:25

程序員自學

2021-12-22 10:57:26

機器學習人工智能計算機

2020-11-04 10:21:37

機器學習技術人工智能

2017-02-09 16:52:33

開發者優勢劣勢

2015-04-07 13:29:06

編程自學開發應用

2025-06-18 09:03:07

2017-01-10 10:14:47

新手學習編程

2020-06-16 09:13:27

數據科學數據大數據

2025-04-08 00:40:00

谷歌合成數據大模型

2025-04-07 03:00:00

Dreamer世界模型

2024-08-26 10:00:00

模型數據

2013-06-26 10:34:56

工程師?谷歌

2020-08-04 08:42:10

Python開發工具

2019-04-30 14:36:36

程序員技能開發者

2021-04-26 09:04:13

Python 代碼音樂
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩国产一区二区三区 | 欧美啊v在线观看 | 成人在线黄色 | 亚洲国产精久久久久久久 | 国产一区二 | 日韩一区精品 | 国产精品一区二区三级 | 成人性视频在线 | 二区中文字幕 | 精品日本久久久久久久久久 | 亚洲毛片在线观看 | 中文字幕成人网 | 国产精品一区二区久久久久 | 成人午夜毛片 | 91高清视频 | 综合久久久 | 亚洲国产精品一区二区三区 | 一道本不卡视频 | 凹凸日日摸日日碰夜夜 | 精品久久久久久久久久久 | 操操操日日日 | 色视频网站 | 欧美激情在线精品一区二区三区 | 日韩福利在线 | 欧美一区二区三区在线观看 | 国产免费av在线 | 日韩中文字幕一区二区 | 久久精品一区二区三区四区 | 天堂色网 | 可以免费看的毛片 | 国产精品777一区二区 | www.色婷婷| 亚洲成av人片在线观看 | 在线观看视频中文字幕 | 最新av中文字幕 | 日本精品一区 | 色综合久久久 | 91久久国产综合久久 | 欧美二区乱c黑人 | 国产aⅴ精品 | 免费看片在线播放 |