成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開(kāi)源大模型新王干翻GPT-4o,新技術(shù)可糾正自己幻覺(jué),數(shù)學(xué)99.2分刷爆測(cè)試集

人工智能
Reflection 70B能力提升的關(guān)鍵,是采用了一種名為Reflection-Tuning的訓(xùn)練方法,它能夠讓模型反思自己生成的文本,在最終確定回應(yīng)前檢測(cè)并糾正自身推理中的錯(cuò)誤。

開(kāi)源大模型王座突然易主,居然來(lái)自一家小創(chuàng)業(yè)團(tuán)隊(duì),瞬間引爆業(yè)界。

新模型名為Reflection 70B,使用一種全新訓(xùn)練技術(shù),讓AI學(xué)會(huì)在推理過(guò)程中糾正自己的錯(cuò)誤和幻覺(jué)。

圖片

比如最近流行的數(shù)r測(cè)試中,一開(kāi)始它犯了和大多數(shù)模型一樣的錯(cuò)誤,但主動(dòng)在<反思>標(biāo)簽中糾正了自己。

圖片

在官方評(píng)測(cè)中,70B模型全面超越最強(qiáng)開(kāi)源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數(shù)學(xué)基準(zhǔn)GSM8K上直接刷爆,得分99.2%

這個(gè)結(jié)果也讓OpenAI科學(xué)家、德?lián)銩I之父Noam Brown激情開(kāi)麥:

GSM8K得分99%!是不是可以正式淘汰這個(gè)基準(zhǔn)了?

圖片

模型剛剛上線網(wǎng)友就把試玩擠爆了,對(duì)此Meta還主動(dòng)支援了更多算力。

圖片
圖片

在網(wǎng)友測(cè)試中,Reflection 70B能回答對(duì)GSM8K數(shù)據(jù)集中本身答案錯(cuò)誤的問(wèn)題:

我向模型提供了GSM8K中存在的5個(gè)“ground_truth”本身就不正確的問(wèn)題。

模型沒(méi)有重復(fù)數(shù)據(jù)集中的錯(cuò)誤答案,而是全部回答對(duì)了,這很令人印象深刻,表明那99.2%的準(zhǔn)確率并非來(lái)自于記憶測(cè)試集

圖片

數(shù)各種r都不在話下,連生造詞“drirrrngrrrrrnnn”中有幾個(gè)r也能被正確數(shù)對(duì)。

圖片

網(wǎng)友紛紛對(duì)小團(tuán)隊(duì)做出的開(kāi)源超越頂流閉源感到驚訝,現(xiàn)在最強(qiáng)開(kāi)源模型可以在本地運(yùn)行了。

圖片

關(guān)鍵70B還只是個(gè)開(kāi)始,官方表示下周還會(huì)發(fā)布更大的Reflection 405B

預(yù)計(jì)405B性能將大幅優(yōu)于Sonnet和GPT-4o。

圖片

Reflection 70B權(quán)重已公開(kāi),API訪問(wèn)將于今天晚些時(shí)候由Hyperbolic Labs提供。

模型能自我反思糾正錯(cuò)誤

目前關(guān)于Reflection 70B的更多細(xì)節(jié)如下。

Reflection 70B能力提升的關(guān)鍵,是采用了一種名為Reflection-Tuning的訓(xùn)練方法,它能夠讓模型反思自己生成的文本,在最終確定回應(yīng)前檢測(cè)并糾正自身推理中的錯(cuò)誤。

圖片

訓(xùn)練中的數(shù)據(jù)來(lái)自使用GlaiveAI平臺(tái)生成的合成數(shù)據(jù)。

圖片

Reflection 70B基于Llama 3.1 70B Instruct,可以使用與其它Llama模型相同的代碼、pipeline等從Reflection Llama-3.1 70B進(jìn)行采樣。

它甚至使用了標(biāo)準(zhǔn)的Llama 3.1聊天格式。

不過(guò),Reflection 70B引入了一些特殊tokens,結(jié)構(gòu)化輸出過(guò)程。

圖片

如下面這個(gè)例子所展示的,規(guī)劃過(guò)程分為一個(gè)獨(dú)立的步驟,這樣做可以提高CoT效果,并保持輸出精煉:

圖片

模型將從在<thinking>和</thinking>標(biāo)簽內(nèi)輸出推理開(kāi)始,一旦對(duì)其推理感到滿意,就會(huì)在<output>和</output>標(biāo)簽內(nèi)輸出最終答案。

所以它能夠?qū)⑵鋬?nèi)部思考和推理與最終答案分離。

在<thinking>部分,模型可能會(huì)輸出一個(gè)或多個(gè)<reflection>標(biāo)簽,這表明模型發(fā)現(xiàn)了其推理中的錯(cuò)誤,并將在提供最終答案之前嘗試糾正該錯(cuò)誤。

系統(tǒng)提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一個(gè)世界級(jí)人工智能系統(tǒng),能夠進(jìn)行復(fù)雜的推理和反思。在標(biāo)簽內(nèi)對(duì)查詢進(jìn)行推理,然后在標(biāo)簽內(nèi)提供你的最終回應(yīng)。如果你發(fā)現(xiàn)自己在任何時(shí)候推理出錯(cuò),請(qǐng)?jiān)跇?biāo)簽內(nèi)糾正自己。)

圖片

此外值得一提的是,基準(zhǔn)測(cè)試中,所有基準(zhǔn)都已通過(guò)LMSys的LLM Decontaminator檢查污染,隔離了<output>部分,并單獨(dú)對(duì)這一部分進(jìn)行測(cè)試。

使用Reflection 70B的時(shí)候,官方還分享了小tips:

  • 初步建議參數(shù)temperature為.7 , top_p為.95
  • 為提高準(zhǔn)確性,最好附加“Think carefully.”在Prompt末尾

官方還表示,下周會(huì)發(fā)布一份報(bào)告,詳細(xì)介紹模型訓(xùn)練過(guò)程和發(fā)現(xiàn)。

Agent創(chuàng)業(yè)團(tuán)隊(duì)打造

Reflection 70B的背后是一支小團(tuán)隊(duì),由HyperWriteAI的CEO Mutt Shumer帶領(lǐng)。

圖片

領(lǐng)英顯示,Mutt Shumer是一位連續(xù)創(chuàng)業(yè)者,畢業(yè)于美國(guó)錫拉丘茲大學(xué),現(xiàn)任OthersideAI的聯(lián)合創(chuàng)始人兼CEO。

圖片

OthersideAI是一家AI應(yīng)用公司,致力于通過(guò)大規(guī)模AI系統(tǒng)開(kāi)發(fā)全球最先進(jìn)的自動(dòng)補(bǔ)全工具,也是HyperWrite的幕后公司。

HyperWrite是一個(gè)瀏覽器操作agent,可以像人一樣操作谷歌瀏覽器來(lái)完成一系列任務(wù),比如訂披薩:

圖片

和gpt-llm-trainer一樣,你只需要用文字描述目標(biāo),它就會(huì)一邊列步驟,一邊執(zhí)行。

剛推出時(shí)號(hào)稱“比AutoGPT強(qiáng)”。

圖片

HyperWrite還可以在谷歌擴(kuò)展程序中安裝。

另外,Mutt Shumer高中時(shí)期就創(chuàng)立了Visos,致力于開(kāi)發(fā)用于醫(yī)療用途的下一代虛擬現(xiàn)實(shí)軟件。

還創(chuàng)立了FURI,這是一家旨在通過(guò)創(chuàng)造高性能產(chǎn)品并以公平的價(jià)格銷(xiāo)售它們來(lái)顛覆體育用品行業(yè)的公司。

圖片

雖然有Meta支持,但目前打開(kāi)試玩,還是:暫時(shí)無(wú)法訪問(wèn)。

圖片

感興趣的童鞋可以先碼住了~

https://reflection-playground-production.up.railway.app/ 

參考鏈接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-05-15 17:34:15

2024-09-06 13:00:29

2024-10-17 13:30:00

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-10-17 14:05:34

2024-12-27 10:27:58

2024-08-09 12:50:02

2024-06-21 09:58:38

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2024-08-14 12:54:46

2024-09-02 08:30:00

大模型AI

2025-05-26 08:33:00

2024-05-14 11:29:15

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-06-05 13:09:26

2024-09-14 09:31:00

2025-04-08 02:26:00

2024-12-13 14:03:44

模型訓(xùn)練AI

2024-06-27 12:45:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久在线| 日韩av免费在线观看 | 久久久精品网 | 亚洲网视频 | 91中文字幕在线 | 91 中文字幕 | 男女羞羞的网站 | 久久精品视频网站 | 久久久久亚洲精品国产 | 国产特级毛片 | ww亚洲ww亚在线观看 | 麻豆久久| 久草新在线 | 91精品国产欧美一区二区成人 | 亚洲精彩免费视频 | 日韩av一区二区在线观看 | 免费黄色a级毛片 | 欧美三级在线 | 浮生影院免费观看中文版 | 高清黄色| 国内精品视频一区二区三区 | 99精品一区二区三区 | 91社区在线观看高清 | 亚洲国产一区二区视频 | 中文字幕三区 | 久久视频一区 | 中文字幕精品一区二区三区精品 | 国产日韩一区二区三区 | 男女羞羞网站 | 国产高清在线观看 | 国产精品区一区二区三 | 中文字幕在线视频免费观看 | 国产精品视频在线观看 | 国产精品1区 | 国产日韩一区二区 | 国产亚洲一级 | 欧美二区在线 | www.久久久久久久久久久 | 国产免费一区二区三区 | 国产精品成人在线 | 91免费版在线 |