成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT核心方法可用于AI繪畫,效果飛升47%,通訊作者:已跳槽OpenAI

人工智能
RLHF,全稱“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作開發(fā)的一種強(qiáng)化學(xué)習(xí)技術(shù)。

ChatGPT中有這樣一個(gè)核心訓(xùn)練方法,名叫“人類反饋強(qiáng)化學(xué)習(xí)(RLHF)”。

它可以讓模型更安全、輸出結(jié)果更遵循人類意圖。

現(xiàn)在,來自谷歌Research和UC伯克利的研究人員發(fā)現(xiàn),將該方法用在AI繪畫上,“治療”圖像跟輸入不完全匹配的情況,效果也奇好——

可以實(shí)現(xiàn)高達(dá)47%的改進(jìn)。

圖片

△ 左為Stable Diffusion,右為改進(jìn)后效果

這一刻,AIGC領(lǐng)域中兩類大火的模型,似乎找到了某種“共鳴”。

如何將RLHF用于AI繪畫?

RLHF,全稱“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作開發(fā)的一種強(qiáng)化學(xué)習(xí)技術(shù)。

正如其名,RLHF就是用人類對(duì)模型輸出結(jié)果的評(píng)價(jià)(即反饋)來直接優(yōu)化模型,在LLM中,它可以使得“模型價(jià)值觀”更符合人類價(jià)值觀。

而在AI圖像生成模型中,它可以讓生成圖像與文本提示得到充分對(duì)齊。

具體而言,首先,收集人類反饋數(shù)據(jù)。

在這里,研究人員一共生成了27000余個(gè)“文本圖像對(duì)”,然后讓一些人類來打分。

為了簡(jiǎn)單起見,文本提示只包括以下四種類別,分別關(guān)乎數(shù)量、顏色、背景和混合選項(xiàng);人類的反饋則只分“好”、“壞”與“不知道(skip)”。

圖片

其次,學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。

這一步,就是利用剛剛獲得的人類評(píng)價(jià)組成的數(shù)據(jù)集,訓(xùn)練出獎(jiǎng)勵(lì)函數(shù),然后用該函數(shù)來預(yù)測(cè)人類對(duì)模型輸出的滿意度(公式紅色部分)。

這樣,模型就知道自己的結(jié)果究竟有幾分符合文本。

圖片

除了獎(jiǎng)勵(lì)函數(shù),作者還提出了一個(gè)輔助任務(wù)(公式藍(lán)色部分)。

也就是當(dāng)圖像生成完成后,模型再給一堆文本,但其中只有一個(gè)是原始文本,讓獎(jiǎng)勵(lì)模型“自己檢查”圖像是否跟該文本相匹配。

這種逆向操作可以讓效果得到“雙重保險(xiǎn)”(可以輔助下圖中的step2進(jìn)行理解)。

圖片

最后,就是微調(diào)了。

即通過獎(jiǎng)勵(lì)加權(quán)最大似然估計(jì)(reward-weighted likelihood maximization)(下公式第一項(xiàng)),更新文本-圖像生成模型。

圖片

為了避免過擬合,作者對(duì)預(yù)訓(xùn)練數(shù)據(jù)集上的NLL值(公式第二項(xiàng))進(jìn)行了最小化。這種做法類似于InstructionGPT (ChatGPT的“直系前輩”)。

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微調(diào)過后的模型可以:

(1)更正確地get文本里的“兩只”和“綠色”;

圖片

(2)不會(huì)忽略“大海”作為背景的要求;

(3)想要紅老虎,能給出“更紅”的結(jié)果。

從具體數(shù)據(jù)來看,微調(diào)后的模型人類滿意度為50%,相比原來的模型(3%),得到了47%的提高。

不過,代價(jià)是失去了5%的圖像清晰度。

圖片

從下圖我們也能很清楚的看到,右邊的狼明顯比左邊的糊一些:

對(duì)此,作者表示,使用更大的人類評(píng)價(jià)數(shù)據(jù)集和更好的優(yōu)化 (RL) 方法,可以改善這種情況。

關(guān)于作者

本文一共9位作者。

圖片

一作為谷歌AI研究科學(xué)家Kimin Lee,韓國(guó)科學(xué)技術(shù)院博士,博士后研究在UC伯克利大學(xué)展開。

圖片

華人作者三位:

Liu Hao,UC伯克利在讀博士生,主要研究興趣為反饋神經(jīng)網(wǎng)絡(luò)。

Du Yuqing,同UC伯克利博士在讀,主要研究方向?yàn)闊o(wú)監(jiān)督強(qiáng)化學(xué)習(xí)方法。

Shixiang Shane Gu (顧世翔),通訊作者,本科師從三巨頭之一Hinton,博士畢業(yè)于劍橋大學(xué)。

圖片

△ 顧世翔

值得一提的是,寫這篇文章時(shí)他還是谷歌人,如今已經(jīng)跳槽至OpenAI,并在那里直接向ChatGPT負(fù)責(zé)人報(bào)告。

論文地址: 

https://arxiv.org/abs/2302.12192

參考鏈接:[1]??https://twitter.com/kimin_le2/status/1629158733736718336??

[2]?https://openai.com/blog/instruction-following/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-10-23 15:27:09

OpenAIChatGPT

2023-02-16 10:26:58

谷歌AI

2023-05-06 08:23:36

ChatGPT自然語(yǔ)言技術(shù)

2025-06-26 15:09:07

AI模型訓(xùn)練

2023-02-27 14:55:54

技術(shù)研究

2022-12-02 17:37:57

AIOpenAI游戲

2023-09-21 09:49:09

人臉識(shí)別? ChatGPT圖像

2023-06-02 13:19:15

模型AI

2023-08-02 09:38:10

ChatGPTOpenAI

2024-11-01 08:18:23

2024-12-12 11:28:29

2023-06-15 12:53:01

2023-02-17 08:30:25

人工智能ChatGPT

2024-09-11 11:11:59

2024-11-04 08:47:00

2024-11-20 14:30:00

AI圖片

2023-09-23 12:52:57

模型淑娟

2024-05-27 13:08:41

2025-02-08 08:50:00

2025-01-15 11:19:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 狠狠骚 | 91视频观看| 一区二区小视频 | 亚洲视频免费在线观看 | 日韩午夜一区二区三区 | www国产成人免费观看视频 | 超碰人人爱 | 久久伊人精品 | 91看片视频 | 99精品久久久国产一区二区三 | 亚洲国产成人精品在线 | 日韩精品人成在线播放 | 亚洲国产片 | jizjizjiz中国护士18 | 久久精品久久精品 | 北条麻妃av一区二区三区 | 亚洲人人 | 日韩欧美一区在线 | 少妇特黄a一区二区三区88av | 欧美一区二区在线播放 | 久久精品国产一区二区电影 | 亚洲高清在线观看 | a级片在线观看 | 欧美一区二区网站 | 国产精品久久久久久久久久久新郎 | 91精品国产91久久久久久不卞 | 亚洲欧美成人影院 | 午夜成人在线视频 | 天天夜夜操 | www.99re| 天色综合网 | 欧美一区二区三区 | 亚洲精品第一 | 中文字幕亚洲视频 | 天天插天天狠天天透 | 久久午夜视频 | 特级丰满少妇一级aaaa爱毛片 | 国内成人免费视频 | 亚洲久在线 | 久热m3u8| 免费国产黄网站在线观看视频 |