成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

還在死磕AI咒語?北大-百川搞了個(gè)自動提示工程系統(tǒng)PAS

人工智能 新聞
基于 Transformer 架構(gòu)的大語言模型正在各個(gè)領(lǐng)域取得突破性成果。提示詞工程(Prompt Engineering)在其中的角色至關(guān)重要。

論文共同第一作者鄭淼,來自于周澤南領(lǐng)導(dǎo)的百川對齊團(tuán)隊(duì),畢業(yè)于北京大學(xué),研究方向包括大語言模型、多模態(tài)學(xué)習(xí)以及計(jì)算機(jī)視覺等,曾主導(dǎo)MMFlow等開源項(xiàng)目。共同第一作者梁昊,北京大學(xué)前沿交叉學(xué)科研究院博士生,研究方向?yàn)榇竽P蛿?shù)據(jù)側(cè),指導(dǎo)老師為張文濤教授。北大-百川智能AI系統(tǒng)聯(lián)合實(shí)驗(yàn)室成立于2024年1月,旨在圍繞人工智能模型系統(tǒng)的全技術(shù)流程,研究科學(xué)和系統(tǒng)的數(shù)據(jù)生成和質(zhì)量評估策略、大模型訓(xùn)練和推理加速等重要問題。聯(lián)合實(shí)驗(yàn)室由北京大學(xué)博雅特聘教授崔斌和百川智能聯(lián)合創(chuàng)始人陳煒鵬擔(dān)任主任。

基于 Transformer 架構(gòu)的大語言模型正在各個(gè)領(lǐng)域取得突破性成果。提示詞工程(Prompt Engineering)在其中的角色至關(guān)重要。

用好提示詞,研究人員和開發(fā)者能夠引導(dǎo)模型在特定任務(wù)上表現(xiàn)得更優(yōu)秀。這種方法不僅能夠顯著提升模型的性能,還能夠增強(qiáng)模型的適應(yīng)性,使其在面對各種復(fù)雜任務(wù)時(shí)更加靈活和高效。

此外,提示詞工程還能優(yōu)化模型的學(xué)習(xí)過程,提高復(fù)雜問題處理效率,減少訓(xùn)練時(shí)間和計(jì)算資源需求。

相較于傳統(tǒng)的微調(diào)方法,提示詞工程能以極低成本使模型適應(yīng)多個(gè)下游任務(wù),大幅節(jié)省計(jì)算資源和數(shù)據(jù)收集成本。然而,設(shè)計(jì)有效的提示詞對非專業(yè)人士而言仍具挑戰(zhàn)性,往往需要大量學(xué)習(xí)和實(shí)踐。

直接利用大語言模型進(jìn)行自動提示工程通常難以取得理想效果。不恰當(dāng)?shù)奶崾究赡芊稚⒛P妥⒁饬Γ炊档托阅堋R虼耍_發(fā)一個(gè)能輔助用戶,操作簡便的自動提示工程系統(tǒng)變得尤為重要。

PAS:突破性的自動提示工程系統(tǒng)

為應(yīng)對這一挑戰(zhàn),北京大學(xué) - 百川聯(lián)合實(shí)驗(yàn)室提出了 PAS 自動提示工程系統(tǒng)。PAS 的創(chuàng)新之處在于:

1. 設(shè)計(jì)高質(zhì)量的自動提示數(shù)據(jù)集

2. 對 GPT 模型進(jìn)行少樣本學(xué)習(xí)和數(shù)據(jù)篩選

3. 自動構(gòu)建精簡而高效的提示數(shù)據(jù)集

4. 通過微調(diào)實(shí)現(xiàn)有效的自動提示工程

PAS 能夠?qū)τ脩糨斎脒M(jìn)行簡潔而有效的補(bǔ)充,實(shí)現(xiàn)快速、簡單且支持流式顯示的自動提示工程。

在多個(gè)基準(zhǔn)測試中,PAS 的表現(xiàn)遠(yuǎn)超既有的 SOTA 模型,且所需數(shù)據(jù)量更少。人工評測結(jié)果同樣顯示 PAS 具有優(yōu)異表現(xiàn),凸顯了其在實(shí)際應(yīng)用中的巨大潛力。

這一突破性成果不僅推動了提示詞工程的發(fā)展,也為大語言模型在更廣泛領(lǐng)域的應(yīng)用鋪平了道路。

圖片

  • 論文地址:https://arxiv.org/abs/2407.06027
  • PKU-Baichuan-MLSystemLab:

https://github.com/PKU-Baichuan-MLSystemLab

https://huggingface.co/PKU-Baichuan-MLSystemLab

方法

圖片

訓(xùn)練 PAS 主要分為三步:

第一步:構(gòu)建高質(zhì)量問題數(shù)據(jù)集

訓(xùn)練 PAS 的首要任務(wù)是建立一個(gè)高質(zhì)量的問題數(shù)據(jù)集。如圖 (a) 所示,研究人員根據(jù) LMSYS-1M 和 WildChat 數(shù)據(jù)集,通過以下三方面篩選出優(yōu)質(zhì)問題:

1. 數(shù)據(jù)去重:運(yùn)用 embedding 技術(shù)結(jié)合聚類算法,有效去除重復(fù)數(shù)據(jù)。

2. 質(zhì)量篩選:利用百川大模型對數(shù)據(jù)質(zhì)量進(jìn)行評估和篩選。

3. 多樣性保證:最終選出覆蓋 10 多個(gè)類別的 9000 條高質(zhì)量問題數(shù)據(jù)。

第二步:補(bǔ)充提示工程數(shù)據(jù)

在這一階段,研究人員綜合利用內(nèi)部積累的 100 條高質(zhì)量數(shù)據(jù)和第一步篩選的問題數(shù)據(jù),通過 few-shot learning 方法,借助 GPT 模型構(gòu)建自動提示工程數(shù)據(jù):

1. 初始數(shù)據(jù)生成:使用 few-shot learning 指導(dǎo) GPT 生成初步的提示工程數(shù)據(jù)。

2. 質(zhì)量控制:設(shè)計(jì) Critique 步驟,再次利用 few-shot learning 讓 GPT 評估生成數(shù)據(jù)的質(zhì)量。

3. 迭代優(yōu)化:自動篩除低質(zhì)量數(shù)據(jù),并重新生成,通過多輪迭代確保數(shù)據(jù)質(zhì)量。

4. 最終成果:最終得到 9000 條高質(zhì)量的自動提示工程數(shù)據(jù)。

圖片

數(shù)據(jù)分布

生成的 9000 條數(shù)據(jù)的分布情況如上圖所示,確保了數(shù)據(jù)的多樣性和代表性。

第三步: 微調(diào)自動提示模型

最后一步將利用前兩個(gè)階段獲得的數(shù)據(jù)集來微調(diào)大型語言模型:

1. 選擇基礎(chǔ)模型:如 Qwen2-7b 等模型。

2. 定向微調(diào):使用高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)。

3. 專業(yè)化訓(xùn)練:最終得到一個(gè)專門用于自動提示工程的大語言模型。

實(shí)驗(yàn)及結(jié)果

圖片

人工評測

根據(jù)人類評估員的測評,相比先前的 SOTA(State-of-the-Art)模型,PAS 在各領(lǐng)域均展現(xiàn)出較高的勝率。在多個(gè)領(lǐng)域的平均勝率超過 50%,勝率與平局率之和更是高達(dá) 80% 以上。

圖片

機(jī)器評測 Benchmark 

為全面評估 PAS 的性能,研究人員選擇了Arena-Hard、Alpaca-Eval 2.0、Alpaca-Eval 2.0 (LC) 三個(gè) benchmark。

隨后,研究人員將 PAS 應(yīng)用于六個(gè)頂尖的 AI 模型,包括:

  • GPT-4(三個(gè)版本)
  • GPT-3.5
  • Qwen2-72-Instruct
  • LLaMA3-70B-Instruct

評測結(jié)果顯示:

  • 相較于無提示情況和先前的 SOTA 自動提示工程模型,PAS 均取得了顯著提升。
  • 與之前的 BPO 模型相比,PAS 展現(xiàn)出更強(qiáng)的適應(yīng)性,能夠與各種超大模型兼容,并在每個(gè)模型上都實(shí)現(xiàn)了性能提升。

計(jì)算效率分析

PAS 不僅在性能上表現(xiàn)卓越,其計(jì)算效率也非常高:在數(shù)據(jù)效率方面,它僅需 9000 條微調(diào)數(shù)據(jù)便能展現(xiàn)出卓越性能。在輸出效率方面,它能夠限制補(bǔ)充自動提示的長度,通常不超過 30 個(gè)詞。

對于用戶體驗(yàn)而言,PAS 也為大模型帶來了增益,具體來說:

  • 與 BPO 等先前模型不同,PAS 無需修改用戶的原始問題,僅進(jìn)行補(bǔ)充自動提示。
  • 提供極佳的用戶體驗(yàn),響應(yīng)時(shí)間可控。
  • 支持類似 GPT 的流式顯示,進(jìn)一步提升交互體驗(yàn)。

實(shí)例:PAS 幫助大模型繞開邏輯陷阱

「如果樹上有 10 只鳥,其中一只被射死了,地上有多少只鳥?」

這個(gè)看似簡單的問題實(shí)際上隱藏著一個(gè)巧妙的邏輯陷阱,你看到它可能也需要反應(yīng)幾秒,才知道樹上還剩 9 只鳥,而地上只有 1 只。

圖片

正如圖上所示,在沒有 PAS 輔助的情況下,GPT 給出了錯(cuò)誤的回答。而 PAS 系統(tǒng)通過補(bǔ)充提示詞,顯著改善了模型的表現(xiàn):

在 PAS 的引導(dǎo)下,模型新一輪的回答展現(xiàn)出了顯著的提升,不僅成功規(guī)避了問題中的邏輯陷阱,展示了清晰的、多步驟的邏輯推理過程,還能在給出正確答案之外引導(dǎo)用戶理解整個(gè)推理過程。

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-12-22 17:46:19

2022-07-28 14:22:50

元宇宙AI

2023-09-06 19:44:26

昇騰

2014-11-17 15:09:03

阿里百川淘寶無線

2022-03-23 18:00:34

循環(huán)CPU線程

2009-07-27 10:57:37

運(yùn)維管理ITIL摩卡

2010-03-29 11:08:17

無線技術(shù)藍(lán)牙3.0

2016-08-29 18:45:14

軌道交通銳捷網(wǎng)絡(luò)

2023-04-24 08:12:59

2009-04-16 08:59:11

2012-12-18 10:38:52

2012年度IT博客大IT博客大賽博客

2017-12-27 13:14:56

SCRM致趣百川

2021-03-01 08:02:55

算法排序操作

2014-11-17 14:58:42

阿里百川淘寶無線

2012-12-04 10:12:56

2012年度IT博客大IT博客大賽博客

2015-07-16 11:57:19

阿里百川移動開發(fā)

2024-09-10 08:10:50

2025-03-20 18:11:44

2020-08-31 06:36:15

JavaScript插件系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 宅男噜噜噜66一区二区 | 成人av在线播放 | 色资源站 | 欧美性另类 | 亚洲69p | 全免费a级毛片免费看视频免 | 欧美日韩精品中文字幕 | 黄色av免费| 欧美成人激情视频 | 精品一区在线免费观看 | 久久精品小视频 | 天天夜夜人人 | www.日本在线 | 日韩精品一区二区三区中文字幕 | 玖玖视频| 国产精品视频不卡 | 日韩精品一区二区三区中文字幕 | 激情黄色在线观看 | 亚洲性网 | 91毛片在线观看 | 成人网在线| 精品国产乱码久久久久久蜜柚 | 日韩精品无码一区二区三区 | 麻豆国产一区二区三区四区 | 香蕉久久久 | 国产成人精品一区二区三区网站观看 | 欧美成人在线影院 | 欧美亚洲视频在线观看 | 久久国产精品视频 | 看av片网站 | 91在线导航 | 亚洲午夜久久久 | 99久久精品免费看国产免费软件 | 国产免费观看视频 | 精品成人| 欧美在线日韩 | 免费的色网站 | 热re99久久精品国99热观看 | 国产乱码精品1区2区3区 | 免费中文字幕 | 亚洲欧美中文日韩在线v日本 |