成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福70億參數開源模型媲美GPT-3.5,100美元即可復現

人工智能 新聞
學界或許沒有業界的算力優勢,但可以使用 self-instruct 方法直面大規模語言模型的挑戰。

隨著大規模語言模型的日漸強大,人們對 AI 模型提出了倫理道德方面的更高要求。業界在模型規模擴展方面具有算力資源優勢,但要想讓模型更規范、可靠,需要學術界的努力。

近日,斯坦福基于 Meta 的 LLaMA 7B 模型微調出一個新模型 Alpaca。該研究讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)樣本,以此作為 Alpaca 的訓練數據。研究團隊已將訓練數據、生成訓練數據的代碼和超參數開源,后續還將發布模型權重和訓練代碼。

圖片

  • 項目地址:https://github.com/tatsu-lab/stanford_alpaca
  • 試用地址:https://alpaca-ai-custom6.ngrok.io/

實驗結果表明,Alpaca 的很多行為都與 text-davinci-003 類似。也就是說,只有 7B 參數的輕量級模型 Alpaca 性能可媲美 GPT-3.5 這樣的超大規模語言模型。

我們來看一下 Alpaca 模型是如何做到的。

訓練方法

在學術界的預算條件下,訓練高質量的指令遵循模型面臨兩個重要挑戰:強大的預訓練語言模型和高質量的指令遵循數據。

Meta 最近發布的 LLaMA 系列模型解決了第一個挑戰。對于第二個挑戰,2022 年底的 self-instruct 論文提出使用現有的強大語言模型自動生成指令數據。

圖片

論文地址:https://arxiv.org/abs/2212.10560

按照這種方法,Alpaca 使用 LLaMA 7B 模型的監督學習在 text-davinci-003 以 self-instruct 方式生成的 52K 指令遵循樣本上進行微調。

圖片

self-instruct 方法概覽。

Alpaca 的研究團隊首先使用 self-instruct 種子集中的 175 個人工編寫的指令輸出(instruction-output)對,然后用該種子集作為 in-context 樣本 prompt text-davinci-003 來生成更多指令。該研究通過簡化生成 pipeline 改進了 self-instruct 方法,并顯著降低了成本。

圖片

該研究共生成了 52K 個不同的指令和相應的輸出作為訓練數據,其中使用了 OpenAI 開放的 API,成本不到 500 美元。由于研究團隊已將訓練數據開源,對于想要復現 Alpaca 的開發者來說,這500美元就省下了。

圖片

有了這個指令遵循數據集,該研究下一步使用 Hugging Face 的訓練框架微調了 LLaMA 模型,并利用了 FSDP(Fully Sharded Data Parallel)和混合精度訓練等技術。成本方面,在 8 個 80GB A100 上微調一個 7B LLaMA 模型需要 3 個小時,這對大多數云計算提供商來說成本不到 100 美元。

模型評估

該研究使用來自 self-instruct 評估集的輸入進行了人工評估,這項工作由 5 名研究團隊的學生完成。該評估集由 self-instruct 論文的作者收集整理,涵蓋了多種面向用戶的 instruction,涉及電子郵件、社交媒體和辦公工具。

在將 text-davinci-003 和 Alpaca 7B 進行 blind pairwise 比較之后,研究者發現這兩個模型的性能非常相似,并且 Alpaca 略優于 text-davinci-003。

從參數規模的角度看,Alpaca 遠遠小于 text-davinci-003,移動端甚至也可以運行 7B 的輕量級語言模型。這讓 Alpaca 意義非凡。

除了利用上述靜態的 self-instruct 評估集,該研究還對 Alpaca 模型進行了交互測試,并發現 Alpaca 的表現通常與 text-davinci-003 相似。

下面是研究團隊測試的兩個例子,結果表明 Alpaca 的輸出良好,并且反映出指令遵循數據集的一般風格。例如,Alpaca 輸出的答案通常比 ChatGPT 更簡潔,這和 text-davinci-003 類似。

模型缺陷

實驗中,Alpaca 還表現出語言模型的幾種常見缺陷,包括幻覺、毒性和刻板印象,其中幻覺問題尤其嚴重。

例如在下圖中,Alpaca 回答坦桑尼亞的首都是達累斯薩拉姆,但實際上應該是多多馬。

圖片

此外,Alpaca 能夠生成一些看似良好卻包含錯誤或虛假信息的文本,這可能會誤導人們。

圖片

Alpaca 可能包含許多與底層語言模型和指令調優數據相關的其他缺陷。但是,Alpaca 對機器學習社區仍然具有重要意義,因為它提供了一個相對輕量級的模型,可作為研究重要缺陷的基礎。斯坦福的研究團隊還強調:Alpaca 只可用于學術研究,禁止任何商業用途。

接下來,斯坦福的研究團隊會進一步探究 Alpaca 模型的安全性、理解能力、規模擴展等等。研究團隊希望 Alpaca 能夠促進指令遵循模型的發展。

責任編輯:張燕妮 來源: 機器學習
相關推薦

2023-03-14 12:45:32

2023-03-14 13:45:14

模型AI

2023-03-22 15:14:00

數據模型

2023-03-31 13:55:00

模型智能

2023-09-21 12:31:54

AI數據

2024-01-02 14:07:00

2023-06-25 13:28:21

2023-05-26 10:50:38

模型AI

2023-06-05 15:44:15

GPT-4AI

2022-10-08 12:38:23

模型開源

2023-12-12 13:57:00

GPT-3.5MistralAI

2022-08-11 13:44:59

芯片AI

2024-05-13 12:58:30

2025-03-12 10:38:05

2024-05-07 13:24:54

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-06-27 09:14:52

微軟LLM AI 模型

2023-12-05 13:38:11

架構模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产一区二区三区在线观看 | 少妇无套高潮一二三区 | 一区二区影院 | 日日干夜夜干 | 国产99热精品 | 久久久久成人精品免费播放动漫 | 日韩一区二区三区在线视频 | 欧美精品日韩精品国产精品 | 91高清在线视频 | 成人h视频 | 亚洲一区二区在线视频 | gogo肉体亚洲高清在线视 | 日韩欧美国产一区二区 | 日韩在线一区二区三区 | 日韩视频精品在线 | 国产日韩欧美电影 | 精品1区2区 | 欧美一区二区久久 | 久在线精品视频 | 国产欧美日韩在线一区 | caoporn免费| 欧美日韩在线一区二区 | 久久久久久久久久久91 | 国产乱人伦精品一区二区 | 午夜不卡一区二区 | 毛片免费视频 | 99国内精品| 一级做a爰片性色毛片 | 欧美日韩在线观看一区 | 欧美群妇大交群中文字幕 | 亚洲天天干 | 国产一级片免费视频 | 欧美一区二区网站 | 一级毛片视频在线观看 | 精品国产一区二区三区性色av | 美女国产 | 亚洲精品www | 久久久999免费视频 999久久久久久久久6666 | 国产精品不卡一区 | 亚洲一区二区三区欧美 | 色婷婷影院 |