成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中文創(chuàng)意寫作能力超GPT-4,「最會寫」的中文大模型Weaver來了

人工智能 新聞
近日,波形智能的大模型團(tuán)隊發(fā)布了一款專精 AI 寫作的專業(yè)大模型 Weaver。通過寫作領(lǐng)域?qū)I(yè)預(yù)訓(xùn)練和一套創(chuàng)新性的數(shù)據(jù)生成和 Alignment 算法,Weaver 在寫作領(lǐng)域的各種任務(wù)上均取得了領(lǐng)先 GPT-4 和眾多中文通用大模型的效果。

ChatGPT 等通用大模型支持的功能成百上千,但是對于普通日常用戶來說,智能寫作一定是最常見的,也是大模型最能真正幫上忙的使用場景之一。盡管大模型經(jīng)常能寫出看起來像模像樣的文字,但是大多數(shù)情況下內(nèi)容的創(chuàng)意程度和文風(fēng)都經(jīng)不起深究。尤其是在創(chuàng)作領(lǐng)域,大模型常見的 “GPT 文風(fēng)” 更是讓利用大模型進(jìn)行創(chuàng)意寫作看起來簡單,實際卻困難重重。

近日,波形智能的大模型團(tuán)隊發(fā)布了一款專精 AI 寫作的專業(yè)大模型 Weaver。通過寫作領(lǐng)域?qū)I(yè)預(yù)訓(xùn)練和一套創(chuàng)新性的數(shù)據(jù)生成和 Alignment 算法,Weaver 在寫作領(lǐng)域的各種任務(wù)上均取得了領(lǐng)先 GPT-4 和眾多中文通用大模型的效果,尤其是在生成內(nèi)容的創(chuàng)意性和文風(fēng)質(zhì)量上大幅領(lǐng)先,是一款更能寫出 “人話” 的大模型。

圖片


  • 論文地址:https://arxiv.org/pdf/2401.17268.pdf
  • 在線 Demo:https://www.wawawriter.com/

ChatGPT 等大模型在通用指令跟隨和問答任務(wù)中效果出色,但是將大模型應(yīng)用于專業(yè)寫作,尤其是需要創(chuàng)造性和個性化文風(fēng)的創(chuàng)意寫作領(lǐng)域卻依然面臨重重阻礙。其中最大的問題就是大模型生成內(nèi)容風(fēng)格過于平淡,或者說文風(fēng)過于 “GPT”,缺少創(chuàng)造性。

為了解決這個問題,訓(xùn)練出更適合專業(yè)寫作的大模型,波形智能的研究團(tuán)隊分析了為什么 GPT 和其他通用大模型都做不好創(chuàng)意寫作類任務(wù)。首先,通用大模型的預(yù)訓(xùn)練過程,因為希望讓模型在更多的數(shù)據(jù)中自監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練的數(shù)據(jù)集中常常會包含非常多的低質(zhì)量內(nèi)容,真正由專業(yè)作家和內(nèi)容創(chuàng)作者寫作的高質(zhì)量文本內(nèi)容可能只占預(yù)訓(xùn)練數(shù)據(jù)總量的 0.1% 不到。因此,經(jīng)過預(yù)訓(xùn)練后的語言模型在建模了整個互聯(lián)網(wǎng)的文本分布之后,自然會傾向于輸出較為普通的內(nèi)容。而在模型的對齊階段,OpenAI 等公司眾包標(biāo)注指令微調(diào)數(shù)據(jù)集的過程中的標(biāo)注員的教育 / 寫作水平有限,沒有對標(biāo)注者的寫作 / 創(chuàng)作能力進(jìn)行篩選。另外標(biāo)注的過程中的標(biāo)準(zhǔn)也主要強調(diào)回答的無害性 (harmlessness) 和有效性 (helpfulness),而沒有考慮回答內(nèi)容的創(chuàng)造性和語言 / 寫作風(fēng)格。因此,經(jīng)過指令微調(diào)的語言模型反而更容易生成平庸無趣的文字。最后,在 RLHF/DPO 等 alignment 算法中,模型的訓(xùn)練數(shù)據(jù)和 Reward Model 均由經(jīng)過指令微調(diào)后的模型生成或訓(xùn)練得到,因此對于文風(fēng)和創(chuàng)造性上,RLHF/DPO 的過程也只能是 “矮子里拔將軍”,無法強化出真正擅長寫作的大模型。

基于此觀察,波形智能的大模型團(tuán)隊提出了一個尤其適合創(chuàng)意寫作領(lǐng)域的垂域?qū)I(yè)模型訓(xùn)練 pipeline,并基于此方案訓(xùn)練了 Weaver,一個全球領(lǐng)先的創(chuàng)意寫作大模型。該方案覆蓋了模型的 (持續(xù)) 預(yù)訓(xùn)練,指令微調(diào) (instruction tuning),和對齊 (RLHF/DPO) 階段。在預(yù)訓(xùn)練階段,團(tuán)隊進(jìn)行了非常仔細(xì)的數(shù)據(jù)篩選和過濾,利用人工 + 規(guī)則 + 機器學(xué)習(xí)模型協(xié)同的方案,從開源預(yù)訓(xùn)練數(shù)據(jù)集中找到了高質(zhì)量的小說 / 短故事 / 創(chuàng)意文案等類別的文本內(nèi)容,舍棄掉了大量的低質(zhì)量內(nèi)容和代碼 / 廣告等數(shù)據(jù),并下采樣了一部分高質(zhì)量的新聞數(shù)據(jù),同時結(jié)合了大規(guī)模的私有創(chuàng)作領(lǐng)域數(shù)據(jù) (小說,短故事等),構(gòu)建出了超過 200B 的可以讓模型專注學(xué)習(xí)創(chuàng)作能力的預(yù)訓(xùn)練數(shù)據(jù)。

在指令微調(diào)階段,波形智能的數(shù)據(jù)生成團(tuán)隊參考并改進(jìn)了 Meta 提出的 LongForm 和 HumpBack 方案,構(gòu)建了一套可以基于一段高質(zhì)量內(nèi)容,自動生成各種寫作相關(guān)任務(wù)指令和對應(yīng)的高質(zhì)量輸出的 Instruction Backtranslation 流水線。團(tuán)隊總結(jié)并定義了 “寫內(nèi)容”,“寫大綱”,“擴(kuò)寫”,“潤色”,“精簡”,“風(fēng)格遷移 (仿寫)”,“審校”,“頭腦風(fēng)暴”,“起標(biāo)題”,和 “寫作相關(guān)對話” 十個類別的任務(wù)。對于一類任務(wù),如 “潤色”,標(biāo)注 Prompt 中首先解釋任務(wù)的定義和幾個輸入輸出樣例,之后給出一個從一段文本中自動挖掘潤色任務(wù)指令 / 輸入 / 輸出的例子和標(biāo)注的思考過程: “首先在文本中找到一段寫的很好的句子,假設(shè)這句話是經(jīng)過一次潤色而來的,之后猜測在潤色之前這句話會是什么樣子,最后分析潤色前后的變化,推理出潤色的指令會是什么樣子。” 之后標(biāo)注的 Prompt 中輸入需要標(biāo)注的例子并指示大模型按照例子中的標(biāo)注流程進(jìn)行輸出,最后 parse 出模型輸出中標(biāo)注的 “指令 / 輸入 / 輸出” 部分,組合成一條寫作指令數(shù)據(jù)。

相比 OpenAI 等公司的標(biāo)準(zhǔn)眾包標(biāo)注指令數(shù)據(jù)的流程,波形智能的標(biāo)注策略更高效 (眾包標(biāo)注者只需要挑選特定領(lǐng)域高質(zhì)量的內(nèi)容即可,后續(xù)標(biāo)注流程由 AI 完成),而眾包標(biāo)注和目前常用的 self-instruct 類的全自動標(biāo)注流程相比,波形智能的標(biāo)注流程能夠生成更高質(zhì)量的數(shù)據(jù) (因為輸出是手工挑選的高質(zhì)量內(nèi)容或其中的一部分)。基于這個策略,波形智能的大模型團(tuán)隊收集了涵蓋小說寫作,創(chuàng)意寫作,專業(yè)寫作,營銷文案寫作這四大領(lǐng)域中高質(zhì)量的內(nèi)容并進(jìn)行了自動化標(biāo)注,產(chǎn)出了 100 萬 + 高質(zhì)量的寫作領(lǐng)域指令微調(diào)數(shù)據(jù)集。

圖片

圖 1: Weaver 訓(xùn)練數(shù)據(jù)分布和來源

接下來,在對齊 (Alignment) 階段,波形智能的數(shù)據(jù)生成團(tuán)隊提出了 Constitutional DPO, 一套全新的,基于原則高效將模型和專業(yè)作家 / 創(chuàng)作者對齊的方案。和以往基于模型輸出 + 人類 / 大模型評估的對齊策略不同。Constitutional DPO 以人類創(chuàng)作者創(chuàng)作的高質(zhì)量的輸出作為正樣本,利用人類作家 / 編輯整理提煉出的各個領(lǐng)域?qū)懽鞯?“原則 (Principles)”,用這些原則去生成能夠教會模型更好地遵守這些原則的負(fù)樣本。具體來說,專業(yè)作家 / 編輯首先整理出四大領(lǐng)域十個任務(wù)中,好的內(nèi)容需要遵循的共 200 余條原則。對于每一個原則,編輯總結(jié)出原則的詳細(xì)解釋和一對符合 / 違背該原則的例子,并用幾句話解釋出符合 / 違背原則的原因。之后,對于每一個正樣本,負(fù)例生成的 prompt 中首先展示出領(lǐng)域 - 任務(wù)上的原則集合和原則對應(yīng)的例子和解釋,之后展示出正樣本,要求大模型分析出正樣本最符合哪幾條原則,并推理出如何修改能夠在作出較少改變的情況下讓正樣本轉(zhuǎn)而違背這個原則,從而變成一條質(zhì)量沒那么好的輸出。團(tuán)隊精選了各個領(lǐng)域高評分 / 高閱讀量 / 高點贊評論數(shù)的內(nèi)容作為正樣本,通過 Consitutional DPO 的流水線生成出了數(shù)萬條偏好數(shù)據(jù) (preference data),并利用這些數(shù)據(jù)對模型利用 DPO 進(jìn)行了對齊訓(xùn)練。

圖片

圖 2 - Constitutional DPO 方法示意圖

圖片

圖 3 - 專家標(biāo)注的寫作原則

除此之外,波形智能的數(shù)據(jù)生成團(tuán)隊還設(shè)計了一套支持 RAG-aware training 的數(shù)據(jù)生成方案,過濾 / 精選出了一系列輸出內(nèi)容明顯基于其他內(nèi)容的樣本,通過 10 余個常用的 RAG 模版,構(gòu)造出了 10 萬余條的 RAG 訓(xùn)練數(shù)據(jù),使得 Weaver 模型能夠原生支持 RAG,能夠結(jié)合參考文獻(xiàn)和范文進(jìn)行高質(zhì)量的創(chuàng)作 / 仿寫。除此之外,團(tuán)隊還設(shè)計了一套讓 Weaver 支持 Function Calling 的數(shù)據(jù)生成方案。最終 Weaver 的微調(diào)數(shù)據(jù)量總和達(dá)到了 100 萬 + 量級。

Weaver 模型家族一共包括四個不同大小的模型,名字叫做 Weaver-mini/base/pro/ultra, 分別包括 18 億,60 億,140 億和 340 億參數(shù)。為了評估 Weaver 模型和通用大模型的寫作能力,波形智能的模型評估團(tuán)隊構(gòu)建了一個新的用戶大模型專業(yè)寫作能力評估的 Benchmark。Benchmark 中精選了涵蓋四大寫作領(lǐng)域 30 余個子領(lǐng)域的十項寫作任務(wù)的有代表性指令,共包含 2000 + 條指令。團(tuán)隊收集了 Weaver 和 10 余個有代表性的開源 + 閉源模型在 Benchmark 上的輸出,并分別進(jìn)行了人工對比評估和基于 GPT4 的自動評估。

評估結(jié)果顯示,Weaver Ultra 在 Benchmark 中對生成內(nèi)容的新穎度和文風(fēng)的評估中對比包括 GPT-4 在內(nèi)的通用大模型均有顯著領(lǐng)先,在生成內(nèi)容的流暢性和切題程度上也和行業(yè)領(lǐng)先的 GPT-4 相當(dāng),領(lǐng)先其他開源 / 閉源模型。而其他較小的 Weaver 模型也都在各項指標(biāo)中相比大 2-3 倍的通用大模型有明顯優(yōu)勢。

圖片

圖 4: Weaver 在 WriteBench 的評測結(jié)果

除了標(biāo)準(zhǔn) Benchmark 的人工和自動評估以外,波形智能的模型評估團(tuán)隊還在包含人機交互的實際應(yīng)用場景中對 Weaver Ultra 和 GPT-4 進(jìn)行了用戶體驗測評。由 4 位人類寫手在同樣的 Chat Interface 分別使用 Weaver Ultra 和 GPT-4,以相同的主題分別創(chuàng)作一個短故事,一個小紅書文案,一個商業(yè)計劃書,和一個課程論文。測評結(jié)果顯示,人類寫手利用 Weaver 進(jìn)行創(chuàng)作的效率相比使用 GPT-4 提升了約 40%,而專業(yè)編輯對創(chuàng)作內(nèi)容的質(zhì)量評比中也以 9:3 的比分更傾向于采用 Weaver 創(chuàng)作的文案。分析顯示,Weaver 帶來的效率提升主要來自于生成內(nèi)容的文風(fēng)更得體,需要的后編輯更少,以及創(chuàng)作過程中 Weaver 交互更加直接,不會輸出無用的廢話和疑問。而來自專業(yè)編輯的反饋主要集中在基于 Weaver 創(chuàng)作的作品風(fēng)格往往更符合實用標(biāo)準(zhǔn),以及創(chuàng)作的內(nèi)容個新穎程度更高,不死板。

圖片

圖 5: Weaver 和其他大模型在人工評測中的 ELO Rating

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-01-30 21:18:57

模型智能CMMLU

2024-04-01 08:00:00

AI模型

2023-03-16 19:17:57

2024-07-08 08:38:00

模型推理

2024-05-07 11:42:54

MoE模型GPT-4

2022-05-20 10:43:30

AI模型

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-03-28 08:23:38

2024-01-16 12:31:13

OpenAIGLM-4大模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-06-08 11:27:10

模型AI

2025-03-21 09:35:29

2023-06-19 08:19:50

2023-10-21 12:42:06

數(shù)據(jù)模型

2024-04-19 14:52:13

MetaGPT-4模型

2023-04-09 16:17:05

ChatGPT人工智能

2023-07-28 16:35:26

代碼模型

2023-10-12 14:18:06

2023-05-08 12:47:48

IBM模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 中文字幕精品一区二区三区在线 | av午夜激情| 97av| 久久精品国产一区二区电影 | 天天色天天色 | 久久草视频| 羞羞视频网站免费观看 | 亚洲视频在线观看 | 三区四区在线观看 | 91免费视频观看 | 亚洲黄色一级 | 天天操网| 一区二区三区欧美大片 | 欧美性受 | 久久精品视频网站 | 在线观看日韩av | aaa国产大片| 久色| 美女天堂 | 国产一区二区在线播放 | 黄网站免费在线看 | 日韩欧美成人一区二区三区 | 精品国产乱码久久久久久牛牛 | 一级黄色裸片 | 亚洲精品短视频 | 午夜激情在线视频 | 麻豆精品国产91久久久久久 | 久久国产精彩视频 | 欧美黄色一级毛片 | 日日骚视频 | 精品一区二区三区视频在线观看 | 欧美一级视频在线观看 | 免费在线观看av片 | 91视频电影| 久久久久久久久久久爱 | 精品日韩一区二区 | h视频在线免费观看 | 99精品视频在线观看免费播放 | 欧美伊人| 91精品国产乱码久久久久久久 | 欧美电影一区 |