成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

百川智能發(fā)布千億參數(shù)大模型,中文能力超越GPT-4!

原創(chuàng) 精選
人工智能
1月29日,百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan 3。在多個權(quán)威通用能力評測如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展現(xiàn)了出色的能力,尤其在中文任務上更是超越了GPT-4。而在數(shù)學和代碼專項評測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色,證明了Baichuan 3在自然語言處理和代碼生成領(lǐng)域的強大實力。

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

“追上ChatGPT水平,我覺得今年內(nèi)可能就能夠?qū)崿F(xiàn),但對于GPT-4或者GPT-5,我認為可能需要3年左右的時間,應該不會低于兩年。”去年4月,百川智能創(chuàng)始人王小川當初曾這樣判斷自己入局大模型賽道后的進度。就在昨天,千億參數(shù)規(guī)模的百川大模型終于來了!

1月29日,百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan 3。在多個權(quán)威通用能力評測如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展現(xiàn)了出色的能力,尤其在中文任務上更是超越了GPT-4。而在數(shù)學和代碼專項評測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色,證明了Baichuan 3在自然語言處理和代碼生成領(lǐng)域的強大實力。

不僅如此,其在對邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam、CMExam等權(quán)威醫(yī)療評測上的中文效果同樣超過了GPT-4,是中文醫(yī)療任務表現(xiàn)最佳的大模型。Baichuan 3還突破“迭代式強化學習”技術(shù),進一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異,領(lǐng)先于其他大模型。

小編一時手癢,第一時間測試下了,效果還是非常驚艷。

圖片圖片

1、基礎能力全面提升,多項權(quán)威評測中文任務成績超越GPT-4

Baichuan 3在多個英文評測中表現(xiàn)出色,達到接近GPT-4的水平。而在CMMLU、GAOKAO等多個中文評測榜單上,更是超越GPT-4展現(xiàn)了其在中文任務上的優(yōu)勢。

圖片圖片

圖片圖片

此外,在MT-Bench、IFEval等對齊榜單的評測中,Baichuan 3超越了GPT-3.5、Claude等大模型,處于行業(yè)領(lǐng)先水平。

圖片圖片

與百億、幾百億級別參數(shù)模型訓練不同,超千億參數(shù)模型在訓練過程中對高質(zhì)量數(shù)據(jù),訓練穩(wěn)定性、訓練效率的要求都高出幾個量級。為更好解決相關(guān)問題,百川智能在訓練過程中針對性地提出了“動態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步CheckPoint存儲”等多種創(chuàng)新技術(shù)手段及方案,有效提升了Baicuan 3的各項能力。

高質(zhì)量數(shù)據(jù)方面,傳統(tǒng)的數(shù)據(jù)篩選依靠人工定義,通過濾重篩選、質(zhì)量打分、Textbook篩選等方法過濾數(shù)據(jù)。而百川智能認為,數(shù)據(jù)的優(yōu)化和采樣是一個動態(tài)過程,應該隨著模型本身的訓練過程優(yōu)化,而非單純依靠人工先驗進行數(shù)據(jù)的采樣和篩選。為全面提升數(shù)據(jù)質(zhì)量,百川智能設計了一套基于因果采樣的動態(tài)訓練數(shù)據(jù)選擇方案,該方案能夠在模型訓練過程中動態(tài)地選擇訓練數(shù)據(jù),極大提升數(shù)據(jù)質(zhì)量。

訓練穩(wěn)定性方面,超千億參數(shù)的模型由于參數(shù)量巨大,訓練過程中經(jīng)常會出現(xiàn)梯度爆炸、loss跑飛、模型不收斂等問題。對此,百川智能提出了“重要度保持”(Salience-Consistency)的漸進式初始化方法,用以保證模型訓練初期的穩(wěn)定性。并且優(yōu)化了模型訓練過程的監(jiān)控方案,在梯度、Loss等指標上引入了參數(shù)“有效秩”的方法來提早發(fā)現(xiàn)訓練過程中的問題,極大加速對訓練問題的定位,確保了最后模型的收斂效果。

此外,為了確保在數(shù)千張GPU上高效且穩(wěn)定地訓練超千億參數(shù)模型,百川智能同步優(yōu)化了模型的訓練穩(wěn)定性和訓練框架,并采用“異步CheckPoint存儲”機制,可以無性能損失地加大存儲的頻率,減少機器故障對訓練任務的影響,使Baichuan 3的穩(wěn)定訓練時間達到一個月以上,故障恢復時間不超過10分鐘。

訓練效率方面,百川智能針對超千億參數(shù)模型的并行訓練問題進行了一系列優(yōu)化,如高度優(yōu)化的RoPE, SwiGLU計算算子;在數(shù)據(jù)并行中實現(xiàn)參數(shù)通信與計算的重疊,以及在序列并行中實現(xiàn)激活值通信與計算的重疊,從而有效降低了通信時間的比重;在流水并行中引入了將激活值卸載至CPU的技術(shù),解決了流水并行中顯存占用不均的問題,減少了流水并行的分段數(shù)量并顯著降低了空泡率。通過這些技術(shù)創(chuàng)新,Baichuan 3的訓練框架在性能方面相比業(yè)界主流框架提升超過30%。

2、醫(yī)療數(shù)據(jù)集Token數(shù)超千億,醫(yī)療能力逼近GPT-4

大模型醫(yī)療背后蘊含著巨大的社會價值和產(chǎn)業(yè)價值,從疾病的診斷、治療到患者護理與藥物研發(fā),大模型不僅能夠幫助醫(yī)生提高診療效率和質(zhì)量,幫助患者獲得更好的服務和體驗,還能幫助社會降低醫(yī)療成本和風險,助力醫(yī)療資源實現(xiàn)普惠和平權(quán)。并且醫(yī)療問題專業(yè)性強、知識更新速度快、準確性要求高、個體差異大,能充體現(xiàn)大模型的各項能力,被百川智能稱為“大模型皇冠上的明珠”。因此,諸如OpenAI、谷歌等頭部大模型企業(yè)都將醫(yī)療作為模型的重點訓練方向和性能評價的重要體系。ChatGPT早在2023年2月便已通過了美國醫(yī)學執(zhí)照考試(USMLE),顯示出其在醫(yī)學領(lǐng)域的強大能力。而谷歌對醫(yī)療領(lǐng)域的重視更甚,基于PaLM模型打造了醫(yī)療大模型Med-PaLM,迭代后的Med-PaLM 2在醫(yī)學考試MedQA中的成績超過80分,達到專家水平。

在醫(yī)療領(lǐng)域,大模型的全能特性發(fā)揮著至關(guān)重要的作用。首先,其多模態(tài)學習能力能夠整合文本、影像、聲音等多種類型的醫(yī)療數(shù)據(jù),提供更全面、準確的分析和診斷。其次,大模型的深層推理能力有助于復雜醫(yī)療決策的制定。此外,穩(wěn)定的性能和知識更新能力確保了醫(yī)療建議的可靠性和時效性。同時,大模型的語言理解和生成能力使其能夠處理專業(yè)術(shù)語和復雜句式。最后,模式識別與學習能力在大模型中的應用,使其能夠從復雜的醫(yī)療數(shù)據(jù)中學習和識別出重要的模式和特征。所以,大模型想要在醫(yī)療領(lǐng)域擁有良好效果并不容易,既需要豐富的醫(yī)療知識、合適的Prompt,還需要模型本身具備過硬的邏輯推理能力。

為了給Baichuan3注入豐富的醫(yī)療知識,百川智能在模型預訓練階段構(gòu)建了超過千億Token的醫(yī)療數(shù)據(jù)集,包括醫(yī)學研究文獻、真實的電子病歷資料、醫(yī)學領(lǐng)域的專業(yè)書籍和知識庫資源、針對醫(yī)療問題的問答資料等。該數(shù)據(jù)集涵蓋了從理論到實際操作,從基礎理論到臨床應用等各個方面的醫(yī)學知識,確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識深度。

針對醫(yī)療知識激發(fā)的問題,百川智能在推理階段針對Prompt做了系統(tǒng)性的研究和調(diào)優(yōu),通過準確的描述任務、恰當?shù)氖纠龢颖具x擇,讓模型輸出更加準確以及符合邏輯的推理步驟,最終不僅提升了Baichuan 3在多項醫(yī)療考試上的成績,并且在真實的醫(yī)療問答場景下也能給用戶提供更精準、細致的反饋。

邏輯推理方面,Baichuan 3在數(shù)學和代碼等多個權(quán)威評測上接近GPT-4的優(yōu)異成績,已經(jīng)充分證明了其強大的基礎邏輯推理能力。在擁有豐富高質(zhì)量專業(yè)醫(yī)療知識,并能通過調(diào)優(yōu)后的Prompt對這些知識進行充分激發(fā)的基礎上,結(jié)合超千億參數(shù)的推理能力,Baichuan 3在醫(yī)療領(lǐng)域的任務效果提升顯著,在各類中英文醫(yī)療測試中的成績提升了2到14個百分點。

Baichuan 3在多個權(quán)威醫(yī)療評測任務中表現(xiàn)優(yōu)異,不僅MCMLE、MedExam、CMExam等中文醫(yī)療任務的評測成績超過GPT-4,USMLE、MedMCQA等英文醫(yī)療任務的評測成績也逼近了GPT-4的水準,是醫(yī)療能力最強的中文大模型。

圖片圖片

3、突破“迭代式強化學習”技術(shù),創(chuàng)作精準度大幅提升

語義理解和文本生成,作為大模型最基礎的底層能力,是其他能力的支柱。為提升這兩項能力,業(yè)界進行了大量探索和實踐,OpenAI、Google以及Anthropic等引入的RLHF(基于人類反饋的強化學習)和RLAIF(基于AI反饋的強化學習)便是其中的關(guān)鍵技術(shù)。

基于強化學習對齊后的模型不僅可以更精準地理解用戶指令,尤其是多約束以及多輪對話下的指令,還能進一步提升生成內(nèi)容的質(zhì)量。但是在大模型中充分發(fā)揮強化學習的作用不僅需要穩(wěn)定且高效的強化學習訓練框架和高質(zhì)量的優(yōu)質(zhì)偏序數(shù)據(jù),還需要在“探索與利用”兩者間進行平衡,實現(xiàn)模型能力持續(xù)爬坡。

對于以上問題,百川智能進行了深入研究,并給出了針對性的解決方案。強化學習訓練框架方面,百川智能自研了訓練推理雙引擎融合、多模型并行調(diào)度的PPO訓練框架,能夠很好支持超千億模型的高效訓練,訓練效率相比業(yè)界主流框架提升400%。偏序數(shù)據(jù)方面,百川智能創(chuàng)新性的采用了RLHF與RLAIF結(jié)合的方式來生成高質(zhì)量優(yōu)質(zhì)偏序數(shù)據(jù),在數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本之間獲得了更好的平衡。在此基礎上,對于“探索與利用”這一根本挑戰(zhàn),百川智能通過PPO探索空間與Reward Model評價空間的同步升級,實現(xiàn)“迭代式強化學習”(Iterative RLHF&RLAIF)。基于強化學習的版本爬坡,可以在SFT的基礎上進一步發(fā)揮底座模型的潛力,讓Baichuan 3的語義理解和生成創(chuàng)作能力大幅提升。

以文本創(chuàng)作中最具挑戰(zhàn)的唐詩宋詞為例,作為中國傳統(tǒng)文化的瑰寶,詩詞不僅在格式、平仄、對偶、韻律等方面均有著嚴格的約束條件,并且內(nèi)容高度凝練、寓意深遠。如果僅通過SFT的微調(diào)學習,一方面高質(zhì)量詩詞的創(chuàng)作數(shù)據(jù)需要極高的專家成本,另一方面不能在平仄、對偶、韻律等多個方面實現(xiàn)較好的約束理解和遵循。此外,傳統(tǒng)的單次RLHF范式在唐詩宋詞面前也遇到極大挑戰(zhàn),PPO在訓練過程中生成的Response有可能超出Reward Model的評價范圍導致“探索”的過程失控。

Baichuan 3結(jié)合“RLHF&RLAIF”以及迭代式強化學習的方法,讓大模型的詩詞創(chuàng)作能力達到全新高度。可用性相比當前業(yè)界最好的模型水平提升達500%,文采遠超GPT-4。對于宋詞這種格式多變,結(jié)構(gòu)深細、韻律豐富的高難度文體,生成的內(nèi)容亦能工整對仗、韻腳和諧。其精準、深厚的創(chuàng)作功底,將讓每個人都能輕松創(chuàng)作出詠物、寄思的五言律詩、七言絕句,寫下的言志、抒情的“沁園春”、“定風波”,這不僅可以提升大眾的人文素養(yǎng),還能助力中華傳統(tǒng)文化在大模型時代真正地“活”起來。

圖片圖片

圖片圖片

作為參數(shù)規(guī)模超過千億的大語言模型,Baichuan 3不僅英文效果達到接近GPT-4的水平,還在多項通用中文任務的表現(xiàn)上實現(xiàn)了對GPT-4的超越,是百川智能的全新里程碑。Baichuan 3全面的通用能力以及在醫(yī)療領(lǐng)域的強大表現(xiàn),將為百川智能打造“超級應用”,把大模型技術(shù)落地到諸多復雜應用場景提供有力支撐。

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-09-06 19:44:26

昇騰

2025-05-30 07:40:56

2024-02-04 12:22:47

AI數(shù)據(jù)

2023-09-11 15:57:16

人工智能模型GPT-4

2024-04-19 14:52:13

MetaGPT-4模型

2025-03-20 18:11:44

2023-06-07 14:16:11

AIGPT-4

2023-09-15 13:18:53

數(shù)據(jù)訓練

2023-07-05 09:57:11

2023-11-13 19:35:12

訓練數(shù)據(jù)

2023-10-08 13:11:00

訓練數(shù)據(jù)

2023-09-19 14:56:00

模型訓練

2023-07-12 16:10:48

人工智能

2023-11-03 11:08:03

PhindAI搜索工具

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品99999999 | 天天操人人干 | 国产一区不卡在线观看 | 婷婷国产一区 | 天天摸天天干 | 亚洲精品在线免费观看视频 | 久久精品成人热国产成 | 狼色网| 农夫在线精品视频免费观看 | 国内精品视频一区二区三区 | 精品亚洲永久免费精品 | 极品国产视频 | 天天操网 | 日韩一级免费电影 | 中文字幕成人 | julia中文字幕久久一区二区 | 天堂一区二区三区四区 | 国产一区二区三区网站 | 精品国产伦一区二区三区观看方式 | 欧美日韩综合精品 | 偷拍自拍网站 | 欧美一区二区 | 在线播放中文字幕 | 国产精品成人一区二区三区夜夜夜 | 亚洲精品天堂 | 日本在线视频一区二区 | 亚洲网站在线观看 | 日韩高清黄色 | 激情欧美日韩一区二区 | 久久av一区二区三区 | 亚洲人成在线观看 | 久草精品视频 | 99爱在线观看 | 亚洲精品国产第一综合99久久 | 爱爱视频在线观看 | 精品国产乱码久久久久久丨区2区 | 久久久久久av | 国产中的精品av涩差av | 久久精品—区二区三区 | 国产精品视频500部 a久久 | 欧美无乱码久久久免费午夜一区 |