當(dāng) AI 學(xué)會(huì) 25 種語(yǔ)言:達(dá)摩院 Babel 如何讓全球 90% 人口共享智能紅利? 原創(chuàng) 精華
阿里巴巴達(dá)摩院推出的Babel多語(yǔ)言大語(yǔ)言模型(LLM)是一項(xiàng)突破性技術(shù),旨在通過(guò)支持25種最常用語(yǔ)言(覆蓋全球90%以上人口)來(lái)彌合語(yǔ)言鴻溝。其核心技術(shù)特點(diǎn)及創(chuàng)新如下:
1. 模型架構(gòu)與擴(kuò)展技術(shù)
Babel采用結(jié)構(gòu)化層擴(kuò)展方法(Structured Layer Extension),通過(guò)增加參數(shù)規(guī)模提升模型能力,而非依賴(lài)傳統(tǒng)持續(xù)預(yù)訓(xùn)練(continuous pretraining)。例如:
- Babel-9B:專(zhuān)注于推理效率和微調(diào)優(yōu)化,適合研究與本地化部署;
- Babel-83B:參數(shù)規(guī)模對(duì)標(biāo)商業(yè)模型(如GPT-4o),在多語(yǔ)言NLP任務(wù)中刷新性能記錄,平均得分達(dá)73.2,顯著超越Qwen2.5-72B(69.8)和Llama3.1-70B(66.9)。
這一設(shè)計(jì)理念與達(dá)摩院早期多語(yǔ)言模型(如PolyLM、SeaLLMs)一脈相承。例如,SeaLLMs通過(guò)優(yōu)化非拉丁語(yǔ)言的長(zhǎng)文本處理能力(可達(dá)ChatGPT的9倍效率),而PolyLM則通過(guò)課程學(xué)習(xí)(curriculum learning)策略實(shí)現(xiàn)多語(yǔ)言知識(shí)遷移。Babel進(jìn)一步將這些技術(shù)整合,并通過(guò)層擴(kuò)展實(shí)現(xiàn)規(guī)模化提升。
2. 語(yǔ)言覆蓋與數(shù)據(jù)優(yōu)化
Babel特別關(guān)注低資源語(yǔ)言的覆蓋,如孟加拉語(yǔ)、烏爾都語(yǔ)、斯瓦希里語(yǔ)、爪哇語(yǔ)等,這些語(yǔ)言在開(kāi)源LLM中長(zhǎng)期被忽視。其數(shù)據(jù)策略包括:
- 多源高質(zhì)量語(yǔ)料:整合Wikipedia、新聞、教科書(shū)及結(jié)構(gòu)化語(yǔ)料(如MADLAD-400、CulturaX);
- 基于LLM的質(zhì)量分類(lèi)器:用于數(shù)據(jù)清洗與篩選,確保訓(xùn)練數(shù)據(jù)的純凈度。
類(lèi)似技術(shù)曾在Qwen2模型中應(yīng)用,例如使用模型本身過(guò)濾低質(zhì)量數(shù)據(jù)并合成新數(shù)據(jù),同時(shí)優(yōu)化多語(yǔ)言混合比例以模擬人類(lèi)學(xué)習(xí)過(guò)程。
3. 性能表現(xiàn)
推理與翻譯任務(wù):Babel-9B在MGSM推理任務(wù)中得43.4,F(xiàn)lores-200翻譯任務(wù)中得55.1,均優(yōu)于同類(lèi)9B模型(如GLM4-9B、Gemma2-9B)。
低資源語(yǔ)言提升:Babel在低資源語(yǔ)言上的表現(xiàn)較此前模型提升5-10%,部分得益于達(dá)摩院在東南亞語(yǔ)言(如高棉語(yǔ)、老撾語(yǔ))處理上的技術(shù)積累。
4. 應(yīng)用場(chǎng)景與微調(diào)
Babel的監(jiān)督微調(diào)(SFT)模型基于超過(guò)100萬(wàn)對(duì)話數(shù)據(jù)集訓(xùn)練,性能接近GPT-4o等商業(yè)模型。這與SeaLLM-chat的文化適應(yīng)性微調(diào)策略類(lèi)似,后者通過(guò)本地化調(diào)整實(shí)現(xiàn)對(duì)社會(huì)規(guī)范和法律背景的精準(zhǔn)理解。
5. 技術(shù)生態(tài)關(guān)聯(lián)
- 與PolyLM的關(guān)系:PolyLM(支持15種非英語(yǔ)語(yǔ)言)可視為Babel的前期探索,兩者均強(qiáng)調(diào)多語(yǔ)言平衡性與課程學(xué)習(xí),但Babel通過(guò)更大參數(shù)規(guī)模(83B)和層擴(kuò)展技術(shù)實(shí)現(xiàn)躍升。
- 與語(yǔ)音識(shí)別項(xiàng)目的區(qū)別:證據(jù)中提及的其他“Babel”項(xiàng)目(如IARPA Babel語(yǔ)音識(shí)別計(jì)劃)與達(dá)摩院的LLM無(wú)直接關(guān)聯(lián),需注意區(qū)分。
總結(jié)
Babel的推出標(biāo)志著達(dá)摩院在多語(yǔ)言LLM領(lǐng)域的技術(shù)整合與突破,其結(jié)構(gòu)化層擴(kuò)展、低資源語(yǔ)言支持及數(shù)據(jù)優(yōu)化策略為行業(yè)樹(shù)立了新標(biāo)桿。未來(lái),結(jié)合達(dá)摩院在東南亞語(yǔ)言模型(SeaLLMs)和多語(yǔ)言遷移學(xué)習(xí)(PolyLM)中的經(jīng)驗(yàn),Babel有望進(jìn)一步推動(dòng)全球化AI服務(wù)的普惠性。
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/D0Ks4coVd2rsmuCYJkMG7g??
