微軟3.8B模型媲美GPT-3.5！小到用iPhone就能跑起來，網(wǎng)友：Good data is all you need!

作者：伊風(fēng) 2024-04-24 12:47:17

模型的“瘦身”潮流呼應(yīng)著大家對AI能力應(yīng)用、落地的期待。人們不再滿足于如此強(qiáng)大的AI能力，卻止步于聊天機(jī)器人單一的對話窗口中。而手機(jī)作為日常使用頻率最高的端側(cè)電子設(shè)備，無疑是接入AI能力的絕佳入口。

撰文、整理 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

這周，“小模型”之戰(zhàn)打得可謂精彩非凡，讓人目不暇接。前腳，小扎剛在采訪中自豪地宣布Llama3 80億模型幾乎與此前Llama2 700億模型的性能差不多！

緊接著，微軟祭出的“Phi-3-Mini”以3.8B的小體積，跑出Mixtral 8x7B和GPT-3.5等大模型才有的成績，似乎在用實(shí)力證明，在小模型這件事上，微軟才是真正的領(lǐng)先者。讓人直呼離譜！

下圖能看到Phi-3-Mini并非夸張！通過學(xué)術(shù)基準(zhǔn)和內(nèi)部測試來看，Phi-3-Mini在MMLU上達(dá)到了69（高于Mixtral 8x7B的68.4），在MT-bench上達(dá)到了8.38（高于GPT的8.35 ）。

圖片

這下Phi-3-Mini是一個(gè)名副其實(shí)的小體積，大性能的模型了。研究人員直接用iPhone進(jìn)行了測試。

結(jié)果：Phi-3-Mini可以在手機(jī)上完全離線地本地運(yùn)行，該模型的小體積使其可以量化到4位，占用僅約1.8GB的內(nèi)存（比微信小得多）。Phi-3-Mini在iPhone 14上使用A16 Bionic芯片進(jìn)行了原生部署，完全離線運(yùn)行，每秒可以生成超過12個(gè)token。

今早，Phi-3-Mini已經(jīng)進(jìn)行開源，感興趣的朋友可以移步地址：

https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

Phi-3-Mini好到不像真的。X上知名科技博主說，看完P(guān)hi-3-Mini，她毫不懷疑今年年底有超越GPT-4的7B模型會(huì)誕生！

圖片

1.Phi-3-Mini的獨(dú)門心法：更好的數(shù)據(jù)集

模型到底是怎么做到“又小又好的”？Phi-3-Mini的技術(shù)報(bào)告中寫著“創(chuàng)新完全在于我們的訓(xùn)練數(shù)據(jù)集”。

Phi-3-Mini模型的訓(xùn)練重點(diǎn)放在了數(shù)據(jù)的質(zhì)量上，而不是單純的數(shù)據(jù)量或規(guī)模。他們使用了用于Phi-2的訓(xùn)練數(shù)據(jù)集的擴(kuò)展版本，由經(jīng)過嚴(yán)格過濾的網(wǎng)絡(luò)數(shù)據(jù)和合成數(shù)據(jù)組成，數(shù)據(jù)集共3.3萬億tokens。

這種方法偏離了傳統(tǒng)的僅僅依賴于數(shù)據(jù)量來提升模型性能的scaling laws。這意味著在訓(xùn)練過程中，更加關(guān)注于使用高質(zhì)量、精心篩選和優(yōu)化的數(shù)據(jù)，提高模型的性能和效率。

Phi-3-Mini的預(yù)訓(xùn)練分“兩步走”。

第一階段：主要使用網(wǎng)絡(luò)數(shù)據(jù)，目的是教授模型通用知識(shí)和語言理解能力。這些數(shù)據(jù)是從開放的互聯(lián)網(wǎng)源中獲取的，并且是根據(jù)“教育水平”進(jìn)行重度過濾的，以確保數(shù)據(jù)的相關(guān)性和準(zhǔn)確性。

第二階段：在該階段中，預(yù)訓(xùn)練過程進(jìn)一步合并了更加嚴(yán)格過濾的網(wǎng)絡(luò)數(shù)據(jù)（這些數(shù)據(jù)是第一階段中使用的子集）和一些合成數(shù)據(jù)。合成數(shù)據(jù)是通過使用大型語言模型（LLM）生成的，目的是教授模型邏輯推理和各種專業(yè)技能。

當(dāng)然小模型也有弱點(diǎn)。Phi-3-Mini由于其體積太小，在某些任務(wù)上受到根本性的限制。例如，它缺乏存儲(chǔ)大量“事實(shí)知識(shí)”的能力，導(dǎo)致在TriviaQA等任務(wù)上的表現(xiàn)較差。

不過Phi-3-Mini也有對策，相信朋友們也猜到了，那就是：RAG!——通過為模型增加搜索引擎，可以解決這樣的弱點(diǎn)，所以雖然AI能離線運(yùn)行在你的手機(jī)上，還是有網(wǎng)的時(shí)候更香！

2.更大的模型的探索：7B到14B的提升不夠顯著

微軟還推出了Phi-3-Mini模型的兩個(gè)擴(kuò)展版本：Phi-3-Small和Phi-3-Medium模型，它們都比Phi-3-Mini有顯著的更強(qiáng)能力。

Phi-3-Small擁有70億參數(shù)，使用tiktoken分詞器以改善多語言分詞。它擁有100,352的詞匯量和8K的默認(rèn)上下文長度。

Phi-3-Medium，擁有140億參數(shù)，使用與Phi-3-Mini相同的分詞器和架構(gòu)，但訓(xùn)練了更多的tokens。

性能表現(xiàn)上，更大的體積當(dāng)然提升了性能。在MMLU（Massive Multitask Language Understanding）基準(zhǔn)測試中，Phi-3-Small和Phi-3-Medium相較于Phi-3-Mini（得分68.8%）表現(xiàn)出顯著的性能提升。

具體來說，Phi-3-Small在MMLU上得分為75.3%，而Phi-3-Medium得分為78.2%。

不過，研究人員發(fā)現(xiàn)：在從3.8B參數(shù)擴(kuò)展到7B和14B參數(shù)時(shí)，某些基準(zhǔn)測試的提升幅度有所不同，從7B到14B的提升可能沒有從3.8B到7B的提升顯著。

這個(gè)結(jié)論啟發(fā)了研究人員，訓(xùn)練數(shù)據(jù)混合可能需要進(jìn)一步的優(yōu)化，以達(dá)到14B參數(shù)模型的“數(shù)據(jù)最優(yōu)范圍”。

3.Good data is all you need

合成數(shù)據(jù)并不是一個(gè)新概念。隨著新的AI模型和GenAI模型的出現(xiàn)，“合成數(shù)據(jù)”這個(gè)術(shù)語獲得了新的含義。

合成數(shù)據(jù)最常見的兩個(gè)用途是性能測試和可擴(kuò)展性場景。此外，許多科學(xué)場景和其他應(yīng)用依賴于合成數(shù)據(jù)來探索新的可能性和運(yùn)行模擬，因?yàn)楹铣蓴?shù)據(jù)可以代表超越現(xiàn)實(shí)世界數(shù)據(jù)可能代表的假設(shè)情況。

此前，人們啟用合成數(shù)據(jù)是因?yàn)殚_發(fā)人員沒有足夠的數(shù)據(jù)來訓(xùn)練他們的模型，現(xiàn)在，經(jīng)過嚴(yán)格過濾的合成數(shù)據(jù)似乎能提升數(shù)據(jù)集質(zhì)量，改變模型在數(shù)據(jù)中“大浪淘沙”的境地。

合成數(shù)據(jù)的典型好處有以下幾條：

優(yōu)化隱私和安全：通過使用合成數(shù)據(jù)而不是真實(shí)數(shù)據(jù)，組織可以在仍然訓(xùn)練有效的AI模型的同時(shí)保護(hù)敏感的用戶信息。
改善數(shù)據(jù)多樣性：合成數(shù)據(jù)可以增加有限的真實(shí)數(shù)據(jù)，創(chuàng)建更全面和具有代表性的培訓(xùn)集，引入更多樣化的數(shù)據(jù)進(jìn)入AI訓(xùn)練。
減少偏見：合成數(shù)據(jù)提供了引入可控偏見的可能性，這些偏見可以識(shí)別模型中的無意偏見，并通過分析算法進(jìn)一步減少。
提高可用資源的有效利用：生成合成數(shù)據(jù)比收集、處理和存儲(chǔ)大量真實(shí)數(shù)據(jù)更具資源效率。

當(dāng)然，這些好處都必須基于嚴(yán)格過濾的基礎(chǔ)之上，否則可能帶來多種風(fēng)險(xiǎn)。