微軟3.8B模型媲美GPT-3.5!小到用iPhone就能跑起來,網友:Good data is all you need! 原創
撰文、整理 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
這周,“小模型”之戰打得可謂精彩非凡,讓人目不暇接。前腳,小扎剛在采訪中自豪地宣布Llama3 80億模型幾乎與此前Llama2 700億模型的性能差不多!
緊接著,微軟祭出的“Phi-3-Mini”以3.8B的小體積,跑出Mixtral 8x7B和GPT-3.5等大模型才有的成績,似乎在用實力證明,在小模型這件事上,微軟才是真正的領先者。讓人直呼離譜!
下圖能看到Phi-3-Mini并非夸張!通過學術基準和內部測試來看,Phi-3-Mini在MMLU上達到了69(高于Mixtral 8x7B的68.4),在MT-bench上達到了8.38(高于GPT的8.35 )。
圖片
這下Phi-3-Mini是一個名副其實的小體積,大性能的模型了。研究人員直接用iPhone進行了測試。
結果:Phi-3-Mini可以在手機上完全離線地本地運行,該模型的小體積使其可以量化到4位,占用僅約1.8GB的內存(比微信小得多)。Phi-3-Mini在iPhone 14上使用A16 Bionic芯片進行了原生部署,完全離線運行,每秒可以生成超過12個token。
今早,Phi-3-Mini已經進行開源,感興趣的朋友可以移步地址:
??https://huggingface.co/microsoft/Phi-3-mini-4k-instruct??
Phi-3-Mini好到不像真的。X上知名科技博主說,看完Phi-3-Mini,她毫不懷疑今年年底有超越GPT-4的7B模型會誕生!
圖片
1.Phi-3-Mini的獨門心法:更好的數據集
模型到底是怎么做到“又小又好的”?Phi-3-Mini的技術報告中寫著“創新完全在于我們的訓練數據集”。
Phi-3-Mini模型的訓練重點放在了數據的質量上,而不是單純的數據量或規模。他們使用了用于Phi-2的訓練數據集的擴展版本,由經過嚴格過濾的網絡數據和合成數據組成,數據集共3.3萬億tokens。
這種方法偏離了傳統的僅僅依賴于數據量來提升模型性能的scaling laws。這意味著在訓練過程中,更加關注于使用高質量、精心篩選和優化的數據,提高模型的性能和效率。
Phi-3-Mini的預訓練分“兩步走”。
第一階段:主要使用網絡數據,目的是教授模型通用知識和語言理解能力。這些數據是從開放的互聯網源中獲取的,并且是根據“教育水平”進行重度過濾的,以確保數據的相關性和準確性。
第二階段:在該階段中,預訓練過程進一步合并了更加嚴格過濾的網絡數據(這些數據是第一階段中使用的子集)和一些合成數據。合成數據是通過使用大型語言模型(LLM)生成的,目的是教授模型邏輯推理和各種專業技能。
當然小模型也有弱點。Phi-3-Mini由于其體積太小,在某些任務上受到根本性的限制。例如,它缺乏存儲大量“事實知識”的能力,導致在TriviaQA等任務上的表現較差。
不過Phi-3-Mini也有對策,相信朋友們也猜到了,那就是:RAG!——通過為模型增加搜索引擎,可以解決這樣的弱點,所以雖然AI能離線運行在你的手機上,還是有網的時候更香!
2.更大的模型的探索:7B到14B的提升不夠顯著
微軟還推出了Phi-3-Mini模型的兩個擴展版本:Phi-3-Small和Phi-3-Medium模型,它們都比Phi-3-Mini有顯著的更強能力。
Phi-3-Small擁有70億參數,使用tiktoken分詞器以改善多語言分詞。它擁有100,352的詞匯量和8K的默認上下文長度。
Phi-3-Medium,擁有140億參數,使用與Phi-3-Mini相同的分詞器和架構,但訓練了更多的tokens。
性能表現上,更大的體積當然提升了性能。在MMLU(Massive Multitask Language Understanding)基準測試中,Phi-3-Small和Phi-3-Medium相較于Phi-3-Mini(得分68.8%)表現出顯著的性能提升。
具體來說,Phi-3-Small在MMLU上得分為75.3%,而Phi-3-Medium得分為78.2%。
不過,研究人員發現:在從3.8B參數擴展到7B和14B參數時,某些基準測試的提升幅度有所不同,從7B到14B的提升可能沒有從3.8B到7B的提升顯著。
這個結論啟發了研究人員,訓練數據混合可能需要進一步的優化,以達到14B參數模型的“數據最優范圍”。
3.Good data is all you need
合成數據并不是一個新概念。隨著新的AI模型和GenAI模型的出現,“合成數據”這個術語獲得了新的含義。
合成數據最常見的兩個用途是性能測試和可擴展性場景。此外,許多科學場景和其他應用依賴于合成數據來探索新的可能性和運行模擬,因為合成數據可以代表超越現實世界數據可能代表的假設情況。
此前,人們啟用合成數據是因為開發人員沒有足夠的數據來訓練他們的模型,現在,經過嚴格過濾的合成數據似乎能提升數據集質量,改變模型在數據中“大浪淘沙”的境地。
合成數據的典型好處有以下幾條:
- 優化隱私和安全:通過使用合成數據而不是真實數據,組織可以在仍然訓練有效的AI模型的同時保護敏感的用戶信息。
- 改善數據多樣性:合成數據可以增加有限的真實數據,創建更全面和具有代表性的培訓集,引入更多樣化的數據進入AI訓練。
- 減少偏見:合成數據提供了引入可控偏見的可能性,這些偏見可以識別模型中的無意偏見,并通過分析算法進一步減少。
- 提高可用資源的有效利用:生成合成數據比收集、處理和存儲大量真實數據更具資源效率。
當然,這些好處都必須基于嚴格過濾的基礎之上,否則可能帶來多種風險。
4.寫在最后
模型的“瘦身”潮流呼應著大家對AI能力應用、落地的期待。人們不再滿足于如此強大的AI能力,卻止步于聊天機器人單一的對話窗口中。而手機作為日常使用頻率最高的端側電子設備,無疑是接入AI能力的絕佳入口。
如今微軟、蘋果都在緊鑼密鼓地研究能在端側運行的小模型,國內的手機廠商也紛紛將AI作為“全村最后的希望”。
周鴻祎說,不做AI能力的手機廠商會淪為諾基亞,這句話正在成為一個普遍的共識。AI手機能做的不止是通過語音交互設置一個鬧鐘,也遠不止于消除照片中闖入的行人。
一個超越GPT-4性能的小模型設想無疑讓人興奮:高性能AI模型更小一點,我們距離將智能助理裝入口袋就更近一點。
參考鏈接:
1.https://analyticsindiamag.com/microsoft-introduces-phi-3-llm-that-runs-on-the-phone/
2.??https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html??
本文轉載自 ??51CTO技術棧??,作者:伊風
