微軟發(fā)布強大的新Phi-3.5模型,擊敗谷歌、OpenAI等
微軟并沒有滿足于與OpenAI的合作取得的AI成功,這家總部位于華盛頓州,被稱為“Redmond”的公司,今天推出了其不斷演進的Phi系列語言/多模態(tài)AI中的3個新模型,展示了其不懈的進取心。
這三款新的Phi 3.5模型包括:擁有38.2億參數(shù)的Phi-3.5-mini-instruct,擁有419億參數(shù)的Phi-3.5-MoE-instruct,以及擁有41.5億參數(shù)的Phi-3.5-vision-instruct,分別針對基礎/快速推理、更強大的推理以及視覺(圖像和視頻分析)任務設計。
所有這三款模型都可供開發(fā)者在Hugging Face上下載、使用,并根據(jù)需要進行微調和自定義,使用的是微軟品牌的MIT許可協(xié)議,允許商業(yè)使用和修改,無任何限制。
令人驚訝的是,這三款模型在許多第三方基準測試中表現(xiàn)出接近最先進的性能,甚至在某些情況下超越了其他AI供應商的產(chǎn)品,包括Google的Gemini 1.5 Flash、Meta的Llama 3.1,甚至OpenAI的GPT-4o。
Phi-3.5 Mini Instruct:為計算資源受限的環(huán)境優(yōu)化
Phi-3.5 Mini Instruct模型是一款輕量級AI模型,擁有38億參數(shù),專為遵循指令設計,并支持128k token的上下文長度。
該模型非常適合在內存或計算資源受限的環(huán)境中需要強大推理能力的場景,包括代碼生成、數(shù)學問題求解和基于邏輯的推理任務。
盡管體積小巧,Phi-3.5 Mini Instruct模型在多語言和多輪對話任務中表現(xiàn)出競爭力,相較于其前代產(chǎn)品有顯著的改進。
它在多個基準測試中展現(xiàn)了接近最先進的性能,并在“長上下文代碼理解”的RepoQA基準測試中超越了其他類似大小的模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。
Phi-3.5 MoE:微軟的‘專家混合’
Phi-3.5 MoE(專家混合)模型似乎是微軟首次推出的此類模型,它將多種不同類型的模型結合在一起,每種模型專門針對不同的任務。
該模型采用了具有420億活躍參數(shù)的架構,支持128k token的上下文長度,為需求苛刻的應用提供可擴展的AI性能,然而,根據(jù)Hugging Face的文檔,該模型實際上只使用了66億的活躍參數(shù)。
Phi-3.5 MoE模型專為在各種推理任務中表現(xiàn)出色而設計,在代碼、數(shù)學和多語言理解方面表現(xiàn)出強勁的性能,常常在特定基準測試中超越更大規(guī)模的模型。
它在STEM(科學、技術、工程和數(shù)學)、人文學科和社會科學等多個學科的5-shot MMLU(Massive Multitask Language Understanding)測試中,表現(xiàn)優(yōu)異,甚至超越了GPT-4o mini。
MoE模型的獨特架構使其在處理多語言復雜AI任務時保持高效。
Phi-3.5 Vision Instruct:高級多模態(tài)推理
作為Phi系列的最后一款模型,Phi-3.5 Vision Instruct模型整合了文本和圖像處理功能。
這一多模態(tài)模型特別適合于一般圖像理解、光學字符識別、圖表和表格理解以及視頻摘要等任務。
與Phi-3.5系列中的其他模型一樣,Vision Instruct支持128k token的上下文長度,使其能夠處理復雜的多幀視覺任務。
微軟強調,該模型是通過合成數(shù)據(jù)和經(jīng)過篩選的公開數(shù)據(jù)集訓練的,重點在于高質量和富含推理的數(shù)據(jù)。
新Phi三款模型的訓練
Phi-3.5 Mini Instruct模型在使用512個H100-80G GPU的情況下,經(jīng)過10天的訓練,處理了3.4萬億個tokens,而Vision Instruct模型則使用256個A100-80G GPU,經(jīng)過6天的訓練,處理了5000億個tokens。
采用專家混合架構的Phi-3.5 MoE模型,使用512個H100-80G GPU,在23天內處理了4.9萬億個tokens。
MIT許可下的開源
所有三款Phi-3.5模型均在MIT許可協(xié)議下發(fā)布,體現(xiàn)了微軟對支持開源社區(qū)的承諾。
此許可允許開發(fā)者自由使用、修改、合并、發(fā)布、分發(fā)、再許可或出售軟件的副本。
該許可還包括免責聲明,即軟件是“按原樣”提供的,不附帶任何形式的保證。微軟及其他版權持有人不對因使用該軟件而引發(fā)的任何索賠、損害或其他責任承擔責任。
微軟發(fā)布的Phi-3.5系列代表了多語言和多模態(tài)AI開發(fā)的一個重要進展。
通過以開源許可的形式提供這些模型,微軟使開發(fā)者能夠將最先進的AI能力集成到他們的應用中,從而推動商業(yè)和研究領域的創(chuàng)新。