剛剛,OpenAI開放GPT-4.1,100萬上下文、代碼能力超強(qiáng)
今天凌晨1點(diǎn)30,OpenAI宣布開放GPT-4.1,從今天開始可以在ChatGPT中使用。
GPT-4.1是一款專門針對編碼任務(wù)和指令執(zhí)行的模型,推理效率非常高,對于日常編碼需求來說,是替代o3和o4-mini非常好的選擇。
GPT-4.1是OpenAI發(fā)布的最新模型,其最大亮點(diǎn)之一就是支持100萬tokens上下文,這也是OpenAI首次發(fā)布長窗口模型。
與前代模型相比,GPT-4.1、GPT-4.1Mini和GPT-4.1Nano能夠處理多達(dá)100萬tokens的上下文,是GPT-4o的8倍。
OpenAI在LongContextEvals上對長文本進(jìn)行了測試,測試結(jié)果顯示,GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標(biāo)文本,無論是開頭、中間還是結(jié)尾,甚至在長達(dá)100萬tokens的上下文中,模型依然能夠準(zhǔn)確地定位目標(biāo)文本。
OpenAI還在Multi-RoundCoreference進(jìn)行了測試,通過創(chuàng)建合成對話來測試模型在長上下文中的理解和推理能力。
在這些對話中,用戶和助手交替進(jìn)行對話,用戶可能會要求模型生成一首關(guān)于某個主題的詩,接著要求生成另一首關(guān)于不同主題的詩,然后可能要求生成一個關(guān)于第三個主題的短故事。模型需要在這些復(fù)雜的對話中找到特定的內(nèi)容,例如“第二篇關(guān)于某個主題的短故事”。
測試結(jié)果顯示,GPT-4.1在處理長達(dá)128Ktokens的數(shù)據(jù)時顯著優(yōu)于GPT-4o,并且在長達(dá)100萬tokens的上下文中依然能夠保持較高的性能。
在編碼能力測試中,SWEBench評估將模型置于Python代碼庫環(huán)境,讓其探索代碼庫、編寫代碼和測試用例。結(jié)果顯示,GPT-4.1的準(zhǔn)確率達(dá)到55%,而GPT-4o僅為33%。
在多語言編碼能力測試方面,Aderpolyglot基準(zhǔn)測試涵蓋多種編程語言和不同格式要求。GPT-4.1在差異性能上較GPT-4o提升一倍,在處理多語言編程任務(wù)、代碼優(yōu)化和版本管理時更高效。
在指令遵循能力測試中,OpenAI構(gòu)建內(nèi)部評估體系,模擬API開發(fā)者使用場景,測試模型對復(fù)雜指令的遵循能力。每個樣本包含分屬不同類別的復(fù)雜指令,并分難度等級。在困難子集評估中,GPT-4.1遠(yuǎn)超GPT-4o。
在多模態(tài)處理測試的視頻MME基準(zhǔn)測試中,GPT4.1對30-60分鐘無字幕視頻進(jìn)行理解并回答多項(xiàng)選擇題,取得72%的成績,達(dá)到當(dāng)前最佳水平,在視頻內(nèi)容理解上實(shí)現(xiàn)重大突破。
價格方面,GPT-4.1系列在性能提升的同時,價格更具競爭力。GPT-4.1相比GPT-4o價格降低26%,而GPT-4.1Nano作為最小、最快且最便宜的模型,每百萬token的成本僅為12美分。
目前,Plus、Pro和Team用戶可以通過模型選擇器中的“更多模型”使用GPT-4.1。企業(yè)和教育用戶將在接下來的幾周內(nèi)獲得訪問權(quán)限。
OpenAI還在ChatGPT中為所有用戶推出GPT-4.1-mini,取代GPT-4o-mini。