Qwen2.5更新百萬超長上下文，推理速度4.3倍加速，網友：RAG要過時了

作者：量子位 2024-11-20 09:36:00

一口氣讀三本《三體》不費事，并且45秒左右就能完整總結出這69萬token的主要內容

國產大模型，最近有點卷。

這不，剛在寫代碼這事兒上刷新SOTA，Qwen2.5系列又雙叒突然更新了——

一口氣讀三本《三體》不費事，并且45秒左右就能完整總結出這69萬token的主要內容，be like：

還真不是糊弄事兒，“大海撈針”實驗顯示，這個全新的Qwen2.5-Turbo在100萬token上下文中有全綠的表現。

也就是說，這100萬上下文里，有細節Qwen2.5-Turbo是真能100%捕捉到。

沒錯，Qwen2.5系列新成員Qwen2.5-Turbo，這回主打的就是支持超長上下文，并且把性價比卷出了花兒：

關鍵是還便宜：0.3元/1M tokens。這意味著，在相同成本下，Qwen2.5-Turbo可以處理的token數量是GPT-4o-mini的3.6倍。

看到這波更新，不少網友直接爆出了***：

有人直言：這么長的上下文這么快的速度下，RAG已經過時了。

還有人開啟大贊特贊模式：現在在開源領域，Qwen比Llama還值得期待了。

上下文能力擴展不影響性能

除了一口氣啃下3本長篇小說，Qwen官方還展示了Qwen2.5-Turbo超長上下文的更多實用功能。

比如快速掌握一整個代碼庫的信息。

如Demo所演示，上傳包含Qwen-Agent倉庫中所有代碼文件的文本文件（13.3萬token），只需幾秒鐘，大模型就能讀完全部代碼并準確輸出各種細節。

用戶：這個存儲庫中有哪些Agent子類？提供它們的文件路徑。
Qwen2.5-Turbo：

一口氣讀7篇論文，完成論文分類、論文摘要，也不在話下：

我們也實際測試了一下。可以看到，在沒有給任何提示的情況下，Qwen2.5-Turbo能準確掌握不同論文的細節信息，并完成對比分析。

除了大海撈針實驗之外，Qwen團隊還在更復雜的長文本任務上測試了Qwen2.5-Turbo的能力。

包括：

RULER：基于大海撈針的擴展基準，任務包括在無關上下文中查找多“針”或回答多個問題，或找到上下文中出現最多或最少的詞。數據的上下文長度最長為128K。
LV-Eval：要求同時理解眾多證據片段的基準測試。Qwen團隊對LV-Eval原始版本中的評估指標進行了調整，避免因為過于嚴苛的匹配規則所導致的假陰性結果。數據的上下文長度最長為128K。
Longbench-Chat：一個評價長文本任務中人類偏好對齊的數據集。數據的上下文長度最長為100K。