長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析原創(chuàng) 精華

發(fā)布于 2024-11-29 10:22

瀏覽

0收藏

編者按： 如今，AI模型的上下文窗口正以驚人的速度擴(kuò)大——從2018年的區(qū)區(qū)512個(gè)token到現(xiàn)在的200萬(wàn)token。這種跨越式發(fā)展不僅僅是數(shù)字的變化，更代表著全新的應(yīng)用機(jī)會(huì)：律師可以讓AI快速分析數(shù)千頁(yè)的法律文書(shū)，醫(yī)生能夠基于完整的病歷做出更精準(zhǔn)的診斷，研究人員可以同時(shí)處理數(shù)百篇學(xué)術(shù)論文...但問(wèn)題是，我們?nèi)绾未_保這些超長(zhǎng)上下文模型真的"理解"了如此龐大的信息量？
作者從三個(gè)維度詳細(xì)闡述了長(zhǎng)上下文模型的評(píng)估方法——信息檢索能力評(píng)估、深度分析能力評(píng)估、上下文學(xué)習(xí)能力評(píng)估。作者基于實(shí)際研究案例，系統(tǒng)地展示了這些評(píng)估方法的應(yīng)用場(chǎng)景和局限性。

作者 | Yennie Jun

編譯 | 岳揚(yáng)

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

近年來(lái)，語(yǔ)言模型的上下文窗口大小呈指數(shù)級(jí)增長(zhǎng)，此圖由原文作者制作

01 Introduction

大語(yǔ)言模型的上下文窗口 —— 即它們一次性能夠處理的文章長(zhǎng)度 —— 一直在以指數(shù)級(jí)速度增長(zhǎng)。

2018 年，BERT[1]、T5[2] 和 GPT-1[3] 等語(yǔ)言模型能夠處理的輸入 token 數(shù)量上限為 512 個(gè)。而到了 2024 年夏季，這一數(shù)字已飆升至 200 萬(wàn)個(gè) token（在公開(kāi)可用的 LLMs 中）。這一變化對(duì)我們有何影響，我們又該如何評(píng)估這些能力越來(lái)越強(qiáng)的模型呢？

1.1 大上下文窗口究竟意味著什么？

最新發(fā)布的 Gemini 1.5 Pro 模型能夠接收高達(dá) 200 萬(wàn)個(gè) token[4]。但 200 萬(wàn)個(gè) token 究竟代表什么呢？

假設(shè)大約每 4 個(gè)單詞轉(zhuǎn)換為 3 個(gè) token，那么 200 萬(wàn)個(gè) token 幾乎可以囊括完整的《哈利·波特》和《指環(huán)王》系列小說(shuō)。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

這張圖表展示了 Gemini 1.5 的 200 萬(wàn) tokens 上下文窗口能夠容納多少本《哈利·波特》和《指環(huán)王》書(shū)籍。此圖表部分靈感來(lái)源于 2024 年 3 月的這張精彩的信息圖表[5]。該圖由原文作者制作

這些數(shù)字指的是公開(kāi)模型中可用的上下文窗口。盡管 Gemini 1.5 Pro 模型目前公開(kāi)可用的上下文窗口為 200 萬(wàn)個(gè) token，但它能夠處理多達(dá) 1000 萬(wàn)個(gè) token[6]。

正如一位 Reddit 用戶(hù)所說(shuō)，這意味著可以將 1000 篇科學(xué)論文納入 Gemini 的 1000 萬(wàn) token 上下文窗口中，以開(kāi)展創(chuàng)新研究[7]。

1.2 大上下文窗口為何至關(guān)重要？

擴(kuò)大上下文窗口的意義，不僅僅在于讓構(gòu)建 LLMs 的公司能夠相互競(jìng)技。長(zhǎng)上下文模型在現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景廣泛，以下是一些例子：

法律研究：律師可以將完整的案例經(jīng)過(guò)、先例和法規(guī)輸入模型，在幾秒鐘內(nèi)就能獲得全面的分析，而非耗費(fèi)數(shù)小時(shí)甚至數(shù)日進(jìn)行人工審查。
財(cái)務(wù)分析：將多年的財(cái)務(wù)報(bào)告、市場(chǎng)動(dòng)態(tài)和經(jīng)濟(jì)指標(biāo)輸入AI，就能立即獲得深入洞察。
醫(yī)療診斷：醫(yī)生能夠輸入患者的全部醫(yī)療記錄，包括醫(yī)療檢測(cè)結(jié)果、治療記錄和高清醫(yī)學(xué)影像，以實(shí)現(xiàn)更精確的診斷和個(gè)性化治療方案。
教育領(lǐng)域：學(xué)生可以將整本教材和課程資料輸入模型，獲得定制化的知識(shí)點(diǎn)解釋和跨學(xué)科的知識(shí)串聯(lián)。

然而，這些使用案例也引起了人們的擔(dān)憂(yōu)。如果不當(dāng)使用，處理海量個(gè)人數(shù)據(jù)的能力可能會(huì)帶來(lái)前所未有的監(jiān)控和隱私侵犯。隨著這些能力的提升，制定強(qiáng)有力的倫理規(guī)范和安全保障的需求也日益迫切。

02 我們?cè)撊绾卧u(píng)估上下文窗口大小不斷增加的 LLMs？

擁有超長(zhǎng)上下文窗口的模型是近期的發(fā)展趨勢(shì)。因此，研究人員正在嘗試開(kāi)發(fā)新的評(píng)估方法，以判斷這些模型的性能。這些評(píng)估方法旨在對(duì)長(zhǎng)上下文模型的能力與局限性進(jìn)行基準(zhǔn)測(cè)試，并探討擴(kuò)展上下文窗口所帶來(lái)的利弊。

核心觀點(diǎn)是，擁有更長(zhǎng)輸入上下文的模型應(yīng)當(dāng)能夠完成那些之前難以或無(wú)法完成的任務(wù)。

評(píng)估場(chǎng)景

本文將探討研究人員考慮用于評(píng)估長(zhǎng)上下文模型的以下三種方法：

從長(zhǎng)篇文檔中提取信息
對(duì)長(zhǎng)篇文檔進(jìn)行深入分析（推理和概括）
為即時(shí)模型訓(xùn)練提供上下文學(xué)習(xí)支持

備注：以上列舉并不全面。如需全面了解長(zhǎng)上下文模型的基準(zhǔn)測(cè)試，請(qǐng)?jiān)L問(wèn) Awesome LLM Long Context Modeling 的 Github 頁(yè)面[8]。

2.1 從長(zhǎng)篇文檔中提取信息

Greg Kamradt[9] 提出的“大海撈針（Needle in a Haystack）”測(cè)試[10]，是評(píng)價(jià)長(zhǎng)文本信息檢索效率的一種流行手段。該方法通過(guò)將一句與上下文不符的語(yǔ)句（即“針（needle）”），隨機(jī)插入不同長(zhǎng)度的文本段落（即“海（haystack）”）中，以此考察模型在不同深度下檢索信息的能力。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

例如，將“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day”這句話(huà)，嵌入到 Paul Graham 的文章之中。

該測(cè)試旨在衡量 LLMs 在日益增大的上下文內(nèi)，定位具體信息的能力。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

Greg Kamradt[9] 設(shè)計(jì)的原始“大海撈針”圖表，用于檢驗(yàn) LLMs 在檢索深層次信息方面的能力。通過(guò)將這句不協(xié)調(diào)的句子（“針”）置于不同長(zhǎng)度的文本片段（“海”）的各個(gè)層級(jí)，我們可以評(píng)估不同 LLMs 在尋找這些信息時(shí)的表現(xiàn)。

“needle in a Haystack”的多種變體

研究人員設(shè)計(jì)了幾種不同的測(cè)試，以探究信息檢索的各個(gè)方面：

多“針”測(cè)試：在冗長(zhǎng)的文檔中散布多個(gè)“針”句子（由 Langchain[11] 提出，并在 NeedleBench[12] 中進(jìn)行實(shí)驗(yàn)）。
多模態(tài)搜索：根據(jù)描述，在一堆無(wú)關(guān)的圖片中尋找目標(biāo)圖像。
音頻搜索：在長(zhǎng)達(dá)五天的音頻信號(hào)中識(shí)別出一段簡(jiǎn)短的音頻（該測(cè)試在 Gemini 1.5 技術(shù)報(bào)告[13]中提出）。在此測(cè)試中，一段包含“the secret keyword is needle”這句話(huà)的音頻片段，被隱藏在接近五天（107小時(shí)）的音頻信號(hào)中。
視頻搜索：在一部長(zhǎng)達(dá) 10.5 小時(shí)的視頻中，找到含有特定文字的單幀畫(huà)面（同樣在 Gemini 1.5 技術(shù)報(bào)告[13]中描述）。在這個(gè)測(cè)試中，一張顯示“The secret word is needle”文字的畫(huà)面，被嵌入到了由七部完整的 AlphaGo 紀(jì)錄片拼接而成的視頻中。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

Gemini 1.5 論文中介紹了基于視頻的“Needle in a Haystack”，圖片來(lái)自《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》（第 110 頁(yè)）

“Needle in a Haystack”方法的局限與影響

盡管“Needle in a Haystack”方法應(yīng)用廣泛，但它也存在一些局限性：

首先，這是一個(gè)模擬任務(wù)，可能與現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景不符。
其次，它僅評(píng)估信息的查找能力，而不涉及邏輯推理或理解能力。
再者，隨著上下文范圍的擴(kuò)大，對(duì)所有可能的“海”大小和“針”位置的組合進(jìn)行評(píng)估，其成本將越來(lái)越高。

盡管存在這些缺陷，該測(cè)試卻凸顯了長(zhǎng)上下文模型的一項(xiàng)重要功能：即能從海量數(shù)據(jù)中迅速搜尋和提取信息。這一功能的重要性不容小覷，它不僅能提升研究效率，還能達(dá)到前所未有的數(shù)據(jù)分析水平——甚至可能用于監(jiān)控。

值得注意的是，這種信息檢索方式與檢索增強(qiáng)生成（RAG）不同，它是在一個(gè)連貫的大型上下文中進(jìn)行，而不是從外部資源中提取信息。

2.2 對(duì)長(zhǎng)篇文檔進(jìn)行深入分析（推理和概括）

盡管" Needle in a Haystack "測(cè)試主要關(guān)注信息檢索能力，但還有其他評(píng)估方法用于檢測(cè)大語(yǔ)言模型在處理長(zhǎng)篇內(nèi)容時(shí)的推理、解讀和綜合信息的能力。這些評(píng)估方法旨在檢驗(yàn)?zāi)Ｐ褪欠衲軌蜻M(jìn)行更高級(jí)的推理，而不僅僅是尋找數(shù)據(jù)的具體位置。

以下是屬于此類(lèi)的幾種評(píng)估方法：

文學(xué)問(wèn)答任務(wù)

書(shū)籍是長(zhǎng)篇文檔的經(jīng)典例子。NOVELQA[14] 這樣的基準(zhǔn)測(cè)試就是用來(lái)評(píng)估模型處理文學(xué)小說(shuō)的能力，文檔長(zhǎng)度可達(dá) 200K 個(gè) tokens。這個(gè)測(cè)試包含了針對(duì) 88 本英語(yǔ)小說(shuō)的問(wèn)題（這些問(wèn)題由人類(lèi)編寫(xiě)），涵蓋了公版書(shū)和受版權(quán)保護(hù)的作品。其他數(shù)據(jù)集，比如NoCha[15]，也采取了相似的評(píng)估方式。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū) 在這里插入圖片描述

插圖說(shuō)明：這張圖表展示了來(lái)自 NovelQA 數(shù)據(jù)集[14]的兩個(gè)示例問(wèn)題，這些示例取自《NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens》[14]一文。

在含有隱蔽相關(guān)信息的長(zhǎng)篇文章中進(jìn)行邏輯推理

FlenQA[16] 通過(guò)將相關(guān)信息嵌入到較長(zhǎng)的非相關(guān)信息中，生成了多個(gè)不同長(zhǎng)度的上下文版本。這種方法有助于我們了解，隨著上下文長(zhǎng)度的增加，大語(yǔ)言模型的處理能力如何逐步下降。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

在 FlenQA 的一個(gè)任務(wù)示例中，相關(guān)信息（以深紅色表示）被穿插在大量無(wú)關(guān)信息之中。此圖表摘自《Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models》[16]一文。

針對(duì)特定領(lǐng)域的邏輯推理

醫(yī)療領(lǐng)域：LongHealth[17] 基準(zhǔn)測(cè)試采用了 20 個(gè)虛構(gòu)的病例（每個(gè)病例包含 5-7 千字），以此來(lái)評(píng)估模型在醫(yī)學(xué)推理方面的能力。
金融領(lǐng)域：DocFinQA[18] 則通過(guò)讓模型處理長(zhǎng)達(dá) 150 頁(yè)的金融文檔（包含超過(guò) 100K 個(gè) tokens）來(lái)對(duì)其進(jìn)行挑戰(zhàn)。

總結(jié)摘要任務(wù)

對(duì)于大語(yǔ)言模型而言，能夠有效地壓縮長(zhǎng)篇文檔的內(nèi)容是一項(xiàng)至關(guān)重要的能力，因?yàn)樗梢宰層脩?hù)在不閱讀全部?jī)?nèi)容的情況下，快速掌握大量文本中的關(guān)鍵信息。這一點(diǎn)在研究領(lǐng)域、商業(yè)分析和法律實(shí)踐中尤為重要，這些領(lǐng)域的專(zhuān)家經(jīng)常需要將大量資料精煉為簡(jiǎn)潔的報(bào)告。

但是，如何評(píng)價(jià)總結(jié)摘要的質(zhì)量是一項(xiàng)復(fù)雜的任務(wù)。總結(jié)摘要不僅要求對(duì)全文有深刻的理解，還要求能夠精準(zhǔn)地識(shí)別并整合關(guān)鍵信息。 什么樣的總結(jié)摘要算是優(yōu)質(zhì)，往往取決于個(gè)人主觀判斷和具體上下文。

目前，總結(jié)摘要質(zhì)量的評(píng)估多依賴(lài)于將模型的輸出與人工編寫(xiě)的總結(jié)摘要進(jìn)行對(duì)比，這種方法并不完美，可能無(wú)法涵蓋所有合理的總結(jié)摘要方式，也可能會(huì)忽略那些用詞不同但含義準(zhǔn)確的總結(jié)摘要。

為了應(yīng)對(duì)這些挑戰(zhàn)，LongBench[19] 和 ∞Bench[20] 等基準(zhǔn)測(cè)試應(yīng)運(yùn)而生。LongBench 涵蓋了多種文檔類(lèi)型（如政府報(bào)告、會(huì)議紀(jì)要、新聞報(bào)道）的摘要任務(wù)，文檔長(zhǎng)度可達(dá) 15K 字；而 ∞Bench 則進(jìn)一步拓展了摘要任務(wù)的挑戰(zhàn)邊界，包含長(zhǎng)度可達(dá) 100K 個(gè) tokens 的文檔。盡管這些基準(zhǔn)測(cè)試頗具價(jià)值，但該領(lǐng)域仍在探索更為有效的評(píng)估方法，以便更精準(zhǔn)地評(píng)價(jià)高質(zhì)量總結(jié)摘要的細(xì)微差別。

若想深入了解這一主題，可以查閱《An Empirical Survey on Long Document Summarization: Datasets, Models, and Metrics》[21]這一文章。

2.3 為即時(shí)模型訓(xùn)練提供上下文學(xué)習(xí)支持

長(zhǎng)上下文模型最酷的應(yīng)用之一便是在上下文學(xué)習(xí)（ICL）方面的增強(qiáng)能力。ICL 技術(shù)使得模型能夠即時(shí)從提示詞中的示例中學(xué)會(huì)處理新任務(wù)。得益于更大的上下文窗口，我們現(xiàn)在能夠納入成百上千的訓(xùn)練樣本，甚至是那些復(fù)雜且篇幅較長(zhǎng)的任務(wù)，比如文本摘要。

這項(xiàng)技術(shù)改變了游戲規(guī)則。它讓開(kāi)發(fā)人員可以跳過(guò)針對(duì)特定領(lǐng)域的模型微調(diào)，直接通過(guò) ICL 讓模型迅速適應(yīng)新任務(wù)。

Many-shot ICL

DeepMind 針對(duì)多樣本 ICL[22] 的研究表明，當(dāng)提示詞中包含更多示例時(shí)，模型在不同任務(wù)上的表現(xiàn)有顯著提升。通過(guò)擴(kuò)充到成百上千的示例，模型能夠克服預(yù)訓(xùn)練中的偏見(jiàn)，并處理更為復(fù)雜的問(wèn)題。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

通過(guò)在提示詞中增加更多的示例（即“shots”），相同的 LLM 模型在多種任務(wù)上都能展現(xiàn)出更好的性能。例如，將情感分析任務(wù)的示例從 32 個(gè)增加到 2048 個(gè)，模型的表現(xiàn)提升了 18.2 %。此圖摘自《Many-Shot In-Context Learning》[22]。

這一理念不僅僅局限于性能提升。Anthropic 公司在其“Many-shot Jailbreaking”[23]項(xiàng)目中的研究發(fā)現(xiàn)，雖然僅憑幾個(gè)樣本無(wú)法突破模型的安全防線(xiàn)，但是如果有數(shù)百個(gè)樣本，就能做到這一點(diǎn)——這一發(fā)現(xiàn)既展示了這種方法的威力，也揭示了其潛在的風(fēng)險(xiǎn)。

長(zhǎng)上下文語(yǔ)言模型評(píng)估體系探析-AI.x社區(qū)

例如，我們可以看到，僅僅幾個(gè)樣本是無(wú)法誘導(dǎo) LLM 生成有害內(nèi)容的，但是當(dāng)樣本數(shù)量增加到數(shù)十個(gè)甚至數(shù)百個(gè)時(shí)，就能讓模型忽視其“安全圍欄”。此圖來(lái)自于《Many-Shot Jailbreaking》[23]。

翻譯低資源語(yǔ)言

在低資源語(yǔ)言的翻譯方面，長(zhǎng)上下文模型展現(xiàn)出了非凡的價(jià)值。在 Gemini 1.5 的技術(shù)報(bào)告[13]中，以 Kalamang 語(yǔ)為例，這種語(yǔ)言的使用者不足200人，網(wǎng)絡(luò)資源也非常有限。通過(guò)向模型輸入 500 頁(yè)的語(yǔ)法資料、一個(gè)包含 2000 個(gè)詞條的雙語(yǔ)詞匯表以及 400 個(gè)對(duì)照句子（總共 250 k個(gè) tokens），模型不僅能翻譯 Kalamang 語(yǔ)，還能進(jìn)行語(yǔ)音轉(zhuǎn)錄。

這種方法同樣適用于其他低資源語(yǔ)言，并且隨著示例數(shù)量的增加，翻譯性能也在不斷提升。對(duì)于瀕危語(yǔ)言的保護(hù)和使用來(lái)說(shuō)，這無(wú)疑是一個(gè)充滿(mǎn)希望的新進(jìn)展。

03 Discussion

對(duì)于更長(zhǎng)上下文窗口的追求正在語(yǔ)言模型領(lǐng)域掀起一場(chǎng)激烈的競(jìng)賽，上下文窗口的規(guī)模正以驚人的速度擴(kuò)張。這種擴(kuò)張迫使我們需要開(kāi)發(fā)新的評(píng)估手段，以便更準(zhǔn)確地把握這些模型的實(shí)力與短板。

盡管已經(jīng)涌現(xiàn)出了一批針對(duì)長(zhǎng)上下文模型的評(píng)估基準(zhǔn)（如 SCROLLS[24]、LongBench[19]、∞BENCH[20]等），但仍有許多疑問(wèn)尚待解答：

規(guī)模的權(quán)衡：當(dāng)上下文長(zhǎng)度不斷增加時(shí)，模型在安全性、偏見(jiàn)和指令執(zhí)行方面的表現(xiàn)會(huì)如何波動(dòng)？
多語(yǔ)種表現(xiàn)：大多數(shù)評(píng)估基準(zhǔn)都著眼于英語(yǔ)（CLongEval[25] 等評(píng)估基準(zhǔn)除外，其中也涵蓋了中文的評(píng)估）。那么，對(duì)于非英語(yǔ)系的語(yǔ)言，隨著上下文的增加，其表現(xiàn)又會(huì)與英語(yǔ)有何不同？
性能衰退：模型在處理更豐富上下文的同時(shí)，是否會(huì)犧牲掉某些特定能力，比如編程技能或是創(chuàng)造力？
現(xiàn)實(shí)影響：當(dāng)模型能夠處理整本書(shū)籍、完整個(gè)人經(jīng)歷，甚至是稀缺語(yǔ)言的詳盡數(shù)據(jù)時(shí)，我們將面臨哪些倫理和現(xiàn)實(shí)層面的挑戰(zhàn)？

隨著大語(yǔ)言模型（LLMs）的上下文窗口不斷擴(kuò)大，我們不僅要了解它們能做到什么，還要探究它們的基本特性可能會(huì)如何變化。

目前來(lái)看，這場(chǎng)追逐更大上下文窗口模型的競(jìng)賽還將持續(xù)升溫。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Yennie Jun

Machine learning engineer and AI researcher exploring my curiosity of the world through creative projects

END

本期互動(dòng)內(nèi)容 ??

? #技術(shù)探討# 你認(rèn)為評(píng)估長(zhǎng)上下文模型最重要的指標(biāo)是什么？為什么？

??文中鏈接??

[1]??https://arxiv.org/abs/1810.04805??