LLM 大語言模型定義以及關鍵技術術語認知
大語言模型定義
LLM(Large Language Models)是基于 Transformer 架構(可以理解為不同尋常的大腦)的深度神經網絡,通過海量文本數據訓練獲得語言理解和生成能力。其核心特征包括:
參數規模達數十億級別(GPT-3 175B參數)
知識儲備驚人,可以理解為腦細胞數量是普通人的千億倍(1750億參數),相當于把整個圖書館的書都裝進大腦
自回歸生成機制(逐詞預測)
說話方式像接龍,當它寫作文時,就像我們玩詞語接龍:先寫"今天",然后根據"今天"想"天氣",接著根據"今天天氣"想"晴朗",逐字逐句生成內容。
注意力機制實現長程依賴建模
特別會抓重點就像我們讀小說時,會自動記住關鍵人物關系(比如注意到"陳平安喜歡寧姚"),它能自動捕捉文字間的深層聯系。
涌現能力(Emergent Abilities)
無師自通的學霸,腹有詩書氣自華,典型案例:GPT-3在未專門訓練情況下通過上下文學習掌握翻譯、數學運算等能力,展示出突破性的零樣本學習能力。
關鍵技術術語
Transformer架構
1. 核心創新:自注意力機制突破序列建模瓶頸
- 傳統 RNN 的缺陷:類似快遞站分揀員逐個處理包裹(單詞),RNN 必須按順序處理序列。當處理長序列時(如第 50 個詞),早期信息易丟失(如忘記“我”還是“他”),導致長距離依賴失效。
- Transformer 的革新:通過自注意力機制(Self-Attention),所有包裹(單詞)同時被“透視掃描”,每個詞直接關聯全局信息(如“蘋果”關聯到“水果店”“紅富士”),徹底解決長序列依賴問題。
2. 關鍵架構特點
(1)并行化計算架構
- 傳統 RNN:需按順序處理(如包裹1→2→3),效率低下。
- Transformer:所有詞通過矩陣運算并行處理(如同時拆包掃描),計算速度提升百倍。
(2)編碼器-解碼器協作
- 編碼器(理解部):分析輸入序列的全局語義(如將“我想吃蘋果”解析為人物、動作、對象)。
- 解碼器(生成部):基于編碼器信息生成輸出(如翻譯為英文),GPT 系列僅用解碼器實現文本生成。
(3)位置編碼與多頭注意力
- 位置編碼:為詞嵌入添加位置信息(如“蘋果”是第3個詞),彌補并行計算丟失的順序性。
- 多頭注意力:多個“專家”并行分析不同語義維度(語法、情感、事實),綜合結果增強模型理解能力。
3. 典型應用場景
- 生成式模型:GPT 系列(僅解碼器)用于文本創作、對話。
- 理解式模型:BERT(僅編碼器)用于文本分類、問答。
- 跨模態任務:圖像生成(如 DALL·E)、視頻生成(如 Sora)、代碼生成(如 GitHub Copilot)。
技術價值總結
Transformer 通過自注意力全局建模和并行計算架構,解決了 RNN 的長序列依賴與低效問題,成為大模型時代的核心技術。其模塊化設計(編碼器/解碼器可拆分)和靈活擴展性(如多頭注意力),使其在 NLP、CV 等領域實現突破性應用。
語言建模(Language Modeling)
核心目標
語言建模的核心是通過學習自然語言的統計規律,建立詞序列(token)的概率分布模型,實現基于上下文預測序列中下一個詞的能力。
主要方法
- 自回歸語言模型(如GPT,DeepSeek)
特點:以單向上下文建模為基礎,通過序列生成方式逐詞預測(即當前預測依賴已生成的全部歷史信息)
典型應用:文本生成(如對話系統、故事創作)、開放式任務(無需特定任務標注數據)
- 掩碼語言模型(如BERT)
特點:基于雙向上下文建模,通過隨機掩碼部分詞匯并預測被遮蔽內容,捕捉全局語義關系
典型應用:語義理解任務(如文本分類、問答系統)、需要深層語義推理的場景
技術演進
- 傳統方法:基于N-gram統計模型,依賴局部詞頻統計,但無法捕捉長距離依賴
- 深度學習方法:
循環神經網絡(RNN/LSTM)解決序列建模的時序依賴問題
Transformer架構突破性引入自注意力機制,實現并行化計算與全局上下文建模
- 預訓練范式:通過大規模無監督預訓練(如GPT-3、BERT)學習通用語言表示,再通過微調適配下游任務
預訓練范式是當前人工智能領域(尤其是自然語言處理)的核心技術之一。它的核心思想是通過兩個階段的學習,讓模型從“通用語言理解”逐步過渡到“特定任務適配”。
分詞(Tokenization)
將文本分割成一個個小的單元,即 token。比如,“I love apples” 這句話可能被分成 【“I”“love”“apples”】 這三個 token ,我是中國人被分解成 【我,是,中國人】三個 token 以便模型進行處理。
子詞分詞(Byte-Pair Encoding等),遇到"樂高飛船"時,拆成"底座+翅膀+駕駛艙"標準組件, 為什么要分詞:
- 影響模型詞匯表大小:控制詞匯表大小,就像用1000個基礎樂高塊,能拼出10萬種造型
- 處理未登錄詞能力:應對意外情況,遇到陌生詞"抗核抗體":拆成"抗"+"核"+"抗體"(醫學常見組件)
- 跨語言統一表示: 跨語言通用,中文"人工智能" → ["人工","智能"],英文"Artificial Intelligence" → ["Artificial","Intelligence"]
嵌入(Embeddings)
嵌入是指將離散 token 映射為連續向量,高維,捕獲語義和語法關系,通過模型訓練學習分布,通俗的話講,就是把 token 轉化為 Transformer 可以理解的數據
通俗解釋: 嵌入就像給每個樂高零件貼上"屬性條形碼" 當AI拿到"color"這個樂高塊時,不是直接使用塑料塊本身,而是掃描它身上的隱形條形碼:
- 紅色 → 0.87
- 動詞屬性 → 0.92
- 與"paint"相似度 → 0.85
- 與"dark"關聯度 → 0.63
- ...(總共12,000種屬性)
就像每個樂高塊的固有指紋或者屬性的,顏色代碼(決定能拼什么風格的建筑),形狀指紋(決定能連接哪些零件),材質DNA(決定適合做飛船還是城堡),比如我需要做一個紅色的房子,那么我就會考慮選擇所有 紅色的樂高零件
嵌入的特點:高維度(如GPT-3使用12,000維),捕獲語義/語法關系(相似詞向量距離近),通過模型自動學習語義空間分布
通俗解釋:
高維度=超能力觀察鏡
人類看樂高:只能分辨顏色/形狀/大小,AI的12,000維"觀察鏡"能看到:適合做機甲關節的弧度(維度127),與中世紀套裝的兼容性(維度582),兒童抓握舒適度評分(維度7048)
自動學習零件屬性
初期:AI以為"紅色塊"只適合做消防車,看多了圖紙后發現,紅色也能做蘋果(維度202→水果關聯+0.7),還能做超級英雄披風(維度916→動態感+0.8),類似人類發現回形針除了夾文件,還能當手機支架
捕獲語義
當AI看到"硅谷創業公司融資千萬美元"時:
- "硅谷" → 科技=0.95,美國=0.88,創新=0.93...
- "融資" → 金錢=0.97,風險=0.85,增長=0.91...
- 自動聯想到:
- 相似案例:維度2048與"字節跳動早期融資"匹配度89%
- 潛在風險:維度6975與"估值泡沫"關聯度76%
- 就像樂高大師看到幾個零件,立刻知道能拼出直升機還是潛水艇
這相當于給每個詞語裝上GPS定位器,讓AI在12,000維的語義宇宙中,精確找到它們所在的星座位置!
訓練與微調
預訓練就像九年義務教育+3年中學,什么都學,掌握文理科基礎知識,有認知世界的能力,微調就像讀高中,分文理,讀大學分專業,最終變成某個領域的打工人(落地應用)
預訓練:
- 海量通用文本(如CommonCrawl)
- 目標:基礎語言理解能力
用做飯來比喻:預訓練 就像是 大廚的基本功訓練,讓廚師學徒先吃遍全國各種菜系(通用文本),掌握切菜、火候、調味的基礎規律(語言規律)。這時候他不懂做具體菜品,但能憑經驗判斷"西紅柿炒蛋應該先放蛋"這類常識(基礎理解能力)。
微調:
- 領域特定數據(如醫學/金融文本)
- 任務特定訓練(如翻譯/摘要)
微調,開餐廳前的專項培訓,比如要開川菜館:先給學徒看10本川菜菜譜(領域數據),記住豆瓣醬和花椒的使用場景(領域知識),再手把手教他做宮保雞丁(任務訓練),直到他能穩定復刻這個菜(任務適配),最終他既保留通用廚藝,又成為川菜專家(領域專家模型)
預測生成
預測生成(Autoregressive Generation)是指大型語言模型(LLM)基于已輸入的上下文逐詞生成后續內容的過程。
預測過程:
- 輸入序列編碼
- 自回歸生成(逐token預測)
- 采樣策略(貪婪搜索/核采樣等)
- 限制條件:受上下文窗口約束
還是使用用做菜流程比喻預測生成,連限制條件都容易記:預測生成,大廚現炒客制化菜品
- 看訂單(輸入編碼):客人說"微辣的水煮牛肉加萵筍",大廚先拆解需求(把文本轉成向量)
- 顛勺式推進(自回歸生成):
- 先熱油→爆香辣椒→下牛肉→... 每個步驟都基于前序動作決定下一步(逐token預測)
- 類似菜譜接龍:每次只寫下一句,但必須和前文連貫
- 調味自由度(采樣策略):
嚴格派:必須按經典菜譜放3克鹽(貪婪搜索,選最高概率token)
創意派:允許隨機從"2-4克鹽+半勺糖"里選(核采樣,增加多樣性)
限制: 廚房工作臺太小(上下文窗口)
- 比喻:灶臺只能同時擺5種食材,如果客人突然加需求"順便做個魚香肉絲",大廚可能忘記最初要微辣(長文本生成時可能丟失前文信息)
- 實際表現:生成到3000字時,模型可能復讀調料比例(重復生成)或突然開始炒西蘭花(邏輯漂移)
就像廚師不會無限度記住兩小時前的訂單細節,模型也無法突破上下文窗口的記憶極限
上下文窗口(Context Window)
定義:模型單次處理的最大token數,直接影響其對長文本的連貫理解和多輪對話的記憶能力
- 典型值:
GPT-4:32K tokens(約50頁)
Claude 3:200K tokens
DeepSeek-V3: 128K tokens
- 優化技術:
FlashAttention
稀疏注意力
位置編碼改進(如ALiBi)
大模型的“上下文窗口”就像一個人同時能記住的對話內容范圍。舉個例子,假設你在讀一本小說,可以理解為AI的“短期記憶容量”。比如GPT-4能記住約32頁書的內容(32K token),而DeepSeek-V3能記住128頁(128K token),Claude 3更是能記住整本中篇小說(200K token)。這直接影響AI能否連貫分析長文章,或者在聊天時不忘記你10分鐘前提過的事情。
技術優化類比:
- FlashAttention:像快速翻書時用熒光筆標重點,只關注關鍵部分,既快又省腦力(減少計算量)。
- 稀疏注意力:類似讀書時跳著看目錄和章節標題,忽略無關段落(只處理部分內容)。
- 位置編碼改進:相當于給書本每頁編號+貼彩色標簽,防止記混頁數順序(解決長文本位置錯亂問題)。比如DeepSeek用“分段頁碼法”,前一半頁碼正常標,后一半自動擴展,還能無限續寫。
擴展法則(Scaling Laws)
擴展法則三要素:
- 參數量(N)
- 訓練數據量(D)
- 計算量(FLOPs)
擴展法則的三要素可以想象成做菜:
- 參數量(N):相當于廚師的廚藝水平。就像經驗豐富的廚師能處理更多復雜菜品,模型參數越多,"經驗"越豐富,能處理更復雜的任務。
- 訓練數據量(D):相當于食材的數量。要做一鍋夠百人吃的佛跳墻,食材必須足夠多,否則再好的廚師也會"巧婦難為無米之炊"。
- 計算量(FLOPs):相當于廚具的性能。用柴火灶做菜可能需要10小時,但用高壓鍋1小時就能完成,計算量就是這口"鍋"的做飯效率。
Chinchilla法則(N×20≈D 可以理解為廚師和食材的黃金配比。假設你請了70位廚師(70B參數),按照法則需要準備1.4噸食材(1.4T tokens),也就是每位廚師分配20公斤食材。這背后的邏輯是:
- 如果只給10公斤食材(數據不足),廚師們會互相搶食材,導致浪費才華(模型欠擬合)
- 如果給100公斤食材(數據過多),廚師們累死也處理不完(訓練效率低下)
這個法則顛覆了以往"廚師越多越好"的認知。比如過去大家覺得1750億參數的GPT-3(相當于175位廚師),用3000億token(相當于1.7噸食材)已經很多,但Chinchilla指出應該配3.5萬億token(35噸食材),相當于每位廚師分到200公斤——這說明之前的訓練其實讓廚師們"餓著肚子工作"。
涌現能力(Emergent Abilities)
用蘇軾的一句詩最能表達 腹有詩書氣自華。 涌現能力很容易理解,不多講
涌現能力表現:
- 算術運算
- 復雜推理(如思維鏈)
- 跨任務泛化
重點需要關注一下 評估基準
評估基準:
- BIG-Bench(200+任務)
- MMLU(57學科測試)
- TruthfulQA(真實性評估)
如何評估這些能力? 科學家用各種“考題”測試模型,類似人類考試:
- BIG-Bench(200+任務) :像是綜合題庫,包含數學、語言游戲(比如從亂序字母猜單詞)、冷知識(比如波斯語問答)。大模型在這些任務中突然“開竅”,小模型卻像學渣一樣蒙圈。
- MMLU(57學科測試) : 考法律、歷史、數學等學科知識。大模型像突然變成“百科全書”,而小模型連基礎題都答不對。
- TruthfulQA(真實性測試) 比如問“地球是平的嗎?”大模型能避開陷阱,誠實回答“地球是球體”,而小模型可能被錯誤問題帶偏。
為什么會有爭議?
有人質疑:“涌現能力可能只是統計假象!”比如斯坦福研究發現,某些評估指標(如非線性的打分方式)會讓能力看起來是“突然出現”,實際上模型進步是連續的。但無論如何,大模型表現出的“類人智能”確實讓研究者驚喜,也推動著技術發展。
簡而言之,涌現能力=大數據+大模型+意外驚喜,就像給AI喂了“知識酵母”,讓它發酵出超乎預料的本領。
提示工程(Prompting)
提示工程(Prompting)是指通過設計有效的輸入提示(Prompt)來引導大語言模型(如GPT)生成符合預期的輸出。通俗來說,就是“怎么問問題,才能讓AI更好地回答你”。
設計原則:
- 明確性("寫500字關于...")
- 上下文提供(時代/場景設定)
- 示例引導(few-shot learning)
- 明確性:簡單來說,就是“問得清楚”。比如,如果你想讓AI寫一篇500字的文章,直接告訴它“寫500字關于氣候變化的文章”,而不是模糊地問“寫點關于氣候變化的東西”。明確的指令能幫助AI更準確地理解你的需求。
- 上下文提供: 就是“給AI一些背景信息”。比如,如果你想讓它寫一篇關于19世紀工業革命的文章,可以告訴它“假設你是19世紀的歷史學家,寫一篇關于工業革命的文章”。這樣AI就能更好地代入場景,生成更符合你期望的內容。
- 示例引導(few-shot learning): 就是“給AI舉例子”。比如,如果你想讓它寫一段產品描述,可以先給它幾個例子:“這是一款輕便的筆記本電腦,適合商務人士。”、“這是一款高性價比的智能手機,適合學生。”然后讓它根據這些例子生成新的描述。這樣AI更容易理解你的要求。
高級技巧:
- 思維鏈(Chain-of-Thought)
- 自洽性(Self-Consistency)
簡單來說:
- 思維鏈(Chain-of-Thought): 就是“讓AI一步步思考”。比如,如果你問AI“一個商店有350個蘋果,第一天賣出40%,第二天賣出剩余的30%,還剩多少個蘋果?”,AI可能會直接給出答案。但如果你讓它“一步步思考:先算第一天賣了多少,再算第二天賣了多少,最后算剩下的”,AI會更準確地解決問題。
- 自洽性(Self-Consistency): 就是“讓AI多試幾次,選最靠譜的答案”。比如,如果你讓AI解一個數學題,它可以嘗試用不同的方法(如因式分解、求根公式)來解,然后比較結果是否一致。如果幾種方法得出的答案一樣,那這個答案就更可信。
幻覺與偏見
幻覺:生成事實錯誤內容
幻覺在心理學中指“沒有客觀刺激時的虛假知覺體驗”,如幻聽、幻視等。而在AI領域,幻覺表現為模型生成與事實不符的內容,例如虛構事件、錯誤數據或邏輯矛盾。
成因與影響
- 數據局限性:訓練數據覆蓋不足或存在噪聲,導致模型“腦補”信息。
- 生成機制缺陷:模型過度依賴概率預測,缺乏真實世界驗證機制。
- 影響:可能誤導用戶決策,降低可信度(如醫療建議中的錯誤信息)。
緩解方法
- RAG(檢索增強生成):通過外部知識庫實時檢索事實數據,約束生成內容的準確性。
- 事實核查與后處理:引入第三方驗證工具(如知識圖譜)或人工審核流程,修正錯誤輸出。
- 多模態輸入:結合圖像、文本等多源信息,減少單一模態的歧義。
偏見:訓練數據偏差導致輸出偏頗
偏見是“基于片面或不正確信息形成的偏頗態度”。AI中的偏見表現為輸出隱含性別、種族、職業等刻板印象,例如將“護士”關聯為女性、“程序員”關聯為男性。
成因與影響
- 數據偏差:訓練數據反映社會歷史偏見(如性別不平等)。
- 算法放大效應:模型可能強化數據中的少數群體負面標簽。
- 影響:加劇社會歧視,損害公平性(如招聘算法中的性別歧視)。
緩解方法
- 數據去偏:
- 重采樣與平衡:增加少數群體數據比例(如女性工程師案例)。
- 義過濾:識別并刪除含偏見的語料(如貶義詞匯)。
- RLHF(人類反饋強化學習):
通過人工標注修正偏頗輸出,引導模型學習公平表達。
公平性評估框架:
開發評估指標(如群體平等性分數),監控模型輸出的偏差程度。