看看 AI 大牛日常如何使用大模型
1、目錄
- LLMs 的演變格局
- 超越文本:擁抱多模態(tài)
- 思考模型:何時(shí)讓人工智能“思考”
- 工具使用:互聯(lián)網(wǎng)搜索和深度研究
- 深度研究:通過(guò)集成搜索和推理生成全面報(bào)告
- 文件上傳用于文檔和多媒體
- Python 解釋器:動(dòng)態(tài)代碼執(zhí)行和數(shù)據(jù)分析
- 自定義視覺(jué)和代碼工具:Claude 工件和光標(biāo)作曲器
- 音頻交互和 NotebookLM 播客生成
- 視覺(jué)模態(tài):圖像輸入/OCR、圖像輸出和視頻處理
- 個(gè)性化:記憶、自定義指令和自定義 GPTs
- 初學(xué)者的經(jīng)驗(yàn)教訓(xùn):最大化你的 LLM 體驗(yàn)
- 結(jié)束語(yǔ)
2、LLMs 的演變格局
Karpathy 首先描繪了不斷擴(kuò)展的 LLMs 生態(tài)系統(tǒng)。雖然 ChatGPT 仍然是推動(dòng)力量,但他還強(qiáng)調(diào)了 Gemini、Copilot、Claude、Grok 等新興競(jìng)爭(zhēng)對(duì)手,以及 DeepSeek 和 LeChat 等國(guó)際參與者。每個(gè)模型都提供獨(dú)特的功能、定價(jià)層次和體驗(yàn)。
“ChatGPT 是對(duì)話(huà)式人工智能的原始黑幫,但生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個(gè)多樣化的實(shí)驗(yàn)和專(zhuān)業(yè)化的游樂(lè)場(chǎng),”他解釋道。
LLMs 的演變格局
在播客的過(guò)程中,Karpathy 還提供了一些鏈接,你可以在其中比較和分析這些模型的性能:
使用這 2 個(gè)鏈接,我們可以跟蹤當(dāng)前可公開(kāi)利用的幾種模型。
3、超越文本:擁抱多模態(tài)
讓我們?cè)谙旅嬖敿?xì)探討多模態(tài)。
?文本生成
在生成文本方面,ChatGPT 等模型在創(chuàng)造性任務(wù)中表現(xiàn)出色,例如寫(xiě)詩(shī)歌、求職信、簡(jiǎn)歷甚至電子郵件回復(fù)。正如 Karpathy 所說(shuō),我們與這些模型的互動(dòng)以“聊天氣泡”的形式出現(xiàn),這些氣泡包含了你與人工智能之間的動(dòng)態(tài)對(duì)話(huà)。
文本生成
解密魔法:token 和上下文
每次你輸入查詢(xún)時(shí),模型都會(huì)將你的文本分解為更小的單元塊,稱(chēng)為 token。你可以使用 OpenAI 的 Tokenizer 或 Tiktokenizer 等工具探索此過(guò)程。這些 token 形成一個(gè)序列,通常稱(chēng)為 token 序列或上下文窗口,它充當(dāng)人工智能的工作內(nèi)存。
iktokenizer
chatgpt model
在幕后,輸入和輸出序列中還添加了額外的標(biāo)記。這些技術(shù)包括詞性標(biāo)注和命名實(shí)體識(shí)別,類(lèi)似于你在 Penn Treebank 中找到的內(nèi)容。這些標(biāo)簽有助于模型更好地理解每個(gè)詞的角色和身份。
token 化算法和特殊 token
現(xiàn)代語(yǔ)言模型通常使用字節(jié)對(duì)編碼將單詞拆分為子詞。例如,單詞 “university” 可能被分解為 “uni”、“vers” 和 “ity”。此過(guò)程確保即使是罕見(jiàn)或復(fù)雜的單詞也能以模型可處理的方式表示。
token 化算法和特殊 token
一些重要的特殊 token 包括:
- <|endoftext|>:token 序列的結(jié)束。
- <|user|> 和 <|assistant|>:區(qū)分用戶(hù)輸入和人工智能的輸出。
Karpathy 用一個(gè)圖表生動(dòng)地說(shuō)明了這一點(diǎn),顯示了一個(gè)新的聊天如何從一個(gè)空的 token 流開(kāi)始。一旦你輸入查詢(xún),模型就會(huì)接管,附加自己的 token 流。這個(gè)連續(xù)的流,稱(chēng)為上下文窗口,代表了指導(dǎo)人工智能響應(yīng)的工作內(nèi)存。
人工智能訓(xùn)練的兩大支柱:預(yù)訓(xùn)練和后訓(xùn)練
╱╲人工智能訓(xùn)練的兩大支柱
“我喜歡把模型想象成一個(gè) 1 TB 的 zip 文件,它充滿(mǎn)了來(lái)自互聯(lián)網(wǎng)的壓縮知識(shí),但是人類(lèi)在后訓(xùn)練中的觸碰賦予了它靈魂,”他解釋道。
Transformer 架構(gòu)
LLMs 的核心是 Transformer 架構(gòu)。關(guān)鍵元素包括:
- 自注意力機(jī)制:此機(jī)制允許模型衡量序列中不同 token 的重要性。它計(jì)算注意力得分,以便模型在生成響應(yīng)時(shí)可以專(zhuān)注于輸入的相關(guān)部分。
- 位置編碼:由于 Transformer 缺乏固有的順序信息,因此會(huì)向 token 添加位置編碼以保留單詞的順序。
- 前饋網(wǎng)絡(luò)和層歸一化:這些組件幫助處理注意力輸出并穩(wěn)定訓(xùn)練。
要真正理解這些模型如何生成文本,了解其訓(xùn)練的如下兩個(gè)主要階段至關(guān)重要。
預(yù)訓(xùn)練:將互聯(lián)網(wǎng)壓縮成參數(shù)
在這個(gè)階段,模型處理來(lái)自書(shū)籍、網(wǎng)站、代碼存儲(chǔ)庫(kù)和學(xué)術(shù)論文的大量數(shù)據(jù)。把它看作將世界知識(shí)壓縮到參數(shù) “zip 文件” 中:
- 數(shù)據(jù)規(guī)模和來(lái)源:GPT-4 等模型處理的 token 數(shù)量相當(dāng)于數(shù)百萬(wàn)本書(shū)或數(shù)十億個(gè)網(wǎng)頁(yè)。
- Transformer 架構(gòu):這些網(wǎng)絡(luò)通過(guò)順序處理 token 來(lái)學(xué)習(xí)單詞之間的關(guān)系。
- 參數(shù)壓縮:知識(shí)存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)參數(shù)中,充當(dāng)“有損 zip 文件”。這意味著雖然模型保留了一般知識(shí),但一些細(xì)枝末節(jié)可能會(huì)被省略。
- 概率性質(zhì):由于模型根據(jù)可能性預(yù)測(cè)下一個(gè) token ,因此有時(shí)會(huì)生成不完全準(zhǔn)確的輸出,通常稱(chēng)為幻覺(jué)。
- 成本和局限性:預(yù)訓(xùn)練非常昂貴,需要幾個(gè)月的計(jì)算時(shí)間,成本高達(dá)數(shù)千萬(wàn)美元。此過(guò)程還導(dǎo)致知識(shí)截止,這意味著模型的信息僅限于其最后一次訓(xùn)練更新。
后訓(xùn)練:專(zhuān)門(mén)用于人類(lèi)互動(dòng)
預(yù)訓(xùn)練之后,模型經(jīng)過(guò)后訓(xùn)練(或監(jiān)督微調(diào)),學(xué)習(xí)與人類(lèi)互動(dòng):
- 人類(lèi)標(biāo)記數(shù)據(jù):對(duì)話(huà)通過(guò)精選示例進(jìn)行微調(diào),其中提示與理想響應(yīng)配對(duì)。
- 角色扮演:模型學(xué)會(huì)扮演特定角色,無(wú)論是老師、助手還是客戶(hù)支持代理,使其互動(dòng)更加自然。除了記憶,用戶(hù)還可以設(shè)置自定義指令來(lái)調(diào)整人工智能的語(yǔ)氣、風(fēng)格和正式程度。此功能在需要語(yǔ)言學(xué)習(xí)或內(nèi)容創(chuàng)建的任務(wù)中特別有用,因?yàn)槁曇舻囊恢滦灾陵P(guān)重要。
- 任務(wù)專(zhuān)業(yè)化:通過(guò)針對(duì)性訓(xùn)練,在問(wèn)答、代碼生成和創(chuàng)意寫(xiě)作等領(lǐng)域提高了性能。
- 減少幻覺(jué):雖然不能完全消除,但后訓(xùn)練有助于加強(qiáng)事實(shí)準(zhǔn)確性。
Karpathy 還指出,隨著我們與這些模型的對(duì)話(huà)變得越來(lái)越長(zhǎng),重新開(kāi)始新的聊天以切換主題通常是有益的。這將重置上下文窗口,確保模型的響應(yīng)保持準(zhǔn)確和高效。
模型選擇:找到平衡點(diǎn)
選擇模型時(shí),必須在成本和性能之間進(jìn)行權(quán)衡:
- 免費(fèi)層:提供適合簡(jiǎn)單任務(wù)(如草擬電子郵件或創(chuàng)意寫(xiě)作)的基本功能。
- 付費(fèi)層:提供高級(jí)功能,包括更廣泛的知識(shí)、更快的推理和對(duì)互聯(lián)網(wǎng)搜索和代碼執(zhí)行等工具的訪(fǎng)問(wèn)。例如,調(diào)試復(fù)雜代碼的開(kāi)發(fā)人員可能會(huì)選擇 GPT-4,盡管成本較高,而總結(jié)教科書(shū)章節(jié)的學(xué)生可能會(huì)發(fā)現(xiàn)免費(fèi)模型已經(jīng)足夠好用。
模型選擇
一個(gè)有趣的個(gè)人技巧來(lái)自于實(shí)驗(yàn)多個(gè)模型。例如,當(dāng)我問(wèn) Gemini 推薦一個(gè)酷城市時(shí),我得到了 Zermatt 的答案,這是一個(gè)我覺(jué)得很有吸引力的建議。Gemini 的界面左上角有一個(gè)模型選擇器,你可以通過(guò)它升級(jí)到更高級(jí)的層次以提高性能。Grok 也是如此:我更喜歡使用 Grok 3,因?yàn)樗亲钕冗M(jìn)的版本。實(shí)際上,我經(jīng)常為多個(gè)模型付費(fèi),并向它們?cè)儐?wèn)同一個(gè)問(wèn)題,將它們視為我的個(gè)人 “LLM 委員會(huì)”。這樣,我可以比較響應(yīng)并決定哪個(gè)模型最適合我的需求,無(wú)論我是在計(jì)劃度假還是解決技術(shù)問(wèn)題。
關(guān)鍵要點(diǎn)是,為你正在處理的特定挑戰(zhàn)嘗試不同的提供商和定價(jià)層次。通過(guò)這種方式,你可以找到最適合你工作流程的模型,甚至利用多個(gè)模型獲得全面的視角。
解碼和采樣技術(shù)
在生成文本時(shí),模型并不是每次都簡(jiǎn)單地選擇可能性最高的 token 。相反,它使用各種解碼策略:
- 核采樣(Top-p 采樣):模型從累積概率達(dá)到閾值的 token 子集中進(jìn)行選擇。
- Top-k 采樣:將選擇限制為可能性最高的前 k 個(gè) token 。
- 束搜索:并行探索多個(gè)可能的 token 序列,以找到最連貫的輸出。
通過(guò)外部工具增強(qiáng)功能
現(xiàn)代 LLMs 不僅僅是生成文本,它們還可以集成外部工具以提升其功能:
- 互聯(lián)網(wǎng)搜索:獲取最新信息以克服知識(shí)截止。
“當(dāng)我閱讀《國(guó)富論》時(shí),模型通過(guò)總結(jié)章節(jié)和回答我的澄清問(wèn)題來(lái)幫助我理解其中的微妙之處。這就像有一個(gè)知識(shí)淵博的學(xué)習(xí)伙伴,”他說(shuō)。
- Python 解釋器:執(zhí)行計(jì)算、數(shù)據(jù)分析和可視化。他展示了如何使用此功能繪制公司估值隨時(shí)間變化的趨勢(shì),同時(shí)還提醒用戶(hù)驗(yàn)證人工智能生成代碼中的任何假設(shè)。
“當(dāng)一個(gè)乘法問(wèn)題變得太復(fù)雜而無(wú)法在腦海中解決時(shí),模型只需編寫(xiě)一個(gè) Python 腳本并運(yùn)行它。這就像有一個(gè)初級(jí)數(shù)據(jù)分析師在手邊,” Karpathy 解釋道。
- 文件上傳:允許處理 PDF 或電子表格等文檔,從而生成詳細(xì)的摘要和數(shù)據(jù)提取。
?圖像生成和視頻集成
Karpathy 展示了 LLMs 正在超越文本。他展示了如何通過(guò)將字幕系統(tǒng)與專(zhuān)用圖像生成模型(例如 ideogram.ai)結(jié)合,按需生成視覺(jué)效果。他指出,這種技術(shù)“縫合”了兩個(gè)獨(dú)立的模型,以便用戶(hù)體驗(yàn)保持無(wú)縫,即使底層過(guò)程是獨(dú)立的。
“圖像輸出并不是完全在模型中完成的。這是字幕和單獨(dú)的圖像生成器之間的一次美麗合作,”他說(shuō)。
此外,Karpathy 還介紹了視頻功能,其中模型可以通過(guò)攝像頭“看到”。在一個(gè)演示中,他將攝像頭對(duì)準(zhǔn)日常物品:一本書(shū)的封面、一張?jiān)敿?xì)的地圖,模型正確識(shí)別并評(píng)論了每個(gè)物品。所有這些都將在后面詳細(xì)解釋。
?語(yǔ)音和音頻功能
語(yǔ)音交互是視頻的一個(gè)重要亮點(diǎn)。Karpathy 解釋說(shuō),在移動(dòng)設(shè)備上,用戶(hù)可以通過(guò)說(shuō)話(huà)而不是打字來(lái)提問(wèn)。除了簡(jiǎn)單的轉(zhuǎn)錄之外,高級(jí)模式還允許模型以各種“角色”生成音頻響應(yīng),從 Yoda 的智慧語(yǔ)調(diào)到粗魯?shù)暮1I口音。
“不要打字,用你的聲音。這樣很快,有時(shí)甚至更有趣,當(dāng)人工智能用有個(gè)性的語(yǔ)氣回答你時(shí),” 他說(shuō)。
他進(jìn)一步區(qū)分了“假音頻”(將語(yǔ)音轉(zhuǎn)換為文本,然后再轉(zhuǎn)換回來(lái))和“真音頻”,后者直接對(duì)音頻進(jìn)行標(biāo)記。真音頻處理通過(guò)消除中間步驟,使互動(dòng)更加流暢和自然,代表了一次飛躍。所有這些都將在后面詳細(xì)解釋。
?日?;?dòng)和實(shí)際問(wèn)題解決
Karpathy 分享了幾個(gè)實(shí)際示例,從計(jì)算飲料中的咖啡因含量到交互式代碼故障排除。這些日常用例展示了無(wú)縫集成的人工智能工具如何在日常生活中提高生產(chǎn)力和決策能力。
“我曾經(jīng)問(wèn)過(guò) ChatGPT 一杯美式咖啡中含有多少咖啡因。它迅速回憶起大約 63 毫克,這是一個(gè)簡(jiǎn)單但強(qiáng)大的日常人工智能輔助示例,” 他解釋道。
?高級(jí)數(shù)據(jù)分析和可視化
除了日常任務(wù)之外,Python 解釋器的集成將人工智能變成了一名稱(chēng)職的數(shù)據(jù)分析師。無(wú)論是從財(cái)務(wù)數(shù)據(jù)生成趨勢(shì)線(xiàn),還是調(diào)試復(fù)雜代碼,這些功能為專(zhuān)業(yè)人士和愛(ài)好者提供了巨大的價(jià)值。
“想象一下,有一個(gè)初級(jí)數(shù)據(jù)分析師不僅為你編寫(xiě)代碼,還實(shí)時(shí)可視化數(shù)據(jù)趨勢(shì)。這就是集成工具使用的力量,” Karpathy 斷言。
4、思考模型:何時(shí)讓人工智能“思考”
現(xiàn)代 LLMs 中最令人著迷的進(jìn)步之一是“思考模型”的出現(xiàn)。這些模型旨在通過(guò)有效地“大聲思考”來(lái)解決復(fù)雜問(wèn)題,就像人類(lèi)在解決難題時(shí)一樣。
?訓(xùn)練之旅:從預(yù)訓(xùn)練到強(qiáng)化學(xué)習(xí)
Karpathy 解釋說(shuō),LLMs 的開(kāi)發(fā)包括多個(gè)階段:
- 預(yù)訓(xùn)練:模型從互聯(lián)網(wǎng)上吸收大量數(shù)據(jù),學(xué)習(xí)預(yù)測(cè)序列中的下一個(gè) token 。
- 監(jiān)督微調(diào):人類(lèi)策劃的對(duì)話(huà)幫助塑造模型的響應(yīng),使其更具互動(dòng)性和友好性。
- 強(qiáng)化學(xué)習(xí)(RL):這就是事情變得有迷的地方。模型在一大堆問(wèn)題上進(jìn)行練習(xí),這些問(wèn)題從數(shù)學(xué)難題到編碼挑戰(zhàn),類(lèi)似于教科書(shū)練習(xí)。通過(guò)這種練習(xí),它開(kāi)始發(fā)現(xiàn)有效的“思考策略”。這些策略模仿內(nèi)心獨(dú)白,模型在其中探索不同的想法,回溯并重新審視其假設(shè),以得出解決方案。
?發(fā)現(xiàn)“思考”過(guò)程
強(qiáng)化學(xué)習(xí)階段相對(duì)較新,僅在過(guò)去幾年中出現(xiàn),被視為一次突破。這是模型學(xué)習(xí)在給出答案之前“思考”的階段。與其急于得出最終 token ,思考模型可能會(huì)生成一系列內(nèi)部推理步驟,指導(dǎo)其得出更準(zhǔn)確的解決方案。
DeepSeek 是第一個(gè)公開(kāi)討論這一概念的公司,他們發(fā)表了一篇關(guān)于通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì) LLMs 推理能力的論文,我們?cè)谥暗囊曨l中探討過(guò)這篇論文。這一強(qiáng)化學(xué)習(xí)的突破使模型能夠優(yōu)化其內(nèi)部推理,這是人類(lèi)標(biāo)注者以前難以通過(guò)硬編碼實(shí)現(xiàn)的過(guò)程。
具體示例
以下是我個(gè)人經(jīng)歷的一個(gè)具體示例:
他曾經(jīng)在優(yōu)化多層感知器的梯度檢查失敗的編碼問(wèn)題上遇到困難。他復(fù)制并粘貼代碼,然后尋求建議。起初,GPT-4.0(OpenAI 的旗艦最強(qiáng)大的模型)在沒(méi)有思考的情況下做出了回應(yīng)。它列出了幾個(gè)潛在的問(wèn)題和調(diào)試技巧,但沒(méi)有一個(gè)建議能夠準(zhǔn)確指出核心問(wèn)題。模型只是提供了一般性建議,而不是解決問(wèn)題。
然后,他切換到 OpenAI 的一個(gè)思考模型,該模型可以通過(guò)下拉菜單獲得,包括 O1、O3 Mini、O3 Mini High 和 O1 Pro(后者是高級(jí)訂閱用戶(hù)的最高級(jí)版本)。OpenAI 的思考模型通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行了調(diào)整。當(dāng)他問(wèn)同一個(gè)問(wèn)題時(shí),思考模型花了一些時(shí)間,發(fā)出了一系列詳細(xì)的內(nèi)部推理步驟(其“思考過(guò)程”的總結(jié))。大約一分鐘后,它確定問(wèn)題是由于參數(shù)不匹配引起的。這種額外的思考使其能夠準(zhǔn)確解決問(wèn)題。這個(gè)模型花了一分鐘生成了一個(gè)詳細(xì)的內(nèi)部思維鏈,最終確定我在打包和解包過(guò)程中參數(shù)不匹配。結(jié)果?在經(jīng)過(guò)一系列反思步驟之后,得出了一個(gè)正確的解決方案。
?LLM 委員會(huì)
他不依賴(lài)單一模型。他經(jīng)常向多個(gè)模型詢(xún)問(wèn)同一個(gè)問(wèn)題,將它們視為他的個(gè)人 “LLM 委員會(huì)”。例如,雖然一個(gè)模型可能會(huì)以標(biāo)準(zhǔn)響應(yīng)迅速解決問(wèn)題,但另一個(gè)更高級(jí)的思考模型可能會(huì)花費(fèi)幾分鐘,但會(huì)提供一個(gè)高度準(zhǔn)確且經(jīng)過(guò)深思熟慮的答案。這種方法在解決復(fù)雜的數(shù)學(xué)問(wèn)題或復(fù)雜的代碼調(diào)試時(shí)特別有用。
我還嘗試了其他模型:
- Claude:當(dāng)我向 Claude 提供相同的提示時(shí),它正確識(shí)別并解決了問(wèn)題,盡管其方法與其他模型不同。
- Gemini:Gemini 也提供了正確的答案,有時(shí)甚至不需要任何額外的“思考”時(shí)間。
- Grok 3:Grok 3 在經(jīng)過(guò)一段時(shí)間的內(nèi)部“思考”之后,也提供了一個(gè)堅(jiān)實(shí)的解決方案。
- Perplexity.ai (DeepSeek R1):該模型甚至?xí)@示其內(nèi)部推理的片段(原始思想),如果你展開(kāi)它們,可以了解其解決問(wèn)題的過(guò)程。
Perplexity 的思考過(guò)程
對(duì)于日常查詢(xún)(例如旅行建議),非思考模型可能因其速度而更受歡迎。然而,對(duì)于深入的技術(shù)或關(guān)鍵任務(wù),切換到思考模型可以顯著提高準(zhǔn)確性和性能。
?何時(shí)使用思考模型
思考模型在以下任務(wù)中最為有益:
- 復(fù)雜的數(shù)學(xué)問(wèn)題:當(dāng)簡(jiǎn)單的算術(shù)不夠用時(shí)。
- 復(fù)雜的代碼調(diào)試:對(duì)于可能隱藏在邏輯層中的微妙問(wèn)題。
- 深度推理任務(wù):需要一系列思考過(guò)程才能得出正確答案的問(wèn)題。
對(duì)于日常查詢(xún),例如旅行建議或快速事實(shí)核查,標(biāo)準(zhǔn)的非思考模型可能因其更快的響應(yīng)時(shí)間而更受歡迎。然而,如果準(zhǔn)確性至關(guān)重要且問(wèn)題本質(zhì)上復(fù)雜,切換到思考模型是值得的。
5、工具使用:互聯(lián)網(wǎng)搜索和深度研究
現(xiàn)代 LLMs 通過(guò)與外部工具集成,克服了靜態(tài)知識(shí)的局限性:
?互聯(lián)網(wǎng)搜索:訪(fǎng)問(wèn)實(shí)時(shí)信息
到目前為止,我們與 LLMs 的互動(dòng)僅限于文本,即預(yù)訓(xùn)練數(shù)據(jù)的 “zip 文件”,它提供了 token 。然而,現(xiàn)實(shí)世界的應(yīng)用要求這些模型訪(fǎng)問(wèn)新鮮、最新的信息。這就是互聯(lián)網(wǎng)搜索的用武之地。
雖然傳統(tǒng)的 LLM 互動(dòng)僅依賴(lài)預(yù)訓(xùn)練知識(shí),即靜態(tài)數(shù)據(jù)的 “zip 文件”,但互聯(lián)網(wǎng)搜索的集成將這些模型轉(zhuǎn)變?yōu)閯?dòng)態(tài)信息中心。模型不再需要手動(dòng)篩選搜索結(jié)果并躲避分散注意力的廣告,而是可以主動(dòng)檢索最新信息,將其集成到其工作內(nèi)存中,并準(zhǔn)確回答你的查詢(xún)。
?工作原理
- 觸發(fā)搜索:當(dāng)模型識(shí)別到你的查詢(xún)涉及最新或不斷發(fā)展的信息時(shí),它會(huì)發(fā)出一個(gè)特殊的搜索 token 。這會(huì)指示應(yīng)用程序暫停常規(guī) token 生成并啟動(dòng)網(wǎng)絡(luò)搜索。
- 執(zhí)行搜索:模型生成的查詢(xún)用于搜索互聯(lián)網(wǎng)。系統(tǒng)訪(fǎng)問(wèn)多個(gè)網(wǎng)頁(yè),提取相關(guān)文本,并編譯信息。
- 集成結(jié)果:檢索到的內(nèi)容隨后被注入到模型的上下文窗口和工作內(nèi)存中,以便人工智能可以提供一個(gè)豐富了最新數(shù)據(jù)和適當(dāng)引用的答案。
token
例如,如果你問(wèn)“《白蓮花》第 3 季的新劇集什么時(shí)候播出?”模型會(huì)發(fā)現(xiàn)這些信息不在其預(yù)訓(xùn)練數(shù)據(jù)中。然后,它會(huì)搜索網(wǎng)絡(luò),將結(jié)果文章加載到上下文中,并為你提供最新的時(shí)間表以及驗(yàn)證鏈接。
?特定于模型的行為
不同的模型具有不同程度的互聯(lián)網(wǎng)搜索集成:
- Claude:截至我最后一次更新(2024 年 4 月),Claude 不支持集成網(wǎng)絡(luò)搜索。它僅依賴(lài)其知識(shí)截止到那時(shí),因此它會(huì)直接說(shuō)不知道。
- Gemini:例如,Gemini 2.0 Pro Experimental 可能沒(méi)有完全訪(fǎng)問(wèn)實(shí)時(shí)信息,而 Gemini 2.0 Flash 顯示的來(lái)源和相關(guān)內(nèi)容表明其具有內(nèi)置搜索工具。
- ChatGPT:在某些情況下,ChatGPT 會(huì)自動(dòng)檢測(cè)到需要搜索;在其他情況下,你可能需要顯式選擇“搜索網(wǎng)絡(luò)”選項(xiàng)。
- Perplexity.ai:以其強(qiáng)大的搜索集成而聞名,Perplexity 通常會(huì)檢索并顯示實(shí)時(shí)數(shù)據(jù)以及引用,使其成為類(lèi)似于 Google 搜索的查詢(xún)的熱門(mén)選擇。
?現(xiàn)實(shí)世界的用例
我經(jīng)常使用互聯(lián)網(wǎng)搜索工具進(jìn)行各種查詢(xún):
- 當(dāng)前事件和趨勢(shì):例如,檢查總統(tǒng)日市場(chǎng)是否開(kāi)放 Perplexity 迅速確認(rèn)其已關(guān)閉。
- 小眾信息:例如,“《白蓮花》第 3 季在哪里拍攝?”或 “Vercel 是否提供 PostgreSQL?”這些問(wèn)題可以從最新的在線(xiàn)數(shù)據(jù)中受益。
- 動(dòng)態(tài)更新:關(guān)于蘋(píng)果發(fā)布、股票波動(dòng)(例如,“為什么 Palantir 的股票在上漲?”)或甚至具體問(wèn)題(例如,“Brian Johnson 使用哪種牙膏?”)的詢(xún)問(wèn)都非常適合搜索工具,因?yàn)檫@些細(xì)節(jié)可能會(huì)隨著時(shí)間的推移而發(fā)生變化。
- 熱門(mén)話(huà)題:當(dāng)我在 Twitter 上看到關(guān)于 USAID 或最新旅行建議的嗡嗡聲時(shí),快速搜索可以為我提供當(dāng)前上下文的摘要,而無(wú)需手動(dòng)單擊多個(gè)鏈接。
?實(shí)用技巧
- 明確:有時(shí),直接提示模型“搜索網(wǎng)絡(luò)……”以確保其檢索實(shí)時(shí)數(shù)據(jù)是有幫助的。
- 交叉驗(yàn)證:始終檢查提供的引用以確認(rèn)信息的準(zhǔn)確性。
- 模型選擇:并非每個(gè)模型都配備了互聯(lián)網(wǎng)搜索。根據(jù)你的需求,選擇支持實(shí)時(shí)數(shù)據(jù)的模型(例如,帶搜索選項(xiàng)的 ChatGPT 或 Perplexity.ai),或者準(zhǔn)備好在模型之間切換以獲得全面的答案。
6、深度研究:通過(guò)集成搜索和推理生成全面報(bào)告
深度研究使 LLMs 能夠超越表面答案,通過(guò)將廣泛的互聯(lián)網(wǎng)搜索與高級(jí)推理相結(jié)合,生成全面的報(bào)告。此過(guò)程允許模型從各種來(lái)源收集、處理和綜合信息,幾乎就像為任何主題生成自定義研究論文一樣。
?工作原理
當(dāng)你激活深度研究(通常是高級(jí)訂閱功能,例如每月 200 美元)時(shí),模型會(huì)開(kāi)始一個(gè)擴(kuò)展的過(guò)程:
- 啟動(dòng):你提供一個(gè)詳細(xì)的提示。例如,考慮以下提示:“CAAKG 是 Brian Johnson 的長(zhǎng)壽配方中每份 2.5 克的健康活性成分之一。你能研究一下 CAAKG 嗎?告訴我它為什么可能在長(zhǎng)壽混合物中找到,其在人類(lèi)或動(dòng)物模型中的可能效力,其潛在的作用機(jī)制以及任何安全性或毒性問(wèn)題?!?/li>
- 澄清問(wèn)題:在深入研究之前,模型可能會(huì)詢(xún)問(wèn)澄清問(wèn)題,例如是否要專(zhuān)注于人類(lèi)臨床研究、動(dòng)物模型或兩者兼而有之,以細(xì)化其搜索策略。
- 多源查詢(xún):然后,模型會(huì)發(fā)出多個(gè)互聯(lián)網(wǎng)搜索查詢(xún)。它掃描學(xué)術(shù)論文、臨床研究和可信網(wǎng)頁(yè),積累來(lái)自多個(gè)來(lái)源的文本。這些文檔隨后被插入到其上下文窗口中,這是一個(gè)巨大的工作內(nèi)存,可以容納數(shù)千個(gè) token 。
- 綜合:一旦研究階段完成(對(duì)于復(fù)雜查詢(xún),可能需要約 10 分鐘),模型會(huì)將收集到的數(shù)據(jù)綜合成一個(gè)連貫的報(bào)告。它生成詳細(xì)的摘要,包括引用以供驗(yàn)證,甚至突出顯示關(guān)鍵點(diǎn),例如在各種模型(蠕蟲(chóng)、果蠅、小鼠和正在進(jìn)行的人類(lèi)試驗(yàn))中提出的建議作用機(jī)制、效力研究以及潛在的安全問(wèn)題。
llm token
?技術(shù)方面
- 迭代搜索:深度研究利用迭代互聯(lián)網(wǎng)搜索和內(nèi)部“思考”步驟。模型使用強(qiáng)化學(xué)習(xí)策略來(lái)決定哪些來(lái)源最相關(guān)以及如何將它們編織成一個(gè)結(jié)構(gòu)化的響應(yīng)。
- 上下文積累:隨著模型檢索信息,每個(gè)文檔的內(nèi)容都會(huì)添加到上下文窗口中。這個(gè)龐大的 token 存儲(chǔ)庫(kù)允許模型同時(shí)引用多個(gè)來(lái)源。
- 引用集成:最終報(bào)告附帶引用,使你可以驗(yàn)證每個(gè)信息片段。這在模型的輸出是概率性的并且有時(shí)可能包含幻覺(jué)或不準(zhǔn)確之處時(shí)尤為重要。
- 鏈?zhǔn)剿伎继幚恚涸谡麄€(gè)過(guò)程中,模型可能會(huì)揭示其內(nèi)部推理的片段(如果你展開(kāi)它們),說(shuō)明它如何將不同的數(shù)據(jù)片段連接起來(lái)得出結(jié)論。
?實(shí)踐中的示例
- 補(bǔ)充研究:在上述關(guān)于 CAAKG 的提示示例中,模型處理了數(shù)十篇研究論文、臨床研究和綜述文章。然后,它生成了一份詳細(xì)報(bào)告,概述:
a.CAAKG 為什么可能包含在長(zhǎng)壽混合物中。
b.其在人類(lèi)和動(dòng)物模型中的效力。
c.建議的作用機(jī)制。
d.任何潛在的安全性或毒性問(wèn)題。
深度搜索
- 行業(yè)比較:他還使用深度研究來(lái)比較產(chǎn)品,例如研究小鼠的壽命延長(zhǎng)。模型提供了一個(gè)廣泛的概述,討論了各種長(zhǎng)壽實(shí)驗(yàn),同時(shí)編譯了來(lái)自多個(gè)來(lái)源的數(shù)據(jù)。
- LLM 實(shí)驗(yàn)室分析:在另一個(gè)用例中,他要求一個(gè)表格,比較美國(guó)的 LLM 實(shí)驗(yàn)室,包括資金水平和公司規(guī)模。雖然生成的表格有一些遺漏(例如 XAI)和意外的包含(例如 Hugging Face),但它仍然為進(jìn)一步調(diào)查提供了一個(gè)有價(jià)值的起點(diǎn)。
?實(shí)用考慮
- 初稿,而非最終稿:始終將深度研究輸出視為初稿。使用提供的引用作為進(jìn)一步閱讀和后續(xù)問(wèn)題的指南。
- 不同的深度:不同平臺(tái)提供的深度研究深度不同。例如,我的經(jīng)驗(yàn)表明,Chachapiti 的提供目前是最全面的,而 Perplexity.ai 和 Grok 提供的摘要較短。
- 延長(zhǎng)的處理時(shí)間:準(zhǔn)備好長(zhǎng)時(shí)間的處理時(shí)間(有時(shí)超過(guò) 10 分鐘),因?yàn)槟P褪占途C合大量數(shù)據(jù)。
7、文件上傳用于文檔和多媒體
文件上傳使 LLMs 能夠通過(guò)將外部文檔和多媒體文件直接集成到其工作內(nèi)存中來(lái)擴(kuò)展其上下文。例如,如果你對(duì)藝術(shù)學(xué)院最近發(fā)表的關(guān)于在 DNA 上訓(xùn)練的語(yǔ)言模型的論文感到好奇,你可以簡(jiǎn)單地將 PDF(甚至大小為 30 MB 的 PDF)拖放到模型的界面中。通常,模型會(huì)將文檔轉(zhuǎn)換為文本 token ,通常會(huì)丟棄非文本元素(如圖像)。一旦在 token 窗口中,你可以請(qǐng)求摘要、提出詳細(xì)問(wèn)題或深入探討文檔的特定部分。這使得你可以與人工智能一起“閱讀”論文,并以互動(dòng)方式探索其內(nèi)容。
“上傳文檔就像將你的個(gè)人圖書(shū)館交給人工智能。然后,它可以篩選信息并幫助你理解所需的細(xì)節(jié),這正是你在處理復(fù)雜研究論文時(shí)所需要的,” Karpathy 在演講中說(shuō)。
文件上傳用于文檔和多媒體
?現(xiàn)實(shí)世界的示例和用例
考慮一個(gè)場(chǎng)景,你正在審查基因組序列分析的突破性研究。通過(guò)直接將 PDF 上傳到系統(tǒng),你可以問(wèn)模型“你能總結(jié)這項(xiàng)研究中使用的方法嗎?”模型會(huì)將論文轉(zhuǎn)換為 token ,處理關(guān)鍵部分,并為你提供一個(gè)連貫的摘要,附帶引用。這種方法不僅限于學(xué)術(shù)論文;它還適用于產(chǎn)品手冊(cè)、法律文件甚至長(zhǎng)篇報(bào)告,例如血液測(cè)試結(jié)果。
例如,我最近上傳了我的 20 頁(yè)血液測(cè)試報(bào)告。模型轉(zhuǎn)錄了結(jié)果,使我能夠問(wèn)“這些膽固醇水平對(duì)我的健康意味著什么?”這種兩步過(guò)程,首先驗(yàn)證轉(zhuǎn)錄準(zhǔn)確性,然后提出詳細(xì)問(wèn)題,確保了所獲得的見(jiàn)解盡可能可靠。
8、Python 解釋器:動(dòng)態(tài)代碼執(zhí)行和數(shù)據(jù)分析
現(xiàn)代 LLMs 現(xiàn)在集成了 Python 解釋器,將它們轉(zhuǎn)變?yōu)閯?dòng)態(tài)、互動(dòng)式編碼助手。此功能使模型能夠生成、執(zhí)行甚至調(diào)試 Python 代碼,實(shí)時(shí)進(jìn)行,就在你的對(duì)話(huà)中。
“Python 解釋器集成是一個(gè)改變游戲規(guī)則的功能。你不再需要在聊天窗口和 IDE 之間切換,你可以在一個(gè)無(wú)縫體驗(yàn)中獲得代碼、其輸出甚至是可視化圖表,” Karpathy 在演示中解釋道。
?實(shí)踐中的工作原理
當(dāng)你遇到復(fù)雜問(wèn)題,例如調(diào)試多層感知器的梯度檢查失敗時(shí),模型可以自動(dòng)生成 Python 代碼來(lái)診斷問(wèn)題。例如,你可能會(huì)問(wèn)“你能幫我調(diào)試這個(gè)梯度檢查失敗嗎?”模型生成模擬錯(cuò)誤場(chǎng)景的代碼,執(zhí)行它,然后在聊天中直接返回詳細(xì)輸出,例如錯(cuò)誤消息和變量狀態(tài)。
在另一個(gè)案例中,我需要繪制 2023 年的銷(xiāo)售趨勢(shì)圖。我只需請(qǐng)求“生成 2023 年銷(xiāo)售數(shù)據(jù)的圖表,”模型編寫(xiě)并執(zhí)行必要的 Python 腳本。生成的圖表隨即顯示,帶有注釋和趨勢(shì),節(jié)省了我手動(dòng)編碼的麻煩。
Python 解釋器
?擴(kuò)展用例
- 數(shù)據(jù)可視化:除了基本圖表之外,解釋器還可以生成復(fù)雜的可視化效果,例如熱圖、散點(diǎn)圖或時(shí)間序列圖。這在快速數(shù)據(jù)分析中特別有用,而無(wú)需離開(kāi)聊天界面。
- 算法測(cè)試:如果你正在嘗試機(jī)器學(xué)習(xí)模型,你可以讓解釋器運(yùn)行模擬并甚至比較不同模型的性能。
- 調(diào)試輔助:在處理復(fù)雜代碼錯(cuò)誤時(shí),模型的逐步執(zhí)行有助于找出在大型代碼庫(kù)中可能難以發(fā)現(xiàn)的問(wèn)題。
9、自定義視覺(jué)和代碼工具:Claude 工件和光標(biāo)作曲器
現(xiàn)代 LLMs 已經(jīng)不僅僅是文本生成器,它們還是創(chuàng)意工作室。使用 Claude 工件,你可以構(gòu)建自定義小應(yīng)用程序或生成交互式圖表。例如,想象一下,你需要一個(gè)項(xiàng)目的流程圖。通過(guò)幾個(gè)明確的提示,Claude 工件可以生成一個(gè)圖表,將你的想法以視覺(jué)方式組織起來(lái)。正如 Karpathy 所指出的那樣,“Claude 工件不僅僅提供純文本,它還提供交互式視覺(jué)效果,使你的概念栩栩如生。”
adam smith 閃卡
此外,Cursor: Composer 作為你的實(shí)時(shí)編碼助手。無(wú)論你是在編寫(xiě)新代碼還是調(diào)試錯(cuò)誤,Cursor: Composer 都可以生成、編輯甚至可視化代碼片段。例如,當(dāng)我在原型設(shè)計(jì)一個(gè)新的 Web 應(yīng)用程序時(shí),我只需輸入“生成一個(gè)響應(yīng)式布局在 React,” 該工具不僅生成了代碼,還突出顯示了不同組件的交互方式。這種無(wú)縫集成加快了開(kāi)發(fā)速度,同時(shí)幫助你逐步了解底層邏輯。
Cursor Composer
10、音頻交互和 NotebookLM 播客生成
現(xiàn)代 LLMs 中的音頻功能顯著增強(qiáng)了用戶(hù)互動(dòng)。使用標(biāo)準(zhǔn)的 音頻輸入/輸出,你可以通過(guò)說(shuō)話(huà)而不是打字來(lái)提問(wèn)。例如,你可能會(huì)問(wèn)“天為什么是藍(lán)色的?”并獲得文本和音頻響應(yīng)。Karpathy 指出,“語(yǔ)音輸入讓你感覺(jué)像是在與朋友交談,而模型則專(zhuān)心聽(tīng)著?!?/p>
高級(jí)語(yǔ)音模式 更進(jìn)一步,通過(guò)直接對(duì)音頻進(jìn)行標(biāo)記來(lái)處理音頻。與其先將語(yǔ)音轉(zhuǎn)換為文本,再轉(zhuǎn)換回來(lái),模型通過(guò)頻譜直接對(duì)音頻進(jìn)行標(biāo)記。這意味著它可以捕捉語(yǔ)調(diào)和語(yǔ)氣中的微妙之處。想象一下,你問(wèn)“用 Yoda 的聲音講個(gè)笑話(huà),”然后聽(tīng)到“智慧的見(jiàn)解我將分享,嗯嗯,有趣,它是?!?/p>
補(bǔ)充這些功能的是 NotebookLM,它通過(guò)上傳的文檔生成自定義播客。例如,上傳一篇關(guān)于基因組分析的 30 MB 研究論文后,你可能會(huì)問(wèn)“你能生成一個(gè)總結(jié)這篇論文關(guān)鍵點(diǎn)的播客嗎?”幾分鐘內(nèi),NotebookLM 綜合內(nèi)容并生成一個(gè) 30 分鐘的音頻摘要,你可以在通勤時(shí)收聽(tīng)。
音頻交互和 NotebookLM 播客生成
11、視覺(jué)模態(tài):圖像輸入/OCR、圖像輸出和視頻處理
圖像輸入與 OCR 允許你將照片和屏幕截圖轉(zhuǎn)換為可搜索的文本。例如,當(dāng)我上傳了一種健康補(bǔ)充劑的營(yíng)養(yǎng)標(biāo)簽時(shí),我問(wèn)“關(guān)鍵成分是什么,為什么包含它們?”模型成功提取了文本,并解釋了每個(gè)組成部分,包括安全等級(jí)。
上下文窗口
圖像輸出
圖像輸出工具,例如 DALL-E 和 Ideogram,允許你生成自定義視覺(jué)效果。你可以提示模型,例如“生成一幅以賽博朋克風(fēng)格描繪今日頭條的藝術(shù)作品,”然后觀看人工智能創(chuàng)建一個(gè)圖像,以視覺(jué)方式概括新聞。Karpathy 指出,“看到今日頭條的標(biāo)題變成一幅令人驚嘆的藝術(shù)作品是多么有趣。”
視頻輸入 進(jìn)一步推動(dòng)了視覺(jué)處理。使用你的攝像頭,你可以進(jìn)行指點(diǎn)交談。例如,如果你將手機(jī)對(duì)準(zhǔn)一本書(shū)的封面,你可能會(huì)問(wèn)“這本書(shū)的標(biāo)題是什么?”模型會(huì)分析視覺(jué)快照并提供準(zhǔn)確答案。同時(shí),視頻輸出 系統(tǒng),例如 Sora 或 Veo 2,可以將文本描述轉(zhuǎn)換為動(dòng)態(tài)視頻剪輯,從而生成引人入勝的視頻摘要或教程。
12、個(gè)性化:記憶、自定義指令和自定義 GPTs
個(gè)性化是使與 LLMs 的互動(dòng)真正屬于你的關(guān)鍵。這些功能確保人工智能不僅響應(yīng)你的查詢(xún),還適應(yīng)你獨(dú)特的風(fēng)格和反復(fù)的需求。
?記憶:跨對(duì)話(huà)保留上下文
LLMs 可以在記憶庫(kù)中存儲(chǔ)來(lái)自過(guò)去互動(dòng)的關(guān)鍵細(xì)節(jié),并將其附加到未來(lái)的上下文窗口中。這意味著隨著時(shí)間的推移,模型會(huì)了解你的偏好和習(xí)慣。例如,如果你提到你喜歡的電影類(lèi)型或特定的研究興趣,未來(lái)的對(duì)話(huà)將自動(dòng)反映這些知識(shí)?!斑@就像模型逐漸了解你,形成一個(gè)個(gè)性化的對(duì)話(huà),隨著互動(dòng)的增加而不斷發(fā)展,” Karpathy 觀察到。
?自定義指令:塑造人工智能行為
自定義指令允許你定義希望模型如何響應(yīng)的確切方式。你可以指定語(yǔ)氣、冗長(zhǎng)度甚至特定任務(wù)的規(guī)則。無(wú)論你需要模型以簡(jiǎn)單的術(shù)語(yǔ)解釋復(fù)雜主題,還是在翻譯中采用特定風(fēng)格,這些指令都會(huì)注入到每次對(duì)話(huà)中,確保一致性和個(gè)性化體驗(yàn)。
自定義指令
?自定義 GPTs:構(gòu)建特定任務(wù)的模型
自定義 GPTs 允許你為重復(fù)任務(wù)創(chuàng)建專(zhuān)門(mén)版本的模型。想象一下,擁有一個(gè)專(zhuān)門(mén)的助手來(lái)學(xué)習(xí)語(yǔ)言,它可以提取詞匯并創(chuàng)建閃卡,或者一個(gè)編碼助手,它可以始終生成準(zhǔn)確的代碼片段。通過(guò)提供幾個(gè)示例,你可以通過(guò)少量提示構(gòu)建一個(gè)自定義模型,節(jié)省時(shí)間并提供更精確的結(jié)果。“自定義 GPTs 就像擁有一個(gè)個(gè)性化的、特定任務(wù)的助手,它完全符合你的需求,” Karpathy 解釋道。
示例
ocr 結(jié)果
13、初學(xué)者的經(jīng)驗(yàn)教訓(xùn):最大化你的 LLM 體驗(yàn)
對(duì)于那些剛剛起步的人,Karpathy 的見(jiàn)解為充分發(fā)揮 LLMs 潛力提供了明確的路徑:
- 理解 token 化:了解你的輸入如何分解為 token ,因?yàn)檫@是模型處理的基本構(gòu)建塊。
- 保持簡(jiǎn)潔:通過(guò)在切換主題時(shí)重新開(kāi)始來(lái)管理你的上下文窗口;擁擠的上下文會(huì)削弱響應(yīng)的效果。
- 實(shí)驗(yàn)不同的模型:使用免費(fèi)層進(jìn)行簡(jiǎn)單任務(wù),并在需要更高準(zhǔn)確性或額外功能時(shí)考慮升級(jí)到高級(jí)模型。
- 利用外部工具:不要猶豫集成互聯(lián)網(wǎng)搜索、文件上傳甚至 Python 解釋器以擴(kuò)展模型的功能。
- 保持更新:關(guān)注提供商更新,加入社區(qū)論壇,并嘗試測(cè)試版功能,以跟上不斷發(fā)展的生態(tài)系統(tǒng)。
14、結(jié)束語(yǔ)
Andrey Karpathy 的視頻帶我們深入了解了 LLMs 的內(nèi)部工作原理,從 token 化和基于 Transformer 的架構(gòu)的細(xì)微差別,到通過(guò)工具集成和多模態(tài)互動(dòng)解鎖的廣泛功能。這些模型將大量知識(shí)壓縮到數(shù)十億甚至數(shù)萬(wàn)億個(gè)參數(shù)中,使用復(fù)雜的訓(xùn)練技術(shù)來(lái)預(yù)測(cè)下一個(gè) token 并生成類(lèi)似人類(lèi)的響應(yīng)。通過(guò)結(jié)合預(yù)訓(xùn)練與針對(duì)性的后訓(xùn)練,并集成外部工具(如互聯(lián)網(wǎng)搜索和 Python 解釋器),現(xiàn)代 LLMs 正在演變成多才多藝、智能的合作伙伴,能夠在日常生活中提供信息和靈感。
正如 Karpathy 簡(jiǎn)明扼要地總結(jié)的那樣:
“從壓縮的 token 到交互式聊天氣泡,LLMs 的內(nèi)部工作原理是優(yōu)雅的數(shù)學(xué)原理和大規(guī)模數(shù)據(jù)壓縮的結(jié)合。每一次新進(jìn)展都使我們更接近一個(gè)人工智能成為日常生活中不可或缺的一部分的未來(lái)。”
這個(gè)全面的生態(tài)系統(tǒng),從個(gè)性化功能到高級(jí)研究和多模態(tài)集成,為每個(gè)人提供了一個(gè)強(qiáng)大的平臺(tái),無(wú)論是初學(xué)者還是專(zhuān)家。
llm token
? ?
