成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

17000 字 Claude 系統提示啟示:Karpathy 揭秘 LLM 學習缺失“第三范式”

人工智能 新聞
Andrej Karpathy提出一個觀點:我們當前的LLM學習范式中,至少缺失了一個重要環節。

來自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系統提示詞引發的思考。

圖片

Andrej Karpathy提出一個觀點:我們當前的LLM學習范式中,至少缺失了一個重要環節。他將其暫稱為“系統提示詞學習”(System Prompt Learning)

他認為:

預訓練(Pretraining) 是為了讓LLM掌握海量知識

微調(SL/RL) 則是為了塑造其習慣性行為

這兩者都涉及模型參數的改變。但Karpathy指出,很多人類學習更像是“系統提示詞”的調整:遇到問題、想出辦法,然后用明確的語言“記住”下次如何應對。比如,“當遇到這類問題時,我應該嘗試那種方法。” 這更像給自己寫備忘錄,是全局性的問題解決策略,而非針對特定用戶的零散記憶。Karpathy打了個比方:LLM目前就像《記憶碎片》里的主角,我們還沒給它配備“便簽本”或“草稿紙”。

這種新范式如果能實現,將非常強大且數據高效。因為一個由知識引導的“復盤”階段,其反饋維度遠高于簡單的獎勵標量。

Claude的“天書”級系統提示詞

Karpathy的這番思考,部分源于對Claude系統提示詞的觀察。最近,Claude的系統提示詞被一位用戶“套”了出來,內容之詳盡令人咋舌:

長度驚人:約17000詞,110kb大小。相比之下,OpenAI o4-mini的系統提示詞僅約2200詞(15.1kb),只有Claude的13%左右

Claude的系統提示詞地址:

https://github.com/asgeirtj/system_prompts_leaks/blob/main/claude.txt

圖片

這份龐大的提示詞里都有些什么呢?

1.工具定義 (Tool Definitions):這是最大頭,信息主要來自MCP服務器。MCP服務器不僅提供API,還詳細說明了LLM何時及如何使用這些工具。提示詞中列出了14種不同工具。例如,一個簡單的網頁搜索工具定義可能只有幾行,但像Google Drive搜索工具的描述就超過1700詞。

2.工具使用指南:除了MCP提供的工具定義,還有大量關于如何及何時使用這些工具的指令,散布在“引用說明”、“工件說明”、“搜索說明”和“Google集成注意事項”等部分。比如,反復提醒Claude不要對其已知信息使用搜索工具(可見這是個頑固問題)。

值得注意的是,Karpathy認為這種內外分離是合理的“關注點分離”:MCP包含通用工具信息,適用于任何程序;而非MCP部分則針對聊天機器人應用的特定需求。這是標準程序設計思路在提示詞工程上的應用。

總計,近80%的提示詞內容都與工具的使用和定義相關。

3.“熱修復”與行為規范 (Claude Behavior & Hotfixes):這部分更像是我們傳統理解中的系統提示,規定了Claude的行為方式、回應風格和禁忌。其中不乏針對LLM常見“陷阱”的“補丁”:

計數問題:“如果Claude被要求計算單詞、字母和字符數,它會先分步思考,明確地給每個計數對象編號,完成計數后再回答。”——這顯然是為了解決類似“strawberry里有幾個r”這類LLM常見難題

經典謎題:“如果Claude遇到經典謎題,它會先逐字引用所有約束條件,確認不是變體?!薄乐筁LM被稍作修改的經典邏輯題繞進去

知識更新:“特朗普是現任美國總統,于2025年1月20日就職?!薄b于Claude知識截止日期是2024年10月,這條信息顯然是硬編碼的

詩歌創作:Karpathy最喜歡的一條:“如果被要求寫詩,Claude會避免使用陳詞濫調的意象、隱喻或可預測的押韻?!?/span>

從人工“補丁”到系統自主學習

Claude這份巨細的系統提示詞,恰恰印證了Karpathy的觀點:目前大量的問題解決策略,是工程師們手動寫入系統提示的。 而Karpathy認為,這些本不應完全依賴人工,也不應立即或完全通過強化學習(RL)融入模型權重

理想情況下,這些策略應通過“系統提示詞學習”產生。這種學習過程類似于RL的設置,但學習算法不同(編輯提示詞 vs. 梯度下降)。LLM的系統提示詞中,有相當一部分可以通過這種方式“自我撰寫”,就像LLM為自己寫一本解決問題的指南。

當然,這其中還有很多細節待明確:編輯如何工作?編輯系統本身能否學習?如何像人類一樣,將顯性文本知識逐漸內化為習慣性權重?

寫在最后

Claude的系統提示詞,無疑是提示工程復雜性的一個縮影。Anthropic通過大量使用XML風格標簽來增強可讀性(這對人還是LLM更友好值得商榷),以及其MCP服務器的發明和采用,都是其管理這種復雜性的努力。但這也引出新問題:如何進行版本控制?這些“熱修復”是逐個添加還是批量評估后上線?什么時候才需要“推倒重來”?

這份提示詞也再次提醒我們:聊天機器人遠不止模型本身,其背后是不斷積累、迭代優化的指令、工具集和精心設計

責任編輯:張燕妮 來源: AI寒武紀
相關推薦

2025-05-13 09:44:24

2024-04-15 07:00:00

模型研究

2024-08-09 12:46:04

2025-03-04 08:40:00

AI游戲訓練

2024-02-19 00:12:50

AI代碼

2020-10-30 10:23:14

機器學習趨勢范式

2025-02-05 09:10:00

2025-01-21 10:56:41

LLMs應用系統

2024-07-31 08:00:00

2024-08-07 10:05:00

LLM大模型技術

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-05-21 13:52:39

LLM模型

2024-11-21 14:30:00

模型訓練

2025-02-14 08:44:39

提示工程OpenAIDeepSeek

2024-12-04 09:25:00

2024-12-04 07:00:00

2025-06-23 09:15:00

2020-10-09 09:57:26

深度學習技術人工智能

2024-05-30 13:06:40

2024-11-27 10:23:31

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 特黄色一级毛片 | 久久久久久成人 | 亚洲精品1区 | av网站在线播放 | 欧美高清免费 | 成人毛片在线视频 | 午夜视频在线视频 | 99免费精品视频 | 欧美不卡在线 | 365夜爽爽欧美性午夜免费视频 | 成人片免费看 | 激情一区| 在线观看午夜视频 | 日本精品一区二区三区四区 | 精品国产综合 | 亚洲午夜久久久 | 黄色大片在线视频 | 综合久久久 | 天天爽一爽| 亚洲国产精品成人 | 久久精品亚洲精品国产欧美 | 特级生活片 | 玖玖久久| 日韩精品一区二区三区中文字幕 | 91久久精品一区二区二区 | 不卡一二区 | 91九色视频 | 国产精品视频一二三区 | 色婷婷综合在线观看 | 91在线一区 | 一区视频 | 99精品在线观看 | 国产在线视频三区 | 国产在线精品一区二区三区 | 精品久久1 | 二区av | 91久久国产综合久久 | 免费高清av | 97久久精品午夜一区二区 | 欧美一级片在线看 | 自拍偷拍中文字幕 |