成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

離開OpenAI的大神卡帕西「開課了」:新項目日增千星,還是熟悉的min代碼風

人工智能
BPE(字節對編碼)是隨著GPT-2而流行起來的標記化算法。現在,包括GPT系列、Llama系列和Mistral在內,一眾大模型都用到了這一算法來訓練分詞器。

大神Karpathy從OpenAI離職,原本揚言要大休一周。

圖片圖片

但轉眼,新項目就已上線GitHub,日增上千星的那種。

圖片圖片

還是熟悉的卡式配方:

74行Python代碼搞定大模型標記化(tokenization)中常用的BPE(Byte Pair Encoding)算法,實現該算法的最小、最干凈代碼版本。

甚至:

圖片圖片

是不是有點快3萬標星的nanoGPT內味兒了?

這波啊,還真是讓網友們給猜著了:

Time to cook。

圖片

畢竟,Karpathy除了前特斯拉AI總監、OpenAI創始成員的title,最為網友所熟悉的,就是“AI領域大善人”、“擅長將復雜問題簡單化的卡老師”這樣的身份了(手動狗頭)。

BPE代碼最小化版本

還是具體來看一下,Karpathy老師這次又煮出了一鍋什么樣的飯。

圖片圖片

項目名minbpe已經說明一切:BPE算法的最小、最干凈代碼版本。

BPE(字節對編碼)是隨著GPT-2而流行起來的標記化算法。現在,包括GPT系列、Llama系列和Mistral在內,一眾大模型都用到了這一算法來訓練分詞器。

BPE的主要優勢在于:

  • 高效:通過合并頻繁出現的字節對來逐步構建詞匯表,可以有效地減少模型需要處理的詞匯量。
  • 靈活:可以將詞匯表外的單詞分解為已知子詞來進行處理,有助于模型理解和生成未在訓練中出現的單詞。

而在minbpe這個項目中,Karpathy提供了兩個Tokenizer(分詞器),它們都可以執行分詞器的3個主要功能:

  • 基于特定文本訓練詞匯表和合并操作
  • 把文本編碼成token
  • 把token解碼為文本

具體而言,在basic.py中,minbpe用74行Python代碼,完成了對直接在文本上運行的BPE算法的最簡單實現。

圖片圖片

在regex.py中,minbpe實現的是一個正則表達式分詞器,該分詞器利用正則表達式進一步拆分輸入的文本。

另外,在正則表達式分詞器的基礎之上,minbpe還在gpt4.py中提供了一個GPT4Tokenizer,可以準確在線tiktoken庫中的GPT-4標記化。

注:tiktoken是一種快速BPE分詞器。

圖片圖片

base.py則是一個基類,包含了訓練、編碼和解碼的存根(stubs),提供了保存和加載的功能,并集成了一些常見的輔助工具函數。在實際應用中,開發者應該通過繼承這個基類來實現具體的分詞器功能。

Karpathy提到,他在霉霉的維基百科文本上嘗試訓練了兩個主要的分詞器。train.py在他的M1 MacBook上運行時間大概為25秒。

如果你還有什么不清楚的地方,別擔心,卡老師已經計劃要出視頻了:

圖片圖片

Karpathy出走OpenAI,許多猜測指向他的“下一篇章”是大語言模型系統(LLM OS):

圖片圖片

如今正式工作還未揭示,但看樣子Karpathy已經拾起了“教學育人”的副業,小伙伴們可以蹲起來了。

參考鏈接:https://github.com/karpathy/minbpe/

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-28 14:06:24

大模型AIOpenAI

2025-02-11 08:53:57

2024-02-19 08:56:00

AI模型

2025-03-03 08:25:00

模型AI訓練

2024-07-17 09:17:50

2024-04-09 15:22:24

2025-06-03 14:13:56

ChatGPT模型AI

2024-11-12 09:14:52

2025-03-25 09:43:03

2025-02-06 16:40:09

2023-05-17 08:20:34

Java 17編程語言

2022-02-14 09:53:26

微軟代碼技術

2024-09-30 12:51:56

谷歌AI模型

2024-03-12 08:22:50

TypeScriptRust框架

2022-06-20 09:10:00

AI計算機量子

2025-02-08 09:15:00

2021-04-23 11:18:55

npmpackage.jso命令

2025-03-10 10:26:16

2020-08-05 17:16:53

GitHub 技術開源

2023-07-20 21:41:08

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日噜噜夜夜爽爽狠狠 | 四虎成人精品永久免费av九九 | 亚洲天堂影院 | 亚洲一二三在线观看 | 亚洲一区影院 | 97伦理影院 | 中文字幕 国产 | 天天天操 | 亚洲国产午夜 | 在线播放国产一区二区三区 | 欧美日韩中文在线观看 | 亚洲啪啪一区 | 日韩欧美一级精品久久 | 成人在线观看免费爱爱 | 欧美在线a | 国产精品久久 | 久久久精品久久久 | 99免费视频| 伊人伊人网| 蜜桃视频在线观看免费视频网站www | 亚洲精品乱码久久久久久按摩观 | 成人国产在线视频 | 欧美日韩国产高清视频 | 日韩免费看视频 | 精品视频在线观看 | 久久成人精品视频 | 羞羞视频网站免费看 | 婷婷色国产偷v国产偷v小说 | 7777在线视频免费播放 | 亚洲美女在线一区 | 天天插日日操 | 国产精品 亚洲一区 | 精精国产视频 | 国产精品色 | 亚洲精品久久久久久久久久久久久 | 欧洲一级毛片 | 日韩久久久久久 | 91干b| 91精品国产91久久久久久最新 | 国产精品久久久久久妇女6080 | 国产精品久久久99 |