成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

揭秘iPhone里的Transformer:基于GPT-2架構(gòu),分詞器含emoji,MIT校友出品

人工智能 新聞
一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了個(gè)底朝天,結(jié)果,還真挖出不少新鮮信息

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

蘋果Transformer的“秘密”,讓發(fā)燒友給扒出來了。

大模型浪潮下,即使保守如蘋果,也每逢發(fā)布會(huì)必提“Transformer”。

比如,在今年的WWDC上,蘋果就已宣布,船新版本的iOS和macOS將內(nèi)置Transformer語言模型,以提供帶文本預(yù)測功能的輸入法。

圖片

蘋果官方?jīng)]有透露更多信息,但技術(shù)愛好者們可坐不住了。

一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了個(gè)底朝天,結(jié)果,還真挖出不少新鮮信息:

  • 模型架構(gòu)上,Cook小哥認(rèn)為蘋果的語言模型更像是基于GPT-2打造的。
  • 在分詞器(tokenizer)方面,表情符號在其中十分突出。

更多細(xì)節(jié),一起來看。

基于GPT-2架構(gòu)

先來回顧一下蘋果基于Transformer的語言模型能在iPhone、MacBook等設(shè)備上實(shí)現(xiàn)怎樣的功能。

主要體現(xiàn)在輸入法方面。語言模型加持下的蘋果自帶輸入法,可以實(shí)現(xiàn)單詞預(yù)測和糾錯(cuò)的功能。

圖片

Jack Cook小哥具體測試了一下,發(fā)現(xiàn)這個(gè)功能主要實(shí)現(xiàn)的是針對單個(gè)單詞的預(yù)測。

圖片
△圖源:Jack Cook博客文章

模型有時(shí)也會(huì)預(yù)測即將出現(xiàn)的多個(gè)單詞,但這僅限于句子語義十分明顯的情況,比較類似于Gmail里的自動(dòng)完成功能。

圖片
△圖源:Jack Cook博客文章

那么這個(gè)模型具體被裝在了哪里?一通深入挖掘之后,Cook小哥確定:

我在 /System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了預(yù)測文本模型。

原因是:

  1. unilm.bundle中的許多文件在macOS Ventura(13.5)里并不存在,僅出現(xiàn)在了新版本macOS Sonoma beta(14.0)里。
  2. unilm.bundle中存在一個(gè)sp.dat文件,這在Ventura和Sonoma beta里都能找到,但Sonoma beta的版本中更新了明顯像是分詞器的一組token。
  3. sp.dat中token的數(shù)量跟unilm.bundle中的兩個(gè)文件——unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能匹配得上。這兩個(gè)文件描述了Espresso/CoreML模型中各層的形狀。

進(jìn)而,小哥根據(jù)unilm_joint_cpu中描述的網(wǎng)絡(luò)結(jié)構(gòu),推測蘋果模型是基于GPT-2架構(gòu)打造的:

主要包含token embeddings、位置編碼、解碼器塊和輸出層,每個(gè)解碼器塊中都有類似gpt2_transformer_layer_3d這樣的字眼。

圖片

△圖源:Jack Cook博客文章

根據(jù)每層大小,小哥還推測,蘋果模型約有3400萬參數(shù),隱藏層大小是512。也就是說,它比GPT-2最小的版本還要小。

小哥認(rèn)為,這主要是因?yàn)樘O果想要一種不太耗電,但同時(shí)能夠快速、頻繁運(yùn)行的模型。

而蘋果官方在WWDC上的說法是,“每點(diǎn)擊一個(gè)鍵,iPhone就會(huì)運(yùn)行模型一次”。

不過,這也就意味著,這個(gè)文本預(yù)測模型并不能很好地完整續(xù)寫句子或段落。

圖片

△圖源:Jack Cook博客文章

模型架構(gòu)之外,Cook小哥還挖出了分詞器(tokenizer)的相關(guān)信息。

他在unilm.bundle/sp.dat里發(fā)現(xiàn)了一組數(shù)量為15000的token,值得關(guān)注的是,其中包含100個(gè)emoji

Cook揭秘庫克

盡管此Cook非彼庫克,小哥的博客文章一發(fā)出,還是吸引了不少關(guān)注。

圖片

基于他的發(fā)現(xiàn),網(wǎng)友們熱烈地討論起蘋果在用戶體驗(yàn)和前沿技術(shù)應(yīng)用之間的平衡大法。

圖片

回到Jack Cook本人,他本科和碩士畢業(yè)于MIT的計(jì)算機(jī)專業(yè),目前還在攻讀牛津大學(xué)的互聯(lián)網(wǎng)社會(huì)科學(xué)碩士學(xué)位。

此前,他曾在英偉達(dá)實(shí)習(xí),專注于BERT等語言模型的研究。他還是《紐約時(shí)報(bào)》的自然語言處理高級研發(fā)工程師。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-06-05 14:04:59

模型AI

2012-04-23 14:44:42

2019-10-09 16:35:40

AMDZen 3Zen 4

2024-02-22 09:51:56

代碼AI

2009-12-07 16:23:44

水星寬帶路由器

2024-02-26 00:40:00

AIGPT

2023-08-17 08:00:00

2021-09-03 11:26:39

分詞器ElasticSear

2010-05-13 18:25:24

x86ex5system x

2024-10-08 13:38:56

2024-08-12 10:52:00

AI模型

2020-01-30 14:50:16

谷歌Android技術(shù)

2009-05-15 08:57:02

Windows 7微軟操作系統(tǒng)

2024-09-04 15:12:35

2010-10-08 13:53:02

Silverlight

2016-09-18 23:56:51

Java開源中文分詞器

2023-02-22 09:53:55

架構(gòu)芯片

2018-11-20 15:59:05

AMDCPUGPU

2024-02-19 13:45:14

OpenAIGPT-2模型

2021-12-01 10:05:12

模型人工智能計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 18性欧美 | 尤物在线精品视频 | 精品国产18久久久久久二百 | 欧美一级欧美三级在线观看 | 岛国av一区二区 | 国产精品久久久久久久久久久久久 | 在线激情视频 | 三级av网址 | 国产精品久久久久久吹潮日韩动画 | 精品国产一区二区在线 | 日韩欧美中文字幕在线观看 | 中国大陆高清aⅴ毛片 | 日韩欧美二区 | 免费99精品国产自在在线 | 成人在线免费视频 | 中文字幕欧美一区 | 亚洲精品国产电影 | 国产一区二区三区在线免费观看 | 久久久久久亚洲精品 | 国产视频一二三区 | 少妇一级淫片免费放播放 | 精产国产伦理一二三区 | 一区久久| 欧美a在线观看 | 欧美一级免费 | 91激情电影 | 久久综合一区二区 | 在线免费国产 | 野狼在线社区2017入口 | 精品日韩| 欧美一级视频 | 久久福利电影 | 亚洲国产精品成人久久久 | 久热免费在线 | 日韩欧美网 | 亚洲精品欧美 | 日韩靠逼| 婷婷色国产偷v国产偷v小说 | 国产在线中文字幕 | 超碰操| 黄色网址免费在线观看 |