成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓Siri不再智障!蘋果定義新的端側(cè)模型,“大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相

發(fā)布于 2024-4-2 15:28
瀏覽
0收藏

撰稿丨諾亞   

出品 | 51CTO技術(shù)棧(微信號:blog51cto)       

總被用戶吐槽“有點智障”的Siri有救了!

Siri自誕生以來就是智能語音助手領(lǐng)域的代表之一,但很長一段時間里,其表現(xiàn)并不盡如人意。然而,蘋果的人工智能團隊最新發(fā)布的研究成果有望極大地改變現(xiàn)狀。

在相關(guān)的研究論文中,蘋果的AI專家們描述了一個系統(tǒng),其中Siri不僅可以識別圖像中的內(nèi)容,還能做更多的事情,變得更智能、更實用。尤為令人興奮的是,他們認(rèn)為自己研發(fā)的用于實現(xiàn)這一功能的模型ReALM,其基準(zhǔn)性能優(yōu)于GPT 4.0。

一、動機:解決不同實體的指代解析

蘋果的研究團隊指出:“讓對話助手能夠理解上下文,包括相關(guān)的內(nèi)容指向,非常關(guān)鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進(jìn)行提問,是確保真正實現(xiàn)語音操作體驗的重要一步。”

打個比方,在人機交互過程中,用戶常常會在對話中提及屏幕上的某個元素或內(nèi)容,例如指示語音助手撥打電話號碼、導(dǎo)航至地圖上的特定地點、打開特定應(yīng)用程序或網(wǎng)頁等。如果對話助手無法理解用戶指令背后的實體指代,就無法準(zhǔn)確地執(zhí)行這些命令。

而且人類對話中普遍存在模糊指代的現(xiàn)象,為了實現(xiàn)自然的人機交互,以及在用戶與語音助手進(jìn)行關(guān)于屏幕內(nèi)容查詢時準(zhǔn)確理解語境,指代解析能力至關(guān)重要。

蘋果在論文中提到的名為ReALM(Reference Resolution As Language Modeling)的模型,其優(yōu)勢就在于,它能夠同時考慮用戶屏幕上的內(nèi)容和正在進(jìn)行的任務(wù),利用大語言模型解決不同類型實體(包括對話實體和非對話實體)的指代解析問題。

盡管傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實體,但ReALM系統(tǒng)通過將指代解析轉(zhuǎn)化為語言建模問題,并成功運用LLMs來處理屏幕上非對話實體的指代,極大地推動了這一目標(biāo)的達(dá)成。如此一來,便有望達(dá)成高度智能、更加沉浸的用戶體驗。

二、重構(gòu):突破傳統(tǒng)文本模態(tài)的限制

傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實體,是因為屏幕上的實體通常包含豐富的視覺信息和布局結(jié)構(gòu),例如圖像、圖標(biāo)、按鈕及它們之間的相對位置關(guān)系等,這些信息在純粹的文本描述中難以完全表達(dá)。

ReALM系統(tǒng)針對這一挑戰(zhàn),創(chuàng)造性地提出了通過解析屏幕上的實體及其位置信息來重建屏幕,并生成一種純文本表示,這種文本能可視化地反映屏幕內(nèi)容。

實體部分會被特別標(biāo)記,以便語言模型了解實體出現(xiàn)在何處及其周圍的文本是什么,這樣就能模擬“看到”屏幕上的信息,并在理解和解析屏幕上的指代時提供必要的上下文信息。這種方法是首次嘗試使用大型語言模型從屏幕內(nèi)容中編碼上下文,克服了傳統(tǒng)文本模態(tài)難以處理的屏幕實體的問題。

具體來說,ReALM系統(tǒng)為了讓大型語言模型能夠“理解”并處理屏幕上顯示的實體,采用了以下步驟:

首先,借助上層數(shù)據(jù)檢測器提取屏幕文本中的實體,這些實體會帶有類型、邊界框以及實體周圍非實體文本元素的列表。這意味著,對于屏幕上每一個可視化的實體,系統(tǒng)都會捕捉其基本信息和它所處的上下文環(huán)境。

然后,ReALM創(chuàng)新地提出了一種算法,通過將實體及其周圍對象的邊界框中心點按照垂直(從上至下)和水平(從左至右)的順序排序,并穩(wěn)定排列。若實體間距離較近,則認(rèn)為它們在同一行內(nèi),并用制表符隔開;若距離超出設(shè)定的邊距,則將它們置于下一行。這樣,通過連續(xù)應(yīng)用上述方法,就可以將屏幕內(nèi)容按從左到右、從上到下的方式編碼成純文本格式,有效地保留了實體間的相對空間位置關(guān)系。

這樣一來,原本難以直接被LLM處理的屏幕視覺信息轉(zhuǎn)化成了適合語言模型輸入的文本形式,使LLM能夠在處理序列到序列的任務(wù)時,充分考慮到了屏幕實體的具體位置和上下文,從而實現(xiàn)對屏幕實體的正確識別和指代解析。

這使得ReALM系統(tǒng)不僅在解決對話實體的指代問題上表現(xiàn)出色,而且在處理非對話類實體——即屏幕上的實體時同樣表現(xiàn)出了顯著的性能提升。

三、細(xì)節(jié):任務(wù)定義和數(shù)據(jù)集

簡單來,ReALM系統(tǒng)面臨的任務(wù)是,根據(jù)用戶想要執(zhí)行的任務(wù),在給定的實體集合中,找出與當(dāng)前用戶查詢相關(guān)的實體。

這個任務(wù)被構(gòu)造成一個針對大型語言模型的選擇題,期望從用戶屏幕展示的實體中選擇一個或多個選項作為答案。當(dāng)然,在某些情況下,答案可能是“都不是”。

事實上,研究論文將任務(wù)涉及的實體分為三類:

1. 屏幕實體:是指當(dāng)前在用戶界面上可見的實體。

2. 對話實體:與對話內(nèi)容相關(guān)的實體,可能來自用戶的上一輪發(fā)言(如用戶提到“呼叫媽媽”,則聯(lián)系人列表中“媽媽”的條目就是相關(guān)實體),也可能由虛擬助手在對話中提供(如供用戶選擇的地點列表)。

3. 背景實體:源于后臺進(jìn)程,不一定直接體現(xiàn)在用戶屏幕顯示或與虛擬助手互動中的相關(guān)實體,例如預(yù)設(shè)會響起的鬧鐘或正在后臺播放的音樂。

至于用于訓(xùn)練和測試ReALM的數(shù)據(jù)集,由合成數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)組成,同樣可劃分為三類:

其一,對話數(shù)據(jù)集:包含了與用戶與代理交互相關(guān)的實體的數(shù)據(jù)點。這些數(shù)據(jù)通過讓評分員查看含有合成實體列表的截圖,并要求他們提供明確指向列表中任意選定實體的查詢來收集。

其二,合成數(shù)據(jù)集:采用模板生成法得到數(shù)據(jù),特別是當(dāng)用戶查詢和實體類型足以確定指代,無需依賴詳細(xì)描述時,這種方法特別有用。合成數(shù)據(jù)集中也可以包含多個實體對應(yīng)同一查詢的情況。

其三,屏幕數(shù)據(jù)集:主要涵蓋了用戶屏幕上當(dāng)前顯示的實體的數(shù)據(jù),每一條數(shù)據(jù)都包含用戶查詢、實體列表以及與該查詢對應(yīng)的正確實體(或?qū)嶓w集合)。每個實體的信息包括實體類型和其他屬性,如名稱以及其他與實體相關(guān)的文本細(xì)節(jié)(例如,鬧鐘的標(biāo)簽和時間)。

對于含有屏幕相關(guān)上下文的數(shù)據(jù)點,上下文信息以實體的邊界框以及圍繞該實體的其他對象列表的形式提供,同時附帶這些周邊對象的類型、文本內(nèi)容和位置等屬性信息。整個數(shù)據(jù)集的大小根據(jù)類別分為訓(xùn)練集和測試集,并且各具一定規(guī)模。

四、結(jié)果:最小的模型也取得了5%的性能提升

在基準(zhǔn)測試中,蘋果公司將自家系統(tǒng)與GPT 3.5和GPT 4.0進(jìn)行了比較。ReALM模型在解決不同類型的指代解析任務(wù)方面表現(xiàn)出卓越的競爭力。

讓Siri不再智障!蘋果定義新的端側(cè)模型,“大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相-AI.x社區(qū)圖片

根據(jù)論文所述,即便是ReALM中參數(shù)最少的版本,相較于基線系統(tǒng)也實現(xiàn)了超過5%的性能提升。而在更大的模型版本上,ReALM則明顯勝過GPT-4。特別是在處理屏幕上顯示的實體時,隨著模型規(guī)模的增加,ReALM在屏幕數(shù)據(jù)集上的性能提升更為顯著。

另外,ReALM模型在全新領(lǐng)域的零樣本學(xué)習(xí)場景上,其性能與GPT-4相當(dāng)接近。而在處理特定領(lǐng)域的查詢時,由于經(jīng)過用戶請求的微調(diào),ReALM模型比GPT-4表現(xiàn)得更加精準(zhǔn)。

比如,對于要求調(diào)整亮度這樣的用戶請求,GPT-4僅將該請求關(guān)聯(lián)到設(shè)置,而忽略了背景中存在的智能家居設(shè)備也是相關(guān)實體,而ReALM因為接受了領(lǐng)域特有數(shù)據(jù)的訓(xùn)練,能夠更好地理解并正確解析此類特定領(lǐng)域內(nèi)的指代問題。

“我們證明了ReaLM超越了以往的方法,并且盡管參數(shù)數(shù)量遠(yuǎn)少于當(dāng)前最先進(jìn)的LLM——GPT-4,即使在純粹基于文本領(lǐng)域處理屏幕內(nèi)引用時,ReaLM也能達(dá)到與其相當(dāng)?shù)谋憩F(xiàn)水平。此外,對于特定領(lǐng)域的用戶話語,ReaLM的表現(xiàn)還優(yōu)于GPT-4,因此,ReaLM可以說是在保證性能不打折扣的同時,適用于開發(fā)面向?qū)嶋H應(yīng)用環(huán)境、可在設(shè)備本地高效運行的指代解析系統(tǒng)的首選方案。”    

此外,研究人員還表示,在資源有限、需要低延遲響應(yīng)或者涉及多階段集成如API調(diào)用等實際應(yīng)用場景中,單一的大型端到端模型往往并不適用。

在這種背景下,模塊化設(shè)計的ReALM系統(tǒng)更具有優(yōu)勢,允許在不影響整體架構(gòu)的情況下,輕松替換和升級原有的指代解析模塊,同時提供更好的優(yōu)化潛力和可解釋性。

面向未來,研究方向則指向了更為復(fù)雜的方法,比如將屏幕區(qū)域劃分為網(wǎng)格并以文本形式編碼空間相對位置,雖然頗具挑戰(zhàn)性,但這是一種有前景的探索途徑。

五、寫在最后

在人工智能領(lǐng)域,蘋果雖然一直比較謹(jǐn)慎,但也在默默投入。無論是多模態(tài)大模型MM1,還是AI驅(qū)動的動畫生成工具Keyframer,再到如今的ReALM,蘋果的研究團隊一直在持續(xù)實現(xiàn)著技術(shù)突破。

圍觀谷歌、微軟、亞馬遜等競爭對手,紛紛在搜索、云服務(wù)、辦公軟件上加碼AI,秀了一波又一波肌肉。蘋果顯然正努力不落人后。隨著生成式AI落地成果不斷涌現(xiàn),蘋果更是加快了追趕的步伐。早有知情人士透露,在6月舉辦的全球開發(fā)者大會上,蘋果將聚焦于人工智能領(lǐng)域,新的人工智能戰(zhàn)略極有可能成為iOS 18升級的核心內(nèi)容。屆時,說不定會給諸君帶來驚喜。

參考鏈接:

??https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4??

??https://arxiv.org/pdf/2403.20329.pdf??

本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:?

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 中文字幕一区二区三区精彩视频 | 亚洲一区视频在线 | 久久网一区二区三区 | 夜夜爽99久久国产综合精品女不卡 | 999在线精品| 日韩精品免费视频 | 91手机精品视频 | 国产精品a免费一区久久电影 | 仙人掌旅馆在线观看 | 亚洲成人午夜电影 | yiren22综合网成人 | 久久综合九九 | 中文字幕一区二区三区四区不卡 | 亚洲国产一区二区视频 | 久久久久高清 | 亚洲欧洲日韩精品 中文字幕 | 99热在线播放 | 欧美午夜激情在线 | 91精品国产91久久综合桃花 | 啪啪精品 | 久久久久久国产 | 91人人看| 在线婷婷 | aaa级片| 国产精品1区 | 91操操操 | 亚洲成人综合社区 | 中文字幕国产视频 | 精品国产免费一区二区三区演员表 | 欧美性大战久久久久久久蜜臀 | 成人一区二区三区在线观看 | 欧美日本在线 | 欧美综合国产精品久久丁香 | 久久精品99国产精品 | 精品一区国产 | www狠狠爱com | 国产精品久久久久久二区 | 久久久精品网 | 特黄毛片 | 18成人在线观看 | 99re热这里只有精品视频 |