什么是端到端(end to end)大模型,它和傳統的大模型有什么區別?其優勢與劣勢是什么? 原創
“ 端到端模型,是一個直接由輸入獲取輸出的過程 ”
最近有一個很火的關于人工智能模型的詞——端到端模型。
那么什么是端到端模型?為什么會提出端到端模型,以及它解決了哪些問題?
今天我們就來一起了解一下這個端到端模型。
端到端模型
還記得計算機組成原理里面,關于馮諾伊曼計算機結構中,組成計算機的幾個模塊嗎?
運算器 控制器 存儲器 輸入設備和輸出設備,由這五大模塊組成了現有的計算機系統。
而對我們使用者來說,這五大模塊中我們接觸最多的就是輸入設備與輸出設備,也就是鼠標鍵盤顯示器。
而運算器,控制器和存儲器是由計算機系統自己處理的,我們不需要知道它們的內部運行原理,也不需要知道它們是怎么協調的。
同樣端到端也是如此,從表象來看我們只需要關心其輸入與輸出,不需要知道它的內部結構,也就是說,端到端模型的表象是一個黑盒。
我們知道,大模型的表現是無法解釋的,它更多的是一種現象,叫做智能涌現,現在很多研究機構都在解決大模型的可解釋性,也就是大模型為什么能做到這樣的效果,中間經歷了哪些處理。
但如果要實現一個端到端的大模型,應該怎么實現呢?任何新技術的出現都是為了解決存在的問題,那端到端模型解決了什么問題?
其實用一句話概括端到端,就是讓大模型直接理解問題,然后給出答案或決策。
比如拿語音模型舉例,很多人以為的語音模型就是直接理解語音,但事實上語音模型并不是直接理解語音;而是由多個模塊組成的一個語音模型。
語音在語音模型中的處理過程,需要經過語音轉文字,然后把文字輸入給大模型,大模型處理完畢返回文字,再有轉化系統把文字轉換為語音返回給用戶。
這就是現在大模型所存在的問題,中間需要經過多個模塊的協同處理才能得到想要的結果。可能有人會問為什么不讓大模型直接理解語音,還要經過中間的轉化?
原因就是這樣的實現方式技術難度低,容易實現。
而端到端模型的目的就是省略中間語音轉文字,文字轉語音的過程;為什么要這么做?
這么做的目的并不是為了炫耀技術,而是有些場景需要強大的實時性,無法接受如此長鏈條的處理響應時間。
比如說自動駕駛,現今的自動駕駛采用的就是多模塊協作的方式,如路況采集,自動化分析,做出決策,執行決策等。這樣的自動駕駛系統就需要大量的時間做出響應。
而如果采用端到端系統,那么端到端系統就可以直接采集路況數據,然后做出決策,省略中間各種亂七八糟的處理流程,大大提升了系統靈敏度。
從技術到角度來說,端到端模型實現難度更大,系統更復雜,而且可解釋性更差,而且更像一個黑盒。
可能說到這里,有些人任務端到端模型能做到的事,普通大模型也可以做到,而且技術難度更低,成本也更低。
但端到端模型出現的原因并不是為了解決普通的問題,比如回答系統;哪怕你普通大模型性能低一點,回答慢一點也可以接受。
但在一些領域,如智能駕駛,高端制造,軍事競爭等方面,延遲要在毫秒,甚至是微秒的程度;這時普通大模型就無法完成任務了。
端到端模型的主要目的就是為了讓大模型直接接受輸入,減少中間環節的處理成本,提升效率。
程序員應該比較容易理解端到端,普通大模型就類似于現在的高級語音,如java,python等;它們的功能強大,但執行效率低,原因就是中間有一個解釋器。
而端到端模型就類似于C語言,直接轉換為計算機能夠處理的格式,省略了中間解釋的環節。
雖然高級編程語言的作用越發強大,但永遠也沒有那個語言能完全取代C語言和匯編語言。
當然,C語言和匯編語言雖然效率高,但遷移性比較低,不同的平臺需要不同的指令集和開發庫。端到端模型也是如此,對訓練數據質量的要求更高,適應性也更差。
因此,網上也有人說,所謂的端到端就是直接由輸入得到輸出,大模型可以直接理解輸入數據,而不需要這樣那樣的轉化過程。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/r81EJECLsPvJNznXKWoPlA??
