學習大模型開發,需要具備人工智能或深度學習理論基礎嗎? 原創
“ 學以致用,問題才是學習的真正驅動力 ”
最近發表了幾篇關于學習人工智能技術的文章,然后就有人問沒有深度學習的基礎可以學習人工智能嗎?
答案是肯定的,學習人工智能技術并不一定非要懂得深度學習,雖然深度學習是大模型的基礎。
怎么學習大模型?
很多人學習大模型技術,第一步就卡在了入門上,也就是說不知道應該怎么學習人工智能技術。
可能在很多人的認知中,學習人工智能就要學習機器學習和深度學習,面對著復雜的機器學習模型以及復雜的算法實現,直接導致很多人的人工智能學習之路自此中斷。
其實大家完全沒必要把人工智能或者說大模型想的那么復雜,作者在之前的文章中曾不只一次的說過,技術的本質就是一個工具;而會不會制造和使用工具是人和動物的根本區別。
既然大模型技術是一種工具,我們即使不會制造大模型這個工具;但我們可以學會使用這個工具。所以,對不懂機器學習和深度學習的人來說,學習大模型技術最好也是最簡單的方式就是先學會使用大模型。
學習使用大模型也有兩種情況,一種是完全不懂技術的人,只需要學會使用基于大模型作為底座開發的產品,比如一些音視頻生成工具等。
第二,就是懂技術的人,他們有一定的編程基礎,這時他們可以學習在大模型之上構建上層應用,也就是給不懂技術的人使用的工具。
第一種沒什么好說的,不論是人工智能還是微信,淘寶,拼多多對第一種人來說沒什么區別。
我們今天主要討論的是學習大模型技術的人,當然,第二種情況下也會有那種特別喜歡大模型技術本身的人,比如學習機器學習模型,算法,架構等等;這種就不在我們今天討論的范圍。
為什么我說學習大模型可以不懂的機器學習和深度學習?
原因就是學習的方式有多種,在學生時代學校采用填鴨式的教學方式,上來就給我們講高大上的理論還一些不知所以的概念。
因此,也有人開玩笑說我只需要上街買個菜,需要知道什么是牛頓萊布尼茨公式嗎?
而我們很多人學習人工智能或者學習大模型技術的時候也是一樣,他們根本不知道什么是人工智能,也不知道什么是大模型;就知道這玩意現在比較火,說起來比較牛逼,然后就去學。
但你問他為什么要學,他們又說不出個一二三。
所以,很多人學習大模型的時候聽了一堆概念,看了一堆書,然后也不知道到底能干什么,為什么這么干。
因此,踏入社會之后我們就要學會另一種學習方式,那就是從問題出發,從應用出發,在問題中尋找答案。
先不要去學習哪些高大上的理論和一些亂七八糟的概念,我們首先要做的就是先學會大模型的使用,比如讓它幫我們生成一張圖片,回答一個問題。
這時問題就來了,大模型為什么可以生成圖片,為什么可以回答問題?
然后去思考它是怎么做到的,以及它為什么能做到。
這時,你帶著問題去尋找答案,你就會發現原來看不懂的概念現在好像有點懂了;之所以可以生成圖片和回答問題,是因為現在的模型叫生成式模型,使用特殊的架構實現的一種能夠通過預訓練習得知識的能力。
然后你就又發現了一個問題,什么是預訓練? 以及預訓練是怎么做的?
這時你就會去學習大模型的預訓練流程,選擇模型,數據清洗,數據訓練,正向傳播,反向傳播,損失計算等等。
這時的你可能對大模型技術就有了一個大致的認識,雖然你并不知道大模型到底是怎么實現的,但你知道通過預訓練流程就可以打造一款適合某個場景的模型。
這時你就開始思考怎么才能訓練一個能解決某個問題的模型?
怎么選擇合適的模型,從哪里找到這些模型,這些模型需要什么樣的以及什么格式的數據,預訓練需要多少算力,需不需要分布式并行計算等等。
這時你就會發現,原來訓練一個模型這么復雜,這么困難;那該怎么辦呢?
這時你又看到了微調,通過少量的數據就可以實現把類似功能的預訓練模型調整成適合你指定任務的模型。
這時你就會發現,原來訓練和微調在技術上沒有本質的區別;唯一的區別就是預訓練模型的參數是經過訓練的,而微調只需要對部分參數進行調整即可。如果是全量微調,那就和訓練沒什么本質的區別了。
這時,你已經明白了大模型的基本運作原理,以及訓練和微調的方法;這時你可能會想我也自己設計一個大模型出來給別人用?
這時你通過一通查資料發現想實現這個目標確實比較復雜,不但要深入了解各種機器學習的理論和算法,還是懂得足夠的數學基礎。
所以,這時你可能會轉變方向,先去基于大模型開發一款工具或應用;比如AIGC或知識庫等。
然后,你就會思考怎么用大模型開發應用呢?
是自己訓練或微調一個大模型,還是使用第三方的大模型?如果使用三方大模型只需要懂得接口調用,甚至不需要知道一點人工智能的東西就可以開發,技術要求低,成本也低。
而如果自己使用其它的開源模型,那么自己怎么部署,怎么動態擴容等等。
等你真正決定自己部署大模型的時候,你才發現原來自己獨立運維部署大模型是如此復雜的一個工程,不但要考慮模型的選擇,還要負責大模型的集群部署和擴容;而如此龐大的系統工程依靠人力是無法完成的,因此自動化運維就成了必不可少的東西。
最終,你經過一通亂七八糟的操作,最終成功部署了大模型;這時,你又發現模型的生成效果好像并不是太好,使用了現有的訓練和微調方式都沒辦法解決這個問題。
這時,你就需要開始真正的研究大模型的底層實現,使用了什么算法,什么架構,可能是什么問題導致大模型表現不好等等。
或者說,你在使用大模型的過程中,突然發現一些之前沒有注意到的好玩的地方,比如大模型的幻覺問題,一本正經的胡說八道。
而產生這個問題的根本原因是什么?
這時,你就會發現你自己好像懂了什么是大模型;但又好像什么都不懂;感覺自己什么東西都知道一點,但又沒辦法說個所以然。
為什么會產生上面的情況,原因就是大模型是一個復雜的系統性工程,沒有人上來就能把它說個一二三;大家都是在不斷學習,不斷使用的過程中,發現問題,改正問題,在問題中成長。
所以說,你沒有機器學習和深度學習的基礎,你會有上面的各種疑問;而你有機器學習和深度學習的基礎,你同樣會有上面的疑問。
學習最重要的是學以致用,不論是你先從應用學起,還是從底層理論學期,你可以根據自己的喜好,選擇適合自己的學習方式;沒有人規定有了深度學習技術就一定能學會大模型技術;也沒有人規定,沒有深度學習技術的基礎就學不會大模型技術。
本文轉載自公眾號AI探索時代 作者:DFires
