從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應用場景 原創
“ 學習的過程,是一個不斷產生偏差和調整的過程 ”
學習的過程是一個學習——驗證——再學習——再驗證的過程。
在此之前也有寫過關于強化學習的文章,但那時更多的是停留在概念描述和名稱解釋的階段,簡單來說就是知道有強化學習這個概念,但不知道它是用來解決什么問題,以及怎么來解決這些問題。之前的文章??大模型的訓練與調優,SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么???
學習一門新技能或技術的最好方式,就是從應用場景中學習,發現問題然后學習。
關于強化學習
大模型技術中有多種學習方式,比如監督學習,無監督學習,強化學習等;但對剛開始學習大模型技術的人來說,雖然網絡上有各種各樣的解釋,但對我們來說終究只是一個概念,并不是自己親自體驗的東西。
因此,很多時候學習這些概念都處于懵懵懂懂的階段,感覺自己好像懂了,又好像什么都沒懂,特別是過了一段時間之后就忘記了,這就說明我們肯定沒懂。
所以,接著學習具身智能這個概念的機會,又加深了自己對強化學習的理解和應用,雖然可能最終發現這個理解并不是準確的,但也算是自己學習過程的記錄。
首先,我們還是從概念開始,什么是強化學習?
強化學習(Reinforcement Learning, RL),又稱再勵學習、評價學習或增強學習,是機器學習的范式和方法論之一,用于描述和解決智能體(agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。
上面是百度百科關于強化學習的定義,Ok看了這個定義是不是還是覺得一臉懵。
所以,現在我們從應用場景或者說從問題開始,來理解強化學習。
以我們人類自身來說,我們接觸一個新事物或者新環境是怎么做的?
比如說某一天你突然見到一個之前沒見過的事物,這時好奇心驅使你想了解一下它是什么。這時你有哪些辦法?
首先,第一就是如果你身邊有了解的人,那么最簡單的辦法就是問他,然后對這個事物有一個初步的了解,比如它會不會攻擊人,能不能摸,能不能吃,會不會有毒等等,這個就叫做經驗。
而在幾千年之前的古人,他們那時候對世界了解甚少,很多東西都不知道,那他們是怎么做的?
首先,就是觀察看看這玩意有什么外貌特征,是動物還是植物,慢慢靠近它會不會被攻擊,然后會嘗試用手碰它,到最后可能會試試能不能吃。
從上面這段你能看出什么?
上面這段就是一個典型的人與環境交互的場景,也是一個不斷根據反饋調整交互方式的場景。比如說第一次見到一頭牛,你不認識它然后觀察它的時候,它也沒什么反應;但如果你突然靠近它的時候,可能就會引起牛的敵意,甚至是攻擊。
這時如果牛攻擊你,那么你就會明白這玩意不能隨便靠近;而如果它不攻擊你,你就會逐漸嘗試接近它。那如果是獅子老虎呢?又或者是雞鴨鵝呢?
所以,根據不同的環境人類會做出不同的反應。
現在再來看強化學習的定義,描述和解決智能體在與環境交互中通過學習策略達到最優或實現特定目標。
因此,強化學習的應用場景是什么?或者說強化學習要解決的問題是什么?
智能體與環境交互,獲得反饋,然后獲得最優解或達到某個目的。
那又一個問題出現了,怎么才知道是不是最優解?
大家應該都聽過一個麥穗理論,相傳蘇格拉底帶著他的學生到一塊麥田,讓他們找到一個最大的麥穗,并且不能回頭,只能摘一只。
麥穗理論最難的一點是什么,你不知道最大的麥穗是在前面還是在后面,也就是說你不知道那個麥穗才是最優解。
而強化學習是怎么做的呢 ?
還是那兩個字——反饋。
強化學習的過程并不是蘇格拉底要求的那種不可以走回頭路,強化學習是可以走回頭路的;它可以一次一次的嘗試,然后找到其中最大的麥穗。
而在強化學習的應用實踐中,強化學習會通過獲得正反饋的方式來進行優化;比如,給你一個草莓,你吃了一口很甜,然后還想再吃一個,這個叫正反饋;而如果給你一碗中藥,喝一口很苦以后都不想喝了,這個叫負反饋。
而強化學習就是通過不斷加強某方面的正反饋,來讓大模型在某個方面變得更加強大。
比如說在自動駕駛領域,可以讓大模型采用強化學習的模式,通過不斷的對路面環境進行感知,增強其在道路行駛中對復雜環境的判斷能力。
再比如,在圍棋領域谷歌開發的阿爾法狗就是利用強化學習的方式來提升棋藝,通過模擬與世界頂尖棋手的對弈,讓阿爾法狗不斷學習人類棋手的下棋方式和技藝,最終達到戰勝人類棋手的目的。
而在強化學習中,這個過程被叫做獎勵機制;比如說你考試考一百分,媽媽就給你買玩具,也是這個道理。
前面理解了強化學習的概念以及應用場景,那么到底怎么才能實現強化學習呢?就類似于,媽媽說你考一百分就給你買玩具,那么怎么才能考一百分呢?
這就要了解一下強化學習的實現方式了,強化學習的模型非常的簡單,大腦就是智能體(大模型),地球就是外部環境,大腦通過與地球的交互獲得不同的反饋。
強化學習的原則
強化學習基本按照兩個原則進行分類:
- 基于策略和價值的分類
- 基于環境的分類
在這兩種原則之下,還細分為多種方法:
基于策略和價值分類
- 基于價值的方法: 沒有策略但有價值函數
- 基于策略的方法:有策略但沒有價值函數
- 參與評價的方法:既有策略也有價值函數
基于環境分類
- 無模型的方法: 有策略和價值函數,沒有模型
- 基于模型的方法: 有策略和價值函數,也有模型
總結
以上是個人對強化學習的一些理解和學習的過程記錄,可能是對的,也可能是錯的,或許隨著對大模型技術的深入,某一天會發現現在對強化學習的理解還是臺淺顯了。
本文轉載自公眾號AI探索時代 作者:DFires
