深度解析以Decoder為核心的無BEV的大一統端到端架構 | 對話CCF-CV學術新銳獎賈蕭松博士
論文的一些巧思
1. 人開車其實并沒有最優解,請問如何確定學習時的參考數據呢?
開車其實也是多種多樣的,然后你模仿學習本質上就是告訴他你只能這樣做,你做了別的那個mass loss還會懲罰他。其實就是我們說的,我們其實就不能通過模仿來做。我們應該通過告訴他,你這個事情做的到底對不對,你要對了,我就不管你怎么做的,你都是對的對吧?所以說這個就是這樣一個理念。
2. Drivetransformer為什么還要直接出感知?我覺得是這樣的,就是說端到端自動駕駛,像剛才說的一個最原始的設定,就是希望神經網絡自動通過K通過軌跡的好壞的關聯,自動找到像素空間上哪些pixel對我這個決策是有作用。這就是本質上最原始的想法。就像ResNet它通過訓練能自動找到。比如說我classify鳥的時候,我就看看那些翅膀之類的。 但是自動駕駛作為一個高維的還是一個環視,就很難在環視相當于是超高維的場景。因為環視首先是6到11個相機,其次我的圖并不是ImageNet那種224幼稚的圖。我們是一分辨率是幾百幾千的圖片,然后6張到11張,然后我們還是多幀的,可以看到我們這個空間是非常瘋狂的,超高維的。這就是大家機器學習第一課。Curse of dimension問題會非常嚴重,就導致其實我覺得在現階段,就大家還沒有瘋狂到能不借助任何輔助的一些東西來讓它收斂。
3. 加detection的好處是什么?
我們可以通過看detection transformer初步學一些邏輯。就是說車這個東西我都告訴你很重要了,這樣我們我們也能有效利用這個標注。
所以說我覺得在現階段我們標注還是有一定作用的,尤其是可以從閉環、數據效率、scale up角度看這個問題。
4. 然后有人問我的方法是decoder only嗎?
其實并不是的,就是也是有image backbone,只不過之前的方法scale up的都是encoder部分,我這個方法其實想更多的研究一下scale up decoder的收益 因為GPT是在scale up decoder,包括其實VLM scale up的過程中 Scale up VIT的收益,其實不如scale up LLM來得快。就比如說可能LLM都從7B到70B能力有個飛躍。但VIT從400M變到6B或者說多大 好像你要說能有多大的飛躍 其實對 就是還有待觀察。
生成模型與世界模型
5. 生成模型出來的圖像符合物理世界規律嗎
我們在這篇工作中,就Bench2drive的后續工作中,我們的物理規律是通過框的推演進行的。
所以說我從一開始就跟組里同學討論,我們不做video diffusion model。因為我們認為pixel to pixel的映射學到物理規律很難,這都是英偉達或者DeepMind的那個級別,可能能真的幾十萬卡10萬卡能訓出來,真的通過視頻pixel到pixel學出物理規律,不然的話其實很容易就從pixel到pixel學出反物理規律的東西。
所以說我們做的是基于框的condition的生成模型。然后這一點其實跟做重建的同學也異曲同工。就是重建的是更相信自己手中的規則,我們還是希望做的更scalable一點。對,大概是從像素到框,其實這個有非常多的經典工作可以搜索,也有非常多的surry可以搜一搜。其實包括也可以看看我們的論文,我們也是基于很多前沿的工作,這點其實有非常多的經典模型。
6. 世界模型的定義
世界模型的定義 我覺得世界模型其實是有兩種定義 第一個是用于決策的那種world model的世界模型 然后那個就是model based rl 可以學習一下。
就是model based rl 尤其dreamer系列我覺得是非常非常聰明 就值得每一個人都看的一個經典,畢竟DeepMind的經典工作;然后另一種呢就是當然就是video diffusion 就是這種呢是用于仿真的,就是各有各的浩。我只能說world model和端道端一樣,現在都是框,就是什么都可以往里裝,然后其實大家也不必糾結于詞匯。,就是只要理清楚要做什么這個模型就可以。
強化學習相關
7. 強化學習訓練端到端難點是沒有仿真?
可以用Carla。我覺得從研究模型角度來看,研究Carla完全沒有問題。我還是那個觀點,就是凡是dissCarla的,你先給我搞定卡拉再說。反正目前我們或者說世界范圍沒有搞定的特別好的。你覺得你瞧不起太簡單,那為什么這么厲害呢?我覺得其實Carla可以做。
8. 模仿學習和強化學習的結合有沒有好的paper推薦
我覺得這個可以直接谷歌搜索。其實這些探索也非常多的。
9. 強化學習的reward設計?
是的,我覺得強化學習也是我們團隊非常欣慰的。我們團隊中的成員其實有很多都是強化學習出身,都是沉浸了七八年。有的從本科開始,本碩博一路做上來,所以說也很欣慰。昨天比如說拿了個圖靈,當然也不是蹭熱度了,就只能說很欣慰。不管是春節期間deep sick的爆火,還是最近的圖靈獎,都說明世界開始認可了強化學習原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強化學習方面可以更多研究,是更值得他研究的新時代方向。
10. RL學到的結果是否不像人開的,體驗不好?
RL學到的結果是否不像人 體驗不好 好問題。然后有人說強化學習的reward設計。是的,我覺得強化學習也是我們團隊非常欣慰的。我們團隊中的成員其實有很多都是強化學習出身,都是沉浸了七八年。有的從本科開始,本碩博一路做上來,所以說也很欣慰。昨天比如說拿了個圖靈,當然也不是蹭熱度了,就只能說很欣慰。不管是春節期間deep sick的爆火,還是最近的圖靈獎,都說明世界開始認可了強化學習原來是真的是走向智能的最后后一步。所以說我理解。所以說我覺得我還是覺得大家強化學習方面可以更多研究,是更值得他研究的新時代方向。
所以說我們在我的ICCV23的oral的工作中研究了我們其實RL之后,就是相當于是很有趣,就是pre-training然后。RL學到的結果是否不像人 體驗不好 好問題 所以說我們在我的ICCV23的oral的工作中 研究了我們其實 RL之后 就是相當于是很有趣 就是pre-training.所以也歡迎關注我ICCV23的DriverAdapter。
11. 強化學習中如何提高學習稀疏報酬對效率影響
對 我覺得這個也是一直強化學習中的難題。就肯定是 一方面希望 RLM可能可以做一些類似工作另一方面可能。目前當然是靠大家設置然后。
12. 如何看顯式建模障礙物行為和隱式生成去建模
理解顯示中障礙物行為的建模,需要分析障礙物在視覺環境中的表現方式及其互動。這包括研究它們的移動、碰撞檢測以及對用戶輸入的響應。視覺效果的生成則側重于創造沉浸式和逼真的體驗。這一過程通常結合了光照、陰影和粒子效果等技術,以提升整體的視覺吸引力。通過將這兩個方面結合起來,設計師可以打造出動態且引人入勝的顯示效果,既能有效模擬現實世界的互動,又能保持美學品質。
13. 然后說RL加AD的挑戰?
我覺得這就是我們為什么非常喜歡做這個RL加AD,覺得很exciting的原因。因為它其實是一個比甚至我覺得比在LLM做RL更exciting的。因為我們是在做物理空間的,它的不管是這個動態性還是這個觀測的復雜度都要復雜的多。因為LLM本質上是完美觀測,就你問啥問題,數學題告訴你,你要解解出來,我們這個觀測都要靠自己來解決,所以說有很多exciting的topic值得做。其實AD我覺得到了今天反而是RL的值得最興盛的時期。
端到端的一些思考以及未來研究方向
14. 端到端絕不是像素到Control
我深深尊重任何像素到像素模型,因為它們體現了通用人工智能(AGI)的理想。然而,我在生成建模中的目標是創造智能。因此,我更喜歡一條更快的路徑,專注于在空間環境中明確地建模障礙物。
我深深尊重任何像素到像素模型,因為它們體現了通用人工智能(AGI)的理想。然而,我在生成建模中的目標是創造智能。因此,我更喜歡一條更快的路徑,專注于在空間環境中明確地建模障礙物。仍然需要一些中間協助。當時,根據當前情況,或許可以通過溝通來處理。包括那些詢問如何基于Vector做出決策的人。
15. 請問你認為現在做vector輸入的決策覺得還有研究前景嗎?
我認為現在是做出決策的最佳時代。前幾年,大家普遍認為這是感知的時代,感知領域取得了許多卓越的成果,每天都有令人目不暇接的進展。然而,我認為低垂的果實已經被摘取,因為感知本質上相對容易實現。 其實,大家幾乎都已經明白了。我覺得應對這個艱巨的挑戰相當有趣。
16. 為什么需要像人一樣駕駛呀?如果能避開車輛,加減速平滑,駕駛車輛并不一定要像人一樣啊
其實有人曾問我,你每天都在研究端到端模型,但缺乏可解釋性。我的觀點是,我觀看了Martin Casado的一場演講。有人問他關于可解釋性的問題,他反問道:“從那個角度來看,你的目標檢測器是可解釋的嗎?你知道它為什么檢測到它所檢測的東西嗎?你會因此失眠嗎?例如,你的檢測器會解釋它先看到馬的頭,然后是馬的身體,最后才檢測到馬嗎?你對此感到擔憂嗎?”我認為可解釋性值得尊重,但這取決于它如何被使用。我認為我們應該更加務實。關于RL(強化學習)與AD(自動駕駛)結合的挑戰,這正是我們覺得研究RL與AD如此令人興奮的原因。
17. Bench2Drive是目前最好用的嗎
開個玩笑,我認為Bench2Drive提供了一個非常易于上手的解決方案。跑過Carla v2的人都知道,Carla v2的難度非常高,跑半天可能只能得到個位數的分數,而我們這里可能得到幾十分。大家發論文和改進都很方便。我們還提供了一個訓練集,數據方面也不用擔心。此外,我們在Carla上實現了UNIAD、VAD,模型也可以使用我們寫好的code base。我們召集了許多編程能力很強的同學,花了很長時間才開發出來,因此可以為大家節省大量時間。
18. 端到端的范式需要中間過程比如感知的監督,那是不是同樣存在傳感器布局的問題?
我覺得是存在的。對我我覺得是存在的。然后因為當然其實我覺得也是一個魯棒性問題。我也看過一些魯棒性工作,試圖訓一個unify的detector來針對傳感器。這個我就不是專業領域了,大家可以再查查相關工作,我覺得也是很很好的課題。
29. 然后如何看待顯示的建模障礙物行為和隱式的生成?
隱式的pixel,我還是剛才那個觀點,pixel到pixel的任何模型我都很尊重,因為他們有AGI理想。但是我做生成本質是要是想把智能做出來,所以說我會更走一個更快的路徑,還是顯示的建??臻g中的障礙物質。對,然后還有一個人說端到端絕不是像素到control這一點我也非常認同。我覺得還是需要就從目前來看,還是需要一些中間的輔助的。誰知道?過了50年,數據量沒準成了1萬倍,到時候可能硬性也能搞定了。目前來看也許還是需要一些中間過程。
20. 做決策基于vector的決策還有研究前景嗎?
我作為一個決策出身的干,我覺得現在是做決策最好的時代。前幾年是相信大家都覺得是感知的時代,就感知大一統,涌現了非常多優秀的工作,每天都目不暇接。但我覺得low-high-in-foot已經都達到了。因為感知本質上是非常好做的。感知其實大家搞定的差不多了,我覺得啃這個硬骨頭還是非常有意思的對。
21. 有人也提出為什么一定要像人一樣駕駛?
要不說這個其實是一個非常唯心的觀點。其實包括有人問我說,你端你每天搞端到端沒有可解釋性怎么辦?然后我其實的觀點就是我也看過凱明大神和愷明大神的一個talk,就有人問他可解釋性,他的當時的反問是:我想請問一下你的目標檢測的detector,如果只從那個角度看是可解釋的嗎?你知道你為什么會detect出來這個嗎?你會每天擔心的睡不著覺嗎?就是說你的detector,你怎么沒告訴我,我是先看到頭了,然后看到馬燈的身體,然后我才檢測出來這個馬,你會很擔心這個事情。就可解釋性我覺得是值得尊重,但是看怎么用。對我覺得還是要實用主義一點。