123悬赏网_发布悬赏任务_广告任务平台

首頁(yè) > 活動(dòng)線報(bào) > 每日福利 > 解讀毫末技術(shù)論文Cam4DOcc:僅使用攝像頭可實(shí)現(xiàn)4D占據(jù)預(yù)測(cè)?

解讀毫末技術(shù)論文Cam4DOcc:僅使用攝像頭可實(shí)現(xiàn)4D占據(jù)預(yù)測(cè)?

發(fā)布時(shí)間:2024-04-08 21:11:01來(lái)源: 15210273549

為了確保自動(dòng)駕駛汽車(chē)在行駛中能夠安全、可靠地執(zhí)行任務(wù),了解周?chē)h(huán)境的變化至關(guān)重要。近年來(lái),一些技術(shù)能夠通過(guò)分析攝像機(jī)圖像來(lái)估計(jì)周?chē)矬w的位置和分布,這對(duì)于理解大規(guī)模場(chǎng)景的結(jié)構(gòu)非常有幫助。

然而,這些技術(shù)主要關(guān)注的是當(dāng)前的3D空間,對(duì)于未來(lái)物體可能的位置和狀態(tài)并沒(méi)有太多考慮。

為了解決這個(gè)問(wèn)題,最近,毫末智行聯(lián)合上海交大、國(guó)防科大、北京理工大學(xué)提出了一種新的方法,叫做Cam4DOcc。

這是一個(gè)專(zhuān)門(mén)為僅使用攝像頭進(jìn)行4D占用預(yù)測(cè)而設(shè)計(jì)的基準(zhǔn)測(cè)試,用于評(píng)估未來(lái)一段時(shí)間內(nèi)周?chē)鷪?chǎng)景的變化。

Cam4DOcc基準(zhǔn)測(cè)試的目標(biāo)是使用攝像頭圖像作為輸入,預(yù)測(cè)當(dāng)前和未來(lái)短時(shí)間內(nèi)(通常是幾秒內(nèi))的3D空間占用狀態(tài)。

包括對(duì)一般可移動(dòng)物體(GMO)和一般靜態(tài)物體(GSO)的占用狀態(tài)進(jìn)行預(yù)測(cè)。預(yù)測(cè)任務(wù)又分為多個(gè)級(jí)別,從預(yù)測(cè)膨脹的GMO到預(yù)測(cè)精細(xì)的GMO、GSO和自由空間。

Cam4DOcc基準(zhǔn)測(cè)試為自動(dòng)駕駛中的4D占用預(yù)測(cè)提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估平臺(tái),使研究人員能夠比較不同算法的性能。通過(guò)這些測(cè)試,研究人員可以更好地理解和改進(jìn)自動(dòng)駕駛系統(tǒng)在理解和預(yù)測(cè)周?chē)h(huán)境方面的能力。

毫末預(yù)測(cè),自動(dòng)駕駛領(lǐng)域中下一個(gè)重要的挑戰(zhàn)將是僅使用攝像頭進(jìn)行4D占據(jù)預(yù)測(cè)。這項(xiàng)技術(shù)不僅可以通過(guò)攝像頭圖像擴(kuò)展時(shí)間上的占據(jù)預(yù)測(cè),還要在BEV格式和預(yù)定義類(lèi)別之外拓展語(yǔ)義/實(shí)例預(yù)測(cè)。

該論文的主要核心貢獻(xiàn)包括:

提出了Cam4DOcc基準(zhǔn),這是第一個(gè)促進(jìn)基于攝像頭的4D占用預(yù)測(cè)未來(lái)工作的基準(zhǔn)。

通過(guò)利用現(xiàn)有數(shù)據(jù)集,提出了自動(dòng)駕駛場(chǎng)景中預(yù)測(cè)任務(wù)的新數(shù)據(jù)集格式。

提供了四種新穎的基于攝像頭的4D占用預(yù)測(cè)基線方法,其中三種是現(xiàn)成方法的擴(kuò)展。

還引入了一個(gè)新穎的端到端4D占用預(yù)測(cè)網(wǎng)絡(luò),展示了強(qiáng)大的性能,為研究者提供了有價(jià)值的參考。

論文引入了標(biāo)準(zhǔn)化評(píng)估協(xié)議,并通過(guò)Cam4DOcc基于該協(xié)議進(jìn)行了全面的實(shí)驗(yàn)和詳細(xì)的分析。

下面我們來(lái)詳細(xì)剖析這篇論文。

01.

解鎖自動(dòng)駕駛時(shí)空預(yù)測(cè)的超能力

該論文首先提出了一個(gè)新的數(shù)據(jù)集格式。

該格式基于現(xiàn)有的數(shù)據(jù)集(包括nuScenes、nuScenes-Occupancy和Lyft-Level5)進(jìn)行了擴(kuò)展和調(diào)整,這樣就可以適應(yīng)4D占用預(yù)測(cè)的需求,這里需求就包括關(guān)于可移動(dòng)和靜態(tài)物體的連續(xù)占用狀態(tài),以及它們的3D向后向心流的信息。

下圖為以原始和Scenes-Occupancy為基礎(chǔ),在Cam4DOcc中構(gòu)建數(shù)據(jù)集的整體流程。

通過(guò)利用現(xiàn)有數(shù)據(jù)集,提出了自動(dòng)駕駛場(chǎng)景中預(yù)測(cè)任務(wù)的新數(shù)據(jù)集格式被重組為一種新穎的格式,既考慮了一般的活動(dòng)類(lèi)別,也考慮了靜態(tài)類(lèi)別,用于統(tǒng)一的四維空間占用預(yù)測(cè)任務(wù)。

如下圖所示,論文首先將原始nuScenesnu分割成時(shí)間長(zhǎng)度為N = Np+Nf+1的序列。然后按順序?qū)梢茢?shù)據(jù)集動(dòng)物體進(jìn)行語(yǔ)義和實(shí)例注釋?zhuān)⑹占?GMO 中。

包括自行車(chē)、公共汽車(chē)、汽車(chē)、建筑、摩托車(chē)、拖車(chē)、卡車(chē)和行人,它們都被轉(zhuǎn)換為當(dāng)前坐標(biāo)系(t = 0)。

之后,再對(duì)當(dāng)前3D空間進(jìn)行體素化,并使用邊界框注釋語(yǔ)義/實(shí)際標(biāo)簽附加到可移動(dòng)對(duì)象的網(wǎng)格。

值得注意的是,在此過(guò)程中,一旦出現(xiàn)以下情況,無(wú)效實(shí)例就會(huì)被丟棄。

(1)如果它是 Np 個(gè)歷史幀中新出現(xiàn)的對(duì)象,則其可見(jiàn)性在 6 個(gè)攝像機(jī)圖像中低于 40%

(2)它首先出現(xiàn)在 Nf 個(gè)傳入幀中或者

(3)它超出了在 t = 0 時(shí)預(yù)定義的范圍(H,W,L)。可見(jiàn)性通過(guò)相機(jī)圖像中顯示的實(shí)例的所有像素的可見(jiàn)比例來(lái)量化[29]。基于恒定速度假設(shè)[22]、[44],利用順序注釋來(lái)填充缺失的中間實(shí)例。相同的操作也適用于 Lyft-Level5 數(shù)據(jù)集。

最后,論文作者利用Lyft-Level5數(shù)據(jù)集生成3D中的實(shí)例關(guān)聯(lián)生成三維向心流。利用此3D流來(lái)提高基于攝像頭的4D 占用預(yù)測(cè)的準(zhǔn)確性。

該論文的目標(biāo)不僅是預(yù)測(cè)GMO的未來(lái)位置,還要估計(jì)GSO的占用狀態(tài)和安全導(dǎo)航所需的自由空間。因此,作者們又進(jìn)一步將原始nuScenes中的順序?qū)嵗⑨屌c從nuScenes-Occupancy轉(zhuǎn)換到當(dāng)前幀的順序占用注釋連接起來(lái)。這種組合平衡了自動(dòng)駕駛應(yīng)用中下游導(dǎo)航的安全性和精度。GMO標(biāo)簽借鑒了原始nuScenes的邊界框標(biāo)注,可以看作是對(duì)可移動(dòng)障礙物進(jìn)行了膨脹操作。GSO 和免費(fèi)標(biāo)簽由nuScenes-Occupancy提供,專(zhuān)注于周?chē)笮铜h(huán)境的更細(xì)粒度的幾何結(jié)構(gòu)。

介紹完數(shù)據(jù)集,接下來(lái)是評(píng)估協(xié)議。為了充分發(fā)揮僅使用攝像頭的 4D 占用預(yù)測(cè)性能,作者在 Cam4DOcc 中建立了具有不同復(fù)雜程度的各種評(píng)估任務(wù)和指標(biāo)。

論文在標(biāo)準(zhǔn)化評(píng)估協(xié)議中引入了四級(jí)占用預(yù)測(cè)任務(wù):

(1)預(yù)測(cè)膨脹的GMO:所有占用網(wǎng)格的類(lèi)別分為GMO和其他,其中來(lái)自nuScenes和LyftLevel5的實(shí)例邊界框內(nèi)的體素網(wǎng)格被注釋作為GMO。

(2)預(yù)測(cè)細(xì)粒度GMO:類(lèi)別也分為GMO和其他,但GMO的注釋直接來(lái)自nuScenes-Occupancy的體素標(biāo)簽,去除了第2節(jié)中介紹的無(wú)效網(wǎng)格。

(3)預(yù)測(cè)膨脹的GMO、細(xì)粒度GSO和自由空間:類(lèi)別分為來(lái)自邊界框注釋的GMO、遵循細(xì)粒度注釋的GSO和自由空間。

(4)預(yù)測(cè)細(xì)粒度GMO、細(xì)粒度GSO和自由空間:類(lèi)別分為GMO和GSO,均遵循細(xì)粒度注釋?zhuān)妥杂煽臻g。由于 Lyft-Level5 數(shù)據(jù)集缺少占用標(biāo)簽,因此作者僅對(duì)其第一個(gè)任務(wù)進(jìn)行指標(biāo)評(píng)估。對(duì)于所有四個(gè)任務(wù),作者使用交并集(IoU)作為性能指標(biāo)。作者分別評(píng)估當(dāng)前時(shí)刻 (t = 0) 占用率估計(jì)和未來(lái)時(shí)間 (t ∈ [1, Nf ]) 預(yù)測(cè):

其中St'和St分別表示時(shí)間戳t處的估計(jì)體素狀態(tài)和真實(shí)體素狀態(tài),更接近當(dāng)前時(shí)刻的時(shí)間戳的IoU對(duì)最終的IoUf貢獻(xiàn)更大。這符合“接近時(shí)間戳的占用預(yù)測(cè)對(duì)于后續(xù)運(yùn)動(dòng)規(guī)劃和決策更為重要”的yuan。

接下來(lái),論文作者們又提出了四種基線。

為了建立一個(gè)全面比較的基準(zhǔn),基于攝像頭的感知和預(yù)測(cè)功能,論文引入了四種不同類(lèi)型的基線方法。

這些方法包括靜態(tài)世界占用模型、點(diǎn)云預(yù)測(cè)的體素化、基于2D-3D實(shí)例的預(yù)測(cè)。這些基線方法為論文提供了一個(gè)框架,以便可以比較和評(píng)估各種方法在當(dāng)前和未來(lái)占用估計(jì)方面的性能。

靜態(tài)世界占用模型可以理解為一種假設(shè)環(huán)境在短時(shí)間內(nèi)保持不變的簡(jiǎn)單方法。在這種假設(shè)下,當(dāng)前估計(jì)的占用網(wǎng)格可以作為所有未來(lái)時(shí)間步的預(yù)測(cè)。這種方法僅基于靜態(tài)世界假設(shè),即在預(yù)測(cè)的時(shí)間范圍內(nèi),場(chǎng)景中的物體不會(huì)發(fā)生顯著的運(yùn)動(dòng)變化。(如下圖)

點(diǎn)云預(yù)測(cè)的體素化是指將點(diǎn)云預(yù)測(cè)的結(jié)果轉(zhuǎn)換為體素(voxel)表示的一種方法。

一般這個(gè)過(guò)程涉及幾個(gè)步驟:

深度估計(jì):首先,使用環(huán)視攝像頭捕獲的圖像,通過(guò)深度估計(jì)算法生成連續(xù)的周?chē)晥D深度圖。

點(diǎn)云生成:接著,通過(guò)射線投射(ray casting)技術(shù),將深度圖轉(zhuǎn)換為3D點(diǎn)云。這個(gè)過(guò)程模擬了激光雷達(dá)(LiDAR)的工作原理,通過(guò)多個(gè)攝像頭的深度信息來(lái)重建三維空間中的點(diǎn)。

點(diǎn)云預(yù)測(cè):使用現(xiàn)有的點(diǎn)云預(yù)測(cè)方法(如PCPNet)來(lái)預(yù)測(cè)未來(lái)時(shí)間步的3D點(diǎn)云。這些方法通常基于當(dāng)前的點(diǎn)云數(shù)據(jù),通過(guò)學(xué)習(xí)點(diǎn)云隨時(shí)間變化的模式來(lái)預(yù)測(cè)未來(lái)的點(diǎn)云。

語(yǔ)義分割:預(yù)測(cè)得到的點(diǎn)云通過(guò)語(yǔ)義分割算法(如Cylinder3D)進(jìn)行處理,以提取可移動(dòng)和靜態(tài)物體的點(diǎn)級(jí)標(biāo)簽。

體素化:最后,將預(yù)測(cè)得到的點(diǎn)云轉(zhuǎn)換為體素表示,即將每個(gè)點(diǎn)映射到一個(gè)三維網(wǎng)格中,形成占用網(wǎng)格(occupancy grid)。這樣,每個(gè)體素代表一個(gè)空間體積,其值表示該空間是否被物體占據(jù)。

這種方法的關(guān)鍵作用在于,它能夠?qū)Ⅻc(diǎn)云預(yù)測(cè)的結(jié)果轉(zhuǎn)換為一種適合于占用預(yù)測(cè)的格式,即體素化表示。通過(guò)這種方式,可以更好地評(píng)估和比較不同預(yù)測(cè)方法在自動(dòng)駕駛場(chǎng)景中對(duì)動(dòng)態(tài)和靜態(tài)物體未來(lái)狀態(tài)的預(yù)測(cè)能力。

基于2D-3D實(shí)例的預(yù)測(cè)指的是一種基于實(shí)例的預(yù)測(cè)方法,它使用環(huán)繞視圖攝像頭來(lái)預(yù)測(cè)近未來(lái)的語(yǔ)義場(chǎng)景,包括車(chē)輛、行人等動(dòng)態(tài)物體的位置和運(yùn)動(dòng)。這種方法是作為Cam4DOcc基準(zhǔn)中的一個(gè)基線提出的,用于評(píng)估和比較不同的4D占用預(yù)測(cè)方法。

當(dāng)然,在智駕網(wǎng)看來(lái),基于2D-3D實(shí)例的預(yù)測(cè)方法也有一定局限性。

這個(gè)方法涉及到2D實(shí)例預(yù)測(cè)的步驟,2D實(shí)例預(yù)測(cè)是指使用2D鳥(niǎo)瞰圖(BEV)格式的實(shí)例預(yù)測(cè)算法(如PowerBEV)來(lái)預(yù)測(cè)動(dòng)態(tài)物體在未來(lái)時(shí)間步的語(yǔ)義分布。這些算法直接從多視圖2D攝像頭圖像中提取BEV特征,并結(jié)合時(shí)間信息來(lái)估計(jì)未來(lái)的實(shí)例分布。

局限就在于它依賴(lài)于2D BEV格式的預(yù)測(cè),并且假設(shè)所有動(dòng)態(tài)物體在同一高度上運(yùn)動(dòng),這可能不適用于所有場(chǎng)景,特別是在復(fù)雜的城市環(huán)境中。

上述三種基線在執(zhí)行任務(wù)過(guò)程中都存在局限性,因?yàn)椴荒苤苯宇A(yù)測(cè)未來(lái)三維空間的占用狀態(tài),它們需要額外的后處理——根據(jù)現(xiàn)有結(jié)果擴(kuò)展和轉(zhuǎn)化為四維空間占用預(yù)測(cè)。

因此,論文也提出了端到端的4D占用預(yù)測(cè)網(wǎng)絡(luò)OCFNet。

02.

OCFNet:端到端4D占用預(yù)測(cè)的創(chuàng)新

OCFNet能夠直接從攝像頭圖像中預(yù)測(cè)3D空間的未來(lái)占用狀態(tài),而不需要依賴(lài)于2D到3D的轉(zhuǎn)換。

OCFNet通過(guò)接收連續(xù)的環(huán)繞視圖攝像頭圖像,能夠同時(shí)預(yù)測(cè)當(dāng)前占用狀態(tài)和未來(lái)占用變化。該網(wǎng)絡(luò)利用多幀特征聚合模塊和未來(lái)狀態(tài)預(yù)測(cè)模塊,不僅預(yù)測(cè)了物體的占用狀態(tài),還預(yù)測(cè)了物體的運(yùn)動(dòng)流,為自動(dòng)駕駛車(chē)輛提供了更為豐富和精確的信息。

最后論文結(jié)果分析,OCFNet的性能在多個(gè)任務(wù)上超過(guò)了第一段分析的三個(gè)基線方法(靜態(tài)世界占用模型、點(diǎn)云預(yù)測(cè)的體素化、2D-3D實(shí)例基礎(chǔ)預(yù)測(cè))。

比如下圖中的實(shí)驗(yàn)任務(wù)是預(yù)測(cè)nuScenes和LyftLevel5上的GMO。這里OpenOccupancy-C、PowerBEV和OCFNet僅使用膨脹的GMO標(biāo)簽進(jìn)行訓(xùn)練,而PCPNet則通過(guò)整體點(diǎn)云進(jìn)行訓(xùn)練。OCFNet和OCFNet†優(yōu)于所有其他基線,在 nuScenes上的IoUf和IoUf'上超過(guò)基于BEV的方法12.4%和13.3%。在Lyft-Level5上,作者的OCFNet和OCFNet†在 IoUf和IoUf'方面始終優(yōu)于PowerBEV-3D 20.8%和21.8%。

下圖顯示了OCFNet和CFNet†對(duì)nuScenes GMO占用率進(jìn)行預(yù)測(cè)的結(jié)果,這表明僅使用有限數(shù)據(jù)訓(xùn)練的OCFNet仍然可以合理地捕獲GMO占用網(wǎng)格的運(yùn)動(dòng)。此外,預(yù)測(cè)對(duì)象的形狀在未來(lái)的時(shí)間步長(zhǎng)中會(huì)顯著失去一致性。OpenOccupancy-C的性能遠(yuǎn)優(yōu)于點(diǎn)云預(yù)測(cè)基線,但與PowerEBV-3D和OCFNet相比,估計(jì)當(dāng)前占用率和預(yù)測(cè)未來(lái)占用率的能力仍然較弱。

通過(guò)在提出的Cam4DOcc基準(zhǔn)上運(yùn)行所有基線方法,作者收集了詳細(xì)的性能數(shù)據(jù)。評(píng)估指標(biāo)包括交并比IoU和視頻全景質(zhì)量(VPQ),這些指標(biāo)衡量了模型在當(dāng)前和未來(lái)時(shí)間步的占用預(yù)測(cè)準(zhǔn)確性。

結(jié)果表明,OCFNet在多個(gè)任務(wù)上都取得了更高的IoU分?jǐn)?shù),這表明在預(yù)測(cè)當(dāng)前和未來(lái)的占用狀態(tài)方面更為準(zhǔn)確。

為了進(jìn)一步證明OCFNet的優(yōu)勢(shì),作者還進(jìn)行了消融研究,展示了網(wǎng)絡(luò)中不同組件(如流預(yù)測(cè)頭)對(duì)性能的貢獻(xiàn)。

下圖實(shí)驗(yàn)表明,在當(dāng)前和未來(lái)的占用率估計(jì)中,完整的OCFNet比沒(méi)有流預(yù)測(cè)頭的OCFNet增強(qiáng)了約 4%。原因可能是 3D 流程指導(dǎo)學(xué)習(xí)每個(gè)時(shí)間間隔的 GMO 運(yùn)動(dòng),從而幫助模型確定下一個(gè)時(shí)間戳中占用估計(jì)的變化。

簡(jiǎn)單來(lái)講,OCFNet的優(yōu)勢(shì)在于,通過(guò)端到端的方式直接預(yù)測(cè)未來(lái)的占用狀態(tài),減少了傳統(tǒng)方法中的偽影,提供了更準(zhǔn)確的預(yù)測(cè)結(jié)果。

盡管OCFNet取得了顯著的成果,但如若應(yīng)用在未來(lái)的工作上,對(duì)于更長(zhǎng)時(shí)間段內(nèi)多個(gè)移動(dòng)物體的預(yù)測(cè),論文認(rèn)為這一任務(wù)仍然具有挑戰(zhàn)性。不過(guò)未來(lái)的工作可以在此基礎(chǔ)上進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性和魯棒性。

03.

說(shuō)到最后,端到端的技術(shù)興起背后

馬斯克的第一性原理同樣可以化套用在自動(dòng)駕駛的能力上。

如果從第一性原理來(lái)講,自動(dòng)駕駛就是一個(gè)序列到序列的映射過(guò)程,輸入的是一個(gè)傳感器信號(hào)序列,可能包括多個(gè)攝像頭采集到的視頻、Lidar采集到的點(diǎn)云、GPS、IMU 等各類(lèi)信息,輸出的是一個(gè)駕駛決策序列,例如可以是駕駛動(dòng)作序列,也可以輸出軌跡序列再轉(zhuǎn)為操作動(dòng)作。

這個(gè)過(guò)程與大部分AI任務(wù)基本一致,這種映射過(guò)程就相當(dāng)于一個(gè)函數(shù)y= f(x),但實(shí)現(xiàn)這種函數(shù)難度較大,任務(wù)復(fù)雜,一般解決方式包括分治法、端到端、傳統(tǒng)分治法等。

端到端的方式原理最為簡(jiǎn)單——直接尋找一個(gè)函數(shù)實(shí)現(xiàn)y=f(x)。

相比之下,端到端自動(dòng)駕駛不進(jìn)行任務(wù)切分,希望直接輸入傳感器數(shù)據(jù)、輸出駕駛決策(動(dòng)作或者軌跡),從而拋棄傳統(tǒng)自動(dòng)駕駛里的感知、預(yù)測(cè)、規(guī)劃、控制等各類(lèi)子任務(wù)。這種方式有明顯的優(yōu)勢(shì),例如:

•效果上:不但系統(tǒng)更簡(jiǎn)單,還能實(shí)現(xiàn)全局最優(yōu)。

•效率上:由于任務(wù)更少,避免了大量重復(fù)處理,可以提高計(jì)算效率。

•數(shù)據(jù)收益:不需要大量的人工策略、只需要采集足夠多的優(yōu)質(zhì)駕駛數(shù)據(jù)來(lái)訓(xùn)練即可,可以通過(guò)規(guī)模化的方式(不斷擴(kuò)展數(shù)據(jù))來(lái)不斷提升系統(tǒng)的能力上限。

一個(gè)典型的端到端自動(dòng)駕駛系統(tǒng)如圖所示:

輸入:大部分自動(dòng)駕駛汽車(chē)都裝載了攝像頭、Lidar、毫米波雷達(dá)等各類(lèi)傳感器,采集這些傳感器的數(shù)據(jù),輸入深度學(xué)習(xí)系統(tǒng)即可。

輸出:可以直接輸出轉(zhuǎn)向角、油門(mén)、剎車(chē)等控制信號(hào),也可以先輸出軌跡再結(jié)合不同的車(chē)輛動(dòng)力學(xué)模型,將軌跡轉(zhuǎn)為轉(zhuǎn)向角、油門(mén)、剎車(chē)等控制信號(hào)。

可見(jiàn),端到端自動(dòng)駕駛系統(tǒng)就像人類(lèi)的大腦,通過(guò)眼睛、耳朵等傳感器接收信息,經(jīng)過(guò)大腦處理后,下達(dá)指令給手腳執(zhí)行命令……但是這種簡(jiǎn)單也隱藏了巨大的風(fēng)險(xiǎn),例如可解釋性很差,無(wú)法像傳統(tǒng)自動(dòng)駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來(lái)進(jìn)行分析;對(duì)數(shù)據(jù)的要求非常高,需要高質(zhì)量的、分布多樣的、海量的訓(xùn)練數(shù)據(jù),否則 AI 就會(huì)實(shí)現(xiàn)垃圾進(jìn)垃圾出。

與傳統(tǒng)的自動(dòng)駕駛方式對(duì)比可見(jiàn),同樣的輸入、同樣的輸出,傳統(tǒng)自動(dòng)駕駛包含多個(gè)任務(wù)(多個(gè)模塊),但是端到端只有一個(gè)任務(wù)。此處容易產(chǎn)生一個(gè)誤區(qū),即認(rèn)為傳統(tǒng)的自動(dòng)駕駛是多模塊的、端到端自動(dòng)駕駛是單模塊的,把分模塊與分任務(wù)的概念搞混了。

傳統(tǒng)的自動(dòng)駕駛是分任務(wù)的,必然是多個(gè)模塊。端到端自動(dòng)駕駛可以用單模塊來(lái)實(shí)現(xiàn),當(dāng)然也可以用多模塊來(lái)實(shí)現(xiàn),其區(qū)別在于是否端到端訓(xùn)練。分任務(wù)系統(tǒng)是每個(gè)任務(wù)獨(dú)立訓(xùn)練、獨(dú)立優(yōu)化、獨(dú)立測(cè)評(píng)的,而端到端系統(tǒng)是把所有模塊看成一個(gè)整體進(jìn)行端到端訓(xùn)練、端到端測(cè)評(píng)的。

例如2023年CVPR best paper提出的UniAD就是一種分模塊端到端訓(xùn)練方式,這種方式通過(guò)端到端訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題實(shí)現(xiàn)全局最優(yōu),又保留了分模塊系統(tǒng)的優(yōu)勢(shì)、可以拋出中間模塊的結(jié)果進(jìn)行白盒化分析,反而更具靈活性對(duì)部署也更友好,如圖所示:

分任務(wù)的自動(dòng)駕駛系統(tǒng)更像model centric系統(tǒng),開(kāi)發(fā)者通過(guò)不斷優(yōu)化各個(gè)模型來(lái)提升各個(gè)任務(wù)的效果。而端到端自動(dòng)駕駛則更像data centric系統(tǒng),通過(guò)對(duì)數(shù)據(jù)的調(diào)優(yōu)來(lái)提升系統(tǒng)效果。

早年,由于自動(dòng)駕駛積累的數(shù)據(jù)還非常少,端到端系統(tǒng)的效果往往比較差。最近幾年,隨著帶高階輔助駕駛功能的量產(chǎn)車(chē)大規(guī)模落地,通過(guò)海量量產(chǎn)車(chē)可以采集到豐富的駕駛數(shù)據(jù),覆蓋各類(lèi)場(chǎng)景,再加上最近幾年 AI 算力的蓬勃發(fā)展,端到端自動(dòng)駕駛在海量數(shù)據(jù)、海量算力的加持下,取得了突破性進(jìn)展。

以特斯拉為例,通過(guò)遍布全球的幾百萬(wàn)輛量產(chǎn)車(chē),可以采集到足夠豐富、足夠多樣的數(shù)據(jù),再?gòu)闹羞x出優(yōu)質(zhì)數(shù)據(jù),在云端使用數(shù)萬(wàn)張 GPU、以及自研的 DOJO 進(jìn)行訓(xùn)練和驗(yàn)證,使得端到端自動(dòng)駕駛能夠從 paper 變成 product。

到 2023 年初,特斯拉就聲稱(chēng)已經(jīng)分析了從特斯拉客戶(hù)的汽車(chē)中收集的1000萬(wàn)個(gè)視頻片段(clips),特斯拉判斷完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬(wàn)個(gè)、分布多樣、高質(zhì)量的clips才能正常工作。

特斯拉通過(guò)分布在全球的幾百萬(wàn)量產(chǎn)車(chē),基于影子模式,每當(dāng)自動(dòng)駕駛決策與人類(lèi)司機(jī)不一致時(shí),就會(huì)采集并回傳一個(gè) clip,已經(jīng)累積了 200P 以上的數(shù)據(jù),不管是數(shù)據(jù)規(guī)模、數(shù)據(jù)分布還是數(shù)據(jù)質(zhì)量上都遙遙領(lǐng)先。為了能在云端處理這些數(shù)據(jù),當(dāng)前特斯拉擁有近10萬(wàn)張A100,位居全球top5,預(yù)計(jì)到今年底會(huì)擁有100EFlops的算力,并針對(duì)自動(dòng)駕駛自研了Dojo,在算力上同樣遙遙領(lǐng)先。

端到端的挑戰(zhàn)比當(dāng)前帶來(lái)的驚喜感要更多。

從特斯拉的開(kāi)發(fā)經(jīng)驗(yàn)來(lái)看,端到端自動(dòng)駕駛門(mén)檻頗高,其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。

每日福利更多>>

從SUV王者到越野專(zhuān)家,長(zhǎng)城把″聚焦″這個(gè)方法論貫徹始終 國(guó)產(chǎn)煥新Model Y 或是特斯拉5月份澳大利亞銷(xiāo)量主要來(lái)源 小桔充電與比亞迪達(dá)成戰(zhàn)略合作 共建超充網(wǎng)絡(luò)開(kāi)放生態(tài) 一汽奧迪Q6L e-tron:讓華為智駕有“德味”,比“堆料”更懂本質(zhì) 蔚來(lái)精細(xì)化管理研發(fā)投入:CBU機(jī)制推行后,非必要研發(fā)項(xiàng)目不予立項(xiàng) 蘋(píng)果iPhone 13 5G手機(jī)128GB午夜色到手價(jià)1584元 多彩小直屏vivo S30系列發(fā)布 官方稱(chēng)vivo X Fold5 將打破 X Fold3最輕記錄 榮耀 Earbuds 4i 耳機(jī)首銷(xiāo):50dB 降噪、11mm 鍍鈦低音單元,249 元 帕沃森摸魚(yú)戰(zhàn)士手機(jī)殼限時(shí)特惠9.1元 榮耀進(jìn)軍機(jī)器人!手機(jī)廠商扎堆機(jī)器人賽道 環(huán)球、華納和索尼音樂(lè)正與兩初創(chuàng)公司磋商AI音樂(lè)權(quán)限 小米618推出線下主題科技展,國(guó)內(nèi)首款自主研發(fā)3 nm旗艦亮相展出 東風(fēng)汽車(chē)賀琳曼詳解車(chē)載光通信的技術(shù)研究與應(yīng)用實(shí)踐 大眾報(bào)業(yè)集團(tuán)駐地媒體聯(lián)合采訪團(tuán)走進(jìn)山東鳳凰制藥股份有限公司 滬深兩市今日成交額合計(jì)1.19萬(wàn)億,比亞迪成交額居首 吉利集團(tuán)旗下電池公司吉曜通行:預(yù)計(jì)到2027年形成70GWh電池產(chǎn)能規(guī)模 2025款長(zhǎng)安UNI-Z上市,燃油版11.59萬(wàn)起、PHEV版12.69萬(wàn)起 阿電入烏儲(chǔ)能采購(gòu)開(kāi)標(biāo):0.46-0.58元/Wh,構(gòu)網(wǎng)型600MWh,比亞迪最低,陽(yáng)光最高 日系車(chē)質(zhì)量投訴霸榜,一汽豐田“開(kāi)不壞”神話破滅了? 小鵬MONA發(fā)布會(huì)變身車(chē)友派對(duì),歐陽(yáng)娜娜亮相何小鵬信心十足 16個(gè)區(qū)全覆蓋!蔚來(lái)能源實(shí)現(xiàn)天津換電縣縣通 限時(shí)先享價(jià)7.99萬(wàn)元起,“國(guó)民智趣純電SUV”東風(fēng)納米06正式上市! 35.99萬(wàn)-40.99萬(wàn)!乾崑智駕奢享旗艦MPV,傳祺向往M8乾崑正式上市 10萬(wàn)級(jí)純電家轎,610km續(xù)航+2C快充,試駕五菱星光EV 3000億!長(zhǎng)安汽車(chē)董事長(zhǎng)朱華榮定下今年銷(xiāo)量目標(biāo),不會(huì)因重組改變既定戰(zhàn)略 比亞迪打響價(jià)格戰(zhàn)!比亞迪海豹06DM-i旅行版是否為務(wù)實(shí)之選? 2025款釔為3 VS 埃安UT,誰(shuí)更值得選購(gòu)? 比亞迪成為CCTV科技強(qiáng)國(guó)戰(zhàn)略合作伙伴 EQB對(duì)L6,一個(gè)奔馳“圖騰”,一個(gè)理想“家庭戰(zhàn)車(chē)”,選哪個(gè)?
主站蜘蛛池模板: 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 济南律师,济南法律咨询,山东法律顾问-山东沃德律师事务所 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 电缆接头_防水接头_电缆防水接头_防水电缆接头_上海闵彬 | Safety light curtain|Belt Sway Switches|Pull Rope Switch|ultrasonic flaw detector-Shandong Zhuoxin Machinery Co., Ltd | 西安文都考研官网_西安考研辅导班_考研培训机构_西安在职考研培训 | 赛尔特智能移动阳光房-阳光房厂家-赛尔特建筑科技(广东)有限公司 | 青岛成人高考_山东成考报名网| 优秀的临床医学知识库,临床知识库,医疗知识库,满足电子病历四级要求,免费试用 | 定制/定做衬衫厂家/公司-衬衫订做/订制价格/费用-北京圣达信 | 数码听觉统合训练系统-儿童感觉-早期言语评估与训练系统-北京鑫泰盛世科技发展有限公司 | 工业设计,人工智能,体验式3D展示的智能技术交流服务平台-纳金网 J.S.Bach 圣巴赫_高端背景音乐系统_官网 | 安徽泰科检测科技有限公司【官方网站】| SMN-1/SMN-A ABB抽屉开关柜触头夹紧力检测仪-SMN-B/SMN-C-上海徐吉 | 贝朗斯动力商城(BRCPOWER.COM) - 买叉车蓄电池上贝朗斯商城,价格更超值,品质有保障! | 深圳公司注册-工商注册公司-千百顺代理记账公司 | 塑料熔指仪-塑料熔融指数仪-熔体流动速率试验机-广东宏拓仪器科技有限公司 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | CTP磁天平|小电容测量仪|阴阳极极化_双液系沸点测定仪|dsj电渗实验装置-南京桑力电子设备厂 | 三价铬_环保铬_环保电镀_东莞共盈新材料贸易有限公司 | 防堵吹扫装置-防堵风压测量装置-电动操作显示器-兴洲仪器 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 风淋室生产厂家报价_传递窗|送风口|臭氧机|FFU-山东盛之源净化设备 | 合肥活动房_安徽活动板房_集成打包箱房厂家-安徽玉强钢结构集成房屋有限公司 | 手机存放柜,超市储物柜,电子储物柜,自动寄存柜,行李寄存柜,自动存包柜,条码存包柜-上海天琪实业有限公司 | 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | AGV叉车|无人叉车|AGV智能叉车|AGV搬运车-江西丹巴赫机器人股份有限公司 | 茶楼装修设计_茶馆室内设计效果图_云臻轩茶楼装饰公司 | 西安标准厂房_陕西工业厂房_西咸新区独栋厂房_长信科技产业园官方网站 | 办公室家具公司_办公家具品牌厂家_森拉堡办公家具【官网】 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 免费分销系统 — 分销商城系统_分销小程序开发 -【微商来】 | 真空冷冻干燥机_国产冻干机_冷冻干燥机_北京四环冻干 | 蔬菜清洗机_环速洗菜机_异物去除清洗机_蔬菜清洗机_商用洗菜机 - 环速科技有限公司 | 2025黄道吉日查询、吉时查询、老黄历查询平台- 黄道吉日查询网 | 胜为光纤光缆_光纤跳线_单模尾纤_光纤收发器_ODF光纤配线架厂家直销_北京睿创胜为科技有限公司 - 北京睿创胜为科技有限公司 | 济南展厅设计施工_数字化展厅策划设计施工公司_山东锐尚文化传播有限公司 | 河南凯邦机械制造有限公司|