兩年前,一些企業(yè)和特斯拉在自動(dòng)駕駛的不同技術(shù)路線上較勁,現(xiàn)在他們紛紛走上了特斯拉的道路。同時(shí),一種全新的感知范式——BEV+Transformer,已經(jīng)從特斯拉迅速擴(kuò)延到更多自動(dòng)駕駛企業(yè)的藍(lán)圖規(guī)劃中。
(資料圖片僅供參考)
文|周享玥
編|趙艷秋
2019年,狂人馬斯克一句“Lidar is a fool’s errand”,直接讓自動(dòng)駕駛路線一分為二,特斯拉如獨(dú)行俠一般,堅(jiān)持探索起自己的純視覺(jué)路線,其余絕大部分玩家則朝著激光雷達(dá)的方向一路前行。尤其是在發(fā)現(xiàn)高精地圖可為自動(dòng)駕駛提供超視距信息后,“激光雷達(dá)等多傳感器融合+高精地圖”的技術(shù)路線更是成為大部分企業(yè)的普遍選擇,以尋求兼顧成本和安全的最優(yōu)解。
根據(jù)中金在《人工智能十年展望(三):AI 視角下的自動(dòng)駕駛行業(yè)全解析》中的定義,視覺(jué)主導(dǎo)與激光雷達(dá)技術(shù)路徑之爭(zhēng),從技術(shù)角度看,本質(zhì)上是AI算法+硬件逼近人腦能力的速度,與激光雷達(dá)等可選硬件對(duì)數(shù)據(jù)量、算法彌補(bǔ)程度及其降價(jià)速度之間的競(jìng)爭(zhēng)。
早期,大家在各自路線上都有進(jìn)展。不過(guò),隨著自動(dòng)駕駛企業(yè)們從高速NOA(自動(dòng)輔助導(dǎo)航駕駛)走向城市NOA,曾經(jīng)被視為“香餑餑”的高精地圖開(kāi)始日漸失寵,反而是特斯拉以攝像頭與各種傳感器作為硬件,背后重算法的路線慢慢受到重視。
一些企業(yè)也從前兩年和特斯拉的路線較勁,紛紛轉(zhuǎn)到了“重感知,輕地圖”的模式。與此同時(shí),一種全新的感知范式——BEV+Transformer,已經(jīng)從特斯拉迅速擴(kuò)延到更多自動(dòng)駕駛企業(yè)的藍(lán)圖規(guī)劃中。
而隨著ChatGPT的驟然爆火,生成式AI大模型正在給自動(dòng)駕駛領(lǐng)域帶來(lái)一些新的變量和啟示。
01
自動(dòng)駕駛?cè)?ldquo;去高精地圖化”
2021年年中,正在沖刺港股雙重上市的小鵬汽車(chē),斥資2.5億元收購(gòu)了一家進(jìn)入破產(chǎn)程序的地圖公司智途科技。這家公司2019年的營(yíng)收只有738萬(wàn)元,能得“金主”小鵬看中的原因在于,其擁有堪稱“稀有”的導(dǎo)航電子地圖制作甲級(jí)測(cè)繪資質(zhì)。這是入局高精地圖的門(mén)檻所在,過(guò)去二三十年間,國(guó)內(nèi)也不過(guò)30多家企業(yè)獲得過(guò)這一資質(zhì)。
高精地圖和激光雷達(dá)一向被喻為“自動(dòng)駕駛的兩根拐杖”——前者負(fù)責(zé)開(kāi)路,提高規(guī)劃能力;后者負(fù)責(zé)避障,用來(lái)增強(qiáng)感知能力。為此,高精地圖一直被視作自動(dòng)駕駛汽車(chē)基礎(chǔ)設(shè)施的一部分,是“兵家必爭(zhēng)之地”。
此前,小鵬雖與高德合作,可采用后者提供的高精地圖,但地圖的更新要依賴高德的節(jié)奏。自己擁有一家高精地圖公司就不一樣了。
這是當(dāng)時(shí)絕大多數(shù)車(chē)企的共同想法。吉利旗下的億咖通、上汽控股的中海庭都曾拿到甲級(jí)測(cè)繪資質(zhì),長(zhǎng)城汽車(chē)、蔚來(lái)汽車(chē)、小米汽車(chē)等,也都試圖尋求過(guò)相關(guān)資質(zhì)的收購(gòu)。但“牌照” 這東西終歸僧多肉少,因此也有大量自動(dòng)駕駛企業(yè)通過(guò)與圖商合作,將高精地圖裝上了車(chē),一如理想2021年與高德地圖的合作,又如蔚來(lái)2022年與騰訊在高精地圖領(lǐng)域的合作。
不管是通過(guò)哪種方式,高精地圖的確在高速公路、園區(qū)等相對(duì)封閉的場(chǎng)景中廣泛應(yīng)用起來(lái)。其效果也十分顯著,絕大多數(shù)車(chē)企都實(shí)現(xiàn)了與特斯拉導(dǎo)航輔助駕駛類(lèi)似的功能。例如小鵬用于高速公路的智能導(dǎo)航輔助駕駛NGP、蔚來(lái)的NOP、理想的NOA、長(zhǎng)城的NOH,以及廣汽埃安的NDA等。
佐思汽研發(fā)布的《2022年高精度地圖行業(yè)研究報(bào)告》顯示,2022年上半年,中國(guó)乘用車(chē)前裝高精地圖裝配量超10萬(wàn)輛,高精地圖已從選配走向標(biāo)配,如理想L9、蔚來(lái)ET7、高合HiPhi等。
高精地圖在高速公路等封閉場(chǎng)景推進(jìn)迅速,但當(dāng)它來(lái)到城市,情況出現(xiàn)了180度大轉(zhuǎn)彎。從2022年下半年開(kāi)始,隨著對(duì)城市自動(dòng)輔助駕駛的探索持續(xù)深入,自動(dòng)駕駛?cè)θジ呔貓D化的動(dòng)作愈發(fā)明顯。
2022年4月,長(zhǎng)城旗下毫末智行提出要做“重感知、輕地圖”的城市智能駕駛,開(kāi)始降低方案中高精地圖的權(quán)重,乃至做到無(wú)需高精地圖;同年下半年,華為余承東表示:“自動(dòng)駕駛未來(lái)不應(yīng)過(guò)分依賴于高精地圖、車(chē)路協(xié)同。”盡管華為本身正是具備甲級(jí)測(cè)繪資質(zhì)的企業(yè)。
等到2023年上半年,“去高精地圖”運(yùn)動(dòng)更加熱鬧。華為4月上市的問(wèn)界M5和問(wèn)界M5 EV,新增的高階智能駕駛版本不依賴高精地圖,主要通過(guò)車(chē)端融合感知來(lái)進(jìn)行環(huán)境識(shí)別。按照規(guī)劃,至2023年三季度,問(wèn)界 M5 智駕版 HUAWEI ADS 2.0 將在 15 城實(shí)現(xiàn)不依賴高精地圖落地,至四季度,這一數(shù)字還將進(jìn)一步擴(kuò)展至45城。
何小鵬在1月的小鵬汽車(chē)全員會(huì)上提出,小鵬2023年的X-NGP輔助駕駛要拋掉高精地圖。李想在內(nèi)部表態(tài),理想汽車(chē)不依賴高精地圖的端到端訓(xùn)練城市NOA導(dǎo)航輔助駕駛,將會(huì)在2023年底開(kāi)始落地。而元戎啟行、智行者、地平線等多家自動(dòng)駕駛公司也都順勢(shì)發(fā)布了不依賴高精地圖的自動(dòng)駕駛方案和產(chǎn)品。
至于百度,雖沒(méi)有完全放棄高精地圖,但也在嘗試減少對(duì)高精地圖的依賴,于近期推出了城市域領(lǐng)航輔助駕駛Apollo City Driving Max,搭載“輕量級(jí)高精地圖”,據(jù)稱比起行業(yè)通用的傳統(tǒng)高精地圖要“輕”近80%。“我們判斷,完全不依賴高精地圖的路線可以走通,但走通的時(shí)間絕對(duì)不是今年或者明年。” 百度集團(tuán)副總裁、智能汽車(chē)事業(yè)部總經(jīng)理儲(chǔ)瑞松表示。
高精地圖路線由熱轉(zhuǎn)冷背后,是高級(jí)別輔助駕駛從高速場(chǎng)景駛?cè)氤鞘泻螅焕蛩乇贿M(jìn)一步放大。
不同于普通導(dǎo)航地圖,高精地圖是給機(jī)器看的,定位精度可達(dá)到厘米級(jí),且蘊(yùn)含信息豐富,除了會(huì)記錄道路形狀、坡度、曲率、方向等道路數(shù)據(jù),還能提供車(chē)道線類(lèi)型、車(chē)道寬度等車(chē)道級(jí)別的導(dǎo)航信息,以及諸如交通標(biāo)志、高架物體、防護(hù)欄等車(chē)道周邊的3D輪廓信息,從而更好地幫助車(chē)輛完成行進(jìn)規(guī)劃。但這恰恰也意味著高精度地圖本身更新周期漫長(zhǎng)、成本高昂。
根據(jù)《智能網(wǎng)聯(lián)汽車(chē)高精地圖白皮書(shū)》,采用傳統(tǒng)測(cè)繪車(chē)方式,分米級(jí)地圖的測(cè)繪效率約為每天每車(chē)500公里道路,成本為每公里10元左右,而厘米級(jí)地圖的測(cè)繪效率約為每天每車(chē)100公里道路,成本可能達(dá)每公里千元,一天就是十萬(wàn)元級(jí)別的費(fèi)用。
這放在之前,大家主攻的是中國(guó)城際高速公路和城市快速路,總的里程數(shù)加起來(lái)也就30萬(wàn)公里,尚且可以努力一下,但全國(guó)的城市道路卻有近1000萬(wàn)公里,再加上城市道路更新變化又快,升級(jí)改造頻繁,地圖的鮮度和成本,都是巨大挑戰(zhàn)。
更何況,甲級(jí)測(cè)繪牌照還存在有效期,到期后需要復(fù)審,而國(guó)家對(duì)于地圖測(cè)繪資質(zhì)的監(jiān)管卻在收緊。2022年,也即小鵬曲線救國(guó)拿下“牌照”的第二年,智途科技沒(méi)能通過(guò)甲級(jí)測(cè)繪資質(zhì)復(fù)審,相當(dāng)于“買(mǎi)了個(gè)寂寞”,也一定程度上拖累了小鵬汽車(chē)城市 NGP的落地節(jié)奏。
同樣未能通過(guò)資質(zhì)復(fù)審的,還有上汽旗下的中海庭、東風(fēng)投資的立得空間等。有數(shù)據(jù)統(tǒng)計(jì),2019年相關(guān)部門(mén)將獲得資質(zhì)的圖商隊(duì)伍擴(kuò)容到了31家,但到2022年,只有19家單位通過(guò)復(fù)審,近三分之一被淘汰。
即便是選擇與圖商合作,由于高精地圖審圖非常慢,企業(yè)受到的掣肘也多,比如此前華為、小鵬的城市輔助駕駛之所以僅在廣州、深圳和上海開(kāi)放,原因之一就在于只有這幾個(gè)城市的地圖通過(guò)了審核。
不過(guò),要想在不依賴高精地圖的情況下,實(shí)現(xiàn)城市自動(dòng)輔助導(dǎo)航駕駛也并不是一件容易事兒。為此,不少自動(dòng)駕駛企業(yè)開(kāi)始向特斯拉“取經(jīng)”,紛紛轉(zhuǎn)向一種全新的感知范式——基于Transformer的BEV智駕大模型。
02
特斯拉的一次量子式躍升
2016年5月,一輛開(kāi)啟了自動(dòng)駕駛模式行駛的Model S在美國(guó)佛羅里達(dá)州的高速上行駛,卻在岔路口與一輛垂直方向開(kāi)來(lái)的白色廂式貨車(chē)相撞,40歲的司機(jī)Joshua Brown當(dāng)場(chǎng)死亡。這是全球首例被曝光的自動(dòng)駕駛事故,瞬間就將“當(dāng)紅炸子雞”特斯拉推上風(fēng)口浪尖,也直接加速了它與自動(dòng)駕駛方案提供商Mobileye的分道揚(yáng)鑣。
特斯拉很早就有甩開(kāi)Mobileye的想法,畢竟,Mobileye的芯片和自動(dòng)駕駛軟硬件解決方案是業(yè)內(nèi)公認(rèn)的“黑盒子”,對(duì)整車(chē)廠來(lái)說(shuō)并不夠友好。例如理想,就一度為了解決黑盒子問(wèn)題而自行在Mobileye 的前視攝像頭旁增設(shè)一個(gè)攝像頭,專門(mén)采集道路信息,用于輔助駕駛系統(tǒng)的算法訓(xùn)練和優(yōu)化。
馬斯克不喜歡Mobileye,但人在屋檐下不得不低頭。直到2015年,英偉達(dá)入場(chǎng)自動(dòng)駕駛,特斯拉才有了Mobileye之外的另一個(gè)選擇。更重要的是,短暫牽手英偉達(dá)的同時(shí),特斯拉的自研之路也在緊鑼密鼓地進(jìn)行,感知數(shù)據(jù)、算法、芯片、計(jì)算平臺(tái)等都是它在布局的。
這期間,大量的人才被挖進(jìn)特斯拉,這家公司的自動(dòng)駕駛團(tuán)隊(duì)Autopilot,在頂峰時(shí)一度擁有300多名工程師(不包括1000多名數(shù)據(jù)標(biāo)注員),其中200人專攻軟件,100人專攻硬件和芯片。團(tuán)隊(duì)的負(fù)責(zé)人們是世界頂級(jí)技術(shù)大牛,包括前AMD首席架構(gòu)師Jim Keller,前蘋(píng)果芯片團(tuán)隊(duì)核心成員Pete Bannon,編程語(yǔ)言 Swift 主要開(kāi)發(fā)者 Chris Lattner、OpenAI首席科學(xué)家Andrej Karpathy……
源源不斷的頂配人才和大量真金白銀的投入,讓特斯拉以遠(yuǎn)超同行的速度迅速完成了從合作到全棧自研的轉(zhuǎn)變。
最先亮相的是硬件。2019年4月的自動(dòng)駕駛?cè)丈希厮估l(fā)布第三代自動(dòng)駕駛硬件平臺(tái)HW 3.0,搭載的正是其自研芯片,總算力達(dá) 144TOPS,是英偉達(dá)Drive Xavier理論性能值21TOPS的7倍。HW 3.0每秒可處理2300幀圖像,較搭載英偉達(dá)芯片的 HW 2.5提升21倍,單體成本也較HW 2.5降低20%。
但特斯拉的FSD (Full Self-Driving,完全自動(dòng)駕駛)功能真正迎來(lái)脫胎換骨的變化要到兩三年后。2021年7月10日,特斯拉正式向約2000名美國(guó)用戶推送“完全自動(dòng)駕駛”FSD Beta V9.0版本。該版本的核心變化在于,其摒棄了毫米波雷達(dá)、超聲波雷達(dá)等傳感器,采用純視覺(jué)的自動(dòng)駕駛方案,僅用8個(gè)攝像頭來(lái)實(shí)現(xiàn)城市級(jí)別的完全自動(dòng)駕駛能力。
而達(dá)成這一結(jié)果的基礎(chǔ)來(lái)自于特斯拉此前一場(chǎng)聲勢(shì)浩蕩的算法重寫(xiě),尤其是感知算法的重寫(xiě)。
2020年8月,馬斯克在推特上首次提及,特斯拉正在重寫(xiě)FSD的基礎(chǔ)架構(gòu),并稱這將是一次“quantum leap”(量子式躍升)。一同被公布的,還有其正在開(kāi)發(fā)中的全新用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的超級(jí)計(jì)算機(jī) Dojo。
重寫(xiě)的原因在于,馬斯克認(rèn)為Autopilot過(guò)去被困在一個(gè)局部最大值(Local Maximum)里,原有軟件架構(gòu)下,其處理的數(shù)據(jù)都是不含有時(shí)間坐標(biāo)的 2D 圖像數(shù)據(jù)。但行車(chē)是在三維空間中進(jìn)行的,甚至更好的自動(dòng)駕駛效果還需要對(duì)被遮擋的部分做一定預(yù)測(cè),而這給特斯拉的自動(dòng)駕駛系統(tǒng)提出了新的要求——需要能夠處理3D甚至4D的數(shù)據(jù),實(shí)現(xiàn)從圖像級(jí)處理到視頻級(jí)處理的躍遷,并最終倒逼其對(duì)基礎(chǔ)代碼及訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)設(shè)施進(jìn)行重構(gòu)。
不過(guò),從2020年10月特斯拉宣布開(kāi)啟FSD Beta內(nèi)測(cè),到真正向外公測(cè),仍然還有一場(chǎng)技術(shù)變革需要完成。
2021年8月召開(kāi)的特斯拉AI DAY上,特斯拉AI高級(jí)總監(jiān)Andrej Karpathy 向外展示了一項(xiàng)全新技術(shù)——基于Transformer的BEV感知方案。這是大模型技術(shù)首次被應(yīng)用到自動(dòng)駕駛行業(yè),也是特斯拉實(shí)現(xiàn)純視覺(jué)的關(guān)鍵所在。
在此之前,特斯拉是通過(guò)每個(gè)攝像頭單獨(dú)進(jìn)行感知,再將不同攝像頭感知到的結(jié)果進(jìn)行融合。但這種方式存在不少問(wèn)題,比如不同攝像頭之間的信息融合困難,難以預(yù)測(cè)被大面積遮擋的物體,以及因深度估計(jì)的誤差導(dǎo)致最終輸出結(jié)果相互沖突等。
為此,特斯拉開(kāi)始嘗試用神經(jīng)網(wǎng)絡(luò)將圖像空間映射到 BEV 空間。BEV 的全稱是 Bird's Eye View,也就是鳥(niǎo)瞰圖的意思,是一種用于描述感知到的現(xiàn)實(shí)世界的視角或坐標(biāo)系,相當(dāng)于在車(chē)輛正上方10-20米的位置有一個(gè)直升機(jī)俯視車(chē)輛及周?chē)h(huán)境的視角,也即所謂的“上帝視角”。
但如何將攝像頭采集的2D圖像提取特征后,準(zhǔn)確投射到向量空間中去,拼接轉(zhuǎn)化成BEV空間中的3D立體圖景,最后生成汽車(chē)周?chē)缆翻h(huán)境的鳥(niǎo)瞰圖,依然是一個(gè)復(fù)雜問(wèn)題。
Transformer的出現(xiàn)解決了這一難題。2017年,Transformer作為一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被谷歌所提出,并迅速演化出谷歌的BERT模型和OpenAI的GPT模型兩條路線,后來(lái)大火的ChatGPT中的“T”,正是指Transformer大模型。
2020年谷歌又提出ViT( Vision Transformer),其也開(kāi)始廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。特斯拉也是在這個(gè)時(shí)候,將Transformer引入自動(dòng)駕駛領(lǐng)域。而主導(dǎo)這項(xiàng)工作的正是2017年被馬斯克從OpenAI挖到特斯拉,又在2022年7月再次離職,于今年上半年重新回到OpenAI的Andrej Karpathy。
Transformer的交叉注意力機(jī)制可以將一個(gè)序列中的不同位置聯(lián)系起來(lái),計(jì)算出序列的表示形式。這意味著它可以直接進(jìn)行不同序列(指2D特征圖和3D的BEV視圖)之間的轉(zhuǎn)換,對(duì)于BEV空間轉(zhuǎn)換任務(wù)適配性較高。
而成功轉(zhuǎn)換后的BEV空間內(nèi),由于坐標(biāo)系相同,來(lái)自攝像頭的各種圖像數(shù)據(jù),以及激光雷達(dá)、毫米波雷達(dá)等的感知數(shù)據(jù)將可以很方便地進(jìn)行融合,同時(shí)還能引入過(guò)去時(shí)間片段中的數(shù)據(jù),進(jìn)行時(shí)序融合,形成 4D 空間,讓感知效果更準(zhǔn)確和穩(wěn)定。
簡(jiǎn)單來(lái)說(shuō),基于Transformer的BEV感知技術(shù),可以將車(chē)道線等道路幾何信息以及人、車(chē)等動(dòng)態(tài)目標(biāo)全都統(tǒng)一到一個(gè)坐標(biāo)系下,便于車(chē)輛更加準(zhǔn)確地對(duì)道路情況進(jìn)行判斷。且由于BEV空間下的感知結(jié)果與決策規(guī)劃所在坐標(biāo)系也是統(tǒng)一的,因此感知與后續(xù)模塊通過(guò)BEV變換也可以緊密聯(lián)系到一起。
這一技術(shù)路徑可以通過(guò)實(shí)時(shí)感知,將不同視角的攝像頭采集到的圖片統(tǒng)一轉(zhuǎn)換到上帝視角,相當(dāng)于車(chē)輛實(shí)時(shí)生成“活地圖”,補(bǔ)足了自動(dòng)駕駛后續(xù)決策所需要的道路拓?fù)湫畔ⅲ梢詫?shí)現(xiàn)去高精地圖化。
這一感知方案的提出,確立了特斯拉FSD在視覺(jué)感知領(lǐng)域的領(lǐng)先地位,并在后來(lái)被無(wú)數(shù)同行學(xué)習(xí)跟進(jìn)。
而這種能力還在2022年底的AI DAY上進(jìn)一步得到了強(qiáng)化,特斯拉將BEV升級(jí)到了占用網(wǎng)絡(luò)(occupancy network),進(jìn)一步提升了泛化能力。這一技術(shù)雖也是BEV技術(shù)的延伸,但最大的區(qū)別就在于系統(tǒng)的感知從2D變?yōu)榱?D,讓車(chē)輛自身置身于一個(gè)3D世界中,并在 10 毫秒內(nèi)向車(chē)載計(jì)算機(jī)輸出車(chē)輛周?chē)總€(gè) 3D 位置的占用概率,并能夠預(yù)測(cè)被瞬時(shí)遮擋的障礙物。
這意味著,特斯拉可以無(wú)需再糾結(jié)物體具體是什么,而只考慮體素是否被占用,就可以判斷到底要不要躲避,有助于更好化解一些輔助駕駛中的Corner case(極端事件)。
03
AI大模型卷進(jìn)自動(dòng)駕駛
無(wú)論是BEV+Transformer,還是占用網(wǎng)絡(luò),從某種意義上說(shuō),其實(shí)都是特斯拉為了能徹底拋棄激光雷達(dá),讓其不至于因不裝激光雷達(dá)而導(dǎo)致無(wú)法準(zhǔn)確還原車(chē)輛行駛周?chē)?3D 場(chǎng)景所作的努力。
不過(guò),這樣的技術(shù)現(xiàn)在也開(kāi)始越來(lái)越多被本來(lái)走“激光雷達(dá)等多傳感器融合+高精地圖”路線的玩家所采用。據(jù)不完全統(tǒng)計(jì),目前包括“蔚小理”在內(nèi)的車(chē)企,以及百度 Apollo、華為、大疆、毫末智行、輕舟智航、小馬智行、元戎啟行、地平線等自動(dòng)駕駛企業(yè)都在使用BEV技術(shù)。
一位行業(yè)內(nèi)人士透露,到今天,BEV路線已經(jīng)不是說(shuō)有幾家代表性企業(yè)了,而是大家都在做,“已經(jīng)是必備的了”。
尤其是在去高精地圖化需求明顯的當(dāng)下,基于Transformer的BEV感知模型更是被認(rèn)為是解決城市輔助導(dǎo)航駕駛對(duì)高精地圖過(guò)度依賴的關(guān)鍵技術(shù)和底氣所在。
安信證券就曾在《AI大模型在自動(dòng)駕駛中的應(yīng)用》中判斷,基于BEV技術(shù)的發(fā)展,“輕地圖,重感知”將成為行業(yè)發(fā)展的主流方向。且從特斯拉感知算法迭代歷程來(lái)看,未來(lái)AI大模型對(duì)城市領(lǐng)航輔助駕駛的賦能方向?qū)⒎譃槿齻€(gè)階段:第一階段,BEV+transformer,實(shí)現(xiàn)“脫高精度地圖”;第二階段,升級(jí)到占用網(wǎng)絡(luò),實(shí)現(xiàn)“脫激光雷達(dá)”;第三階段,從感知到?jīng)Q策控制端到端的自動(dòng)駕駛模型,有望成為未來(lái)發(fā)展方向。
事實(shí)上,國(guó)內(nèi)自動(dòng)駕駛公司已經(jīng)公布的“脫圖”計(jì)劃,幾乎都與特斯拉這套BEV+Transformer的技術(shù)框架相關(guān)。
據(jù)報(bào)道,小鵬汽車(chē)正是在2021年看到特斯拉引入Transformer的BEV效果之后,才真正決定去掉高精度地圖,并搭建了基于Transformer的BEV視覺(jué)感知系統(tǒng)XNet。而在最近,小鵬P7i已經(jīng)推出基于XBEV體系的高速NGP2.0,小鵬汽車(chē)自動(dòng)駕駛副總裁吳新宙表示,這是基于BEV和Transformer架構(gòu)落地的一個(gè)靜態(tài)網(wǎng)絡(luò),從而實(shí)時(shí)產(chǎn)生高精地圖的能力。按照小鵬官方說(shuō)法,它已成為國(guó)內(nèi)首個(gè)量產(chǎn) BEV 感知方案的玩家,這將讓它下半年能在數(shù)十個(gè)無(wú)圖城市上線XNGP功能,幾乎較此前采用高精地圖時(shí)的“進(jìn)城速度”提升近10倍。
理想也在最近發(fā)布了最新城市NOA導(dǎo)航輔助駕駛AD Max 3.0,表示將于第二季度開(kāi)啟推送,并于年底前完成100個(gè)城市的落地。而這套城市NOA背后,使用了三種神經(jīng)網(wǎng)絡(luò)大模型算法:靜態(tài)BEV網(wǎng)絡(luò)算法,動(dòng)態(tài)BEV網(wǎng)絡(luò)算法以及Occupancy網(wǎng)絡(luò)算法。
今年初的一場(chǎng)溝通會(huì)上,理想汽車(chē)CEO李想更是直言,到2024年,中高端車(chē)會(huì)出現(xiàn)真正基于大模型和BEV技術(shù)實(shí)現(xiàn)的城市導(dǎo)航輔助駕駛,屆時(shí)將會(huì)出現(xiàn)真正屬于智能電動(dòng)車(chē)的變革時(shí)代。他判斷,使用Orin 計(jì)算平臺(tái)的這些企業(yè),基本上都會(huì)在今年四季度交付最早用于測(cè)試的基于大模型的城市NOA。
無(wú)獨(dú)有偶,百度 Apollo、蔚來(lái)、華為、商湯等一眾廠商,甚至像地平線這樣的芯片公司,也都在 BEV+Transformer上有所布局。例如華為的ADS 1.0據(jù)稱已實(shí)現(xiàn)基于 Transformer 的 BEV 架構(gòu),而最新發(fā)布的ADS 2.0 進(jìn)一步升級(jí)了GOD 網(wǎng)絡(luò),類(lèi)似于特斯拉的占用網(wǎng)絡(luò)算法。
百度Apollo 團(tuán)隊(duì)也在過(guò)去一年里,將視覺(jué)感知升級(jí)成了BEV感知,可以端到端檢測(cè)障礙物、預(yù)測(cè)障礙物軌跡,以及感知道路結(jié)構(gòu),并記錄下時(shí)間,形成一個(gè)帶時(shí)間序列的4D空間。而商湯基于自己的視覺(jué)大模型研發(fā)的,用于自動(dòng)駕駛的環(huán)視感知算法BEVFormer++,還曾在2022年Waymo 挑戰(zhàn)賽中獲得冠軍。
還有一家公司毫末智行,其實(shí)早在特斯拉將Transformer引入自動(dòng)駕駛的兩三個(gè)月后,就已經(jīng)宣布正在利用Transformer進(jìn)行超大規(guī)模的感知訓(xùn)練,并且后期有可能將其引入到規(guī)劃和控制中。
當(dāng)ChatGPT的同源技術(shù)在自動(dòng)駕駛領(lǐng)域悄然潛行了一兩年后,以ChatGPT為代表的生成式AI大模型,再次給了自動(dòng)駕駛領(lǐng)域巨大沖擊。4月5日,Meta發(fā)布首個(gè)用于處理機(jī)器視覺(jué)領(lǐng)域的圖像分割的基礎(chǔ)大模型SAM,也一度在自動(dòng)駕駛領(lǐng)域引起較大反響。
“我覺(jué)得GPT是一個(gè)劃時(shí)代的產(chǎn)品。”此前,在被問(wèn)及ChatGPT這樣的生成式大模型可能對(duì)行業(yè)帶來(lái)的影響時(shí),何小鵬稱。
他說(shuō),過(guò)去自己其實(shí)一直不認(rèn)為高端的L4或L5能真正到來(lái)。因?yàn)楦嬖V車(chē)一個(gè)簡(jiǎn)單的規(guī)則后,它在碰到各種特殊情況下,做不到像一個(gè)真正的司機(jī)一樣。“但GPT再往前走三年,跟車(chē)的融合會(huì)完全不一樣。有了GPT之后,高階的L4或者準(zhǔn)L5可能在2027年到2030年之間大家就會(huì)看到。”
據(jù)悉,小鵬汽車(chē)將在今年下半年,把GPT的能力帶到小鵬G6上面去。而今年4月,百度發(fā)布新一代自動(dòng)駕駛云產(chǎn)品——Apollo Cloud 2.0,基于大模型實(shí)現(xiàn)了自動(dòng)駕駛數(shù)據(jù)智能的搜索引擎。
商湯則宣布,他們已經(jīng)在智能駕駛領(lǐng)域構(gòu)建了感知決策一體化的自動(dòng)駕駛多模態(tài)大模型,將帶來(lái)更強(qiáng)的環(huán)境、行為、動(dòng)機(jī)解碼能力。同時(shí),其視覺(jué)大模型還可以解決數(shù)據(jù)標(biāo)注和Corner Case等問(wèn)題。
自動(dòng)駕駛公司毫末智行更是在今年4月,發(fā)布了業(yè)內(nèi)首個(gè)自動(dòng)駕駛生成式大模型毫末DriveGPT 雪湖·海若,通過(guò)引入駕駛數(shù)據(jù)建立RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))技術(shù),對(duì)自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化,現(xiàn)階段主要用于解決自動(dòng)駕駛的認(rèn)知決策問(wèn)題,終極目標(biāo)是實(shí)現(xiàn)端到端自動(dòng)駕駛。
行業(yè)人士表示,ChatGPT爆火后,生成式大模型已經(jīng)成為自動(dòng)駕駛領(lǐng)域里一個(gè)比較熱的話題,大家都在討論如何去應(yīng)用它,比如用在決策規(guī)劃層面,又或是用在仿真領(lǐng)域,來(lái)解決一些極端天氣或交通場(chǎng)景等Corner Case的數(shù)據(jù)采集問(wèn)題。
但不可否認(rèn)的是,大家目前都還處于一個(gè)比較早期的探索階段,應(yīng)用在車(chē)輛的哪些方面也都還是方向性的,"相當(dāng)于一個(gè)小樹(shù)苗,還沒(méi)有開(kāi)始結(jié)果“。尤其不同于ChatGPT的是,大模型應(yīng)用于自動(dòng)駕駛領(lǐng)域一旦出錯(cuò)可能就是人命攸關(guān),但大家的期待是因?yàn)?ldquo;有大模型,未來(lái)自動(dòng)駕駛可以像老司機(jī)那樣絲滑”。
自動(dòng)駕駛領(lǐng)域的從業(yè)者們期望大模型實(shí)現(xiàn)的更大意義在于,將來(lái)的自動(dòng)駕駛能夠成為一個(gè)端到端的模型,預(yù)測(cè)、規(guī)劃、決策都在這個(gè)模型里。
參考資料:
1、《AI十年展望(三):AI視角下的自動(dòng)駕駛行業(yè)全解析》,中金公司,2022.01
2、《天下無(wú)“圖”?》,汽車(chē)商業(yè)評(píng)論,2023.03
3、《2022年高精度地圖行業(yè)研究報(bào)告》,佐思汽研,2022.10
4、《特斯拉的AI野心:向人類(lèi)預(yù)警,給硅基帶路》,遠(yuǎn)川汽車(chē)評(píng)論,2023.03
5、《全面重寫(xiě)Autopilot,特斯拉自動(dòng)駕駛的升維革命》,汽車(chē)之心,2020.09
6、《AI大模型在自動(dòng)駕駛中的應(yīng)用》,安信證券,2023.05
7、《城市NoA,自動(dòng)駕駛的“ChatGPT時(shí)刻”》,36氪,2023.04
8、《程里對(duì)話小鵬汽車(chē)董事長(zhǎng)何小鵬:GPT讓L4自動(dòng)駕駛提前五年實(shí)現(xiàn)》,車(chē)云網(wǎng),2023.04
原文標(biāo)題 : 大模型下,自動(dòng)駕駛企業(yè)開(kāi)始取經(jīng)特斯拉
標(biāo)簽: