[汽車(chē)之家 技術(shù)講堂] 2023年11月,特斯拉宣布已開(kāi)始向員工推出完全自動(dòng)駕駛(FSD)V12版本,該版本會(huì)引入神經(jīng)網(wǎng)絡(luò)系統(tǒng),使用最新的端到端自動(dòng)駕駛技術(shù),不再依賴于復(fù)雜冗長(zhǎng)的代碼。2024年,F(xiàn)SD V12開(kāi)始全面推送,與此同時(shí),F(xiàn)SD入華也成為可能。一時(shí)間,“端到端”成為全世界自動(dòng)駕駛領(lǐng)域最熱門(mén)的詞匯。
端到端到底是什么?落地端到端意味著車(chē)將會(huì)成為“機(jī)器人”嗎?大模型、多模態(tài)、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等對(duì)全自動(dòng)駕駛有多大幫助及影響?中國(guó)公司在AGI領(lǐng)域的實(shí)力究竟如何?前段時(shí)間我們探訪了商湯總部,對(duì)話了行業(yè)專家,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛博士,在采訪中我們也進(jìn)一步了解了商湯絕影在汽車(chē)行業(yè)的發(fā)展和規(guī)劃。
「商湯是AGI領(lǐng)域的佼佼者」
「商湯的業(yè)務(wù)遍布全球」
一、AGI和傳統(tǒng)的AI有什么區(qū)別?什么是端到端?
AI代表人工智能,能夠執(zhí)行特定任務(wù)或解決特定問(wèn)題,如語(yǔ)音識(shí)別、圖像處理和自然語(yǔ)言處理等,能表現(xiàn)出高度專業(yè)化但局限于特定領(lǐng)域,現(xiàn)如今AI技術(shù)已經(jīng)成熟并廣泛應(yīng)用于醫(yī)療、金融、交通等行業(yè)。
「AI被應(yīng)用于高鐵檢測(cè)」
「AI被應(yīng)用于礦井作業(yè)」
「AI被應(yīng)用于醫(yī)學(xué)檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統(tǒng),能夠在不同任務(wù)和領(lǐng)域中表現(xiàn)出廣泛的適應(yīng)能力。開(kāi)發(fā)特定領(lǐng)域的人工智能系統(tǒng)相對(duì)簡(jiǎn)單,通過(guò)大量數(shù)據(jù)和特定算法訓(xùn)練模型即可,而AGI需要模擬人類的廣泛認(rèn)知能力和自我學(xué)習(xí)能力,實(shí)現(xiàn)難度極高。
「AGI對(duì)技術(shù)的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,需要和傳統(tǒng)的自動(dòng)駕駛控制邏輯進(jìn)行比較:傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化部署策略,其中每個(gè)功能,如感知、預(yù)測(cè)和規(guī)劃,都是單獨(dú)開(kāi)發(fā)并集成到系統(tǒng)中的,執(zhí)行時(shí)需要一個(gè)環(huán)節(jié)接一個(gè)環(huán)節(jié)遞進(jìn)。端到端自動(dòng)駕駛則能像人一樣,“看”到外界場(chǎng)景后直接就能做出判斷,從信息輸入到?jīng)Q策執(zhí)行一氣呵成,沒(méi)有中間環(huán)節(jié)。
直接感知強(qiáng)調(diào)系統(tǒng)直接從原始數(shù)據(jù)中獲取環(huán)境信息,不經(jīng)過(guò)太多的中間處理和轉(zhuǎn)換環(huán)節(jié),這是端到端中的一個(gè)關(guān)鍵起始點(diǎn)。直接決策則是基于感知結(jié)果直接生成駕駛策略和行動(dòng)指令,減少了中間復(fù)雜的推理和轉(zhuǎn)換過(guò)程,也是端到端的重要體現(xiàn)。
端到端能夠?qū)崿F(xiàn)整個(gè)自動(dòng)駕駛流程的連貫性和整體性,除了感知和決策,還包括將決策轉(zhuǎn)化為實(shí)際車(chē)輛控制動(dòng)作以及整個(gè)過(guò)程中的無(wú)縫銜接和高效協(xié)同。所以,直接感知和直接決策是端到端的核心特征之一,但也不能簡(jiǎn)單地將它們與端到端完全等同,端到端是一個(gè)更全面、涵蓋整個(gè)自動(dòng)駕駛體系從輸入到輸出的概念。
「端到端是AGI技術(shù)發(fā)展的關(guān)鍵進(jìn)程」
當(dāng)然,端到端不僅可以應(yīng)用在智駕領(lǐng)域,這種大模型更像是人的思考方式,省去了中間繁瑣的步驟,減少了數(shù)據(jù)的損失,從信息輸入到策略輸出,都使用同一套算法模型,往往是包含大量數(shù)據(jù)及信息的大模型。端到端的應(yīng)用,是AGI技術(shù)發(fā)展的關(guān)鍵進(jìn)程。
二、發(fā)展AGI技術(shù)的核心是原創(chuàng)性
AGI技術(shù)是近幾年全世界各行業(yè)的發(fā)展重點(diǎn),身為AGI領(lǐng)域的頂級(jí)專家,王曉剛也和我們分享了一些觀點(diǎn)。
談及AGI,就不能不提現(xiàn)今最火的Chat GPT,新的GPT-4o,將大語(yǔ)言模型和多模態(tài)相結(jié)合,引領(lǐng)了整個(gè)行業(yè)的發(fā)展。但在成功的背后,也是多家頂尖科技公司的共同進(jìn)步,微軟為Open AI提供了大型軟硬件基礎(chǔ)設(shè)施,而相關(guān)的基礎(chǔ)算法和Transformer神經(jīng)網(wǎng)絡(luò)模型,谷歌已經(jīng)研究多年。
「商湯如影數(shù)字人視頻生成平臺(tái)」
國(guó)內(nèi)雖然也有層出不窮的大語(yǔ)言模型及相關(guān)應(yīng)用,但大部分的原創(chuàng)度并不高,很可能會(huì)陷入“價(jià)格越卷越低,但核心技術(shù)進(jìn)步緩慢”的尷尬境地。
因此,大模型的發(fā)展不應(yīng)急于商業(yè)化,而應(yīng)著重提升其自身能力。未來(lái)的關(guān)鍵在于多模態(tài)數(shù)據(jù)的聯(lián)合訓(xùn)練,這需要物理學(xué)、心理學(xué)、認(rèn)知科學(xué)、數(shù)據(jù)科學(xué)和數(shù)學(xué)等多個(gè)領(lǐng)域的合作,多樣化的數(shù)據(jù)有助于平衡偏見(jiàn),減少錯(cuò)覺(jué),使大模型更穩(wěn)定可靠。
「語(yǔ)言大模型是近兩年的熱門(mén)」
目前,Open AI已經(jīng)在視頻、圖片、語(yǔ)音和文本等多模態(tài)數(shù)據(jù)的融合訓(xùn)練上取得一定進(jìn)展,雖然低延遲和仿生交互只是表象,但其背后蘊(yùn)藏著AGI的雛形。AGI的實(shí)現(xiàn)路徑依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,多模態(tài)數(shù)據(jù)在高維空間中的對(duì)齊和融合是當(dāng)前最大的技術(shù)難點(diǎn)。AGI的發(fā)展不僅需要技術(shù),還需要信念和熱愛(ài),中國(guó)的AGI需要自己的奧本海默,企業(yè)應(yīng)專注于提升核心競(jìng)爭(zhēng)力和技術(shù)的原創(chuàng)性,而非陷入價(jià)格戰(zhàn),以推動(dòng)中國(guó)AGI的長(zhǎng)遠(yuǎn)發(fā)展。
「商湯一直堅(jiān)持技術(shù)原創(chuàng)」
商湯一步步走來(lái),一直堅(jiān)持技術(shù)原創(chuàng),這也是為什么在那么多人工智能相關(guān)的公司中,商湯能夠傲視群雄。早在2014年,商湯團(tuán)隊(duì)就發(fā)布了DeepID系列人臉識(shí)別算法,首次超過(guò)人眼識(shí)別率,甚至超過(guò)了Facebook同期發(fā)布的DeepFace算法,實(shí)現(xiàn)了從0到1的突破。
「商湯團(tuán)隊(duì)在國(guó)內(nèi)一眾人工智能公司中傲視群雄」
2018年,商湯開(kāi)始大模型相關(guān)的研究,當(dāng)時(shí)并沒(méi)有能提供足夠算力的基礎(chǔ)設(shè)施,甚至連國(guó)內(nèi)頂級(jí)的互聯(lián)網(wǎng)公司阿里和騰訊都沒(méi)有,商湯開(kāi)始在上海臨港進(jìn)行基礎(chǔ)建設(shè),AIDC人工智能計(jì)算中心,提前為之后的AI云計(jì)算、云服務(wù)布局。有了自己的大型基礎(chǔ)設(shè)施,商湯在行業(yè)內(nèi)的發(fā)展能夠更加游刃有余。
「AIDC人工智能計(jì)算中心位于上海臨港」
2023年,端到端技術(shù)伴隨著特斯拉發(fā)布FSD V12成為行業(yè)關(guān)鍵詞,但早在2022年,商湯就發(fā)布了端到端技術(shù),并表示端到端是未來(lái)。近日伴隨著GPT-4o爆火的多模態(tài),對(duì)于商湯而言并非什么新技術(shù),已經(jīng)研究多年并投入應(yīng)用。不久前,商湯的SenseChat V5以總分80.03分的成績(jī)刷新SuperCLUE國(guó)內(nèi)最好成績(jī),并且在中文綜合成績(jī)上超過(guò)GPT-4-Turbo-0125,這是國(guó)內(nèi)大模型首次在SuperCLUE中文基準(zhǔn)測(cè)試中超越GPT-4 Turbo實(shí)現(xiàn)登頂。
「商湯的SenseChat V5刷新了SuperCLUE國(guó)內(nèi)最好成績(jī)」
商湯一直堅(jiān)持AGI相關(guān)技術(shù)的原創(chuàng),走到世界前列。王曉剛認(rèn)為,同質(zhì)化的競(jìng)爭(zhēng)會(huì)導(dǎo)致資源浪費(fèi),原創(chuàng)性是推動(dòng)全球人工智能行業(yè)向前發(fā)展的源動(dòng)力。當(dāng)然,原創(chuàng)也意味著更多的不確定性和更大的風(fēng)險(xiǎn),但如果成功,對(duì)于整個(gè)行業(yè)而言,突破是巨大的,這也是商湯想要實(shí)現(xiàn)的。
三、AGI技術(shù)如何改變汽車(chē)行業(yè)
雖然汽車(chē)行業(yè)更像是傳統(tǒng)制造業(yè),和人工智能行業(yè)有所區(qū)別,但如今越來(lái)越多的前沿技術(shù)開(kāi)始改變汽車(chē)行業(yè),王曉剛認(rèn)為,汽車(chē)行業(yè)同樣需要原創(chuàng)精神。特斯拉發(fā)布了端到端自動(dòng)駕駛,成為了整個(gè)行業(yè)的追逐目標(biāo),這一定是未來(lái)趨勢(shì),但其實(shí)也產(chǎn)生了另一種形式的同質(zhì)化。
「絕影智能駕駛具有前瞻性」
汽車(chē)的智能化,其實(shí)有更多值得原創(chuàng)的方面,人工智能遠(yuǎn)不止端到端,GPT-4o多模態(tài)人機(jī)交互,在汽車(chē)環(huán)境中也能展示相關(guān)的技術(shù)場(chǎng)景。在座艙內(nèi),多模態(tài)交互會(huì)更加自然,應(yīng)用人工智能,能進(jìn)一步拓展人的能力,是智能汽車(chē)的發(fā)展方向之一。
「智能化是汽車(chē)行業(yè)的未來(lái)方向」
當(dāng)然,無(wú)論是端到端自動(dòng)駕駛,還是多模態(tài)人機(jī)互動(dòng),都需要控制維度、控制能力的提升,技術(shù)的融合,包括語(yǔ)音、文字、圖像在內(nèi),來(lái)自不同信息源的數(shù)據(jù)深度處理,都會(huì)導(dǎo)致技術(shù)難度的大幅度增加。這也需要相關(guān)供應(yīng)商能夠和車(chē)企有深度合作,獲取相關(guān)的數(shù)據(jù),和車(chē)廠深度融合,共同推進(jìn)產(chǎn)品的定義、用戶體驗(yàn)的提升。
「將智艙和醫(yī)療相結(jié)合是一種新思路」
「智艙可以和更多應(yīng)用相結(jié)合」
王曉剛認(rèn)為,作為商湯的汽車(chē)事業(yè)獨(dú)立品牌,商湯絕影在汽車(chē)的未來(lái)智能化發(fā)展中有著很強(qiáng)的潛力和競(jìng)爭(zhēng)力。在AGI技術(shù)方面的原創(chuàng)性和AIDC人工智能計(jì)算中心,已經(jīng)展現(xiàn)了商湯的綜合實(shí)力。在此基礎(chǔ)上,商湯絕影專注于智能汽車(chē)行業(yè),把AGI相關(guān)技術(shù)和汽車(chē)行業(yè)相結(jié)合。
「專注于智能汽車(chē)業(yè)務(wù)的商湯絕影」
雖然一些老牌供應(yīng)商已經(jīng)在汽車(chē)領(lǐng)域深耕多年,但往往只聚焦于單一技術(shù)模塊,不具備商湯的AGI能力。以多模態(tài)人機(jī)交互為例,每增加一種模態(tài),就需要綜合能力、研究能力及落地能力的大幅度提升,無(wú)論是圖像、語(yǔ)音、文字還是3D信息,商湯都有著成熟的經(jīng)驗(yàn)。
「商湯絕影在多模態(tài)人機(jī)交互領(lǐng)域有著成熟的經(jīng)驗(yàn)」
Open AI雖然相關(guān)能力更強(qiáng),但沒(méi)有專注于汽車(chē)方向的團(tuán)隊(duì),平臺(tái)性的公司,在汽車(chē)領(lǐng)域的專注度往往不夠。另外,手機(jī)和電腦應(yīng)用,并不是真正的多模態(tài),獲取的信息很有限。相較而言,智能汽車(chē)是非常自然的多模態(tài)交互場(chǎng)景,汽車(chē)產(chǎn)量大,終端用戶多,信息的形式多且數(shù)據(jù)量大,商湯絕影的團(tuán)隊(duì)正在這一領(lǐng)域深耕,用人工智能改變汽車(chē)行業(yè),在汽車(chē)行業(yè)開(kāi)發(fā)更先進(jìn)的人工智能。
「商湯絕影在智能汽車(chē)領(lǐng)域具有多個(gè)優(yōu)勢(shì)」
四、選擇純視覺(jué)方案并不是因?yàn)槌杀?nbsp;
除了多模態(tài)人機(jī)交互,自動(dòng)駕駛是智能汽車(chē)的另一個(gè)主要發(fā)展方向,為何未來(lái)屬于視覺(jué)方案而不是激光雷達(dá),王曉剛給出了具有行業(yè)高度的解釋。
雖然,更多人關(guān)注到的是成本方面的降低,但這并不是影響特斯拉、商湯絕影等公司的決策的主要原因,信息量的差異以及對(duì)AGI技術(shù)的未來(lái)展望,讓這些公司堅(jiān)定不移地選擇了純視覺(jué)方案。
「視覺(jué)方案在未來(lái)有著更多可能性」
激光雷達(dá)在自動(dòng)駕駛技術(shù)剛起步時(shí)更容易利用,但相較于人眼觀察到的世界,會(huì)有很多信息損失。攝像頭就像是人的雙眼,采集到的信息更加豐富,天花板更高,伴隨著AGI能力的逐步提升,端到端大模型的應(yīng)用,從信息采集到做出決策都更像是一個(gè)真正的人類,視覺(jué)優(yōu)勢(shì)會(huì)更加明顯。
五、面對(duì)端到端的全自動(dòng)駕駛能力,商湯絕影與特斯拉的差距并不大
那么在智能化汽車(chē)方面,商湯絕影相較于行業(yè)頭部的特斯拉,又有哪些優(yōu)勢(shì)和不足呢?
在人機(jī)交互方面,王曉剛對(duì)商湯絕影的信心十足。雖然特斯拉的機(jī)器人應(yīng)用已初見(jiàn)雛形,但在車(chē)的場(chǎng)景中還未發(fā)力,閉環(huán)自研很難覆蓋全部維度。在這方面,商湯絕影已經(jīng)積累了大量的經(jīng)驗(yàn),和多家車(chē)企有著深度的合作。
「商湯絕影在人機(jī)交互方面已經(jīng)積累了大量經(jīng)驗(yàn)」
在自動(dòng)駕駛方面,特斯拉和商湯絕影使用的都是基于端到端大模型的純視覺(jué)方案,這類方案需要大量的數(shù)據(jù)和充足的算力,特斯拉和商湯都有著龐大的基礎(chǔ)設(shè)施,近幾年,特斯拉大規(guī)模購(gòu)入高算力GPU,算力中心由10萬(wàn)塊GPU組成,截止目前,商湯有4萬(wàn)5千塊GPU,總算力已高達(dá)1.2萬(wàn)PFLOPS,是其他車(chē)企或汽車(chē)行業(yè)供應(yīng)商難以匹敵的高度。
「商湯的AIDC人工智能計(jì)算中心能夠提供充足的算力」
PFLOPS是"Peta Floating Point Operations Per Second"的縮寫(xiě),表示每秒千萬(wàn)億次浮點(diǎn)運(yùn)算,如果用業(yè)內(nèi)常用的TOPS表示,1 PFLOPS等同于1000 TOPS,1.2萬(wàn)PFLOPS也就等同于1200萬(wàn)TOPS,大約相當(dāng)于240萬(wàn)臺(tái)家用計(jì)算機(jī)的算力。
「人工智能的發(fā)展需要有充足的算力作為基礎(chǔ)」
除了在算力方面的不斷積累,在數(shù)據(jù)的獲取和模型的訓(xùn)練上,商湯絕影也使用了和特斯拉相同的思路。特斯拉會(huì)使用采集到的真實(shí)場(chǎng)景數(shù)據(jù)構(gòu)建虛擬世界,在虛擬世界中可以高頻訓(xùn)練各類情況,增強(qiáng)對(duì)物體的感知判斷,最終能夠給出更高效的決策。2023年,商湯也開(kāi)始合成視頻對(duì)模型進(jìn)行訓(xùn)練,不再需要消耗大量算力和人力從海量數(shù)據(jù)中提取有效數(shù)據(jù)。
「訓(xùn)練模型需要大量的有效數(shù)據(jù)」
當(dāng)然,身為車(chē)企的特斯拉,已經(jīng)售出超過(guò)600萬(wàn)輛車(chē),有著海量的真實(shí)數(shù)據(jù),能夠閉環(huán)完成全過(guò)程,更加高效。商湯絕影主要依賴于車(chē)企合作,和特斯拉相比,效率和信息量有一定差距,分享多少信息給供應(yīng)商,車(chē)企會(huì)有選擇。但是,伴隨著合作的擴(kuò)展和加深,效率會(huì)進(jìn)一步提升,車(chē)企也會(huì)開(kāi)放更多的信息。
六、商湯絕影的未來(lái)發(fā)展
未來(lái)如何和車(chē)企進(jìn)行合作,體現(xiàn)商湯絕影的價(jià)值,也是我們所關(guān)心的。
王曉剛表示,雖然商湯絕影已經(jīng)有量產(chǎn)的經(jīng)驗(yàn),但還是需要更多的宣傳和曝光——讓車(chē)企知道商湯絕影是一家怎樣的公司,商湯絕影的技術(shù)有什么價(jià)值。無(wú)論是特斯拉FSD入華,還是Chat GPT的演進(jìn),對(duì)整個(gè)行業(yè)來(lái)說(shuō)都是正向的,和商湯絕影一起推動(dòng)了市場(chǎng)對(duì)端到端、多模態(tài)等前沿人工智能技術(shù)的理解和認(rèn)知。
「商湯絕影已經(jīng)有智駕的量產(chǎn)經(jīng)驗(yàn)」
和車(chē)企的合作方式,商湯絕影也在不斷探索中,但始終會(huì)秉承著開(kāi)放的態(tài)度。商湯絕影會(huì)一直專注在自己擅長(zhǎng)的AGI領(lǐng)域,車(chē)企也能做自己擅長(zhǎng)的,雙方的合作開(kāi)放且深度。從基礎(chǔ)的模型和引擎,到模塊、應(yīng)用乃至完整的方案,商湯絕影都能夠提供,同時(shí)也能協(xié)助車(chē)企提升平臺(tái)化能力和效率。商湯絕影看重的是長(zhǎng)期且優(yōu)質(zhì)的合作,在合作過(guò)程中,也能不斷加強(qiáng)自身的核心發(fā)展項(xiàng)。
「商湯有著豐富的技術(shù)儲(chǔ)備」
商湯絕影在國(guó)內(nèi)算得上是一家稀缺的全棧技術(shù)領(lǐng)先供應(yīng)商,他們擁有"算力+算法+量產(chǎn)經(jīng)驗(yàn)"這三重全面能力。他們不只滿足于賦能客戶,更主張成為核心技術(shù)伙伴。依托商湯大裝置深厚的算力儲(chǔ)備、原生汽車(chē)垂類大模型、領(lǐng)先的軟硬件架構(gòu)以及全棧數(shù)據(jù)生產(chǎn)管線等實(shí)力,商湯絕影展現(xiàn)出強(qiáng)大的全棧綜合能力,有可能推動(dòng)智能汽車(chē)更快速地駛?cè)階GI時(shí)代。值得一提的是,他們的目標(biāo)非常明確——希望與汽車(chē)廠商建立起戰(zhàn)略合作關(guān)系,而這恰好也是商湯絕影和王曉剛所期待的。
「商湯絕影期望與汽車(chē)廠商建立起戰(zhàn)略合作關(guān)系」
商湯科技取“絕影”之名,這匹讓人驚嘆、一騎絕塵、迅疾如影的千里馬,源自曹操的坐騎“絕影”。在《魏書(shū)》中記載其因流矢受傷,但依舊忠誠(chéng)可靠,我想這也能象征商湯絕影強(qiáng)大的技術(shù)實(shí)力和可靠的原創(chuàng)品質(zhì)。相信其能助力更多車(chē)企,實(shí)現(xiàn)全自動(dòng)駕駛能力落地。截至2023年12月,商湯絕影已與本田、比亞迪、長(zhǎng)城、廣汽、紅旗、極氪、哪吒、奇瑞、蔚來(lái)等超過(guò)30家國(guó)內(nèi)外車(chē)企攜手合作,覆蓋超90款車(chē)型,累計(jì)交付195萬(wàn)輛智能汽車(chē)。而最新的端到端大模型,也計(jì)劃于2025年落地。(訪談/李店斌 黃正橋 龐珅 文/龐珅 圖/黃正橋)
在今年的北京車(chē)展上,商湯絕影展示了真端到端自動(dòng)駕駛解決方案UniAD的視頻,所有操作行云流水,仿佛真的有了人的智慧。但需要說(shuō)明的是,視頻中的只是測(cè)試車(chē),大洋彼岸的特斯拉,在FSD V12版本已經(jīng)使用了端到端架構(gòu),且已全面推送給車(chē)主。FSD入華的消息沸沸揚(yáng)揚(yáng),很多人翹首期盼,但在中國(guó)的道路上,同樣是端到端,同樣是虛擬世界訓(xùn)練出的大模型,中國(guó)自己的AGI領(lǐng)頭羊、擁有原創(chuàng)技術(shù)團(tuán)隊(duì)的商湯絕影更值得我們期待。
相關(guān)視頻——
好評(píng)理由:
差評(píng)理由: