[汽車之家 新鮮技術解讀] 華為成立于1987年,是一家制造通訊設備起家的中國企業(yè)。經(jīng)過30多年的積累,華為已經(jīng)發(fā)展成為全球最大的5G設備供應商。隨著人工智能芯片市場的快速增長,華為借助中科寒武紀的芯片IP,成功在2017年推出了全球首款搭載人工智能加速單元的手機處理器芯片——麒麟970。該芯片的成功讓華為進一步堅信人工智能技術的發(fā)展?jié)摿,加速了其自研人工智能處理器的步伐。而自動駕駛系統(tǒng)的域控制器正是人工智能芯片大派用場的地方。究竟華為的人工智能芯片性能有多強?它又是如何賦能自動駕駛汽車的呢?今天我們一起來看一看。
● 先聊聊大家熟悉的手機處理器NPU
華為的自研人工智能芯片最開始是應用在手機芯片上的,后來才被應用到服務器和汽車自動駕駛系統(tǒng)等領域。下面我們就先來聊聊大家熟悉的搭載人工智能加速單元的手機處理器。華為的人工智能加速單元稱為“NPU”,英文全稱為“Neural-network Processing Units”,翻譯過來就是神經(jīng)網(wǎng)絡處理單元。該NPU在手機上能夠對人臉識別、語音識別、圖像識別等功能實現(xiàn)加速,從而為手機用戶提供更優(yōu)秀的使用體驗。
在《和國外差距有多大?聊中國自動駕駛芯片》中我提到了,麒麟970處理器搭載的NPU實際上是來自于中科寒武紀的Cambricon-1A處理器IP,該芯片搭載在華為Mate 10手機之上。
華為隨后發(fā)布的麒麟980(搭載在華為Mate 20手機上)處理器的NPU采用的是中科寒武紀Cambricon-1H處理器IP。
從目前網(wǎng)上公布的參數(shù)來看,麒麟810的NPU算力為0.83TFLOPS(注:1TFLOPS=每秒一萬億次的浮點運算),麒麟820的NPU算力為1.33TFLOPS。廠家并沒有公布麒麟990和麒麟985的具體算力數(shù)值,但從蘇黎世理工的AI Benchmark網(wǎng)站的數(shù)據(jù)來看,麒麟990的NPU算力在麒麟820之上,根據(jù)測試數(shù)據(jù)估計其算力在2TFLOPS以上。而麒麟985的NPU算力會稍高于麒麟820。
麒麟710A是2018年推出的麒麟710的車規(guī)級版本,該芯片有完全的自主知識產(chǎn)權并將由中芯國際代工,是一顆純正的“中國芯”。華為麒麟710進入汽車圈并成功落地后將會和高通驍龍820A搶占市場份額。
隨著這些搭載驍龍820A的新車陸續(xù)上市,它們帶起了一波高科技座艙潮流。華為麒麟710A此時入市,正好是趕上了這波風潮,相信未來有不少中國品牌企業(yè)會考慮采用華為的這顆帶有純正中國血統(tǒng)的數(shù)字座艙芯片。
雖然說麒麟710A的性能和華為最新推出的麒麟芯片性能有一定的差距,而且沒有集成NPU核心,但滿足數(shù)字座艙多屏顯示和交互的性能需求是完全沒有問題的。華為通過數(shù)字座艙進入汽車領域只是試水,進一步布局自動駕駛汽車芯片領域才是關鍵。
● 華為自動駕駛網(wǎng)絡架構
華為創(chuàng)始人兼總裁任正非在接受媒體對話時曾表示華為不會制造整車,但華為會造車聯(lián)網(wǎng)模塊、汽車中的電子部分,而且還可能做全世界最好的。既然如此,那華為定必會搶占車聯(lián)網(wǎng)和自動駕駛這兩個領域的主導權。
如果華為的ADN目標架構成為了行業(yè)標準,這將成為華為未來10年的一個極為重要的利潤增長點。華為的目標是非常宏大的,那就是包攬高階自動駕駛系統(tǒng)的各種通訊和計算設備,并提供完善的一站式解決方案。通俗來講就是要達到“要買自動駕駛汽車的通訊和計算設備,找華為就對了”的效果。
本文雖然聚焦于芯片,但華為的強大不僅僅在于芯片,其在老本行網(wǎng)絡通訊方面也同樣出類拔萃。在聊芯片前,我想先舉個車路協(xié)同的簡單例子來說明這一點。
這個簡單的例子能夠很好地說明華為是如何通過網(wǎng)絡和通訊技術來賦能自動駕駛的?梢哉f未來的自動駕駛汽車絕不是一個“孤島”,而是一個與萬物互聯(lián)的移動工具。
● 華為自動駕駛“芯”實力和軟實力
好了,簡單聊了一下華為的網(wǎng)絡架構在車路協(xié)同上的應用,下面我們來正式聊一下華為的自動駕駛平臺和芯片。由于自動駕駛平臺是基于華為的人工智能芯片搭建的,所以我們還是得先來簡單了解下華為的人工智能芯片。
昇騰910的應用偏向于需要極高算力的云端設備,而昇騰310的應用則偏向于對能耗比有一定要求的終端設備,但兩者會有一定的交集。下表我匯總了目前華為應用上述兩款芯片打造出來的Atlas系列產(chǎn)品的信息。
華為Atlas系列產(chǎn)品 | |||
產(chǎn)品 | 計算能力 | 功耗 | 備注 |
Atlas 900 AI集群(型號9000) | 256-1024 PFLOPS | - | AI集群服務器 |
Atlas 800 訓練服務器(型號9010) | 2 PFLOPS | 5.5kW功耗,風冷主動散熱 | AI訓練服務器 |
Atlas 800 訓練服務器(型號9000) | 2 PFLOPS | 5.5kW功耗,風冷主動散熱 | AI訓練服務器 |
Atlas 800 訓練服務器(型號3010) | 448 TOPS | - | AI推理服務器 |
Atlas 800 訓練服務器(型號3000) | 512 TOPS | - | AI推理服務器 |
Atlas 500 Pro 智能邊緣服務器 (型號:3000) | 256 TOPS | - | AI邊緣服務器 |
Atlas 500 智能小站(型號:3000) | 16 TOPS | 有盤40W,無盤25W | AI邊緣服務器 |
Atlas 300T 中心訓練卡(型號:9000) | 256 TFLOPS | - | AI加速卡 |
Atlas 300 推理卡(型號:3000) | 64 TOPS | 最大67W | AI加速卡 |
Atlas 200 DK 開發(fā)者套件(型號:3000) | 8-16 TOPS | 典型功耗20W | AI應用開發(fā)板 |
Atlas 200 AI加速模塊(型號:3000) | 8-16 TOPS | 典型功耗20W | AI加速模塊 |
注:這里的1TOPS=每秒1萬億次8位整數(shù)運算,1TFLOPS=每秒1萬億次16位浮點數(shù)運算,1PFLOPS=每秒1千萬億次16位浮點數(shù)運算。 |
人工智能加速芯片要真正運行起來還需要CPU的配合。上面提到的Atlas系列產(chǎn)品中,有一部分搭載了英特爾的服務器級CPU,另一部分則搭載的是華為自家的鯤鵬920 CPU芯片。
這與大部分其他芯片廠商只做B2B業(yè)務,簽了合約才提供開發(fā)文檔的做法有很大的不同。不管開發(fā)者能力的高低,更多開發(fā)者采用華為的設備開發(fā)有利于更快地構建起屬于華為的人工智能生態(tài)鏈,這將加速華為在人工智能領域的發(fā)展步伐。
當然,針對不同的細分領域,華為還會提供針對性的軟件服務,限于篇幅這里就不詳細展開了,感興趣的朋友可以去華為云逛一下了解更多。在其他芯片企業(yè)還在苦苦尋找行業(yè)突破口的時候,華為已經(jīng)為各種不同行業(yè)提供了全面而完整的解決方案?粗倬W(wǎng)密密麻麻各種行業(yè)的解決方案列表,我深感華為的強大;蛟S也正是華為的強大,才是其它企業(yè)苦苦追尋的重要原因。
好評理由:
差評理由: