[汽車之家 用車資訊] 提到車載多媒體系統(tǒng)的語音識別功能,我想大部分用戶都會覺得很雞肋,也難怪,目前很大一部分車載多媒體系統(tǒng)的語音識別功能都僅僅停留在語音命令識別階段,使用時用戶必須通過按鈕啟動語音識別程序,然后說出命令,而且命令的發(fā)音以及詞匯必須準確無誤,否則識別效果較差,無法獲得較好的用戶體驗。奇瑞為了讓用戶能夠用上更方便更好用的語音識別功能,聯(lián)合國內語音識別技術領軍企業(yè)——科大訊飛,開發(fā)出了Cloudrive2.0智云互聯(lián)行車系統(tǒng),該系統(tǒng)的自然語言處理技術可以讓用戶光憑口說就能操作多媒體系統(tǒng)的大部分常用功能,而且識別率可達90%以上(行車時帶有背景噪音的環(huán)境下),下面我們就一起來體驗一下這款多媒體系統(tǒng)究竟有多好用?
● 科大訊飛究竟是何方神圣?
科大訊飛成立于1999年,由中科大優(yōu)秀博士生劉慶峰創(chuàng)辦,是一家專注于語音技術研發(fā)的公司。語音技術包括語音合成技術和語音識別技術。讓機器說話,用的是語音合成技術;讓機器聽懂人說話,用的是語音識別技術?拼笥嶏w在創(chuàng)立的17年間從事語音相關領域的研究并積累了豐富的經驗。連續(xù)多年獲得國內外的語音技術領域獎項也證明了該公司的技術實力。
科大訊飛走進普羅大眾的視野是在2010年,這一年科大訊飛推出了“訊飛語音云”技術。這項技術能夠為很多互聯(lián)網應用提供即時的語音識別支持,如用語音就能完成QQ、短信、微博等內容的輸入,識別率高、使用方便使其在業(yè)內掀起不小的波瀾。
今年10月18日,羅永浩在錘子M1/M1L系列手機發(fā)布會上宣布這兩款產品將支持訊飛語音輸入法,識別率高達97%,基本解決了移動設備的語音輸入問題。
在關于訊飛語音輸入法的演示中,羅永浩以較快的語速進行隨意的語音輸入,手機屏幕馬上生成準確無誤的文字信息。這讓科大訊飛瞬間成了錘子新品發(fā)布會的主角,使得科大訊飛這個原本默默無聞的科技企業(yè)一夜之間成了“網紅”。
● 是什么催生了擁有強大語音識別功能的多媒體系統(tǒng)?
我想只要用過舊式語音識別系統(tǒng)的朋友都會抱怨識別率低,除非使用字正腔圓的標準普通話,而且語速還不能太快和太慢,否則無法識別是“家常便飯”。不管是開發(fā)者還是用戶都知道問題所在,但是要兼容不同地區(qū)用戶口音差異、讓計算機“讀懂”人類平時說話時的自然語言最終提升識別率,又談何容易?科大訊飛用了17年的時間進行技術積累,最終實現了變革,讓機器更好地識別自然語音同時把識別率提升至97%。
促成變革的還有性能更強,集成度更高的電腦芯片,它能夠讓集成了復雜語音識別功能的車載多媒體系統(tǒng)足夠小,能夠安裝到到汽車的中控臺內部,同時強大的計算能力讓語音識別等待時間達到普通用戶可以接受的水平。
4G網絡的普及也是變革過程中的幕后推手。通過4G網絡,語音識別系統(tǒng)能夠隨時更新語音庫并且在出現本地無法識別的詞匯時,通過云端服務器進行識別,保證語音識別系統(tǒng)能夠識別當下最新的詞匯。
● 不僅僅是在多媒體系統(tǒng)上裝了一個“牛逼”的語音識別軟件那么簡單
屏幕前的你可能會覺得奇瑞的Cloudrive2.0智云互聯(lián)行車系統(tǒng)只是在普通的多媒體系統(tǒng)了裝了個“牛逼”的語音識別軟件。這么看就大錯特錯了。當一個在實驗室中識別率達到97%的語音識別系統(tǒng),用到在高速公路上奔跑的汽車上時,識別率可能會下降到50%甚至更低。因為風噪、胎噪等噪音都會極大地影響語音識別率。
為了滿足奇瑞的高要求,作為多媒體系統(tǒng)提供商的科大訊飛必須對整套系統(tǒng)的硬件進行各項耐久性測試,保證系統(tǒng)在不同溫度、振動的環(huán)境中都有良好的穩(wěn)定性。
● 語音識別與車載應用的互聯(lián)互通為用戶帶來便利
車載多媒體系統(tǒng)空有高語音識別率,卻不能實現點什么功能也是白搭?拼笥嶏w通過入股地圖引擎公司——美行科技,獲得了豐富而精確的地圖信息以及千萬級的興趣點信息。通過打通語音識別與導航系統(tǒng),用戶只要說一句“我想吃火鍋”,多媒體系統(tǒng)就能自動完成查找導航目的地,然后通過語音確定目的地即能輕松實現導航。
目前,科大訊飛已經與30多個內容提供商實現了合作,我們熟悉的喜馬拉雅FM、網易新聞、大眾點評、美團等應用都能夠與科大訊飛的車載多媒體系統(tǒng)實現互聯(lián)互通,通過語音以最簡單直接的方式進行操作。
● 科大訊飛的理想——實現人與機器的無障礙溝通
科大訊飛已經成功開發(fā)出一套被稱為AIUI(Artificial Intelligence User Interface)的人工智能交互界面,通過集成雙全工技術、麥克風陣列技術、聲紋識別技術、方言識別、語義理解技術和內容服務,最終實現人機交流能像人與人交流一樣輕松。
● 是不是真的好用?試過才知道
在實際介紹試用過程之前,我們首先介紹下目前科大訊飛的該套系統(tǒng)在奇瑞車型上的搭載狀況。首款搭載Cloudrive2.0智云互聯(lián)行車系統(tǒng)的車型是今年3月份上市的奇瑞艾瑞澤5,搭載相同系統(tǒng)的奇瑞瑞虎3X也將在11月15號正式上市。新車將會提供一年免費流量(每月500MB),用于支持多媒體系統(tǒng)上的各種車載應用。流量超了還可以通過銀聯(lián)、微信、支付寶等支付平臺,通過掃碼方式付款購買流量,價格為10元100MB。根據目前用戶的使用狀況,絕大部分用戶每月流量的不會超過500MB。
下面的視頻演示了奇瑞瑞虎3X多媒體系統(tǒng)語音識別功能。從視頻演示中我們可以看到,測試人員可以以正常甚至稍快的語速進行自然語言語音輸入,甚至還能打斷系統(tǒng)正在播放的語音來進行語音命令的輸入,語音識別率較高,測試的導航、音樂播放、電話等功能都無需用戶按按鈕或者觸摸屏幕,實現了光動口不動手的多媒體系統(tǒng)操作體驗。
更多精彩視頻,盡在汽車之家視頻平臺
『奇瑞Cloudrive2.0智云互聯(lián)行車系統(tǒng)語音識別演示』
據現場技術人員介紹,應用于奇瑞Cloudrive2.0智云互聯(lián)行車系統(tǒng)的語音識別功能未加入方言的識別(科大訊飛有相應的方言識別技術),但對于帶有方言口音的普通話是能實現較高的識別率的。
全文總結:
科大訊飛的語音識別技術確實是走在了世界前列,奇瑞Cloudrive2.0智云互聯(lián)行車系統(tǒng)語音識別功能對于自然語言的識別率也達到了較高的水平,一些常用的功能基本上通過語音人機交互1-2回就能實現,極大地提高了使用便利性。駕駛員無需看屏幕或者按按鍵就能實現各種多媒體系統(tǒng)功能,可以更專注地觀察路況,提高了駕駛安全性。
科大訊飛通過技術整合,已經完成了語音技術提供商向語音服務提供商的蛻變?拼笥嶏w提供的車載多媒體系統(tǒng)由于搭載了其國際領先的語音識別系統(tǒng),在使用體驗上擁有較高的水平。相比起蘋果CarPlay功能的語音識別,由于科大訊飛與車企實現了深度合作,其多媒體系統(tǒng)能夠與車輛實現更深入的互聯(lián),未來還能實現諸如用語音控制車內燈光開關、調整空調等各種功能。作為科大訊飛的合作伙伴,奇瑞也有望成為最先搭載科大訊飛下一代多媒體系統(tǒng)的廠商之一,更先進的AIUI將會使其多媒體系統(tǒng)使用體驗再上升一個層次,非常值得期待。(圖/文/攝/汽車之家 常慶林)
好評理由:
差評理由: