歷史上的前車之鑒車內(nèi)語音識別靠譜么

姚嘉

2018年06月01日 20:22 原創(chuàng) 來源：汽車之家

收藏 (0條) 舉報/糾錯

　　[汽車之家技術(shù)] 1920年，一只名叫“Radio Rex”的玩具狗可能是最早的語音系統(tǒng)識別器，當(dāng)這只狗的名字被呼喚的時候，它就能夠從底座上彈出來。1992年，當(dāng)時身為蘋果電腦公司語音組經(jīng)理的李開復(fù)，通過一個名“Casper”的語音助理，在電腦上讓語音控制實現(xiàn)了文字輸入、更改字號、更改字體、打開/退出程序等操作，驗證了語音控制能夠?qū)崿F(xiàn)更多智能操作，且有取代傳統(tǒng)輸入的能力。2018年，在語音識別技術(shù)誕生將近100年的時間后，它仍然不成功，甚至可以說“一敗涂地”。

　　2000年是一個關(guān)鍵時間點，語音識別系統(tǒng)開始大規(guī)模進(jìn)入到各類產(chǎn)品中，包括汽車。但時至今日，語音控制系統(tǒng)無論在科技產(chǎn)品還是車內(nèi)交互應(yīng)用上，都沒有取得一個令人滿意的體驗。可如今這項技術(shù)“沉寂”多年后，目前又被很多新興車企在新能源概念車中拿出，然后加入各種“AI技術(shù)”等標(biāo)簽噱頭，冷飯被重新再抄一次。

　　回頭看在早期時，語音識別準(zhǔn)確率的問題成為了人們對這種技術(shù)不信任的主要原因，但隨著技術(shù)演進(jìn)，準(zhǔn)確度和聯(lián)想能力都在提高，可這種交互模式的利用率仍然遠(yuǎn)低于傳統(tǒng)模式？想一想，在最常見的場景中，你真的會用智能手里的語音控制么？

猜測一：我們在什么環(huán)境下才會使用語音控制

　　首先我們先想想，到底在什么情況下我們才需要使用語音操作，或者說在什么情況下語音操作的才會取代傳統(tǒng)觸控操作。是辦公室？行走在路上？回到家里？還是私密的車內(nèi)？我想無論在任何環(huán)境中，除非你無法或者你懶于使用傳統(tǒng)操作，才會嘗試使用語音控制，但這種情況在當(dāng)前我們的生活中絕對不是高頻率的。

　　語音控制從出現(xiàn)至今其實都無法在交互創(chuàng)新層面給我們驚喜，因為多數(shù)時候它的交互效率并不高于傳統(tǒng)輸入操作，無論是在移動設(shè)備或者汽車上。在早期，我們需要通過按下“語音控制按鍵”在輸入語音指令，而現(xiàn)在雖然增加了語音喚醒指令，但在操作效率進(jìn)步空間很小難以改變局面。

　　在當(dāng)前飛快的生活節(jié)奏中，低學(xué)習(xí)成本換來高效率的體驗是所有技術(shù)產(chǎn)品都必須具備的。很多人不愿意做深度閱讀，依靠短訊獲取信息量，不喜歡坐在電腦前面打游戲，而是拿起了手機(jī)（比如英雄聯(lián)盟對比王者榮耀），人們越來越不愿意付出，但又希望獲得更簡單易得的收獲體驗，語音識別在這一方面仍然有不可逾越的難關(guān)。

猜測二：以智能為口號，卻要靠“不智能”生存

　　我們再來想一想，明明語音交互的效率比不上傳統(tǒng)操作，但為何你還會偶爾用它？這里我們有個大膽的猜測：一個標(biāo)榜智能的技術(shù)，反而因為“不夠智能”，才讓我們有信任感的去使用它。

　　人們對于新鮮技術(shù)的接受速度除了效率提升之外，產(chǎn)生信任感也是非常重要的。記得有一部科幻電影，女主人希望教會機(jī)器人可以完美識別人類語音以及做出準(zhǔn)確執(zhí)行，由此無上限的放開了機(jī)器人的自我學(xué)習(xí)模式，最終這個機(jī)器人不但具備了識別能力，還擁有了感情轉(zhuǎn)化，它會偷聽，會告密，甚至?xí)纳刀省?/p>

　　而目前的語音識別技術(shù)，我們可以大膽的去使用它，因為它不夠智能，夠傻，只能單一的接受信息和轉(zhuǎn)化，它不具備學(xué)習(xí)和思考能力，甚至還要依賴精準(zhǔn)的語句才能進(jìn)行執(zhí)行。而如果一旦語音識別具備了自我學(xué)習(xí)能力，你對它的信任度還會和現(xiàn)在一樣么？

　　在其它客觀方面，語音識別仍有很多不夠智能的表現(xiàn)，例如跨語種識別和多輪交互識別是一直以來停留在這項技術(shù)上的難題，這也是目前語音交互效率仍與傳統(tǒng)輸入交互存在的差異點。同時，語音交互的“回刪處理”也做的并不好，一旦我某一個指令輸錯，語音系統(tǒng)也會進(jìn)行誤操作，導(dǎo)致你只能重新輸入，讓人感覺很惱火的體驗。

猜測三：打破固有的操作習(xí)慣

　　能夠提供足夠高的轉(zhuǎn)化效率，是所有創(chuàng)新產(chǎn)品想獲得成功的必要條件之一，但絕不是唯一條件。人無時無刻不需要私密性，各類技術(shù)也在為私密性上作出創(chuàng)新，例如降噪耳機(jī)等等。但語音輸入顯然直觀的破壞著交互方式的私密性，國外研究機(jī)構(gòu)曾把這種破壞感稱之為“Shame”（羞恥感），的確，即便是一個人在車?yán)铮闳匀徊幌雽χ照{(diào)大喊：制冷！強風(fēng)！恒溫！

　　所以語音識別想要挑戰(zhàn)傳統(tǒng)交互仍需要作出更多的創(chuàng)新內(nèi)容，例如谷歌在今年的開發(fā)者大會上就提出了一種新理論：既然我們都不想去“主動培養(yǎng)”語音交互習(xí)慣，那技術(shù)能不能從“被動培養(yǎng)”方面作出開拓呢？

　　谷歌的這套理論在現(xiàn)實中的應(yīng)用會是這樣的，例如你仍用傳統(tǒng)方法輸入指令，但指令的轉(zhuǎn)換會用語音模式向?qū)Ψ竭M(jìn)行表達(dá)或者執(zhí)行。例如你周三想去理發(fā)店，在備忘錄中記錄了這條消息，那么語音系統(tǒng)可以主動打電話幫助你在理發(fā)店預(yù)訂。再例如你在開車中收到了短訊，為了不影響你安全駕駛，語音系統(tǒng)會幫你屏蔽鈴聲，并提醒你對方身份和將文字轉(zhuǎn)換成語音向你匯報。

　　因為我們真的很難去主動培養(yǎng)一種新習(xí)慣，就像現(xiàn)在全球仍有大批量Windows用戶不想學(xué)習(xí)Win10系統(tǒng)而繼續(xù)使用Win 7甚至Win XP，雖然前者在效率以及功能方面已經(jīng)遠(yuǎn)超于后者，但在改變習(xí)慣這件事上，或許是人類本能的一大“硬傷”。

總結(jié)：顛覆性的交互體驗會帶來顛覆性的變革

　　十年前，觸屏技術(shù)徹底顛覆了一代產(chǎn)品，無論是手機(jī)還是汽車，為人類提供了一種真正全新的交互模式。觸控除了帶來效率提升和準(zhǔn)確性外，也在其它維度上提供了不可估量的創(chuàng)新空間，例如UI系統(tǒng)，所以它能被稱得上是顛覆性技術(shù)，而顯然語音交互并不具備這個能力。同理，現(xiàn)在在車載上應(yīng)用的手勢交互似乎要比語音識別更令人感到尷尬。

　　下一個同樣能夠帶來顛覆性交互的技術(shù)會是什么？眼球控制或者腦電波傳輸，但無論任何一種，都應(yīng)該具備挑戰(zhàn)我們上述三種猜測的能力，它的到來，一定又是一場全產(chǎn)品線的革命。但對于下一輪汽車技術(shù)的展望，我真的并不看好語音交互還會帶來多大的創(chuàng)新空間，顯然這條路線也僅僅只能作為一些車企炒噱頭的手段罷了。（文/圖汽車之家姚嘉）

詳情點擊這里查看