[汽車之家 技術(shù)] 1920年,一只名叫“Radio Rex”的玩具狗可能是最早的語音系統(tǒng)識別器,當(dāng)這只狗的名字被呼喚的時候,它就能夠從底座上彈出來。1992年,當(dāng)時身為蘋果電腦公司語音組經(jīng)理的李開復(fù),通過一個名“Casper”的語音助理,在電腦上讓語音控制實現(xiàn)了文字輸入、更改字號、更改字體、打開/退出程序等操作,驗證了語音控制能夠?qū)崿F(xiàn)更多智能操作,且有取代傳統(tǒng)輸入的能力。2018年,在語音識別技術(shù)誕生將近100年的時間后,它仍然不成功,甚至可以說“一敗涂地”。
2000年是一個關(guān)鍵時間點,語音識別系統(tǒng)開始大規(guī)模進(jìn)入到各類產(chǎn)品中,包括汽車。但時至今日,語音控制系統(tǒng)無論在科技產(chǎn)品還是車內(nèi)交互應(yīng)用上,都沒有取得一個令人滿意的體驗。可如今這項技術(shù)“沉寂”多年后,目前又被很多新興車企在新能源概念車中拿出,然后加入各種“AI技術(shù)”等標(biāo)簽噱頭,冷飯被重新再抄一次。
回頭看在早期時,語音識別準(zhǔn)確率的問題成為了人們對這種技術(shù)不信任的主要原因,但隨著技術(shù)演進(jìn),準(zhǔn)確度和聯(lián)想能力都在提高,可這種交互模式的利用率仍然遠(yuǎn)低于傳統(tǒng)模式?想一想,在最常見的場景中,你真的會用智能手里的語音控制么?
猜測一:我們在什么環(huán)境下才會使用語音控制
首先我們先想想,到底在什么情況下我們才需要使用語音操作,或者說在什么情況下語音操作的才會取代傳統(tǒng)觸控操作。是辦公室?行走在路上?回到家里?還是私密的車內(nèi)?我想無論在任何環(huán)境中,除非你無法或者你懶于使用傳統(tǒng)操作,才會嘗試使用語音控制,但這種情況在當(dāng)前我們的生活中絕對不是高頻率的。
語音控制從出現(xiàn)至今其實都無法在交互創(chuàng)新層面給我們驚喜,因為多數(shù)時候它的交互效率并不高于傳統(tǒng)輸入操作,無論是在移動設(shè)備或者汽車上。在早期,我們需要通過按下“語音控制按鍵”在輸入語音指令,而現(xiàn)在雖然增加了語音喚醒指令,但在操作效率進(jìn)步空間很小難以改變局面。
在當(dāng)前飛快的生活節(jié)奏中,低學(xué)習(xí)成本換來高效率的體驗是所有技術(shù)產(chǎn)品都必須具備的。很多人不愿意做深度閱讀,依靠短訊獲取信息量,不喜歡坐在電腦前面打游戲,而是拿起了手機(jī)(比如英雄聯(lián)盟對比王者榮耀),人們越來越不愿意付出,但又希望獲得更簡單易得的收獲體驗,語音識別在這一方面仍然有不可逾越的難關(guān)。
猜測二:以智能為口號,卻要靠“不智能”生存
我們再來想一想,明明語音交互的效率比不上傳統(tǒng)操作,但為何你還會偶爾用它?這里我們有個大膽的猜測:一個標(biāo)榜智能的技術(shù),反而因為“不夠智能”,才讓我們有信任感的去使用它。
人們對于新鮮技術(shù)的接受速度除了效率提升之外,產(chǎn)生信任感也是非常重要的。記得有一部科幻電影,女主人希望教會機(jī)器人可以完美識別人類語音以及做出準(zhǔn)確執(zhí)行,由此無上限的放開了機(jī)器人的自我學(xué)習(xí)模式,最終這個機(jī)器人不但具備了識別能力,還擁有了感情轉(zhuǎn)化,它會偷聽,會告密,甚至?xí)纳刀省?/p>
而目前的語音識別技術(shù),我們可以大膽的去使用它,因為它不夠智能,夠傻,只能單一的接受信息和轉(zhuǎn)化,它不具備學(xué)習(xí)和思考能力,甚至還要依賴精準(zhǔn)的語句才能進(jìn)行執(zhí)行。而如果一旦語音識別具備了自我學(xué)習(xí)能力,你對它的信任度還會和現(xiàn)在一樣么?
在其它客觀方面,語音識別仍有很多不夠智能的表現(xiàn),例如跨語種識別和多輪交互識別是一直以來停留在這項技術(shù)上的難題,這也是目前語音交互效率仍與傳統(tǒng)輸入交互存在的差異點。同時,語音交互的“回刪處理”也做的并不好,一旦我某一個指令輸錯,語音系統(tǒng)也會進(jìn)行誤操作,導(dǎo)致你只能重新輸入,讓人感覺很惱火的體驗。
猜測三:打破固有的操作習(xí)慣
能夠提供足夠高的轉(zhuǎn)化效率,是所有創(chuàng)新產(chǎn)品想獲得成功的必要條件之一,但絕不是唯一條件。人無時無刻不需要私密性,各類技術(shù)也在為私密性上作出創(chuàng)新,例如降噪耳機(jī)等等。但語音輸入顯然直觀的破壞著交互方式的私密性,國外研究機(jī)構(gòu)曾把這種破壞感稱之為“Shame”(羞恥感),的確,即便是一個人在車?yán)铮闳匀徊幌雽χ照{(diào)大喊:制冷!強風(fēng)!恒溫!
所以語音識別想要挑戰(zhàn)傳統(tǒng)交互仍需要作出更多的創(chuàng)新內(nèi)容,例如谷歌在今年的開發(fā)者大會上就提出了一種新理論:既然我們都不想去“主動培養(yǎng)”語音交互習(xí)慣,那技術(shù)能不能從“被動培養(yǎng)”方面作出開拓呢?
谷歌的這套理論在現(xiàn)實中的應(yīng)用會是這樣的,例如你仍用傳統(tǒng)方法輸入指令,但指令的轉(zhuǎn)換會用語音模式向?qū)Ψ竭M(jìn)行表達(dá)或者執(zhí)行。例如你周三想去理發(fā)店,在備忘錄中記錄了這條消息,那么語音系統(tǒng)可以主動打電話幫助你在理發(fā)店預(yù)訂。再例如你在開車中收到了短訊,為了不影響你安全駕駛,語音系統(tǒng)會幫你屏蔽鈴聲,并提醒你對方身份和將文字轉(zhuǎn)換成語音向你匯報。
因為我們真的很難去主動培養(yǎng)一種新習(xí)慣,就像現(xiàn)在全球仍有大批量Windows用戶不想學(xué)習(xí)Win10系統(tǒng)而繼續(xù)使用Win 7甚至Win XP,雖然前者在效率以及功能方面已經(jīng)遠(yuǎn)超于后者,但在改變習(xí)慣這件事上,或許是人類本能的一大“硬傷”。
總結(jié):顛覆性的交互體驗會帶來顛覆性的變革
十年前,觸屏技術(shù)徹底顛覆了一代產(chǎn)品,無論是手機(jī)還是汽車,為人類提供了一種真正全新的交互模式。觸控除了帶來效率提升和準(zhǔn)確性外,也在其它維度上提供了不可估量的創(chuàng)新空間,例如UI系統(tǒng),所以它能被稱得上是顛覆性技術(shù),而顯然語音交互并不具備這個能力。同理,現(xiàn)在在車載上應(yīng)用的手勢交互似乎要比語音識別更令人感到尷尬。
下一個同樣能夠帶來顛覆性交互的技術(shù)會是什么?眼球控制或者腦電波傳輸,但無論任何一種,都應(yīng)該具備挑戰(zhàn)我們上述三種猜測的能力,它的到來,一定又是一場全產(chǎn)品線的革命。但對于下一輪汽車技術(shù)的展望,我真的并不看好語音交互還會帶來多大的創(chuàng)新空間,顯然這條路線也僅僅只能作為一些車企炒噱頭的手段罷了。(文/圖 汽車之家 姚嘉)
好評理由:
差評理由: