盤點:語音交互國內(nèi)外現(xiàn)狀
智能化的產(chǎn)品正在逐漸走入消費者的日常生活,但是關(guān)于什么樣的產(chǎn)品才更智能,市場上一直爭論不休。有人說達到一種無感化的控制,讓產(chǎn)品能夠根據(jù)用戶的個人喜好而自動調(diào)節(jié)以達到用戶習慣的狀態(tài)才是最好的,聽起來不錯,一件能夠主動智能的產(chǎn)品是能夠帶來很多的便利,但是只是根據(jù)用戶的歷史習慣去調(diào)控便會陷入另一種機械式的困境,不能隨機應(yīng)變。
筆者個人覺得,作為一款產(chǎn)品,用戶能夠通過某種手段對其進行控制是 “智能”的基礎(chǔ)。而通過什么樣途徑進行控制呢,雖然不同的應(yīng)用場景會有不同的操控交互技術(shù),但是對于多數(shù)的應(yīng)用場景來說語音交互便是最方便省事的,可以說語音交互技術(shù)將會成為越來越主流的技術(shù)。
前不久,英特爾宣布與語音識別技術(shù)公司Sensory達成了合作,將在以后Intel最新的芯片中集成整合Sensory公司的TrulyHandsfree語音識別技術(shù)。作為芯片行業(yè)的龍頭企業(yè),此舉無疑是對未來語音識別技術(shù)的極大認可。
語音交互,主要取決于兩點:語音識別,和語義理解
語音識別——通過直接人機語音對話方式即對人類語音的詞匯語法的分解,并將內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或字符序列。思維是人腦的機能,是對外部現(xiàn)實的反映;語言則是現(xiàn)實思維、鞏固和傳達思維成果即思想的工具。
在日常生活當中,如果只從語音出發(fā),我們根本沒有可能聽懂“XX牌普通話”,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流,這就涉及到語義理解。
有了語義理解的突破,語音識別才能脫離桎梏,更上一層樓。
關(guān)于語義理解,目前一門技術(shù)正火,神經(jīng)網(wǎng)絡(luò)。這是一種十分炫酷的技術(shù),將機器學習的方式模仿人類大腦的神經(jīng)元,當處理的語言越來越多時,這種網(wǎng)絡(luò)就可以逐漸理解語言。
實驗結(jié)果發(fā)現(xiàn),這種技術(shù)可使得精確度提升25%以上,這是一個巨大的飛躍,因為這個行業(yè)只需要提升5%就具備革命意義。
語音識別國內(nèi)外現(xiàn)狀如何,有哪些差距
Nuance
提及語音識別,就不能不說Nuance,就像提到PC處理器不能跨過intel, Nuance有著輝煌的歷史,曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖。
就算現(xiàn)在,瘦死的駱駝比馬大,它仍舊是全球最大的語音技術(shù)公司,專利數(shù)量和市場份額都遙遙領(lǐng)先。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心以及虛擬在線語音助手,都采用了Nuance的技術(shù)。
微軟
微軟通過深度神經(jīng)網(wǎng)絡(luò)技術(shù)獲語音識別重大突破,錯誤率降低至 18.5%,準確率比傳統(tǒng)技術(shù)提升了 33%。這讓流利的語音對語音程序變得更加現(xiàn)實。
該技術(shù)無需用戶對識別系統(tǒng)進行 “訓(xùn)練”,而是通過 “即時、因人而異的自動語音識別” 技術(shù)實現(xiàn)。換言之,真正的人聲識別。
微軟表示該技術(shù)突破大大提升了語音技術(shù)商業(yè)化的潛力。
谷歌
和大名鼎鼎的蘋果Siri相比,谷歌的語音搜索服務(wù)Google Voice Search顯得不那么有名氣。而實際上,如果你留意應(yīng)該會發(fā)現(xiàn),谷歌語音搜索技術(shù)最近已經(jīng)有了飛躍式的進步,其識別率更是甩Siri幾條街。
和有美國國防部背景的Siri不同,Google Voice Search一直都備受語音識別算法困擾,而后人工智能大師杰弗里?希爾頓加盟谷歌,同時谷歌還挖走了Nuance的一些職員,這令谷歌的語音識別技術(shù)得到提升,并從產(chǎn)品設(shè)計之初就自帶了AI屬性。
谷歌前段時間向第三方開發(fā)者開放其語音識別API,與Nuance及其它的語音識別公司競爭。谷歌云語音API(Google Cloud Speech API)將覆蓋超過80種語言,兼容任何實時串流或者批處理模式的應(yīng)用,它將為應(yīng)用程序提供一整套API,給它們帶來“看、聽與翻譯”方面的功能。谷歌的這一舉措將會對整個行業(yè)產(chǎn)生不小的影響——尤其是對Nuance。
種種跡象顯示,谷歌似乎變得更加注重語音技術(shù)和眾多的使用案例。例如,該公司在2月宣布將允許Google Docs用戶通過語音來編輯和設(shè)計文檔。
蘋果
Google和微軟都摻和了,蘋果當然不會落后。
2013年,蘋果悄悄收購了一家語音識別技術(shù)公司Novauris Technologies,價格未知。Novauris公司以語音識別著稱,由其推出的產(chǎn)品和語音識別系統(tǒng)并非簡單的識別單個的詞句,而是理解上下文。Novauris 也曾推出一個名為 Novasystem 的分布式服務(wù)器語音識別系統(tǒng),可同時處理多個并發(fā)語音請求,識別完整的句子,并分析音節(jié)結(jié)構(gòu)。
另外,在過去幾年,蘋果不僅吸納了Siri的語音技術(shù)人才,更是將Nuance公司的多名高級語音研究人員挖角過來,包括了前研發(fā)副總裁Larry Gillick,以及來自微軟語音識別項目高管Alex Acero,后者在微軟工作達 20 年之久。
蘋果打算利用神經(jīng)網(wǎng)絡(luò)來提升語音識別率,微軟研究部門主管 Peter Lee 認為,蘋果大約需要花6個月才能趕上Google 和微軟。
亞馬遜
Echo 音箱就是一個黑色的小柱子,相比起其他的智能語音助手比如 Siri,它的特點在于看得見、摸得著。一年多下來,Echo 已經(jīng)成為了語音控制智能家居的入口。
上市一年多以來,Echo已經(jīng)學會了朗讀小說、用Uber叫車、叫達美諾的匹薩外賣,甚至是配合蝙蝠俠電影上映帶著用戶玩語音探索游戲。
Alexa從一開始就是一個互聯(lián)網(wǎng)服務(wù)的入口,Siri還停留在蘋果硬件支持的程度,這么說起來,更像人工智能的反而是那個最初被稱作實體Siri的小黑家伙呢。
再看國內(nèi)
科大訊飛:中科院典范,站穩(wěn)教育市場
科大訊飛依靠中科大的語音處理技術(shù)以及國家的大力扶持,穩(wěn)坐“中國的nuance”之位。根據(jù)調(diào)查,科大訊飛占據(jù)了超過60%的市場份額,絕對是語音技術(shù)的龍頭企業(yè)。一提到科大訊飛,可能大家想到的都是語音識別很牛,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經(jīng)過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點,所有的學校及家長都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動。
百度語音:有錢任性,技術(shù)實力很強大
百度語音其實很早就被確立為戰(zhàn)略方向,2010年與中科院聲學所合作研發(fā)語音識別技術(shù),但是市場發(fā)展相對緩慢。百度幾乎成為了很多歸國人員刷簡歷的跳板,因此直到2014年,百度重新梳理了戰(zhàn)略,終于找對了人,請來了人工智能領(lǐng)域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關(guān)技術(shù),由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術(shù)實力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗積累的科大訊飛相提并論。
其他諸如中科信利,尚科語音,捷通華聲等等都是國內(nèi)做語音交互技術(shù)走的比較遠的企業(yè),總得來說,語音識別的門檻并不高,因此國內(nèi)各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉(zhuǎn)換為文字,但這個做的還是有點差距,想必大家也都體驗過。阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些多的是自研自用,技術(shù)乏善可陳。
國內(nèi)外巨頭布局語音識別的策略差異
上面歷數(shù)了國內(nèi)外各個巨頭陸續(xù)建立語音識別引擎的過程和優(yōu)勢技術(shù),有一點我們還是要特別留意一下:國外巨頭欲進入語音識別行業(yè),首先想到的就是收購初創(chuàng)的團隊,這些團隊大都也在5-20人之間,掌握著一定的優(yōu)勢技術(shù)。顯然收購一家初創(chuàng)團隊很難滿足其戰(zhàn)略發(fā)展,因此一旦技術(shù)與公司業(yè)務(wù)融合以后,這些巨頭都會頻繁出手再次收購以補齊短板,逐漸建立起適合自己公司發(fā)展的語音識別優(yōu)勢。
對于技術(shù)相對重要而技術(shù)點又比較分散的科技型公司,國外巨頭一般不會采取大手筆收購的商業(yè)模式,這也是導(dǎo)致Nuance最終無人問津的重要因素。想想也是,巨頭自然不會用別人家的引擎以免將來掣肘,何況收購技術(shù)類的大型公司無疑也是給自己找了個麻煩。
國內(nèi)的語音識別發(fā)展脈絡(luò)沒有那么清晰,剛開始各個巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來醒悟過來,紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒有啥實質(zhì)性進展。這一點從他們試圖低薪聘請語音識別相關(guān)人才的策略上,也可知道其戰(zhàn)略上沒什么可發(fā)展的。語音識別行業(yè)屬于聲學和計算機的交叉技術(shù),本來培養(yǎng)的人才就很稀缺,而從上述分析可以看出,國內(nèi)外的技術(shù)源頭很集中,無非就是業(yè)界相關(guān)的研究機構(gòu)和擁有研發(fā)實力的巨頭公司。
目前智能語音識別主要有哪些問題亟待解決
1、對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個理解語義的規(guī)則。
2、語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。
3、語音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。
4、環(huán)境噪聲和干擾對語音識別有嚴重影響,致使識別率低。
可以說聲音已經(jīng)融入我們的身體,成為一種本能,它是最優(yōu)的表達方式,自然語言回答代表未來智能化的產(chǎn)品的終極形式。
基于云計算的自然回答功能結(jié)合智能家居系統(tǒng)在功能和應(yīng)用上更是可以開拓無數(shù)。
不得不說,智能語音產(chǎn)業(yè)正在形成一種趨勢,這對于正在發(fā)展中的物聯(lián)網(wǎng)行業(yè)來說,又將是一片待開發(fā)的新藍海,很值得關(guān)注。
對于智能語音類應(yīng)用來說,蘋果的Siri讓用戶接受了這種方式,這種交互方式還有很長的路要走,而智能語音真正深入到用戶生活,還需要好多個Siri來引爆。