RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

盤點：語音交互國內(nèi)外現(xiàn)狀

作者：本站采編

來源：物聯(lián)網(wǎng)智庫

日期：2016-05-05 09:36:10

摘要：語音交互技術(shù)將會在未來的智能生活中扮演越來越重要的角色，而國內(nèi)外眾多的企業(yè)也在紛紛布局這一領(lǐng)域，可以說語音交互技術(shù)將會成為越來越主流的技術(shù)。對于智能語音類應(yīng)用來說，蘋果的Siri讓用戶接受了這種方式，這種交互方式還有很長的路要走，而智能語音真正深入到用戶生活，還需要好多個Siri來引爆。

關(guān)鍵詞：語音交互技術(shù)

　　智能化的產(chǎn)品正在逐漸走入消費者的日常生活，但是關(guān)于什么樣的產(chǎn)品才更智能，市場上一直爭論不休。有人說達到一種無感化的控制，讓產(chǎn)品能夠根據(jù)用戶的個人喜好而自動調(diào)節(jié)以達到用戶習慣的狀態(tài)才是最好的，聽起來不錯，一件能夠主動智能的產(chǎn)品是能夠帶來很多的便利，但是只是根據(jù)用戶的歷史習慣去調(diào)控便會陷入另一種機械式的困境，不能隨機應(yīng)變。

　　筆者個人覺得，作為一款產(chǎn)品，用戶能夠通過某種手段對其進行控制是 “智能”的基礎(chǔ)。而通過什么樣途徑進行控制呢，雖然不同的應(yīng)用場景會有不同的操控交互技術(shù)，但是對于多數(shù)的應(yīng)用場景來說語音交互便是最方便省事的，可以說語音交互技術(shù)將會成為越來越主流的技術(shù)。

　　前不久，英特爾宣布與語音識別技術(shù)公司Sensory達成了合作，將在以后Intel最新的芯片中集成整合Sensory公司的TrulyHandsfree語音識別技術(shù)。作為芯片行業(yè)的龍頭企業(yè)，此舉無疑是對未來語音識別技術(shù)的極大認可。

　　語音交互，主要取決于兩點：語音識別，和語義理解

　　語音識別——通過直接人機語音對話方式即對人類語音的詞匯語法的分解，并將內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或字符序列。思維是人腦的機能，是對外部現(xiàn)實的反映;語言則是現(xiàn)實思維、鞏固和傳達思維成果即思想的工具。

　　在日常生活當中，如果只從語音出發(fā)，我們根本沒有可能聽懂“XX牌普通話”，但是我們還是聽懂了，更能用另一種牌子的普通話和他交流，這就涉及到語義理解。

　　有了語義理解的突破，語音識別才能脫離桎梏，更上一層樓。

　　關(guān)于語義理解，目前一門技術(shù)正火，神經(jīng)網(wǎng)絡(luò)。這是一種十分炫酷的技術(shù)，將機器學習的方式模仿人類大腦的神經(jīng)元，當處理的語言越來越多時，這種網(wǎng)絡(luò)就可以逐漸理解語言。

　　實驗結(jié)果發(fā)現(xiàn)，這種技術(shù)可使得精確度提升25%以上，這是一個巨大的飛躍，因為這個行業(yè)只需要提升5%就具備革命意義。

　　語音識別國內(nèi)外現(xiàn)狀如何，有哪些差距

　　Nuance

　　提及語音識別，就不能不說Nuance，就像提到PC處理器不能跨過intel， Nuance有著輝煌的歷史，曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖。

　　就算現(xiàn)在，瘦死的駱駝比馬大，它仍舊是全球最大的語音技術(shù)公司，專利數(shù)量和市場份額都遙遙領(lǐng)先。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心以及虛擬在線語音助手，都采用了Nuance的技術(shù)。

　　微軟

　　微軟通過深度神經(jīng)網(wǎng)絡(luò)技術(shù)獲語音識別重大突破，錯誤率降低至 18.5%，準確率比傳統(tǒng)技術(shù)提升了 33%。這讓流利的語音對語音程序變得更加現(xiàn)實。

　　該技術(shù)無需用戶對識別系統(tǒng)進行 “訓(xùn)練”，而是通過 “即時、因人而異的自動語音識別” 技術(shù)實現(xiàn)。換言之，真正的人聲識別。

　　微軟表示該技術(shù)突破大大提升了語音技術(shù)商業(yè)化的潛力。

　　谷歌

　　和大名鼎鼎的蘋果Siri相比，谷歌的語音搜索服務(wù)Google Voice Search顯得不那么有名氣。而實際上，如果你留意應(yīng)該會發(fā)現(xiàn)，谷歌語音搜索技術(shù)最近已經(jīng)有了飛躍式的進步，其識別率更是甩Siri幾條街。

　　和有美國國防部背景的Siri不同，Google Voice Search一直都備受語音識別算法困擾，而后人工智能大師杰弗里?希爾頓加盟谷歌，同時谷歌還挖走了Nuance的一些職員，這令谷歌的語音識別技術(shù)得到提升，并從產(chǎn)品設(shè)計之初就自帶了AI屬性。

　　谷歌前段時間向第三方開發(fā)者開放其語音識別API，與Nuance及其它的語音識別公司競爭。谷歌云語音API(Google Cloud Speech API)將覆蓋超過80種語言，兼容任何實時串流或者批處理模式的應(yīng)用，它將為應(yīng)用程序提供一整套API，給它們帶來“看、聽與翻譯”方面的功能。谷歌的這一舉措將會對整個行業(yè)產(chǎn)生不小的影響——尤其是對Nuance。

　　種種跡象顯示，谷歌似乎變得更加注重語音技術(shù)和眾多的使用案例。例如，該公司在2月宣布將允許Google Docs用戶通過語音來編輯和設(shè)計文檔。

　　蘋果

　　Google和微軟都摻和了，蘋果當然不會落后。

　　2013年，蘋果悄悄收購了一家語音識別技術(shù)公司Novauris Technologies，價格未知。Novauris公司以語音識別著稱，由其推出的產(chǎn)品和語音識別系統(tǒng)并非簡單的識別單個的詞句，而是理解上下文。Novauris 也曾推出一個名為 Novasystem 的分布式服務(wù)器語音識別系統(tǒng)，可同時處理多個并發(fā)語音請求，識別完整的句子，并分析音節(jié)結(jié)構(gòu)。

　　另外，在過去幾年，蘋果不僅吸納了Siri的語音技術(shù)人才，更是將Nuance公司的多名高級語音研究人員挖角過來，包括了前研發(fā)副總裁Larry Gillick，以及來自微軟語音識別項目高管Alex Acero，后者在微軟工作達 20 年之久。

　　蘋果打算利用神經(jīng)網(wǎng)絡(luò)來提升語音識別率，微軟研究部門主管 Peter Lee 認為，蘋果大約需要花6個月才能趕上Google 和微軟。

　　亞馬遜

　　Echo 音箱就是一個黑色的小柱子，相比起其他的智能語音助手比如 Siri，它的特點在于看得見、摸得著。一年多下來，Echo 已經(jīng)成為了語音控制智能家居的入口。

　　上市一年多以來，Echo已經(jīng)學會了朗讀小說、用Uber叫車、叫達美諾的匹薩外賣，甚至是配合蝙蝠俠電影上映帶著用戶玩語音探索游戲。

　　Alexa從一開始就是一個互聯(lián)網(wǎng)服務(wù)的入口，Siri還停留在蘋果硬件支持的程度，這么說起來，更像人工智能的反而是那個最初被稱作實體Siri的小黑家伙呢。

　　再看國內(nèi)

　　科大訊飛：中科院典范，站穩(wěn)教育市場

　　科大訊飛依靠中科大的語音處理技術(shù)以及國家的大力扶持，穩(wěn)坐“中國的nuance”之位。根據(jù)調(diào)查，科大訊飛占據(jù)了超過60%的市場份額，絕對是語音技術(shù)的龍頭企業(yè)。一提到科大訊飛，可能大家想到的都是語音識別很牛，但其實它最大的收益來源是教育，特別是在2013年左右，收購了很多家語音評測公司，包括啟明科技等，對教育市場形成了壟斷，經(jīng)過一系列的收購后，目前所有省份的口語評測用的都是科大訊飛的引擎，由于其占據(jù)了考試的制高點，所有的學校及家長都愿意為其買單。這種局面很難打破，所以其霸主的地位也很難撼動。

　　百度語音：有錢任性，技術(shù)實力很強大

　　百度語音其實很早就被確立為戰(zhàn)略方向，2010年與中科院聲學所合作研發(fā)語音識別技術(shù)，但是市場發(fā)展相對緩慢。百度幾乎成為了很多歸國人員刷簡歷的跳板，因此直到2014年，百度重新梳理了戰(zhàn)略，終于找對了人，請來了人工智能領(lǐng)域的泰斗級大師吳恩達，正式組建了語音團隊，專門研究語音相關(guān)技術(shù)，由于有百度強大的資金支持，到目前為止收獲頗豐，斬獲了近13%的市場份額，其技術(shù)實力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗積累的科大訊飛相提并論。

　　其他諸如中科信利，尚科語音，捷通華聲等等都是國內(nèi)做語音交互技術(shù)走的比較遠的企業(yè)，總得來說，語音識別的門檻并不高，因此國內(nèi)各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎，但很快就搭建起自己的語音識別引擎，主要應(yīng)用于搜狗輸入法，效果也還可以。騰訊當然不會落后，微信也建立了自己語音識別引擎，用于將語音轉(zhuǎn)換為文字，但這個做的還是有點差距，想必大家也都體驗過。阿里，愛奇藝，360，樂視等等也都在搭建自己的語音識別引擎，但這些多的是自研自用，技術(shù)乏善可陳。

　　國內(nèi)外巨頭布局語音識別的策略差異

　　上面歷數(shù)了國內(nèi)外各個巨頭陸續(xù)建立語音識別引擎的過程和優(yōu)勢技術(shù)，有一點我們還是要特別留意一下：國外巨頭欲進入語音識別行業(yè)，首先想到的就是收購初創(chuàng)的團隊，這些團隊大都也在5-20人之間，掌握著一定的優(yōu)勢技術(shù)。顯然收購一家初創(chuàng)團隊很難滿足其戰(zhàn)略發(fā)展，因此一旦技術(shù)與公司業(yè)務(wù)融合以后，這些巨頭都會頻繁出手再次收購以補齊短板，逐漸建立起適合自己公司發(fā)展的語音識別優(yōu)勢。

　　對于技術(shù)相對重要而技術(shù)點又比較分散的科技型公司，國外巨頭一般不會采取大手筆收購的商業(yè)模式，這也是導(dǎo)致Nuance最終無人問津的重要因素。想想也是，巨頭自然不會用別人家的引擎以免將來掣肘，何況收購技術(shù)類的大型公司無疑也是給自己找了個麻煩。

　　國內(nèi)的語音識別發(fā)展脈絡(luò)沒有那么清晰，剛開始各個巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來醒悟過來，紛紛謀求自建，但是除了百度不斷砸入重金后獲得了一定的效果外，其他自建的各大公司沒有啥實質(zhì)性進展。這一點從他們試圖低薪聘請語音識別相關(guān)人才的策略上，也可知道其戰(zhàn)略上沒什么可發(fā)展的。語音識別行業(yè)屬于聲學和計算機的交叉技術(shù)，本來培養(yǎng)的人才就很稀缺，而從上述分析可以看出，國內(nèi)外的技術(shù)源頭很集中，無非就是業(yè)界相關(guān)的研究機構(gòu)和擁有研發(fā)實力的巨頭公司。

　　目前智能語音識別主要有哪些問題亟待解決

　　1、對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位，其次要建立一個理解語義的規(guī)則。

　　2、語音信息量大。語音模式不僅對不同的說話人不同，對同一說話人也是不同的，例如，一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。

　　3、語音的模糊性。說話者在講話時，不同的詞可能聽起來是相似的。這在英語和漢語中常見。

　　4、環(huán)境噪聲和干擾對語音識別有嚴重影響，致使識別率低。

　　可以說聲音已經(jīng)融入我們的身體，成為一種本能，它是最優(yōu)的表達方式，自然語言回答代表未來智能化的產(chǎn)品的終極形式。

　　基于云計算的自然回答功能結(jié)合智能家居系統(tǒng)在功能和應(yīng)用上更是可以開拓無數(shù)。

　　不得不說，智能語音產(chǎn)業(yè)正在形成一種趨勢，這對于正在發(fā)展中的物聯(lián)網(wǎng)行業(yè)來說，又將是一片待開發(fā)的新藍海，很值得關(guān)注。

　　對于智能語音類應(yīng)用來說，蘋果的Siri讓用戶接受了這種方式，這種交互方式還有很長的路要走，而智能語音真正深入到用戶生活，還需要好多個Siri來引爆。