物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

千萬(wàn)銷(xiāo)量百億市場(chǎng),人工智能語(yǔ)音芯片正崛起

作者:寓揚(yáng)
來(lái)源:智東西
日期:2017-12-06 11:41:45
摘要:隨著語(yǔ)音交互走向爆發(fā),一個(gè)新興行業(yè)、數(shù)十家芯片公司宣告語(yǔ)音芯片的崛起。

  隨著智能音箱的火熱以及背后語(yǔ)音交互生態(tài)的成熟,將會(huì)帶動(dòng)越來(lái)越多的設(shè)備語(yǔ)音化、智能化,使語(yǔ)音真正成為人機(jī)交互的一個(gè)界面。而在語(yǔ)音交互設(shè)備中,語(yǔ)音芯片憑借定制化、低功耗、高能效、端智能以及成本優(yōu)勢(shì)等地位越發(fā)重要,成為人與云端“溝通”的橋梁。

  在智能語(yǔ)音市場(chǎng),隨著亞馬遜、谷歌等互聯(lián)網(wǎng)巨頭公司的推動(dòng),僅僅是智能音箱一個(gè)品類(lèi)今年的全球銷(xiāo)量預(yù)期有望達(dá)到3000萬(wàn)臺(tái),并陸續(xù)涌現(xiàn)在各個(gè)國(guó)家,市場(chǎng)呈爆發(fā)之態(tài)。作為語(yǔ)音芯片市場(chǎng)最大的玩家聯(lián)發(fā)科以占據(jù)了70%的市場(chǎng)份額,2017年語(yǔ)音芯片出貨量預(yù)計(jì)達(dá)到2000萬(wàn)片以上。

  智東西通過(guò)調(diào)查梳理發(fā)現(xiàn),隨著語(yǔ)音交互的涌現(xiàn),誕生了一個(gè)新的語(yǔ)音芯片行業(yè),數(shù)十家公司參與其中,語(yǔ)音芯片的發(fā)展呈現(xiàn)初期通用組合芯片——語(yǔ)音芯片涌現(xiàn)——語(yǔ)音AI芯片蓄勢(shì)待發(fā)的趨勢(shì)。通過(guò)語(yǔ)音芯片發(fā)展的三階段以及數(shù)十家芯片公司的介紹,智東西為你呈現(xiàn)語(yǔ)音芯片的崛起!

  ▲注以上為智東西不完全統(tǒng)計(jì)

  綜述:語(yǔ)音芯片發(fā)展三階段

  本文所講的語(yǔ)音芯片側(cè)重于智能語(yǔ)音設(shè)備興起后,專(zhuān)門(mén)為語(yǔ)音交互場(chǎng)景打造的SoC芯片(芯片級(jí)系統(tǒng),System on Chip),它兼具運(yùn)算力和低功耗,支持多通道麥克風(fēng)陣列接口,支持信號(hào)處理算法等。

  在人機(jī)對(duì)話的語(yǔ)音交互中,語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、任務(wù)執(zhí)行等都是在云端進(jìn)行。而在終端側(cè),語(yǔ)音芯片的作用是對(duì)智能語(yǔ)音設(shè)備拾取的多通道聲音進(jìn)行處理并傳輸?shù)皆贫?,并將反饋結(jié)果以語(yǔ)音的形式輸出。如果說(shuō)云端是智能語(yǔ)音設(shè)備的大腦,那么語(yǔ)音芯片就是連接人與“云腦”的橋梁。

  目前,智能音箱的迅速發(fā)展正成為語(yǔ)音芯片崛起的重要?jiǎng)恿Α=Y(jié)合產(chǎn)業(yè)鏈各方消息,智東西此前預(yù)測(cè)智能音箱市場(chǎng)規(guī)模在今年年底有望達(dá)到3000萬(wàn)臺(tái)。這意味著僅僅是智能音箱的發(fā)展,就推動(dòng)語(yǔ)音芯片市場(chǎng)達(dá)到3000萬(wàn)量級(jí),盡管與以?xún)|為計(jì)算單位的手機(jī)芯片無(wú)法相提并論,但作為一個(gè)新興品類(lèi),仍處于快速發(fā)展期。

  在智能音箱這個(gè)市場(chǎng)中,聯(lián)發(fā)科、德州儀器、科勝訊、全志科技、杭州國(guó)芯、晶晨科技、成都啟英泰倫等芯片廠商都推出相關(guān)的語(yǔ)音芯片,且又以聯(lián)發(fā)科一家獨(dú)大,占據(jù)智能音箱約七成市場(chǎng)份額,粗略計(jì)算聯(lián)發(fā)科在2017年語(yǔ)音芯片銷(xiāo)量將達(dá)2000萬(wàn)片以上。

  通過(guò)對(duì)目前市面上語(yǔ)音芯片的觀察,我們發(fā)現(xiàn)語(yǔ)音芯片有以下特點(diǎn):其一兼具運(yùn)算能力和低功耗的考量,采用最適合做語(yǔ)音處理的CPU(中央處理器);其二是具備高度整合性的語(yǔ)音SoC,支持多通道的麥克風(fēng)陣列接口,集成Codec(多媒體數(shù)字信號(hào)編解碼器)模塊/DSP(數(shù)字信號(hào)處理)模塊,并且集成WiFi/藍(lán)牙模塊等;其三在語(yǔ)音算法上支持回聲消除、噪聲抑制、聲源定位、語(yǔ)音增強(qiáng)等技術(shù),或具備良好的音值調(diào)節(jié)功能;其四端智能化,集成神經(jīng)網(wǎng)絡(luò)單元將部分云端訓(xùn)練好的智能本地化工作。

  通過(guò)智東西近期對(duì)產(chǎn)業(yè)鏈的采訪以及梳理,根據(jù)語(yǔ)音交互的發(fā)展?fàn)顩r,將語(yǔ)音芯片的發(fā)展歸納為三個(gè)階段,第一個(gè)階段為語(yǔ)音芯片過(guò)渡期,采用通用芯片組合方案;第二個(gè)階段為崛起期,語(yǔ)音芯片興起;第三個(gè)階段為語(yǔ)音芯片進(jìn)化期,語(yǔ)音AI芯片涌現(xiàn)。

  第一階段,大約2015年以前盡管智能語(yǔ)音設(shè)備,包括智能音箱、遠(yuǎn)場(chǎng)交互的智能電視等都已出現(xiàn),但在市場(chǎng)尚未起量的情況下,語(yǔ)音設(shè)備采用的多是通用芯片+Codec芯片/DSP芯片等相結(jié)合的方式實(shí)現(xiàn)語(yǔ)音處理,如全志的R16芯片。

  2015年到2017年之間,隨著智能語(yǔ)音設(shè)備市場(chǎng)規(guī)模進(jìn)一步發(fā)展,專(zhuān)門(mén)用于智能家居或智能音箱的語(yǔ)音芯片開(kāi)始陸續(xù)亮相,包括聯(lián)發(fā)科推出的MT8516芯片、科勝訊的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。

  此外,隨著智能語(yǔ)音設(shè)備的迅速發(fā)展,對(duì)于端智能的需求也在顯現(xiàn),語(yǔ)音AI芯片應(yīng)運(yùn)而生。端智能是近兩年來(lái)AI領(lǐng)域大火的概念之一,指的是數(shù)據(jù)的采集、計(jì)算、決策都在前端設(shè)備進(jìn)行,優(yōu)勢(shì)在于穩(wěn)定、時(shí)延小、同時(shí)能夠保護(hù)用戶(hù)隱私等。如杭州國(guó)芯推出的GX8010和啟英泰倫推出的CI1006都屬于語(yǔ)音AI芯片。

  前期:通用芯片組合搭配

  在智能語(yǔ)音設(shè)備的市場(chǎng)早期階段,由于芯片研發(fā)漫長(zhǎng)的周期(一般需要18~24個(gè)月),高昂的研發(fā)投入,因此在市場(chǎng)規(guī)模尚不大的情況下,市場(chǎng)并沒(méi)有專(zhuān)門(mén)的語(yǔ)音芯片應(yīng)用到智能語(yǔ)音設(shè)備中。

  2010年6月微軟推出的Kinect體感周邊設(shè)備、2012年三星推出的遠(yuǎn)講語(yǔ)音電視、2014年秋亞馬遜推出的智能音箱Echo以及2015年京東&科大訊飛推出的叮咚音箱等是智能語(yǔ)音設(shè)備的早期代表,它們采用的多是通用芯片(AP芯片/平板芯片等)+Codec芯片/DSP芯片等組合的方式,由Codec芯片進(jìn)行模擬信號(hào)的數(shù)字信號(hào)的抓換,DSP部分對(duì)數(shù)字信號(hào)進(jìn)行處理,包括回聲消除、噪聲抑制、語(yǔ)音降噪/增強(qiáng)等,使語(yǔ)音便于后端的語(yǔ)音識(shí)別,再由通用芯片進(jìn)行處理傳輸?shù)皆贫颂峁┱Z(yǔ)音處理的計(jì)算力支持。

  以亞馬遜Echo為例,2014年秋天亞馬遜推出智能音箱Echo,最初使用的是TI(德州儀器)的DM3725數(shù)字媒體處理器,該芯片之前主要應(yīng)用在多媒體設(shè)備、視頻機(jī)頂盒、游戲終端等,在進(jìn)行語(yǔ)音傳輸處理時(shí),仍需要搭配Codec芯片。在早期的Ehco中,亞馬遜使用TI的DM3725(數(shù)字媒體處理器)+TI的ADC(模數(shù)轉(zhuǎn)換器)來(lái)實(shí)現(xiàn)。

  ▲德州儀器DM3725芯片

  后來(lái)或許是處于成本以及其他考慮,亞馬遜的一些產(chǎn)品開(kāi)始使用聯(lián)發(fā)科MT8563芯片,這款芯片同樣不是語(yǔ)音專(zhuān)用芯片。直到今年Q2季度,聯(lián)發(fā)科推出了MT8516才算真正意義上的語(yǔ)音芯片。

  另外一個(gè)例子是國(guó)內(nèi)早期智能音箱的代表叮咚音箱,最初國(guó)內(nèi)也沒(méi)有專(zhuān)用語(yǔ)音芯片,采用的是全志科技R16芯片+科勝訊Codec芯片的方式進(jìn)行語(yǔ)音處理,而全志R16之前則是用于平板的芯片。

  在語(yǔ)音交互場(chǎng)景的早期,智能設(shè)備并無(wú)太多銷(xiāo)量,即使看到了這一潛在機(jī)會(huì),研發(fā)一款專(zhuān)用芯片的時(shí)間成本、投資成本都決定了在最初一段時(shí)間,智能設(shè)備需要使用通用芯片或其他芯片作為過(guò)渡期。

  中小語(yǔ)音芯片廠商涌現(xiàn)

  隨著智能語(yǔ)音設(shè)備銷(xiāo)量不斷增長(zhǎng),典型的就是2016年以來(lái),以亞馬遜Echo為代表的智能音箱市場(chǎng)規(guī)模的不斷擴(kuò)大,專(zhuān)用的語(yǔ)音芯片也開(kāi)始出現(xiàn),2016年又剛好是語(yǔ)音芯片興起最集中的一年。

  其實(shí)早在2013年7月國(guó)內(nèi)首顆專(zhuān)用語(yǔ)音芯片就誕生了,它由四川長(zhǎng)虹和中科院聲學(xué)所付強(qiáng)(現(xiàn)為先聲互聯(lián)創(chuàng)始人)團(tuán)隊(duì)共同研發(fā)。新研發(fā)出的長(zhǎng)虹語(yǔ)音芯片的優(yōu)勢(shì)是在語(yǔ)音識(shí)別的基礎(chǔ)上,融合了多方面的語(yǔ)音增強(qiáng)功能,包括語(yǔ)音降噪、回聲消除、波束形成等,支持低功耗喚醒,能夠?qū)崿F(xiàn)遠(yuǎn)場(chǎng)語(yǔ)音采集??赡芤?yàn)樗拇ㄩL(zhǎng)虹的一些原因,這款芯片在研發(fā)出后并沒(méi)有投入生產(chǎn),之后就不了了之。

  2015年以后語(yǔ)音芯片就開(kāi)始陸續(xù)興起,包括聯(lián)發(fā)科MT8516、科勝訊CX20924、晶晨半導(dǎo)體A113、瑞芯微RK3036、北京君正X1000等公司,如聯(lián)發(fā)科推出了MT8516應(yīng)用在了阿里天貓精靈上,晶晨A113應(yīng)用在了小米AI音箱上。

  ▲阿里天貓精靈主控板上使用的聯(lián)發(fā)科MT8516芯片

  整體來(lái)說(shuō),這些語(yǔ)音芯片都是面向智能音箱以及智能家居場(chǎng)景打造的專(zhuān)用芯片,支持多通道麥克風(fēng)陣列接口,采用適合做語(yǔ)音處理的CPU;在語(yǔ)音算法上支持回聲消除、噪聲抑制、聲源定位、語(yǔ)音增強(qiáng)等技術(shù),并兼具運(yùn)算能力和低功耗的考量。

  但有趣的是,除了聯(lián)發(fā)科外,都是一些中小芯片公司推出語(yǔ)音芯片,像高通、英特爾等巨頭芯片公司并沒(méi)有推出語(yǔ)音芯片??紤]到聯(lián)發(fā)科過(guò)去做DVD的光驅(qū)起家,多媒體一直是其核心技術(shù),在語(yǔ)音芯片上跟進(jìn)不足為怪。而高通、英特爾等并未在語(yǔ)音芯片上跟進(jìn),一方面反應(yīng)出相對(duì)于手機(jī)、電腦而言,語(yǔ)音芯片市場(chǎng)目前規(guī)模較小,并沒(méi)有引起巨頭玩家的重視;另一方面也反應(yīng)出他們?cè)谡Z(yǔ)音芯片布局上進(jìn)展較慢,如高通在今年6月份還專(zhuān)門(mén)發(fā)布了一個(gè)智能語(yǔ)音平臺(tái),正是從另一方面彌補(bǔ)在語(yǔ)音芯片研發(fā)上的緩慢。

  此外,智東西還了解到,全志科技會(huì)在2018年初推出一款專(zhuān)用的語(yǔ)音芯片,聯(lián)發(fā)科也會(huì)在明年推出更具競(jìng)爭(zhēng)力的語(yǔ)音芯片。

  語(yǔ)音AI芯片蓄勢(shì)待發(fā)

  隨著華為麒麟970芯片以及蘋(píng)果A11芯片的推出,AI芯片成為行業(yè)熱議的話題。所謂AI芯片也被稱(chēng)為AI加速器或計(jì)算卡,即專(zhuān)門(mén)用于處理人工智能應(yīng)用中的大量計(jì)算任務(wù)的模塊(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé)),從而實(shí)現(xiàn)端側(cè)智能。

  目前無(wú)論是智能音箱還是其他智能設(shè)備,更多的智能都是在云端來(lái)實(shí)現(xiàn),但云端存在著語(yǔ)音交互“時(shí)延”的問(wèn)題,對(duì)網(wǎng)絡(luò)的需求限制了設(shè)備的使用空間,以及由此帶來(lái)的數(shù)據(jù)與隱私危機(jī)。為了讓設(shè)備使用場(chǎng)景不受局限,用戶(hù)體驗(yàn)更好,端側(cè)智能以成為一種趨勢(shì),語(yǔ)音AI芯片也隨之而來(lái)。

  2016年以來(lái),語(yǔ)音AI芯片也開(kāi)始走進(jìn)大家的視野。成都啟英泰倫在去年推出CI1006,杭州國(guó)芯在今年10月底推出GX8010,都是語(yǔ)音AI芯片。

  ▲杭州國(guó)芯GX8010芯片

  對(duì)比語(yǔ)音芯片,語(yǔ)音AI芯片具備以下特點(diǎn):首先語(yǔ)音AI芯片中集成了專(zhuān)用的AI處理器模塊,用以對(duì)本地的機(jī)器學(xué)習(xí)算法進(jìn)行加速;其二高度集成,語(yǔ)音AI芯片不但集成CPU、AI處理器,還會(huì)將DSP信號(hào)處理、WiFi/藍(lán)牙等模塊集成進(jìn)去;其三能夠?qū)崿F(xiàn)端側(cè)智能,將一些常用或者簡(jiǎn)單的功能直接集成到本地,通過(guò)AI芯片進(jìn)行本地計(jì)算,從而設(shè)備可以在端側(cè)離線完成如聽(tīng)音樂(lè)、日常問(wèn)答及閑聊等任務(wù),實(shí)現(xiàn)更快的交互能力。

  再考慮到用戶(hù)體驗(yàn)以及數(shù)據(jù)隱私等問(wèn)題,更快的交互體驗(yàn)以及更多本地計(jì)算會(huì)是一種趨勢(shì),隨著智能語(yǔ)音場(chǎng)景的爆發(fā), 語(yǔ)音AI芯片也會(huì)迅速發(fā)展。

  但目前的AI芯片更多的在于手機(jī)和視覺(jué)應(yīng)用領(lǐng)域,一方面手機(jī)市場(chǎng)體量足夠龐大,另一方面視覺(jué)應(yīng)用技術(shù)也相對(duì)成熟。而在語(yǔ)音領(lǐng)域,一方面語(yǔ)義理解技術(shù)短期內(nèi)很難突破,另外智能語(yǔ)音是一個(gè)新興市場(chǎng),智能音箱作為典型爆款產(chǎn)品,今年全球整體市場(chǎng)規(guī)模也不過(guò)2500萬(wàn)~3000萬(wàn)臺(tái)之間,而這些都導(dǎo)致了語(yǔ)音AI芯片進(jìn)展相對(duì)緩慢。

  聯(lián)發(fā)科副總經(jīng)理暨家庭娛樂(lè)產(chǎn)品事業(yè)群總經(jīng)理游人杰曾對(duì)智能語(yǔ)音的發(fā)展提出一個(gè)三階段論的觀點(diǎn),他認(rèn)為智能語(yǔ)音的第一階段是智能音箱的普及,第二階段是更多智能語(yǔ)音設(shè)備的出現(xiàn),語(yǔ)音成為人機(jī)交互的界面,第三階段就是端側(cè)智能,通過(guò)語(yǔ)音AI芯片來(lái)實(shí)現(xiàn)更多本地計(jì)算,提供用戶(hù)更好的交互體驗(yàn)。

  不難看出,我們目前還處于第一階段,需要推動(dòng)智能音箱的普及以及更多智能設(shè)備的出現(xiàn),從而推動(dòng)語(yǔ)音交互界面的到來(lái)。只有當(dāng)語(yǔ)音成為一種交互界面,才意味著整個(gè)智能語(yǔ)音市場(chǎng)的爆發(fā),才會(huì)有更多的巨頭芯片廠商以及中小芯片商涌入其中。

  而針對(duì)當(dāng)下智能語(yǔ)音設(shè)備所需的智能化,游人杰談到,CPU本身可以做一些“輕”AI的功能,如果本地需要很強(qiáng)的AI能力,目前則會(huì)在語(yǔ)音芯片的基礎(chǔ)上外置一個(gè)AI處理器來(lái)實(shí)現(xiàn)。此外游人杰也透露,聯(lián)發(fā)科語(yǔ)音AI芯片的推出尚需1~2年時(shí)間。

  相比一款新型芯片研發(fā)的高昂成本,在對(duì)算力有很大需求的產(chǎn)品上,通過(guò)添加一個(gè)獨(dú)立的AI處理器模塊,確實(shí)可以快速滿足產(chǎn)品端對(duì)AI能力的需求,并且緩解了芯片產(chǎn)品漫長(zhǎng)的研發(fā)周期(一般18~24個(gè)月)。從時(shí)間來(lái)看,隨著智能語(yǔ)音的興起,未來(lái)1~2年后可能將會(huì)是語(yǔ)音芯片爆發(fā)的高峰期。

  語(yǔ)音芯片帶動(dòng)新興行業(yè)

  有分析認(rèn)為,到2020年AI芯片市場(chǎng)規(guī)模將達(dá)到146.16億美元,約占全球人工智能市場(chǎng)規(guī)模12.18%。隨著人工智能的火熱,以GPU(圖形處理器) 、FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列) 、ASIC(為專(zhuān)門(mén)目的而設(shè)計(jì)的集成電路)為代表的AI芯片類(lèi)別均將獲得快速發(fā)展,語(yǔ)音芯片/語(yǔ)音AI芯片也會(huì)在這個(gè)過(guò)程中受益并爆發(fā),在此過(guò)程中會(huì)誕生一個(gè)新興的語(yǔ)音芯片行業(yè),以及一波語(yǔ)音芯片公司。

  根據(jù)游人杰智能語(yǔ)音發(fā)展的三階段論,目前我們還處于第一階段的智能音箱普及期,先通過(guò)一款爆款產(chǎn)品來(lái)引爆整個(gè)語(yǔ)音交互行業(yè),并由此推動(dòng)家庭場(chǎng)景、辦公場(chǎng)景等的語(yǔ)音智能化,使語(yǔ)音成為人機(jī)交互的一個(gè)界面,才能真正推動(dòng)語(yǔ)音芯片的爆發(fā),以及演進(jìn)到語(yǔ)音AI芯片。

  僅僅是今年全球智能音箱市場(chǎng)銷(xiāo)量預(yù)計(jì)有望達(dá)到3000萬(wàn)臺(tái),隨著語(yǔ)音交互進(jìn)一步爆發(fā),場(chǎng)景進(jìn)一步開(kāi)拓,智能語(yǔ)音設(shè)備將快速進(jìn)入億級(jí)規(guī)模市場(chǎng),可見(jiàn)無(wú)論是當(dāng)下的語(yǔ)音芯片還是即將到來(lái)的語(yǔ)音AI芯片,都將有廣闊的市場(chǎng)空間。

  由于當(dāng)下智能語(yǔ)音市場(chǎng)規(guī)模相對(duì)較小,相比芯片研發(fā)的高成本投入,像高通、英偉達(dá)、英特爾等芯片巨頭或是并不看好這塊市場(chǎng)或是語(yǔ)音芯片研發(fā)進(jìn)展緩慢,給予了更多中小芯片廠商發(fā)展的機(jī)會(huì)。

  目前在語(yǔ)音芯片行業(yè)已涌現(xiàn)出數(shù)十家公司在這一領(lǐng)域“開(kāi)疆?dāng)U土”,包括聯(lián)發(fā)科、杭州國(guó)芯、全志科技、晶晨半導(dǎo)體、啟英泰倫等,既有芯片領(lǐng)域的大公司,面向智能家居、消費(fèi)電子領(lǐng)域的國(guó)有芯片品牌,還有新興的創(chuàng)業(yè)公司。正是語(yǔ)音交互的興起,為他們?cè)诩扔袠I(yè)務(wù)之外,提供了一個(gè)新的經(jīng)濟(jì)增長(zhǎng)點(diǎn),并且隨著語(yǔ)音交互的爆發(fā),這一領(lǐng)域甚至?xí)Q生下一個(gè)巨頭芯片公司。

  可以預(yù)見(jiàn)的是,2018年會(huì)有更多語(yǔ)音芯片的誕生,在未來(lái)1~2年,語(yǔ)音AI芯片也將進(jìn)一步發(fā)展迎來(lái)爆發(fā)期。

  結(jié)語(yǔ):語(yǔ)音芯片的崛起

  隨著語(yǔ)音交互設(shè)備的誕生發(fā)展,芯片也經(jīng)歷著從通用組合芯片到語(yǔ)音芯片再到語(yǔ)音AI芯片的演進(jìn)。隨著語(yǔ)音交互的爆發(fā),語(yǔ)音真正成為人機(jī)交互的界面,語(yǔ)音芯片也將成爆發(fā)之態(tài)。

  但與此同時(shí),語(yǔ)音與視覺(jué)也將會(huì)走向融合,畢竟多元的交互方式才更符合人性的體驗(yàn)。在語(yǔ)音芯片崛起后,“語(yǔ)音+屏幕”相結(jié)合的交互方式也是業(yè)界更加認(rèn)可的一種趨勢(shì)。

人物訪談