物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

【灣區(qū)物道】AI之眼,智造未來新視界—專訪英特靈達(dá)朱才志

作者:榴蓮
來源:深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)
日期:2023-05-23 15:08:24
摘要:這是『灣區(qū)物道』的第39期,本期訪談我們對(duì)話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)理事單位英特靈達(dá)信息技術(shù)(深圳)有限公司CEO朱才志先生,他早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。本次采訪,他分享了對(duì)AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢(shì)的思考,希望給企業(yè)帶來更多啟發(fā)和價(jià)值。

灣區(qū)物道

深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)的精品欄目《灣區(qū)物道》系列訪談,對(duì)話專家學(xué)者、政府官員、灣區(qū)商會(huì)協(xié)會(huì)及企業(yè)家,解讀和宣傳扶持政策;分析市場(chǎng)產(chǎn)業(yè)技術(shù)發(fā)展情況;助力物聯(lián)網(wǎng)生態(tài)體系建設(shè)。


AI視覺技術(shù)是將人工智能和視覺技術(shù)相結(jié)合,通過計(jì)算機(jī)視覺和深度學(xué)習(xí)等技術(shù),對(duì)圖像和視頻數(shù)據(jù)進(jìn)行處理、分析和識(shí)別。工業(yè)圖像處理(機(jī)器視覺技術(shù))幫助生產(chǎn)企業(yè)實(shí)現(xiàn)其過程鏈的網(wǎng)絡(luò)化、自動(dòng)化和數(shù)字化。這項(xiàng)技術(shù)通過圖像采集設(shè)備(如攝像頭和傳感器)監(jiān)控生產(chǎn)過程,并借助集成的機(jī)器視覺技術(shù)軟件處理圖像數(shù)據(jù)。

工業(yè)4.0時(shí)代,我國各行各業(yè)對(duì)采用圖像和機(jī)器視覺技術(shù)的工業(yè)自動(dòng)化、智能化需求開始廣泛出現(xiàn),國內(nèi)機(jī)器視覺行業(yè)將迎來規(guī)?;焖侔l(fā)展黃金期。

英特靈達(dá)擁有業(yè)內(nèi)領(lǐng)先的視覺AI技術(shù)和多硬件平臺(tái)適配能力,是華為機(jī)器視覺和昇騰認(rèn)證合作伙伴,專注社區(qū)、園區(qū)、工地、加油站等全場(chǎng)景AI算法。公司堅(jiān)持走自主創(chuàng)新之路,團(tuán)隊(duì)算法能力雄厚,研發(fā)了多款邊、端系列智能硬件和行業(yè)解決方案并提供視覺相關(guān)多層次個(gè)性化的算法定制服務(wù),為客戶提升業(yè)務(wù)運(yùn)營效率,實(shí)現(xiàn)創(chuàng)新應(yīng)用場(chǎng)景。

在數(shù)字化浪潮下,AI視覺技術(shù)具有怎樣的發(fā)展前景?在工業(yè)自動(dòng)化領(lǐng)域發(fā)揮怎樣的價(jià)值?

這是『灣區(qū)物道』的第39期,本期訪談我們對(duì)話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)理事單位英特靈達(dá)信息技術(shù)(深圳)有限公司CEO朱才志先生,他早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。本次采訪,他分享了對(duì)AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢(shì)的思考,希望給企業(yè)帶來更多啟發(fā)和價(jià)值。

朱才志 英特靈達(dá) CEO

 

? 英特靈達(dá)CEO,2015歸國的深圳市海外高層次人才,回國前任職日本名古屋大學(xué)副教授。

? 中科大博士畢業(yè)后,朱博士先有在微軟亞洲研究院,日本理光等知名企業(yè)的工業(yè)界經(jīng)歷,之后又有海外博士后、助理教授到副教授的完整科研經(jīng)歷,中科院深圳先進(jìn)院客座教授。

? 早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究,是3次NIST視覺算法年度世界冠軍獲得者。

? 上海市浦江人才,深圳市孔雀人才B類,寶安區(qū)政協(xié)委員, 深圳市人工智能專家委員會(huì)9位創(chuàng)始委員之一

? 中國視覺AI的首批創(chuàng)業(yè)者,曾于2014年聯(lián)合創(chuàng)立AI公司圖麟科技并任職CTO,英特靈達(dá)是他的第二次創(chuàng)業(yè)。

 

1、計(jì)算機(jī)視覺,得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,可以承接海量下游需求,目前都有哪些應(yīng)用場(chǎng)景?

計(jì)算機(jī)視覺(CV)是個(gè)很有年頭的學(xué)科,國際上有個(gè)IEEE舉辦的國際計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議(ICCV),首屆于1987年在倫敦舉辦,每兩年舉辦一次,是CV領(lǐng)域的頂級(jí)會(huì)議,我10多年前參加過這個(gè)會(huì)議,當(dāng)時(shí)學(xué)術(shù)界可謂百花齊放、百家爭鳴,各種流派都有,但實(shí)際上成熟的、能商業(yè)化落地的技術(shù)其實(shí)不多。今天,得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,特別是最近SAM、stable diffusion等大模型的加持,視覺AI的能力得到了極大的延展,很多經(jīng)典問題都有突破,反而學(xué)術(shù)界有點(diǎn)無所適從了。在商業(yè)應(yīng)用層面,我國其實(shí)走在了世界的前列,在這一波AI浪潮中,對(duì)比NLP(自然語言處理)、語音等方向,CV方向更受國內(nèi)資本與創(chuàng)業(yè)者追捧,早期的格靈深瞳、CV四小龍、云天勵(lì)飛,包括我個(gè)人回國的首次創(chuàng)業(yè),大家都在積極探索視覺AI的商業(yè)落地新思路。安防是大家不約而同選擇的應(yīng)用場(chǎng)景,早期確實(shí)是少數(shù)體量大的落地方向,但很快大家意識(shí)到,相比之下,傳統(tǒng)安防廠商如???、大華等巨頭更有優(yōu)勢(shì)。之后,工業(yè)缺陷檢測(cè)(AOI)、醫(yī)療輔助診斷、機(jī)器人、輔助駕駛等行業(yè)也吸引了一波視覺AI公司的加入。同時(shí),傳統(tǒng)安防也在物聯(lián)網(wǎng)化,出現(xiàn)了非常多的泛安防細(xì)分場(chǎng)景,包括智慧商業(yè)、智慧農(nóng)業(yè)、智慧餐飲、智慧園區(qū)、智慧小區(qū)、智慧校園、智慧油田、智慧礦山、智慧電力等。在消費(fèi)類產(chǎn)品上,視覺AI廣泛與智能硬件、智能家居類產(chǎn)品相結(jié)合,產(chǎn)品包括智能門鈴、智能門鎖、嬰兒看護(hù)、打獵相機(jī)、看鳥器等,在海外很有市場(chǎng)。國內(nèi)運(yùn)營商在大力推動(dòng)視覺AI的落地,明廚亮灶、防溺水、高空拋物、煙火識(shí)別,以點(diǎn)帶面。盈利模式方面也有創(chuàng)新,例如參考螢石,以4G、云存儲(chǔ)、AI算法訂閱收費(fèi),取代早期的一次性銷售硬件的模式,成為包括運(yùn)營商在內(nèi)的平臺(tái)公司的新玩法。

 

2、從市場(chǎng)規(guī)模、場(chǎng)景泛用、帶動(dòng)作用來看,AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場(chǎng),您認(rèn)為AI 視覺算法有哪些獨(dú)特的技術(shù)優(yōu)勢(shì)?

確實(shí),視覺在這波AI浪潮中,具有其它感知所無法比擬的作用,原因在于,視覺作為80%以上的信息入口,基本能覆蓋各行業(yè)的典型應(yīng)用場(chǎng)景,是聽覺、觸覺等其它感官所不能比擬的。我們今天各行各業(yè)有各種不同門類的工種,大部分的工作,是無需動(dòng)嘴動(dòng)耳,僅靠眼睛觀察并做出判斷后采取不同動(dòng)作,就完全可以勝任了,很多工作場(chǎng)所甚至要求保持安靜。視覺AI本質(zhì)上是來取代人眼+人腦的部分功能的,例如今天非常成熟的人臉識(shí)別門禁系統(tǒng),就是取代保安的人員身份核查的程序化工作,諸如此類的場(chǎng)景很多,例如工業(yè)生產(chǎn)流水線上,產(chǎn)品或配件的缺陷檢測(cè),之前是人工眼睛來檢查的,容易出錯(cuò)且長期勞作很傷眼睛,今天,很多這樣的工作,都完全可以用AI來取代了,且效果更好、效率更高。類似的還有銀行、保險(xiǎn)公司票據(jù)的自動(dòng)識(shí)別錄入,輔助駕駛中也用到了很多視覺處理技術(shù),例如駕駛員疲勞檢測(cè)、車道線偏離檢測(cè)等等。最近,隨著技術(shù)的發(fā)展,一些特定場(chǎng)景的異常檢測(cè),例如煙火的識(shí)別、高空拋物不良行為的檢測(cè),都已經(jīng)逐漸開始商業(yè)化應(yīng)用了,保障人民的生命財(cái)產(chǎn)安全。

正因?yàn)橐曈X如此重要,早在上世紀(jì)80年代,視覺問題的研究就獨(dú)立出來成為一門學(xué)科。而這一波AI浪潮,可以說也是起源于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在2012年的ImageNet視覺競(jìng)賽中大放異彩,在圖像分類問題上,取得了比經(jīng)典的特征工程+支持向量機(jī)(SVM)方法壓倒性的性能優(yōu)勢(shì)。今天,我們耳熟能詳?shù)腃NN、GAN,最近很火的stable diffusion等,都是在視覺AI領(lǐng)域發(fā)展起來的技術(shù)。展望未來,我有兩點(diǎn)預(yù)測(cè),一是在技術(shù)突破方面,融合多模態(tài)的大模型應(yīng)該會(huì)有一波蓬勃發(fā)展,當(dāng)下,自然語言處理(NLP)領(lǐng)域在AI領(lǐng)域出現(xiàn)了新的突破,ChatGPT展示了非常強(qiáng)的文本知識(shí)萃取、智能涌現(xiàn)能力,似乎距離AGI(通用人工智能)更近了,這很大程度上,因?yàn)檎Z言是人類知識(shí)的結(jié)構(gòu)化表述形式,對(duì)比視覺這種非結(jié)構(gòu)化數(shù)據(jù),有天然的優(yōu)勢(shì)?!耙粓D勝千言”,視覺的信息量遠(yuǎn)比文字豐富,且很多是難以用語言來概括抽象的,這意味著要訓(xùn)練出視覺的ChatGPT,需要更大規(guī)模的網(wǎng)絡(luò)、數(shù)據(jù)和計(jì)算資源。這很可能以當(dāng)下的技術(shù)現(xiàn)狀是無法做到的,需要從理論上所有突破。我認(rèn)為,把視覺信息投影到語言空間,忽略其它難以(或無需)用語言描述的信息,以這種方式融合視覺、語言的多模態(tài)大模型,應(yīng)該有機(jī)會(huì)訓(xùn)練出視覺的GPT:能以我們?nèi)祟惿瞄L的語言組織形式,來正確理解視覺數(shù)據(jù)。另一點(diǎn)是,在工業(yè)界,將會(huì)涌現(xiàn)出基于視覺大模型的各種行業(yè)應(yīng)用,在包括自動(dòng)駕駛、工業(yè)質(zhì)檢、內(nèi)容制作、機(jī)器人等各個(gè)行業(yè)都講帶來歷史性突破。對(duì)我們珠三角企業(yè)來說,硬件供應(yīng)鏈?zhǔn)俏覀兊膹?qiáng)項(xiàng),基于視覺大模型,結(jié)合某個(gè)垂直行業(yè),做遷移學(xué)習(xí)、知識(shí)蒸餾,得到可在端側(cè)部署的模型,將有機(jī)會(huì)進(jìn)一步做出killer級(jí)別的智能硬件來。

 

3、隨著我國配套基礎(chǔ)建設(shè)的完善,以及技術(shù)與資金的不斷積累,各行各業(yè)對(duì)采用圖像和機(jī)器視覺技術(shù)的工業(yè)自動(dòng)化、智能化需求開始廣泛出現(xiàn),您認(rèn)為AI視覺如何在其中發(fā)揮重要價(jià)值?

改革開放以來,我國積極融入世界貿(mào)易體系,逐漸形成了覆蓋全行業(yè)的完備產(chǎn)業(yè)鏈條,因而被譽(yù)為“世界工廠”。同時(shí),我們也面臨擺脫低端產(chǎn)業(yè)內(nèi)卷、提升核心高端技術(shù)貢獻(xiàn)率的緊迫壓力。發(fā)展機(jī)器視覺技術(shù)是促進(jìn)工業(yè)自動(dòng)化、數(shù)字化和智能化的關(guān)鍵途徑。目前大家熟知的AI視覺技術(shù)主要針對(duì)一般場(chǎng)景的RGB圖像,核心難點(diǎn)在于如何提升算法在不同環(huán)境條件下的魯棒性和泛化能力。然而,工業(yè)場(chǎng)景與一般場(chǎng)景相比,具有更高的穩(wěn)定性和可控性。在工業(yè)場(chǎng)景中,通過聯(lián)合運(yùn)用主動(dòng)照明、機(jī)械協(xié)作等技術(shù)手段,AI視覺技術(shù)的可靠性和敏捷度可以得到極大提升。此外,工業(yè)生產(chǎn)環(huán)境的傳感手段并不局限于RGB傳感。例如,紅外、偏光、激光雷達(dá)等傳感器在工業(yè)領(lǐng)域具有廣泛的應(yīng)用。這意味著,基于RGB圖像開發(fā)的AI視覺技術(shù)有望在超越RGB的泛圖像理解方面大顯身手。

在上述領(lǐng)域做到持續(xù)創(chuàng)新并不容易,需要對(duì)相機(jī)系統(tǒng)、多傳感器融合有深入了解,同時(shí),能快速基于當(dāng)下視覺大模型的發(fā)展,做到在垂直行業(yè)的應(yīng)用創(chuàng)新,包括在大模型的應(yīng)用層創(chuàng)新、硬件(乃至FPGA、芯片級(jí))的創(chuàng)新等。

 

4、AI視覺技術(shù)的發(fā)展前景如何?面臨哪些難點(diǎn)與挑戰(zhàn)?

在大模型加持的通用智能時(shí)代,AI視覺技術(shù)必將迎來爆發(fā)。鑒于大模型的特性,在短期內(nèi),AI視覺技術(shù)會(huì)呈現(xiàn)出集中化趨勢(shì),甚至有寡頭化的危險(xiǎn)。我們注意到,ChatGPT這樣的語言大模型的規(guī)模已經(jīng)極其龐大,囊括圖像和視頻在內(nèi)的跨模態(tài)大模型必將更加復(fù)雜,只有少數(shù)頭部公司擁有超大模型訓(xùn)練和維護(hù)更新的能力。在中短期研究層面,大模型的壓縮加速技術(shù),視頻大模型,三維視覺大模型等會(huì)得到極大發(fā)展。而在中長期研究層面,包括量子計(jì)算、脈沖計(jì)算在內(nèi)的新型計(jì)算硬件上實(shí)現(xiàn)通用AI值得關(guān)注。

在應(yīng)用層面,將來的跨模態(tài)大模型及其生態(tài)體系可以滿足絕大部分to C需求。但是,上面提及的工業(yè)自動(dòng)化等領(lǐng)域,生產(chǎn)環(huán)境的數(shù)據(jù)較難獲取,且具有較強(qiáng)的封閉屬性,基于互聯(lián)網(wǎng)數(shù)據(jù)的大模型難以直接運(yùn)用。因此,面向具體應(yīng)用領(lǐng)域的垂直模型是在to B方面取得成功的關(guān)鍵。目前,大模型的勢(shì)力格局本身完全沒有固定,而全鏈路垂直模型的開發(fā)是未被涉足的藍(lán)海,包括創(chuàng)業(yè)企業(yè)在內(nèi)的大中小玩家都有機(jī)會(huì)。不管技術(shù)浪潮如何演進(jìn),合理運(yùn)用技術(shù)打造對(duì)客戶有價(jià)值的產(chǎn)品這一商業(yè)成功的本質(zhì)卻不會(huì)變化。

 

5、英特靈達(dá)以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案,公司的核心優(yōu)勢(shì)體現(xiàn)在哪些方面?未來有哪些規(guī)劃?

英特靈達(dá)將視覺傳感和智能處理融會(huì)貫通,形成了面向任務(wù)的光學(xué)設(shè)計(jì)、數(shù)據(jù)生成、AI算法開發(fā)和ASIC化的全鏈路自動(dòng)化工具,具有極高的技術(shù)壁壘和極快的市場(chǎng)響應(yīng)能力。目前,公司發(fā)揮在光學(xué)原理、相機(jī)系統(tǒng)和數(shù)據(jù)生成方面的獨(dú)特優(yōu)勢(shì),致力于開發(fā)面向圖像增強(qiáng)和理解的垂直大模型及其知識(shí)蒸餾工具鏈,快速部署與傳感硬件高度適配的AI視覺模型,從而提升產(chǎn)品價(jià)值,滿足客服需求。英特靈達(dá)本質(zhì)上是一家有視覺人工智能核心應(yīng)用技術(shù)的公司,在當(dāng)下的產(chǎn)業(yè)鏈分工中,其實(shí)是非常偏上游的,我們的發(fā)展離不開生態(tài)。未來,我們期望能找到在產(chǎn)品、銷售渠道上能高度互補(bǔ)的合作伙伴,英特靈達(dá)可以提供核心技術(shù)(算法、芯片、硬件設(shè)計(jì)方案等),硬件產(chǎn)品與銷售渠道都依賴伙伴來提供,我們的目標(biāo)是一起做出差異化的智能產(chǎn)品,定位中高端增量市場(chǎng),包括B端和C端,例如,B端我們主要是與華為行業(yè)感知部門合作,我們?cè)谌A為好望商城上,提供優(yōu)質(zhì)的算法,適配華為的硬件,借助華為的銷售渠道觸達(dá)用戶;C端我個(gè)人也非??春?,特別是海外市場(chǎng),目前主要與珠三角方案公司合作,最大化發(fā)揮制造業(yè)優(yōu)勢(shì),為生態(tài)合作伙伴提高毛利率與市場(chǎng)占有率,破除珠三角無序的內(nèi)卷。

 

人物訪談