RFID世界網(wǎng) > 新聞中心 > 訪談報(bào)道 > 正文

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達(dá)朱才志

作者：榴蓮

來源：深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)

日期：2023-05-23 15:08:24

摘要：這是『灣區(qū)物道』的第39期，本期訪談我們對(duì)話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)理事單位英特靈達(dá)信息技術(shù)（深圳）有限公司CEO朱才志先生，他早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。本次采訪，他分享了對(duì)AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢(shì)的思考，希望給企業(yè)帶來更多啟發(fā)和價(jià)值。

關(guān)鍵詞：深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)視覺AI英特靈達(dá)

灣區(qū)物道

深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)的精品欄目《灣區(qū)物道》系列訪談，對(duì)話專家學(xué)者、政府官員、灣區(qū)商會(huì)協(xié)會(huì)及企業(yè)家，解讀和宣傳扶持政策；分析市場(chǎng)產(chǎn)業(yè)技術(shù)發(fā)展情況；助力物聯(lián)網(wǎng)生態(tài)體系建設(shè)。

AI視覺技術(shù)是將人工智能和視覺技術(shù)相結(jié)合，通過計(jì)算機(jī)視覺和深度學(xué)習(xí)等技術(shù)，對(duì)圖像和視頻數(shù)據(jù)進(jìn)行處理、分析和識(shí)別。工業(yè)圖像處理（機(jī)器視覺技術(shù)）幫助生產(chǎn)企業(yè)實(shí)現(xiàn)其過程鏈的網(wǎng)絡(luò)化、自動(dòng)化和數(shù)字化。這項(xiàng)技術(shù)通過圖像采集設(shè)備（如攝像頭和傳感器）監(jiān)控生產(chǎn)過程，并借助集成的機(jī)器視覺技術(shù)軟件處理圖像數(shù)據(jù)。

工業(yè)4.0時(shí)代，我國各行各業(yè)對(duì)采用圖像和機(jī)器視覺技術(shù)的工業(yè)自動(dòng)化、智能化需求開始廣泛出現(xiàn)，國內(nèi)機(jī)器視覺行業(yè)將迎來規(guī)?；焖侔l(fā)展黃金期。

英特靈達(dá)擁有業(yè)內(nèi)領(lǐng)先的視覺AI技術(shù)和多硬件平臺(tái)適配能力,是華為機(jī)器視覺和昇騰認(rèn)證合作伙伴，專注社區(qū)、園區(qū)、工地、加油站等全場(chǎng)景AI算法。公司堅(jiān)持走自主創(chuàng)新之路,團(tuán)隊(duì)算法能力雄厚,研發(fā)了多款邊、端系列智能硬件和行業(yè)解決方案并提供視覺相關(guān)多層次個(gè)性化的算法定制服務(wù),為客戶提升業(yè)務(wù)運(yùn)營效率,實(shí)現(xiàn)創(chuàng)新應(yīng)用場(chǎng)景。

在數(shù)字化浪潮下，AI視覺技術(shù)具有怎樣的發(fā)展前景？在工業(yè)自動(dòng)化領(lǐng)域發(fā)揮怎樣的價(jià)值？

這是『灣區(qū)物道』的第39期，本期訪談我們對(duì)話了深圳市物聯(lián)網(wǎng)產(chǎn)業(yè)協(xié)會(huì)理事單位英特靈達(dá)信息技術(shù)（深圳）有限公司CEO朱才志先生，他早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。本次采訪，他分享了對(duì)AI視覺技術(shù)所面臨的挑戰(zhàn)和發(fā)展趨勢(shì)的思考，希望給企業(yè)帶來更多啟發(fā)和價(jià)值。

朱才志英特靈達(dá) CEO

? 英特靈達(dá)CEO，2015歸國的深圳市海外高層次人才，回國前任職日本名古屋大學(xué)副教授。

? 中科大博士畢業(yè)后，朱博士先有在微軟亞洲研究院，日本理光等知名企業(yè)的工業(yè)界經(jīng)歷，之后又有海外博士后、助理教授到副教授的完整科研經(jīng)歷，中科院深圳先進(jìn)院客座教授。

? 早在2000年開始從事計(jì)算機(jī)視覺相關(guān)的研究，是3次NIST視覺算法年度世界冠軍獲得者。

? 上海市浦江人才,深圳市孔雀人才B類,寶安區(qū)政協(xié)委員, 深圳市人工智能專家委員會(huì)9位創(chuàng)始委員之一

? 中國視覺AI的首批創(chuàng)業(yè)者，曾于2014年聯(lián)合創(chuàng)立AI公司圖麟科技并任職CTO，英特靈達(dá)是他的第二次創(chuàng)業(yè)。

1、計(jì)算機(jī)視覺，得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場(chǎng)景？

計(jì)算機(jī)視覺（CV）是個(gè)很有年頭的學(xué)科，國際上有個(gè)IEEE舉辦的國際計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議（ICCV），首屆于1987年在倫敦舉辦，每兩年舉辦一次，是CV領(lǐng)域的頂級(jí)會(huì)議，我10多年前參加過這個(gè)會(huì)議，當(dāng)時(shí)學(xué)術(shù)界可謂百花齊放、百家爭鳴，各種流派都有，但實(shí)際上成熟的、能商業(yè)化落地的技術(shù)其實(shí)不多。今天，得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展，特別是最近SAM、stable diffusion等大模型的加持，視覺AI的能力得到了極大的延展，很多經(jīng)典問題都有突破，反而學(xué)術(shù)界有點(diǎn)無所適從了。在商業(yè)應(yīng)用層面，我國其實(shí)走在了世界的前列，在這一波AI浪潮中，對(duì)比NLP（自然語言處理）、語音等方向，CV方向更受國內(nèi)資本與創(chuàng)業(yè)者追捧，早期的格靈深瞳、CV四小龍、云天勵(lì)飛，包括我個(gè)人回國的首次創(chuàng)業(yè)，大家都在積極探索視覺AI的商業(yè)落地新思路。安防是大家不約而同選擇的應(yīng)用場(chǎng)景，早期確實(shí)是少數(shù)體量大的落地方向，但很快大家意識(shí)到，相比之下，傳統(tǒng)安防廠商如?？?、大華等巨頭更有優(yōu)勢(shì)。之后，工業(yè)缺陷檢測(cè)（AOI）、醫(yī)療輔助診斷、機(jī)器人、輔助駕駛等行業(yè)也吸引了一波視覺AI公司的加入。同時(shí)，傳統(tǒng)安防也在物聯(lián)網(wǎng)化，出現(xiàn)了非常多的泛安防細(xì)分場(chǎng)景，包括智慧商業(yè)、智慧農(nóng)業(yè)、智慧餐飲、智慧園區(qū)、智慧小區(qū)、智慧校園、智慧油田、智慧礦山、智慧電力等。在消費(fèi)類產(chǎn)品上，視覺AI廣泛與智能硬件、智能家居類產(chǎn)品相結(jié)合，產(chǎn)品包括智能門鈴、智能門鎖、嬰兒看護(hù)、打獵相機(jī)、看鳥器等，在海外很有市場(chǎng)。國內(nèi)運(yùn)營商在大力推動(dòng)視覺AI的落地，明廚亮灶、防溺水、高空拋物、煙火識(shí)別，以點(diǎn)帶面。盈利模式方面也有創(chuàng)新，例如參考螢石，以4G、云存儲(chǔ)、AI算法訂閱收費(fèi)，取代早期的一次性銷售硬件的模式，成為包括運(yùn)營商在內(nèi)的平臺(tái)公司的新玩法。

2、從市場(chǎng)規(guī)模、場(chǎng)景泛用、帶動(dòng)作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場(chǎng)，您認(rèn)為AI 視覺算法有哪些獨(dú)特的技術(shù)優(yōu)勢(shì)？

確實(shí)，視覺在這波AI浪潮中，具有其它感知所無法比擬的作用，原因在于，視覺作為80%以上的信息入口，基本能覆蓋各行業(yè)的典型應(yīng)用場(chǎng)景，是聽覺、觸覺等其它感官所不能比擬的。我們今天各行各業(yè)有各種不同門類的工種，大部分的工作，是無需動(dòng)嘴動(dòng)耳，僅靠眼睛觀察并做出判斷后采取不同動(dòng)作，就完全可以勝任了，很多工作場(chǎng)所甚至要求保持安靜。視覺AI本質(zhì)上是來取代人眼+人腦的部分功能的，例如今天非常成熟的人臉識(shí)別門禁系統(tǒng)，就是取代保安的人員身份核查的程序化工作，諸如此類的場(chǎng)景很多，例如工業(yè)生產(chǎn)流水線上，產(chǎn)品或配件的缺陷檢測(cè)，之前是人工眼睛來檢查的，容易出錯(cuò)且長期勞作很傷眼睛，今天，很多這樣的工作，都完全可以用AI來取代了，且效果更好、效率更高。類似的還有銀行、保險(xiǎn)公司票據(jù)的自動(dòng)識(shí)別錄入，輔助駕駛中也用到了很多視覺處理技術(shù)，例如駕駛員疲勞檢測(cè)、車道線偏離檢測(cè)等等。最近，隨著技術(shù)的發(fā)展，一些特定場(chǎng)景的異常檢測(cè)，例如煙火的識(shí)別、高空拋物不良行為的檢測(cè)，都已經(jīng)逐漸開始商業(yè)化應(yīng)用了，保障人民的生命財(cái)產(chǎn)安全。

正因?yàn)橐曈X如此重要，早在上世紀(jì)80年代，視覺問題的研究就獨(dú)立出來成為一門學(xué)科。而這一波AI浪潮，可以說也是起源于卷積神經(jīng)網(wǎng)絡(luò)（CNN）在2012年的ImageNet視覺競(jìng)賽中大放異彩，在圖像分類問題上，取得了比經(jīng)典的特征工程+支持向量機(jī)（SVM）方法壓倒性的性能優(yōu)勢(shì)。今天，我們耳熟能詳?shù)腃NN、GAN，最近很火的stable diffusion等，都是在視覺AI領(lǐng)域發(fā)展起來的技術(shù)。展望未來，我有兩點(diǎn)預(yù)測(cè)，一是在技術(shù)突破方面，融合多模態(tài)的大模型應(yīng)該會(huì)有一波蓬勃發(fā)展，當(dāng)下，自然語言處理（NLP）領(lǐng)域在AI領(lǐng)域出現(xiàn)了新的突破，ChatGPT展示了非常強(qiáng)的文本知識(shí)萃取、智能涌現(xiàn)能力，似乎距離AGI（通用人工智能）更近了，這很大程度上，因?yàn)檎Z言是人類知識(shí)的結(jié)構(gòu)化表述形式，對(duì)比視覺這種非結(jié)構(gòu)化數(shù)據(jù)，有天然的優(yōu)勢(shì)?！耙粓D勝千言”，視覺的信息量遠(yuǎn)比文字豐富，且很多是難以用語言來概括抽象的，這意味著要訓(xùn)練出視覺的ChatGPT，需要更大規(guī)模的網(wǎng)絡(luò)、數(shù)據(jù)和計(jì)算資源。這很可能以當(dāng)下的技術(shù)現(xiàn)狀是無法做到的，需要從理論上所有突破。我認(rèn)為，把視覺信息投影到語言空間，忽略其它難以（或無需）用語言描述的信息，以這種方式融合視覺、語言的多模態(tài)大模型，應(yīng)該有機(jī)會(huì)訓(xùn)練出視覺的GPT：能以我們?nèi)祟惿瞄L的語言組織形式，來正確理解視覺數(shù)據(jù)。另一點(diǎn)是，在工業(yè)界，將會(huì)涌現(xiàn)出基于視覺大模型的各種行業(yè)應(yīng)用，在包括自動(dòng)駕駛、工業(yè)質(zhì)檢、內(nèi)容制作、機(jī)器人等各個(gè)行業(yè)都講帶來歷史性突破。對(duì)我們珠三角企業(yè)來說，硬件供應(yīng)鏈?zhǔn)俏覀兊膹?qiáng)項(xiàng)，基于視覺大模型，結(jié)合某個(gè)垂直行業(yè)，做遷移學(xué)習(xí)、知識(shí)蒸餾，得到可在端側(cè)部署的模型，將有機(jī)會(huì)進(jìn)一步做出killer級(jí)別的智能硬件來。

3、隨著我國配套基礎(chǔ)建設(shè)的完善，以及技術(shù)與資金的不斷積累，各行各業(yè)對(duì)采用圖像和機(jī)器視覺技術(shù)的工業(yè)自動(dòng)化、智能化需求開始廣泛出現(xiàn)，您認(rèn)為AI視覺如何在其中發(fā)揮重要價(jià)值？

改革開放以來，我國積極融入世界貿(mào)易體系，逐漸形成了覆蓋全行業(yè)的完備產(chǎn)業(yè)鏈條，因而被譽(yù)為“世界工廠”。同時(shí)，我們也面臨擺脫低端產(chǎn)業(yè)內(nèi)卷、提升核心高端技術(shù)貢獻(xiàn)率的緊迫壓力。發(fā)展機(jī)器視覺技術(shù)是促進(jìn)工業(yè)自動(dòng)化、數(shù)字化和智能化的關(guān)鍵途徑。目前大家熟知的AI視覺技術(shù)主要針對(duì)一般場(chǎng)景的RGB圖像，核心難點(diǎn)在于如何提升算法在不同環(huán)境條件下的魯棒性和泛化能力。然而，工業(yè)場(chǎng)景與一般場(chǎng)景相比，具有更高的穩(wěn)定性和可控性。在工業(yè)場(chǎng)景中，通過聯(lián)合運(yùn)用主動(dòng)照明、機(jī)械協(xié)作等技術(shù)手段，AI視覺技術(shù)的可靠性和敏捷度可以得到極大提升。此外，工業(yè)生產(chǎn)環(huán)境的傳感手段并不局限于RGB傳感。例如，紅外、偏光、激光雷達(dá)等傳感器在工業(yè)領(lǐng)域具有廣泛的應(yīng)用。這意味著，基于RGB圖像開發(fā)的AI視覺技術(shù)有望在超越RGB的泛圖像理解方面大顯身手。

在上述領(lǐng)域做到持續(xù)創(chuàng)新并不容易，需要對(duì)相機(jī)系統(tǒng)、多傳感器融合有深入了解，同時(shí)，能快速基于當(dāng)下視覺大模型的發(fā)展，做到在垂直行業(yè)的應(yīng)用創(chuàng)新，包括在大模型的應(yīng)用層創(chuàng)新、硬件（乃至FPGA、芯片級(jí)）的創(chuàng)新等。

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點(diǎn)與挑戰(zhàn)？

在大模型加持的通用智能時(shí)代，AI視覺技術(shù)必將迎來爆發(fā)。鑒于大模型的特性，在短期內(nèi)，AI視覺技術(shù)會(huì)呈現(xiàn)出集中化趨勢(shì)，甚至有寡頭化的危險(xiǎn)。我們注意到，ChatGPT這樣的語言大模型的規(guī)模已經(jīng)極其龐大，囊括圖像和視頻在內(nèi)的跨模態(tài)大模型必將更加復(fù)雜，只有少數(shù)頭部公司擁有超大模型訓(xùn)練和維護(hù)更新的能力。在中短期研究層面，大模型的壓縮加速技術(shù)，視頻大模型，三維視覺大模型等會(huì)得到極大發(fā)展。而在中長期研究層面，包括量子計(jì)算、脈沖計(jì)算在內(nèi)的新型計(jì)算硬件上實(shí)現(xiàn)通用AI值得關(guān)注。

在應(yīng)用層面，將來的跨模態(tài)大模型及其生態(tài)體系可以滿足絕大部分to C需求。但是，上面提及的工業(yè)自動(dòng)化等領(lǐng)域，生產(chǎn)環(huán)境的數(shù)據(jù)較難獲取，且具有較強(qiáng)的封閉屬性，基于互聯(lián)網(wǎng)數(shù)據(jù)的大模型難以直接運(yùn)用。因此，面向具體應(yīng)用領(lǐng)域的垂直模型是在to B方面取得成功的關(guān)鍵。目前，大模型的勢(shì)力格局本身完全沒有固定，而全鏈路垂直模型的開發(fā)是未被涉足的藍(lán)海，包括創(chuàng)業(yè)企業(yè)在內(nèi)的大中小玩家都有機(jī)會(huì)。不管技術(shù)浪潮如何演進(jìn)，合理運(yùn)用技術(shù)打造對(duì)客戶有價(jià)值的產(chǎn)品這一商業(yè)成功的本質(zhì)卻不會(huì)變化。

5、英特靈達(dá)以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢(shì)體現(xiàn)在哪些方面？未來有哪些規(guī)劃？

英特靈達(dá)將視覺傳感和智能處理融會(huì)貫通，形成了面向任務(wù)的光學(xué)設(shè)計(jì)、數(shù)據(jù)生成、AI算法開發(fā)和ASIC化的全鏈路自動(dòng)化工具，具有極高的技術(shù)壁壘和極快的市場(chǎng)響應(yīng)能力。目前，公司發(fā)揮在光學(xué)原理、相機(jī)系統(tǒng)和數(shù)據(jù)生成方面的獨(dú)特優(yōu)勢(shì)，致力于開發(fā)面向圖像增強(qiáng)和理解的垂直大模型及其知識(shí)蒸餾工具鏈，快速部署與傳感硬件高度適配的AI視覺模型，從而提升產(chǎn)品價(jià)值，滿足客服需求。英特靈達(dá)本質(zhì)上是一家有視覺人工智能核心應(yīng)用技術(shù)的公司，在當(dāng)下的產(chǎn)業(yè)鏈分工中，其實(shí)是非常偏上游的，我們的發(fā)展離不開生態(tài)。未來，我們期望能找到在產(chǎn)品、銷售渠道上能高度互補(bǔ)的合作伙伴，英特靈達(dá)可以提供核心技術(shù)（算法、芯片、硬件設(shè)計(jì)方案等），硬件產(chǎn)品與銷售渠道都依賴伙伴來提供，我們的目標(biāo)是一起做出差異化的智能產(chǎn)品，定位中高端增量市場(chǎng)，包括B端和C端，例如，B端我們主要是與華為行業(yè)感知部門合作，我們?cè)谌A為好望商城上，提供優(yōu)質(zhì)的算法，適配華為的硬件，借助華為的銷售渠道觸達(dá)用戶；C端我個(gè)人也非?？春?，特別是海外市場(chǎng)，目前主要與珠三角方案公司合作，最大化發(fā)揮制造業(yè)優(yōu)勢(shì)，為生態(tài)合作伙伴提高毛利率與市場(chǎng)占有率，破除珠三角無序的內(nèi)卷。

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達(dá)朱才志

灣區(qū)物道

1、計(jì)算機(jī)視覺，得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場(chǎng)景？

2、從市場(chǎng)規(guī)模、場(chǎng)景泛用、帶動(dòng)作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場(chǎng)，您認(rèn)為AI 視覺算法有哪些獨(dú)特的技術(shù)優(yōu)勢(shì)？

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點(diǎn)與挑戰(zhàn)？

5、英特靈達(dá)以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢(shì)體現(xiàn)在哪些方面？未來有哪些規(guī)劃？

【灣區(qū)物道】AI之眼，智造未來新視界—專訪英特靈達(dá)朱才志

1、計(jì)算機(jī)視覺，得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展，可以承接海量下游需求，目前都有哪些應(yīng)用場(chǎng)景？

2、從市場(chǎng)規(guī)模、場(chǎng)景泛用、帶動(dòng)作用來看，AI視覺領(lǐng)域已成為人工智能產(chǎn)業(yè)規(guī)模的主戰(zhàn)場(chǎng)，您認(rèn)為AI 視覺算法有哪些獨(dú)特的技術(shù)優(yōu)勢(shì)？

4、AI視覺技術(shù)的發(fā)展前景如何？面臨哪些難點(diǎn)與挑戰(zhàn)？

5、英特靈達(dá)以AI視覺算法為核心提供軟硬件一體行業(yè)解決方案，公司的核心優(yōu)勢(shì)體現(xiàn)在哪些方面？未來有哪些規(guī)劃？