眺望全真互聯(lián)時(shí)代!TVP音視頻技術(shù)閉門(mén)會(huì)閃耀上海
引言
2020年7月17日,“全真互聯(lián)網(wǎng)中的聲與影” 騰訊云TVP音視頻技術(shù)閉門(mén)會(huì)完美收官。TVP技術(shù)閉門(mén)會(huì),是為騰訊云TVP打造的專(zhuān)屬技術(shù)閉門(mén)研討會(huì),旨在提供一個(gè)開(kāi)放、平等、知無(wú)不言的交流環(huán)境,便于TVP針對(duì)熱門(mén)技術(shù)話(huà)題、前沿科技、技術(shù)管理等話(huà)題進(jìn)行深入探討,促進(jìn)TVP之間,TVP與騰訊內(nèi)部團(tuán)隊(duì)之間的相互交流與學(xué)習(xí)。
25位騰訊云TVP專(zhuān)家及騰訊專(zhuān)家齊聚上海騰云大廈,開(kāi)啟騰云之旅,在精彩紛呈的技術(shù)分享與觀點(diǎn)交鋒的熱點(diǎn)話(huà)題探討中,共話(huà)音視頻領(lǐng)域前沿趨勢(shì),描繪全真互聯(lián)網(wǎng)時(shí)代的發(fā)展藍(lán)圖。
參會(huì)TVP專(zhuān)家與騰訊專(zhuān)家合影
視頻生成與合成技術(shù)的新進(jìn)展
線(xiàn)上會(huì)議、在線(xiàn)教育、電商直播等多個(gè)場(chǎng)景的興起,使得視頻實(shí)時(shí)生成技術(shù)從幕后走到臺(tái)前,受到了更多的關(guān)注。上海交通大學(xué)圖像所副所長(zhǎng)、騰訊云TVP宋利,從學(xué)術(shù)界的視角,帶來(lái)了《視頻生成與合成技術(shù)的新進(jìn)展》。
上海交通大學(xué)圖像所副所長(zhǎng)、騰訊云TVP 宋利
在分享中,宋利首先對(duì)音視頻技術(shù)發(fā)展的整體趨勢(shì)做出了高屋建瓴的解讀——技術(shù)飛速發(fā)展,已從傳統(tǒng)的視頻編解碼處理,向合成、生成、創(chuàng)造進(jìn)化。圖形學(xué)+計(jì)算視覺(jué)+深度學(xué)習(xí)的綜合開(kāi)啟了新思路。
隨后,宋利分享了基于生成模型的視頻編解碼、圖像和諧化、自由視角、視頻的深度特征表達(dá)等四項(xiàng)前沿技術(shù)的最新研究成果。
基于生成模型的視頻編解碼:針對(duì)視頻會(huì)議等背景和姿態(tài)較為固定的場(chǎng)景,在編碼端只傳輸人臉關(guān)鍵點(diǎn)信息;在云端建立關(guān)鍵幀池,根據(jù)視覺(jué)敏感性將人臉?lè)譃槊舾袇^(qū)域和非敏感區(qū)域,分別進(jìn)行特征提取;在解碼端利用生成對(duì)抗網(wǎng)絡(luò)生成目標(biāo)視頻幀,可實(shí)現(xiàn)高質(zhì)量,低帶寬的編解碼方案。
圖像和諧化:其核心思想是從背景中深度學(xué)習(xí)特征,將它應(yīng)用到前景特征上,同時(shí)也讓背景從前景中學(xué)習(xí),從而生成在色調(diào)、亮度、飽和度等視覺(jué)特征上更和諧的組合圖像。
自由視角:是指在場(chǎng)景周?chē)茉O(shè)多臺(tái)攝像機(jī)采集視頻流,使得用戶(hù)可以平滑無(wú)縫地選擇觀看視角,獲得仿佛在現(xiàn)場(chǎng)自由穿梭的新體驗(yàn)。目前常用于體育賽事、綜藝表演等,比如在今年的東京奧運(yùn)會(huì)轉(zhuǎn)播中就有應(yīng)用。隨后,宋利詳盡地解析了自由視角的三種技術(shù)實(shí)現(xiàn)路線(xiàn):DIBR、3D模型以及NeRF。
視頻的深度特征表達(dá):最后,宋利還介紹了特征域處理如何為傳統(tǒng)視頻帶來(lái)無(wú)限表達(dá)自由,包括從壓縮圖像中學(xué)習(xí)的視頻生成、視頻下一步行動(dòng)預(yù)測(cè)、基于關(guān)鍵幀的視頻風(fēng)格化以及視頻任意倍率超分。
全真將至,5G先發(fā)
全真互聯(lián)的實(shí)現(xiàn),涉及到多層面的因素,云、終端、應(yīng)用等等,網(wǎng)絡(luò)是其中重要的一層。那么5G時(shí)代的到來(lái),將為全真互聯(lián)網(wǎng)帶來(lái)怎樣的機(jī)遇?騰訊云通信副總經(jīng)理王軍帶來(lái)了《全真將至,5G先發(fā)——從5G看全真互聯(lián)網(wǎng)時(shí)代》主題分享。
騰訊云通信副總經(jīng)理 王軍
在演講伊始,王軍首先分享了從5G視角對(duì)全真互聯(lián)網(wǎng)的深刻理解:
1.全真互動(dòng)。以遠(yuǎn)程操控為例,全真互動(dòng)希望達(dá)到的目標(biāo)是操作流暢,從視聽(tīng)和觸覺(jué)上都能獲得如同現(xiàn)場(chǎng)操作般的真實(shí)體驗(yàn)。
2.沉浸感知。以VR為代表的沉浸式體驗(yàn)。
3.數(shù)字孿生。
要實(shí)現(xiàn)全真互聯(lián)網(wǎng)的極致體驗(yàn),在網(wǎng)絡(luò)層面有著兩大核心訴求——低時(shí)延、高帶寬。而5G浪潮的爆發(fā)正在為全真互聯(lián)創(chuàng)造廣闊可能。王軍指出,到2023年底,國(guó)內(nèi)5G可基本覆蓋所有鄉(xiāng)鎮(zhèn)和重點(diǎn)鄉(xiāng)村;今年上半年,國(guó)內(nèi)5G手機(jī)出貨量超億部,由此預(yù)估2023年在C端,國(guó)內(nèi)5G手機(jī)普及量有望達(dá)到5-8億,B端的企業(yè)級(jí)服務(wù)也將不斷拓展。
那么,快速發(fā)展的5G技術(shù)與音視頻技術(shù)的結(jié)合將帶來(lái)哪些應(yīng)用機(jī)遇?王軍提出了以下落地場(chǎng)景:
1.遠(yuǎn)程實(shí)時(shí)操控?;隍v訊云音視頻多年積累的成熟技術(shù)TRTC及遠(yuǎn)程實(shí)時(shí)操控產(chǎn)品TRRO,提供5G網(wǎng)絡(luò)下低時(shí)延的遠(yuǎn)程實(shí)時(shí)操控能力,可廣泛應(yīng)用于無(wú)人礦車(chē)、港口集卡、鋼鐵天車(chē)、乘用車(chē)無(wú)人駕駛等場(chǎng)景。
2.VR云游戲。將計(jì)算放到云端,個(gè)人邊緣云主機(jī),按時(shí)計(jì)費(fèi)。
3.全球端到端加速體系。在網(wǎng)絡(luò)負(fù)載重或網(wǎng)絡(luò)質(zhì)量差的環(huán)境中,騰訊云加速產(chǎn)品可提供低時(shí)延與大帶寬的保障。
4.規(guī)?;?、多樣化的邊緣基礎(chǔ)設(shè)施。包括面向廣域的邊緣公有云與面向本地的邊緣私有云。
在QA環(huán)節(jié),王軍和現(xiàn)場(chǎng)的TVP專(zhuān)家還就5G在遠(yuǎn)程醫(yī)療及自動(dòng)駕駛領(lǐng)域的應(yīng)用、移動(dòng)網(wǎng)絡(luò)與WIFI的穩(wěn)定性、5G CPE等問(wèn)題展開(kāi)了熱烈的探討。
全真互聯(lián)時(shí)代下的多媒體技術(shù)
多媒體技術(shù)是全真互聯(lián)網(wǎng)最為大眾廣泛而深刻感知的技術(shù)。騰訊多媒體實(shí)驗(yàn)室產(chǎn)品副總監(jiān)、專(zhuān)家工程師葉聰,以《全真互聯(lián)時(shí)代下的多媒體技術(shù)》主題分享,帶現(xiàn)場(chǎng)嘉賓深入走進(jìn)全真互聯(lián)背后的多媒體技術(shù)。
騰訊多媒體實(shí)驗(yàn)室產(chǎn)品副總監(jiān)、專(zhuān)家工程師 葉聰
在葉聰看來(lái),全真互聯(lián)網(wǎng)的實(shí)現(xiàn)有兩個(gè)維度,一是在連接層面變得更全面,二是在呈現(xiàn)與交互層面變得更真實(shí)。
1.在連接層面,從消費(fèi)互聯(lián)網(wǎng)時(shí)代的人與人,人與信息/服務(wù)連接,到產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代的萬(wàn)物互聯(lián),再進(jìn)化為全真互聯(lián)網(wǎng)時(shí)代,虛擬世界出現(xiàn)。人、信息/服務(wù)、物在虛擬世界的副本與真實(shí)世界可以任意相連。
2.在呈現(xiàn)層面,視覺(jué)上發(fā)展到與沉浸式相關(guān)的體驗(yàn)如AR、VR。聽(tīng)覺(jué)上發(fā)展到全景音。在交互層面,目前行業(yè)努力推進(jìn)的是語(yǔ)音、肢體動(dòng)作的識(shí)別交互,下一代會(huì)往腦機(jī)接口探索。
而隨著全真互聯(lián)體驗(yàn)要求的不斷提高,其背后的視頻編解碼、視頻處理與沉浸式技術(shù)也在快速發(fā)展。
編解碼技術(shù)上,葉聰將編解碼技術(shù)與標(biāo)準(zhǔn)的進(jìn)化史娓娓道來(lái),從早年的MPEG-2到如今最新的VVC,演進(jìn)的過(guò)程也是中國(guó)企業(yè)技術(shù)話(huà)語(yǔ)權(quán)不斷增強(qiáng)的過(guò)程——目前騰訊有數(shù)百項(xiàng)提案得到VVC標(biāo)準(zhǔn)的采納,位列世界第三。目前騰訊云音視頻旗下轉(zhuǎn)碼及相關(guān)媒體處理應(yīng)用已支持最新的編解碼標(biāo)準(zhǔn)H.266/VVC。
視頻處理技術(shù)上,展示設(shè)備會(huì)向著8K高清、10bit色彩、高幀率發(fā)展。相應(yīng)的素材也需要進(jìn)行去壓縮失真、色彩修正、去抖動(dòng)等優(yōu)化處理。葉聰以一個(gè)效果視頻展示了騰訊云多媒體實(shí)驗(yàn)室在視頻處理上的能力。
沉浸式技術(shù)上,目前有兩大方向:
1.3DoF,如VR360度視頻,難點(diǎn)主要在于高維采集數(shù)據(jù)的傳輸,可用切片的方案解決。實(shí)驗(yàn)室打造的VR技術(shù),在騰訊云臨境沉浸式媒體解決方案上也得到了出色的運(yùn)用。
2.6DoF,如步入式VR360視頻,數(shù)字孿生方案等等。
在分享的最后,葉聰介紹了3D點(diǎn)云的概念,其優(yōu)點(diǎn)在于高度精細(xì)化地描述3D對(duì)象。騰訊的點(diǎn)云平臺(tái)結(jié)合SFM、深度學(xué)習(xí)等技術(shù),可將現(xiàn)實(shí)場(chǎng)景虛擬化重建,應(yīng)用于線(xiàn)上看房、文物原貌重現(xiàn)、自動(dòng)駕駛等領(lǐng)域。
技術(shù)論道
在干貨滿(mǎn)滿(mǎn)的技術(shù)分享過(guò)后,迎來(lái)了思想火花迸發(fā)的技術(shù)論道環(huán)節(jié)。主持人,騰訊專(zhuān)家研發(fā)工程師劉連響提出了三個(gè)頗具深度的熱點(diǎn)話(huà)題,現(xiàn)場(chǎng)嘉賓以小組討論的形式,對(duì)各個(gè)話(huà)題展開(kāi)了充分的討論,在熱烈的交流中碰撞出眾多精彩的觀點(diǎn)。
騰訊專(zhuān)家研發(fā)工程師 劉連響
開(kāi)源與商業(yè)之間的關(guān)系?
開(kāi)源與商業(yè)間的關(guān)系,是現(xiàn)場(chǎng)討論最為激烈的話(huà)題。專(zhuān)家們結(jié)合自身經(jīng)歷,從多個(gè)角度探討了開(kāi)源的驅(qū)動(dòng)力、價(jià)值、與商業(yè)間的平衡點(diǎn)等等,帶來(lái)了充滿(mǎn)啟發(fā)性的多元觀點(diǎn)。
熱烈的小組討論
1.從系統(tǒng)層次看開(kāi)源:峰暢科技聯(lián)合創(chuàng)始人及CTO、騰訊云TVP段先德認(rèn)為,在不同層次的系統(tǒng)中,開(kāi)源與商業(yè)的關(guān)系有所不同。在基礎(chǔ)系統(tǒng)層次,如數(shù)據(jù)庫(kù)框架、基礎(chǔ)應(yīng)用部件等,主要由開(kāi)源的技術(shù)動(dòng)機(jī)驅(qū)動(dòng);而在業(yè)務(wù)場(chǎng)景層次,商業(yè)力量則比開(kāi)源的驅(qū)動(dòng)力更強(qiáng),業(yè)內(nèi)不乏成功的商業(yè)變現(xiàn)案例。
2.從主導(dǎo)動(dòng)力看開(kāi)源:福強(qiáng)科技CTO、騰訊云TVP王福強(qiáng)提出了辯證性的新視角——當(dāng)前,開(kāi)源也成為了技術(shù)營(yíng)銷(xiāo)的一種手段。騰訊云多媒體平臺(tái)公共技術(shù)負(fù)責(zé)人趙軍則進(jìn)一步對(duì)這一觀點(diǎn)展開(kāi)了探討,即可以根據(jù)主導(dǎo)動(dòng)力,將開(kāi)源劃分為社區(qū)/個(gè)人主導(dǎo)的開(kāi)源,與商業(yè)公司主導(dǎo)的開(kāi)源。對(duì)于商業(yè)公司主導(dǎo)的開(kāi)源,趙軍認(rèn)為,把握好開(kāi)源初心與商業(yè)訴求之間的平衡點(diǎn)非常關(guān)鍵。
3.從動(dòng)機(jī)與價(jià)值看開(kāi)源:FFmpeg官方源代碼維護(hù)者、騰訊云TVP劉歧發(fā)表了獨(dú)到的見(jiàn)解,根據(jù)動(dòng)機(jī),他將從事開(kāi)源的開(kāi)發(fā)者劃分為三類(lèi):(1)出于愛(ài)好從事開(kāi)源,將開(kāi)源作為個(gè)人發(fā)揮社會(huì)價(jià)值的方式。(2)為了資本追趕開(kāi)源風(fēng)口,在投資的風(fēng)潮過(guò)后,開(kāi)源項(xiàng)目就無(wú)法持續(xù)。(3)通過(guò)開(kāi)源提升個(gè)人影響力,以獲得更好的職業(yè)發(fā)展。其價(jià)值可總結(jié)為個(gè)人在社會(huì)的價(jià)值、在資本方的價(jià)值以及在公司的價(jià)值。
4.從商業(yè)和公益看開(kāi)源:盛派網(wǎng)絡(luò)CEO兼首席架構(gòu)師、騰訊云TVP蘇震巍指出,開(kāi)源是在商業(yè)中成立的向善循環(huán)——通過(guò)將產(chǎn)品與技術(shù)開(kāi)源,企業(yè)可以吸收社會(huì)的資源,讓其他企業(yè)用戶(hù)幫助發(fā)現(xiàn)問(wèn)題,解決問(wèn)題,從而推動(dòng)自身商業(yè)模式的不斷完善。
全真互聯(lián)網(wǎng)的第一個(gè)落地應(yīng)用會(huì)在哪里?
對(duì)于全真互聯(lián)網(wǎng)的未來(lái)落地應(yīng)用,遠(yuǎn)程教學(xué)是專(zhuān)家們普遍看好的場(chǎng)景,包括醫(yī)療領(lǐng)域的手術(shù)教學(xué),以及開(kāi)飛機(jī)的駕駛教學(xué)。其價(jià)值在于能夠避免操作失誤而造成的災(zāi)難性后果,同時(shí)又能降低培養(yǎng)人才的成本。
技術(shù)的發(fā)展將為全真互聯(lián)網(wǎng)帶來(lái)哪些機(jī)會(huì)?
伴隨著超高清和XR等技術(shù)的發(fā)展,以及5G大帶寬、低時(shí)延和邊緣分流等能力的成熟,B端和C端的全真互聯(lián)網(wǎng)應(yīng)用將涌現(xiàn)出哪些機(jī)會(huì)?專(zhuān)家們認(rèn)為,無(wú)人化是蘊(yùn)含著商業(yè)機(jī)遇的方向。低時(shí)延將進(jìn)一步促進(jìn)遠(yuǎn)程操控的發(fā)展,如汽車(chē)、機(jī)器、廠房的遠(yuǎn)程操控。
結(jié)語(yǔ)
本次“全真互聯(lián)網(wǎng)中的聲與影”騰訊云TVP技術(shù)閉門(mén)會(huì)在開(kāi)源與商業(yè)的激辯中落下了帷幕,嘉賓們對(duì)于技術(shù)的探討卻一直延續(xù)到晚宴環(huán)節(jié)也未曾停歇。聲音需要碰撞方能激發(fā)嶄新的思考;視角需要交換才會(huì)拓寬認(rèn)識(shí)的邊界,這是這場(chǎng)音視頻盛宴在前沿技術(shù)之外,給予我們的更深刻的啟迪。
TVP,即騰訊云最具價(jià)值專(zhuān)家(Tencent Cloud Valuable Professional),是騰訊云授予云計(jì)算領(lǐng)域技術(shù)專(zhuān)家的一個(gè)獎(jiǎng)項(xiàng)。TVP計(jì)劃致力打造與行業(yè)技術(shù)專(zhuān)家的交流平臺(tái),構(gòu)建云計(jì)算技術(shù)生態(tài),實(shí)現(xiàn)“用科技影響世界”的美好愿景。