極具設(shè)計(jì)感的休閑裝,扎起的長(zhǎng)發(fā),帶著金鏈的細(xì)邊眼鏡,讓多數(shù)人在第一次見(jiàn)到圖拉古時(shí),都感覺(jué)他不像人工智能領(lǐng)域的技術(shù)專(zhuān)家,反而有一身的“藝術(shù)范兒”。
圈里的朋友和同事,仍會(huì)叫他“圖導(dǎo)”,他身上也還保留著深深的導(dǎo)演氣質(zhì)。但近些年他卻頻繁現(xiàn)身技術(shù)圈,以主講嘉賓身份受邀參加各種國(guó)家級(jí)的技術(shù)交流研討會(huì)。即便是出席北京國(guó)際電影節(jié)、上海電影節(jié)、重慶電影科技周等場(chǎng)合,或以專(zhuān)家身份在清華大學(xué)、北京電影學(xué)院講課,談的也不再是電影創(chuàng)作,而全是關(guān)于下一代視聽(tīng)技術(shù)的未來(lái)。
在6月22日華為舉辦的一年一度HDC 2024大會(huì)上,圖拉古分享了《視頻聲效大模型催生空間智能》的主題演講。作為在國(guó)內(nèi)首個(gè)推出AI感知視聽(tīng)大模型的創(chuàng)始人,此次他分享的AI大模型發(fā)展路徑備受關(guān)注,因?yàn)椤?/p>
我們對(duì)AI“智能”的定義,變了!
當(dāng)AI進(jìn)化出類(lèi)人“大腦”,走入“聯(lián)級(jí)神經(jīng)元”框架
盡管2016年時(shí),人工智能已經(jīng)在世界圍棋方面下贏了人類(lèi),但我們?nèi)匀灰f(shuō),AI的智能訓(xùn)練還在早期,尤其是在對(duì)世界的感知能力方面幾乎為零。
人們能夠看到色彩斑斕的蝴蝶、遙遠(yuǎn)的天空,或是聽(tīng)到夏夜的蛙叫蟲(chóng)鳴,看到起伏的麥浪就知道風(fēng)正在吹過(guò)……這一切,其實(shí)對(duì)AI來(lái)說(shuō)都毫無(wú)意義。
現(xiàn)在人們大談特談的人工智能,尤其是火爆資本圈的AI大模型,基本沒(méi)有脫離AIGC的范疇。
AI生成式內(nèi)容,本質(zhì)上來(lái)說(shuō)還是對(duì)原有數(shù)據(jù)的打亂與再重組,然后訓(xùn)練AI以人類(lèi)習(xí)慣的結(jié)果呈現(xiàn)。
比如語(yǔ)言大模型,就是按照人的語(yǔ)言習(xí)慣進(jìn)行對(duì)話(huà);AI生成圖片,就是把物體A與物體B再組合,比如機(jī)器外觀的蜘蛛,或是戴帽子的狗等;AI生成視頻,同樣也是把原有視頻素材改頭換面出現(xiàn)。而現(xiàn)在這些,卻被看成了是AI的創(chuàng)意與智慧。
但這種AI創(chuàng)首先是不穩(wěn)定、不可控的,其次很多場(chǎng)景和人物,是很難通過(guò)文字描述而準(zhǔn)確生成的,即使加再多的提示詞,文字也難以代替畫(huà)面。例如,當(dāng)你想要一段70年代的中國(guó)街景視頻時(shí),就會(huì)因?yàn)槿狈A(chǔ)的視頻素材數(shù)據(jù),而難以輸出你想要的結(jié)果。
所以,AI的這種創(chuàng)造力,不是真正的創(chuàng)造力,可以說(shuō)是數(shù)據(jù)素材的積累與再組合。
圖拉古就是那個(gè)愛(ài)給AI產(chǎn)業(yè)潑冷水的“吹哨人”,他在很多公開(kāi)場(chǎng)合曾提出過(guò)自己的質(zhì)疑。在他看來(lái),AI的時(shí)代一定會(huì)到來(lái),而且進(jìn)化的速度會(huì)超過(guò)人們的想象。但是,現(xiàn)在大多數(shù)湊熱鬧的AI通用大模型,會(huì)在5年后死掉90%。
此次HDC 2024大會(huì)上,他提出了一種他的的AI理論:AI感知視聽(tīng)(人工智能視覺(jué)聽(tīng)覺(jué))技術(shù)和全新改進(jìn)的moe框架,稱(chēng)之為“聯(lián)級(jí)神經(jīng)元”框架,正是模擬人類(lèi)的大腦多區(qū)域總決策行為。
AI感知視聽(tīng)就是要讓人工智能具有與人類(lèi)相似的視覺(jué)、聽(tīng)覺(jué)感受,再通過(guò)聯(lián)級(jí)神經(jīng)元框架,像人的“大腦”中樞系統(tǒng)一樣,將這些AI能力聯(lián)接起來(lái),實(shí)現(xiàn)對(duì)世界的記憶力、理解力、分析力。
圖拉古提出,moe最早是在 1991 年的論文中,那時(shí)候還是網(wǎng)絡(luò)使用的一種方式,而在 AI 時(shí)代,它應(yīng)該是一種類(lèi)腦框架,需要把每一個(gè)專(zhuān)業(yè)的垂直 AI 模型作為一個(gè)神經(jīng)元看待,這就像大腦一樣,有負(fù)責(zé)語(yǔ)言的區(qū)域,有負(fù)責(zé)音樂(lè)的區(qū)域,有負(fù)責(zé)行動(dòng)的區(qū)域,有負(fù)責(zé)平衡的區(qū)域,他們雖然都在一個(gè)頭顱內(nèi),可是各自卻是獨(dú)立的,靠生物電通訊。
圖拉古提出的AI新理論,實(shí)際上是把AI的各項(xiàng)能力“化整為零”,再形成統(tǒng)一的認(rèn)知,這樣不僅能耗更低,而且可以訓(xùn)練的更精細(xì)。比如實(shí)現(xiàn)計(jì)算機(jī)的視覺(jué)分析能力,就可以只通過(guò)一臺(tái)普通攝影機(jī)和普通的消費(fèi)顯卡完成,而不再需要巨量的算力支撐。
圖拉古表示,不要試圖訓(xùn)練一個(gè)AI大模型,讓它學(xué)會(huì)所有,就像家長(zhǎng)不要奢望自己的孩子十項(xiàng)全能一樣,你既要求他懂微積分,又要求他會(huì)拉小提琴,還要他會(huì)琴棋書(shū)畫(huà),精通武藝拳腳。
圖拉古和他的團(tuán)隊(duì)已經(jīng)在AI感知視聽(tīng)大模型中證實(shí)了這一理論的可行性。天圖萬(wàn)境已經(jīng)擁有了全亞洲最大的電影級(jí)視聽(tīng)數(shù)據(jù)集和分割數(shù)據(jù)集,并正在與華為相關(guān)部門(mén)合作進(jìn)行 AI 模型的專(zhuān)業(yè)訓(xùn)練。此次HDC 2024大會(huì)上,天圖萬(wàn)境與華為云攜手推出了“視頻聲效大模型”解決方案,正在向這一全新設(shè)計(jì)的“聯(lián)級(jí)神經(jīng)元”類(lèi)腦框架的更前端展開(kāi)探索。
從電影領(lǐng)域到AI模型,跨行業(yè)復(fù)合思維在這個(gè)新時(shí)代十分重要
圖拉古的AI技術(shù)探索之路,始于拍電影。他應(yīng)該算是電影導(dǎo)演中最懂計(jì)算機(jī)的,計(jì)算機(jī)里最懂視聽(tīng)語(yǔ)言的。
開(kāi)始,他是在拍攝科幻電影時(shí),發(fā)現(xiàn)為什么所有好的視聽(tīng)制作的技術(shù)、設(shè)備,軟件、硬件都被國(guó)外廠商所壟斷,這激起了他自主研發(fā)的想法。
當(dāng)蘋(píng)果掉到牛頓頭上時(shí),很多歷史性的轉(zhuǎn)折時(shí)刻就這么發(fā)生了。
圖拉古和他的團(tuán)隊(duì)開(kāi)始是AI研發(fā)之路。例如AI圖像分割,這個(gè)模型最早就是應(yīng)用在電影摳像里。但是直到今天,人們才知道,原來(lái)天圖萬(wàn)境的AI智能實(shí)時(shí)摳綠,并不是真正的摳綠。他們的摳像技術(shù)實(shí)際上是在訓(xùn)練AI 認(rèn)識(shí)世界,讓機(jī)器知道畫(huà)面里的物體是什么,并理解在設(shè)定情景下什么物體應(yīng)該保留或者去掉,甚至還可以執(zhí)行其他特定的決策。
人類(lèi)看到的世界是立體的,而數(shù)字世界中的圖像、視頻是平面的。當(dāng)然,現(xiàn)在借助一些MR頭顯設(shè)備、AR設(shè)備,人們可以穿梭到立體世界中看到三維的視頻,但普通攝影機(jī)的拍攝還做不到這樣的效果。人們會(huì)用激光雷達(dá)來(lái)測(cè)量立體世界,或是用多目組成類(lèi)人左右眼的形式,計(jì)算視差,獲得立體世界。
可是我們知道,人類(lèi)閉上一只眼睛的時(shí)候,也可以準(zhǔn)確的拿到面前的水杯,也可以知道自己距離物體的距離,甚至一些電影里還描繪了獨(dú)眼俠客的特異功能。人腦具有自己的經(jīng)驗(yàn)記憶推理能力,可以在單眼下獲得準(zhǔn)確穩(wěn)定的深度,而我們的機(jī)器正是需要這樣的能力。天圖萬(wàn)境先后推出空間計(jì)算框架的多次升級(jí)的版本,實(shí)現(xiàn)了通過(guò)單目攝像頭實(shí)時(shí)獲取穩(wěn)定的空間感知圖,實(shí)現(xiàn)了世界首個(gè)空間計(jì)算AI。
這些技術(shù)剛出現(xiàn)時(shí),多數(shù)人還不能理解什么是空間計(jì)算,什么是AI感知,所以在過(guò)去的日子里,人們以為天圖萬(wàn)境是一家電影技術(shù)公司。因?yàn)樗麄冄邪l(fā)的AI感知視聽(tīng)技術(shù),最早應(yīng)用在電影領(lǐng)域并取得了成功。但是,當(dāng)AI技術(shù)逐漸走進(jìn)大眾視野,天圖萬(wàn)境的AI感知視聽(tīng)大模型,才被更多人理解。原來(lái),他們的摳綠不是摳綠,是在分割畫(huà)面;他們的還原不是還原,而是在計(jì)算空間;他們的音頻也不只是音頻,而是讓 AI理解世界。
圖拉古經(jīng)常說(shuō)自己是“帽子收集大師”,因?yàn)樵谌斯ぶ悄茴I(lǐng)域的超前探索,讓他獲得了很多社會(huì)榮譽(yù)。但他最喜歡的,還是“科技工作者”這個(gè)頭銜。作為跨電影、光學(xué)、集成電路、計(jì)算機(jī)語(yǔ)言與圖形學(xué)等復(fù)合型專(zhuān)家,圖拉古不僅是“超級(jí)電影工業(yè)”發(fā)起者和開(kāi)拓者,也是虛擬制作體系的引領(lǐng)者,更是開(kāi)創(chuàng)AI視聽(tīng)大模型先河的人。目前,該技術(shù)不僅在國(guó)內(nèi)領(lǐng)先,在國(guó)際上也沒(méi)有相關(guān)理論和技術(shù)出現(xiàn),圖拉古也成為了中國(guó)AI感知視聽(tīng)領(lǐng)域的“大神級(jí)”人物。
圖拉古曾說(shuō)過(guò):“一個(gè)偉大的時(shí)代,在一種良性循環(huán)中,徐徐展開(kāi);人類(lèi)、AI、機(jī)器和諧相處,互幫互助的美好愿景,正在向我們闊步走來(lái)”。 那么,就讓我們迎接這個(gè)美好的AI時(shí)代吧。
相關(guān)稿件