隨著科技的發(fā)展,人工智能已成為我們生活中不可或缺的一部分。而深度學(xué)習(xí)作為人工智能的一種重要技術(shù)手段,正日益受到重視和廣泛應(yīng)用。與此同時(shí),人工智能的應(yīng)用也正在不斷地拓展,例如像ChatGPT這樣的自然語言處理技術(shù),能夠讓人機(jī)交互更加智能化。在中國,有著眾多的深度學(xué)習(xí)專家,他們?yōu)槿斯ぶ悄艿陌l(fā)展做出了杰出的貢獻(xiàn)。其中,周毅敏作為國內(nèi)杰出的深度學(xué)習(xí)專家,一直致力于推動(dòng)深度學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。在本篇報(bào)道中,我們將采訪周毅敏博士,了解他對(duì)深度學(xué)習(xí)的看法,以及他在這一領(lǐng)域中的成就和經(jīng)驗(yàn)。
周毅敏博士畢業(yè)于同濟(jì)大學(xué)應(yīng)用計(jì)算機(jī)科學(xué)與技術(shù),研究方向包括機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)以及圖像處理和自然語言處理等領(lǐng)域。他曾在多家知名公司和大學(xué)從事深度學(xué)習(xí)和人工智能方面的工作,擁有豐富的實(shí)踐經(jīng)驗(yàn)和技術(shù)能力。周毅敏博士目前在世界一流的芯片公司擔(dān)任深度學(xué)習(xí)工程師,研究著深度學(xué)習(xí)最前沿的圖像技術(shù)?;仡欉^去十多年,周毅敏博士發(fā)表了多篇高水平的論文,在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域取得了顯著的成就。
自2010年致力于研究深度學(xué)習(xí)賦能計(jì)算機(jī)專業(yè)藝術(shù)家的審美和思維模式,周毅敏提出行業(yè)領(lǐng)先的圖像美學(xué)評(píng)分方法。
美學(xué)是一個(gè)主觀的概念,具有很強(qiáng)的個(gè)體差異性和文化差異性。美學(xué)評(píng)價(jià)涉及到多個(gè)因素,包括構(gòu)圖、色彩、紋理、對(duì)比度等,這些因素之間相互影響,同時(shí)也受到主題和情感等因素的影響。不同的人對(duì)于同一幅圖像可能會(huì)有不同的美學(xué)評(píng)價(jià)。因此,如何將主觀的美學(xué)感受量化和計(jì)算,建立合適的美學(xué)評(píng)價(jià)模型是一個(gè)難點(diǎn)和挑戰(zhàn)。
周毅敏研究的圖像美感質(zhì)量評(píng)估是“計(jì)算美學(xué)”研究的重點(diǎn)方向。從深度卷積神經(jīng)網(wǎng)絡(luò)DCNN(Deep Convolutional Neural Network)出發(fā),基于GoogLeNet模型周毅敏優(yōu)化了圖像分類識(shí)別效率和能力,提出具有深度和寬度卷積神經(jīng)網(wǎng)絡(luò)的照片美學(xué)分類器,可以更好地描述圖像的美學(xué)信息,取得了更好的美感分類效果,是行業(yè)領(lǐng)先的圖像美學(xué)評(píng)估方法。該方法在世界最流行的圖像數(shù)據(jù)集DPChallinge.com實(shí)驗(yàn)中,正確分類精度接近90%,高達(dá)87.10%。實(shí)驗(yàn)結(jié)果顯著優(yōu)于當(dāng)時(shí)已有技術(shù),與人類的視覺感知和審美判斷已經(jīng)基本一致。
周毅敏使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分類,過程中采用了帶有補(bǔ)丁的圖像作為訓(xùn)練標(biāo)簽,并通過微調(diào)網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練。經(jīng)過第一卷積層濾波后,得到特征圖,隨后通過最大池化層對(duì)特征圖進(jìn)行降維處理。接下來,經(jīng)過彼此連接的第二和第三卷積層進(jìn)行進(jìn)一步過濾,然后進(jìn)入了九個(gè)初始模塊,控制計(jì)算復(fù)雜性來避免算法失控。隨著初始模塊和更深的逐層卷積結(jié)構(gòu),該方法顯著提高了識(shí)別率。此外,周毅敏還添加了兩個(gè)輔助分類器以提高精度,并在在深度神經(jīng)網(wǎng)絡(luò)中的最后一層使用了雙向多類別分類器softmax來進(jìn)行分類。最終,softmax將圖像分類為“高審美價(jià)值”或“低審美價(jià)值”,實(shí)現(xiàn)了使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分類的目標(biāo)。
周毅敏在模型訓(xùn)練方面還采用了雙線性插值圖像縮放技術(shù)將來自數(shù)據(jù)庫的輸入圖像縮小到256×256,并從每個(gè)圖像獲取中間、四角、翻轉(zhuǎn)等10處圖像特征信息,形成圖像特征訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型,以提高模型的準(zhǔn)確性和魯棒性(Robustness)。
2018年前后在Penn State University息科學(xué)與技術(shù)學(xué)院人工智能研究實(shí)驗(yàn)室,周毅敏率先開創(chuàng)了一種利用知識(shí)圖譜改進(jìn)圖像字幕的全新理論,具有行業(yè)前瞻性和較高的研究潛力。
在計(jì)算機(jī)科學(xué)人工智能領(lǐng)域中,System1與System2廣為人知。System1可以描述為自動(dòng)化系統(tǒng),可以快速地完成簡單的任務(wù),并能夠自主適應(yīng)變化。例如,自動(dòng)駕駛汽車中的一些基本控制系統(tǒng)可能被歸類為System1。System2可以描述為更為復(fù)雜的計(jì)算機(jī)系統(tǒng),需要進(jìn)行更加深入的計(jì)算和思考,例如圖像識(shí)別、自然語言處理等任務(wù)。將人工智能從System1推進(jìn)到System2意味著更加深入的計(jì)算和思考,需要更多的資源和時(shí)間。
由于計(jì)算機(jī)對(duì)于圖像的理解是基于像素級(jí)別的信息,因此如何將圖像的高層次語義信息融入人工智能System2依然是一個(gè)行業(yè)難點(diǎn)。簡單來說,從一張照片可能包含了某種情感、故事情節(jié)等高層次信息,如何從圖像中自動(dòng)提取這些信息是一個(gè)巨大挑戰(zhàn)。周毅敏率先提出了使用知識(shí)圖譜關(guān)聯(lián)背景信息,輔助計(jì)算機(jī)聯(lián)想能力進(jìn)行美學(xué)評(píng)價(jià)的圖像字幕方法。
知識(shí)圖譜已經(jīng)廣泛應(yīng)用于信息檢索、問題解答等領(lǐng)域,被證明與背景知識(shí)結(jié)合的方法是有用的。周毅敏創(chuàng)新結(jié)合知識(shí)圖譜提出增強(qiáng)型神經(jīng)圖像字幕系統(tǒng)(CNetNIC)采用神經(jīng)圖像字幕(NIC)方法,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像處理,得到圖像編碼為固定長度的向量空間表示或嵌入,并使用向量空間嵌入來指定遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的初始狀態(tài)。再訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)(RNN)先使用對(duì)象識(shí)別模塊訓(xùn)練生成圖像特征的向量空間嵌入,以圖像作為輸入,生成與場景中的對(duì)象相對(duì)應(yīng)的一組術(shù)語作為輸出。?再使用外部知識(shí)圖譜ConceptNet常識(shí)知識(shí)庫,通過圖譜獲取常識(shí)關(guān)系邊緣連接的自然語言單詞和短語,用于推斷與聯(lián)想由對(duì)象識(shí)別模塊在場景中發(fā)現(xiàn)的對(duì)象的單詞直接或間接相關(guān)的兩組術(shù)語。最后,利用術(shù)語的向量空間嵌入以及圖像特征來指定基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的初始狀態(tài),以產(chǎn)生輸入圖像的字幕。
實(shí)驗(yàn)結(jié)果表明,周毅敏設(shè)計(jì)的CNetNIC圖像字幕系統(tǒng)的BLEU、METEOR、ROUGEL性能指標(biāo)優(yōu)于當(dāng)時(shí)最先進(jìn)的圖像字幕系統(tǒng)。結(jié)合知識(shí)圖譜關(guān)聯(lián)提取背景信息后,改進(jìn)的圖像字幕處理技術(shù)方法顯著優(yōu)于現(xiàn)有不使用知識(shí)圖譜的技術(shù)方法。并且與知識(shí)庫相結(jié)合的ConceptNet使得其生成的圖像字幕更加接近于人類思維的字幕描述。
由于知識(shí)圖譜信息數(shù)據(jù)量和計(jì)算機(jī)算力的局限性,計(jì)算機(jī)聯(lián)想還不能擁有與人類一樣或者優(yōu)于人類思維范圍和效率的想象力。但是隨著科技的發(fā)展,這類瓶頸一定會(huì)隨著軟件和硬件的提升而優(yōu)化。
現(xiàn)役公司北美總部團(tuán)隊(duì)半年一籌莫展,周毅敏三個(gè)月從0到1取得突破,獨(dú)立推進(jìn)深度學(xué)習(xí)框架搭建,挑戰(zhàn)行業(yè)頭部Apex框架技術(shù)。
Apex是全球知名半導(dǎo)體公司開發(fā)的,當(dāng)下全球最流行的開源軟件庫,能夠?qū)崿F(xiàn)增加運(yùn)算速度、減少顯存的占用的同時(shí)不降低性能。然而,該框架技術(shù)采取了硬件綁定銷售的商業(yè)模式,使用Apex必須相應(yīng)地配置該半導(dǎo)體公司的硬件系統(tǒng),形成了壟斷壁壘。
為打破市場的壟斷競爭優(yōu)勢,周毅敏所在的公司立項(xiàng)開發(fā)符合公司自身半導(dǎo)體硬件的深度學(xué)習(xí)框架。但是項(xiàng)目在啟動(dòng)初期便遇到了眾多難題,首先,針對(duì)CUDA PTX(一種GPU匯編語言)中實(shí)現(xiàn)FMHA的操作邏輯的復(fù)雜度超越了項(xiàng)目團(tuán)隊(duì)的想象。其次,公司自身圖形處理器(GPU)架構(gòu)的匯編語言與CUDA PTX完全不一樣。最后,處理大量內(nèi)聯(lián)組件和支持波前多線程矩陣乘法(MFMA)操作也存在技術(shù)實(shí)現(xiàn)難題。
這些問題涉及到深度學(xué)習(xí)框架的底層編程,需要開發(fā)人員對(duì)硬件架構(gòu)和底層指令的理解非常深入,并且需要掌握不同的編程技術(shù)才能進(jìn)行深度學(xué)習(xí)框架的開發(fā)。因此,困難重重使得公司北美團(tuán)隊(duì)歷時(shí)半年都沒能夠推進(jìn)項(xiàng)目前進(jìn)半步。
既然CUDA PTX導(dǎo)致了那么多問題,那么就從這里入手。周毅敏創(chuàng)新提出拋開CUDA PTX匯編,使用公司GPU匯編純實(shí)現(xiàn)FMHA。周毅敏一人集中精力研究公司GPU底層匯編邏輯,利用GPU在匯編層面的優(yōu)勢減少同步次數(shù),利用內(nèi)聯(lián)匯編減少編譯器生成的冗余代碼,這兩項(xiàng)內(nèi)容都是十分耗時(shí)。周毅敏通過重新編寫匯編指令來最大程度地利用硬件性能,以實(shí)現(xiàn)FMHA調(diào)用底層硬件的時(shí)候解除對(duì)原本CUDA PTX匯編語言的依賴,是該公司移植內(nèi)聯(lián)匯編的第一人。
周毅敏的解決方案大大提高了訓(xùn)練基準(zhǔn)模型的速度,從而保障公司GPU產(chǎn)品與市場上的同類產(chǎn)品保持競爭力,并擴(kuò)大其適用性?,F(xiàn)在,由周毅敏與編譯器團(tuán)隊(duì)一同繼續(xù)進(jìn)行該項(xiàng)目的研發(fā),以實(shí)現(xiàn)項(xiàng)目最終的完成和落地,預(yù)期超越行業(yè)領(lǐng)先的深度學(xué)習(xí)框架。未來,該項(xiàng)目的成功將為公司在深度學(xué)習(xí)領(lǐng)域的發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ),提高公司在該領(lǐng)域的聲譽(yù)和市場地位。隨著深度學(xué)習(xí)在各個(gè)行業(yè)的應(yīng)用不斷擴(kuò)大,該項(xiàng)目的成功還將為公司帶來更多的商業(yè)機(jī)會(huì)和潛在客戶。
周毅敏將繼續(xù)努力奮斗在深度學(xué)習(xí)的最前線,推進(jìn)項(xiàng)目的研發(fā)和落地,并不斷尋求創(chuàng)新和優(yōu)化的機(jī)會(huì),以滿足不斷變化的市場需求和客戶需求。同時(shí),他們也將積極探索和研究其他新技術(shù)和新算法,以保持在行業(yè)內(nèi)的領(lǐng)先地位,并為公司的未來發(fā)展打下更堅(jiān)實(shí)的基礎(chǔ)。
相關(guān)稿件