人人添人人添人人谢,深夜影院深a

從人工智能到深度學(xué)習(xí)——訪中國深度學(xué)習(xí)專家周毅敏: 作者：唐巖 2023-06-08 15:11 來源：中國企業(yè)網(wǎng) 4060次閱讀; 分享：
微信扫一扫：分享
微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈。

從人工智能到深度學(xué)習(xí)——訪中國深度學(xué)習(xí)專家周毅敏

　　隨著科技的發(fā)展，人工智能已成為我們生活中不可或缺的一部分。而深度學(xué)習(xí)作為人工智能的一種重要技術(shù)手段，正日益受到重視和廣泛應(yīng)用。與此同時，人工智能的應(yīng)用也正在不斷地拓展，例如像ChatGPT這樣的自然語言處理技術(shù)，能夠讓人機(jī)交互更加智能化。在中國，有著眾多的深度學(xué)習(xí)專家，他們?yōu)槿斯ぶ悄艿陌l(fā)展做出了杰出的貢獻(xiàn)。其中，周毅敏作為國內(nèi)杰出的深度學(xué)習(xí)專家，一直致力于推動深度學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。在本篇報道中，我們將采訪周毅敏博士，了解他對深度學(xué)習(xí)的看法，以及他在這一領(lǐng)域中的成就和經(jīng)驗。

　　周毅敏博士畢業(yè)于同濟(jì)大學(xué)應(yīng)用計算機(jī)科學(xué)與技術(shù)，研究方向包括機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)以及圖像處理和自然語言處理等領(lǐng)域。他曾在多家知名公司和大學(xué)從事深度學(xué)習(xí)和人工智能方面的工作，擁有豐富的實踐經(jīng)驗和技術(shù)能力。周毅敏博士目前在世界一流的芯片公司擔(dān)任深度學(xué)習(xí)工程師，研究著深度學(xué)習(xí)最前沿的圖像技術(shù)。回顧過去十多年，周毅敏博士發(fā)表了多篇高水平的論文，在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域取得了顯著的成就。

　　自2010年致力于研究深度學(xué)習(xí)賦能計算機(jī)專業(yè)藝術(shù)家的審美和思維模式，周毅敏提出行業(yè)領(lǐng)先的圖像美學(xué)評分方法。

　　美學(xué)是一個主觀的概念，具有很強(qiáng)的個體差異性和文化差異性。美學(xué)評價涉及到多個因素，包括構(gòu)圖、色彩、紋理、對比度等，這些因素之間相互影響，同時也受到主題和情感等因素的影響。不同的人對于同一幅圖像可能會有不同的美學(xué)評價。因此，如何將主觀的美學(xué)感受量化和計算，建立合適的美學(xué)評價模型是一個難點和挑戰(zhàn)。

　　周毅敏研究的圖像美感質(zhì)量評估是“計算美學(xué)”研究的重點方向。從深度卷積神經(jīng)網(wǎng)絡(luò)DCNN（Deep Convolutional Neural Network）出發(fā)，基于GoogLeNet模型周毅敏優(yōu)化了圖像分類識別效率和能力，提出具有深度和寬度卷積神經(jīng)網(wǎng)絡(luò)的照片美學(xué)分類器，可以更好地描述圖像的美學(xué)信息，取得了更好的美感分類效果，是行業(yè)領(lǐng)先的圖像美學(xué)評估方法。該方法在世界最流行的圖像數(shù)據(jù)集DPChallinge.com實驗中，正確分類精度接近90%，高達(dá)87.10%。實驗結(jié)果顯著優(yōu)于當(dāng)時已有技術(shù)，與人類的視覺感知和審美判斷已經(jīng)基本一致。

　　周毅敏使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行分類，過程中采用了帶有補(bǔ)丁的圖像作為訓(xùn)練標(biāo)簽，并通過微調(diào)網(wǎng)絡(luò)對其進(jìn)行訓(xùn)練。經(jīng)過第一卷積層濾波后，得到特征圖，隨后通過最大池化層對特征圖進(jìn)行降維處理。接下來，經(jīng)過彼此連接的第二和第三卷積層進(jìn)行進(jìn)一步過濾，然后進(jìn)入了九個初始模塊，控制計算復(fù)雜性來避免算法失控。隨著初始模塊和更深的逐層卷積結(jié)構(gòu)，該方法顯著提高了識別率。此外，周毅敏還添加了兩個輔助分類器以提高精度，并在在深度神經(jīng)網(wǎng)絡(luò)中的最后一層使用了雙向多類別分類器softmax來進(jìn)行分類。最終，softmax將圖像分類為“高審美價值”或“低審美價值”，實現(xiàn)了使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行分類的目標(biāo)。

　　周毅敏在模型訓(xùn)練方面還采用了雙線性插值圖像縮放技術(shù)將來自數(shù)據(jù)庫的輸入圖像縮小到256×256，并從每個圖像獲取中間、四角、翻轉(zhuǎn)等10處圖像特征信息，形成圖像特征訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型，以提高模型的準(zhǔn)確性和魯棒性（Robustness）。

　　2018年前后在Penn State University息科學(xué)與技術(shù)學(xué)院人工智能研究實驗室，周毅敏率先開創(chuàng)了一種利用知識圖譜改進(jìn)圖像字幕的全新理論，具有行業(yè)前瞻性和較高的研究潛力。

　　在計算機(jī)科學(xué)人工智能領(lǐng)域中，System1與System2廣為人知。System1可以描述為自動化系統(tǒng)，可以快速地完成簡單的任務(wù)，并能夠自主適應(yīng)變化。例如，自動駕駛汽車中的一些基本控制系統(tǒng)可能被歸類為System1。System2可以描述為更為復(fù)雜的計算機(jī)系統(tǒng)，需要進(jìn)行更加深入的計算和思考，例如圖像識別、自然語言處理等任務(wù)。將人工智能從System1推進(jìn)到System2意味著更加深入的計算和思考，需要更多的資源和時間。

　　由于計算機(jī)對于圖像的理解是基于像素級別的信息，因此如何將圖像的高層次語義信息融入人工智能System2依然是一個行業(yè)難點。簡單來說，從一張照片可能包含了某種情感、故事情節(jié)等高層次信息，如何從圖像中自動提取這些信息是一個巨大挑戰(zhàn)。周毅敏率先提出了使用知識圖譜關(guān)聯(lián)背景信息，輔助計算機(jī)聯(lián)想能力進(jìn)行美學(xué)評價的圖像字幕方法。

　　知識圖譜已經(jīng)廣泛應(yīng)用于信息檢索、問題解答等領(lǐng)域，被證明與背景知識結(jié)合的方法是有用的。周毅敏創(chuàng)新結(jié)合知識圖譜提出增強(qiáng)型神經(jīng)圖像字幕系統(tǒng)（CNetNIC）采用神經(jīng)圖像字幕（NIC）方法，通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行圖像處理，得到圖像編碼為固定長度的向量空間表示或嵌入，并使用向量空間嵌入來指定遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的初始狀態(tài)。再訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)（RNN）先使用對象識別模塊訓(xùn)練生成圖像特征的向量空間嵌入，以圖像作為輸入，生成與場景中的對象相對應(yīng)的一組術(shù)語作為輸出。？再使用外部知識圖譜ConceptNet常識知識庫，通過圖譜獲取常識關(guān)系邊緣連接的自然語言單詞和短語，用于推斷與聯(lián)想由對象識別模塊在場景中發(fā)現(xiàn)的對象的單詞直接或間接相關(guān)的兩組術(shù)語。最后，利用術(shù)語的向量空間嵌入以及圖像特征來指定基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的初始狀態(tài)，以產(chǎn)生輸入圖像的字幕。

　　實驗結(jié)果表明，周毅敏設(shè)計的CNetNIC圖像字幕系統(tǒng)的BLEU、METEOR、ROUGEL性能指標(biāo)優(yōu)于當(dāng)時最先進(jìn)的圖像字幕系統(tǒng)。結(jié)合知識圖譜關(guān)聯(lián)提取背景信息后，改進(jìn)的圖像字幕處理技術(shù)方法顯著優(yōu)于現(xiàn)有不使用知識圖譜的技術(shù)方法。并且與知識庫相結(jié)合的ConceptNet使得其生成的圖像字幕更加接近于人類思維的字幕描述。

　　由于知識圖譜信息數(shù)據(jù)量和計算機(jī)算力的局限性，計算機(jī)聯(lián)想還不能擁有與人類一樣或者優(yōu)于人類思維范圍和效率的想象力。但是隨著科技的發(fā)展，這類瓶頸一定會隨著軟件和硬件的提升而優(yōu)化。

　　現(xiàn)役公司北美總部團(tuán)隊半年一籌莫展，周毅敏三個月從0到1取得突破，獨立推進(jìn)深度學(xué)習(xí)框架搭建，挑戰(zhàn)行業(yè)頭部Apex框架技術(shù)。

　　Apex是全球知名半導(dǎo)體公司開發(fā)的，當(dāng)下全球最流行的開源軟件庫，能夠?qū)崿F(xiàn)增加運(yùn)算速度、減少顯存的占用的同時不降低性能。然而，該框架技術(shù)采取了硬件綁定銷售的商業(yè)模式，使用Apex必須相應(yīng)地配置該半導(dǎo)體公司的硬件系統(tǒng)，形成了壟斷壁壘。

　　為打破市場的壟斷競爭優(yōu)勢，周毅敏所在的公司立項開發(fā)符合公司自身半導(dǎo)體硬件的深度學(xué)習(xí)框架。但是項目在啟動初期便遇到了眾多難題，首先，針對CUDA PTX（一種GPU匯編語言）中實現(xiàn)FMHA的操作邏輯的復(fù)雜度超越了項目團(tuán)隊的想象。其次，公司自身圖形處理器（GPU）架構(gòu)的匯編語言與CUDA PTX完全不一樣。最后，處理大量內(nèi)聯(lián)組件和支持波前多線程矩陣乘法（MFMA）操作也存在技術(shù)實現(xiàn)難題。

　　這些問題涉及到深度學(xué)習(xí)框架的底層編程，需要開發(fā)人員對硬件架構(gòu)和底層指令的理解非常深入，并且需要掌握不同的編程技術(shù)才能進(jìn)行深度學(xué)習(xí)框架的開發(fā)。因此，困難重重使得公司北美團(tuán)隊歷時半年都沒能夠推進(jìn)項目前進(jìn)半步。

　　既然CUDA PTX導(dǎo)致了那么多問題，那么就從這里入手。周毅敏創(chuàng)新提出拋開CUDA PTX匯編，使用公司GPU匯編純實現(xiàn)FMHA。周毅敏一人集中精力研究公司GPU底層匯編邏輯，利用GPU在匯編層面的優(yōu)勢減少同步次數(shù)，利用內(nèi)聯(lián)匯編減少編譯器生成的冗余代碼，這兩項內(nèi)容都是十分耗時。周毅敏通過重新編寫匯編指令來最大程度地利用硬件性能，以實現(xiàn)FMHA調(diào)用底層硬件的時候解除對原本CUDA PTX匯編語言的依賴，是該公司移植內(nèi)聯(lián)匯編的第一人。

　　周毅敏的解決方案大大提高了訓(xùn)練基準(zhǔn)模型的速度，從而保障公司GPU產(chǎn)品與市場上的同類產(chǎn)品保持競爭力，并擴(kuò)大其適用性?，F(xiàn)在，由周毅敏與編譯器團(tuán)隊一同繼續(xù)進(jìn)行該項目的研發(fā)，以實現(xiàn)項目最終的完成和落地，預(yù)期超越行業(yè)領(lǐng)先的深度學(xué)習(xí)框架。未來，該項目的成功將為公司在深度學(xué)習(xí)領(lǐng)域的發(fā)展奠定堅實的基礎(chǔ)，提高公司在該領(lǐng)域的聲譽(yù)和市場地位。隨著深度學(xué)習(xí)在各個行業(yè)的應(yīng)用不斷擴(kuò)大，該項目的成功還將為公司帶來更多的商業(yè)機(jī)會和潛在客戶。

　　周毅敏將繼續(xù)努力奮斗在深度學(xué)習(xí)的最前線，推進(jìn)項目的研發(fā)和落地，并不斷尋求創(chuàng)新和優(yōu)化的機(jī)會，以滿足不斷變化的市場需求和客戶需求。同時，他們也將積極探索和研究其他新技術(shù)和新算法，以保持在行業(yè)內(nèi)的領(lǐng)先地位，并為公司的未來發(fā)展打下更堅實的基礎(chǔ)。