繼ChatGPT這一現(xiàn)象級的應(yīng)用推出一年之后,近日,美國開放人工智能研究中心OpenAI正式發(fā)布了旗下首款視頻生成模型Sora,再次在全球掀起了人工智能關(guān)注浪潮。相較于此前的視頻生成模型,Sora在底層模型和算法上進(jìn)行了創(chuàng)新,被業(yè)界稱為視頻生成領(lǐng)域的里程碑。因此,Sora的問世令世人驚呼:現(xiàn)實不存在了!
從自動生成文字到自動生成圖片,再到現(xiàn)如今自動生成視頻,人工智能大模型技術(shù)在加速迭代。中央財經(jīng)大學(xué)數(shù)字經(jīng)濟(jì)融合創(chuàng)新發(fā)展中心主任陳端在接受《證券日報》記者采訪時表示:“人工智能技術(shù)的國際競爭,本質(zhì)上是國家創(chuàng)新力、創(chuàng)新生態(tài)以及創(chuàng)新資源體系的全方位競爭。國內(nèi)人工智能相關(guān)企業(yè)擁有龐大的市場需求和豐富的數(shù)據(jù)資源等優(yōu)勢,正緊抓時間窗口,加強(qiáng)國際交流與合作,加快技術(shù)創(chuàng)新和商業(yè)化步伐,創(chuàng)造更多應(yīng)用與成果。全球人工智能產(chǎn)業(yè)正進(jìn)入加速發(fā)展階段?!?/p>
為什么Sora引發(fā)關(guān)注潮?
Sora作為文字轉(zhuǎn)視頻模型,能夠嚴(yán)格根據(jù)用戶輸入的提示詞、文本指令或靜態(tài)圖像,生成長達(dá)1分鐘的視頻,保持較高的視覺質(zhì)量。據(jù)OpenAI官網(wǎng)介紹,該公司正在努力教人工智能“理解和模擬處在運(yùn)動當(dāng)中的物理世界”。
國海證券2月18日發(fā)布研報認(rèn)為,Sora體現(xiàn)出大模型進(jìn)化速度的超預(yù)期。截至2023年12月份,ChatGPT用戶數(shù)1.8億,網(wǎng)站月均訪問量17億次,OpenAI估值超1000億美元,Sora的發(fā)布將打開OpenAI用戶量價和估值空間。
據(jù)悉,Sora相較于過去幾款主流文生視頻工具有了極大幅度的提升。華金證券分析師方聞千表示,Sora生成的視頻具有超長時長、世界模型、多鏡頭切換三大特點。具體來看,之前幾款主流模型生成的視頻時長僅在20秒以內(nèi),Sora不僅能夠深入理解用戶提示,還學(xué)會了物理世界的部分規(guī)律,比如:一個人吃漢堡后會留下咬痕、火車車窗上會產(chǎn)生逼真的倒影,Sora還可在單個視頻中設(shè)計出多個鏡頭。
繼文字生成和圖像生成技術(shù)之后,Sora是視頻生成技術(shù)方面的突破性進(jìn)展。短期來看,Sora將直接改變很多內(nèi)容產(chǎn)業(yè)的成本結(jié)構(gòu)以及資源支撐體系。薩摩耶云科技集團(tuán)首席經(jīng)濟(jì)學(xué)家鄭磊向《證券日報》記者表示:“Sora的誕生將對影視、廣告、教育、游戲等多個行業(yè)產(chǎn)生直接影響。例如,視頻創(chuàng)作者可以專注于更具創(chuàng)意性和戰(zhàn)略性的工作,而將繁瑣的重復(fù)性工作交給人工智能?!?/p>
陳端表示:“長期來看,Sora將遠(yuǎn)遠(yuǎn)不止是內(nèi)容生產(chǎn)工具,其構(gòu)建的基于三維物理世界來創(chuàng)造數(shù)字原生世界的強(qiáng)大引擎,將給一些產(chǎn)業(yè)從底層工具層面帶來變化,形成深遠(yuǎn)影響?!?60集團(tuán)創(chuàng)始人、董事長周鴻祎2月16日在其微博上表示,Sora意味著AGI(人工通用智能)實現(xiàn)將從10年縮短到1年。
不過,目前的Sora仍存在一定局限性。例如,它可能難以精確模擬復(fù)雜場景的物理狀況,也可能無法理解一些特定的因果和時間聯(lián)系等。此外,模型還可能混淆一些文本指令中的空間細(xì)節(jié),例如左右方向等。據(jù)了解,相關(guān)領(lǐng)域?qū)<覍δP驼归_測試,目前,該模型只向有限數(shù)量的創(chuàng)作者提供訪問權(quán)限。
中國信息協(xié)會常務(wù)理事、國研新經(jīng)濟(jì)研究院創(chuàng)始院長朱克力向《證券日報》記者表示:“要用好Sora,企業(yè)首先需深入了解其技術(shù)特性和應(yīng)用場景,其次要積極探索Sora與其他技術(shù)的結(jié)合,如與虛擬現(xiàn)實、增強(qiáng)現(xiàn)實等技術(shù)的融合應(yīng)用。同時,還應(yīng)注意數(shù)據(jù)安全和隱私保護(hù)等問題?!?/p>
多家上市公司涉足相關(guān)領(lǐng)域
2023年,科技大廠、創(chuàng)業(yè)企業(yè)、科研院所等紛紛入局AI大模型,目前,我國大數(shù)據(jù)、云計算、人工智能企業(yè)創(chuàng)新發(fā)展,數(shù)字產(chǎn)業(yè)化體系逐漸完備,并向全球產(chǎn)業(yè)鏈中高端躍進(jìn)。政策端,《生成式人工智能服務(wù)管理暫行辦法》《關(guān)于加快推進(jìn)視聽電子產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》等陸續(xù)出臺,既促進(jìn)了人工智能大模型技術(shù)的創(chuàng)新發(fā)展和生成式人工智能產(chǎn)業(yè)健康發(fā)展,也進(jìn)一步規(guī)范制度引領(lǐng)技術(shù)落地。
今年春節(jié)期間,支付寶等平臺陸續(xù)推出了人工智能全家福照片制作功能,上傳家人照片可以生成不同風(fēng)格背景的全家福照片,生成式人工智能工具在圖生圖領(lǐng)域的落地應(yīng)用已經(jīng)被公眾廣泛接納。
在視頻生成領(lǐng)域,公開信息顯示,已有??低?、佳都科技、昆侖萬維、大華股份、螢石網(wǎng)絡(luò)、萬興科技、因賽集團(tuán)、拓爾思、當(dāng)虹科技等多家A股上市公司積極布局。
例如,佳都科技公布了其自主研發(fā)的國產(chǎn)化的大模型技術(shù),聚焦在交通、城市治理、政務(wù)服務(wù)等垂直領(lǐng)域的應(yīng)用,公司的TransCore-M多模態(tài)大模型能夠理解文本、圖像、視頻等多種模態(tài)的信息,并且按照用戶需求將其描述、提示或轉(zhuǎn)化為指令代碼,是個“聰明”的交通信息小助手。
當(dāng)虹科技擁有自研的生成式人工智能工具集,于2023年上半年發(fā)布了以靜態(tài)照片生成三維體積視頻的方案,支持六自由度視角自由移動,并且通過點云模型轉(zhuǎn)換及壓縮算法實現(xiàn)高達(dá)800倍的視覺無損壓縮,實現(xiàn)不同模態(tài)之間相互切換。
我國在人工智能技術(shù)和大模型領(lǐng)域已經(jīng)取得了顯著的進(jìn)展,但與國際領(lǐng)先水平相比,仍存在一些短板。中國電子商務(wù)專家服務(wù)中心副主任、資深人工智能專家郭濤在接受《證券日報》記者采訪時表示:“這些短板包括原創(chuàng)算法的研發(fā)、高質(zhì)量數(shù)據(jù)集的構(gòu)建、芯片和硬件的自主研發(fā)能力、國際化人才的吸引和培養(yǎng)等方面?!?/p>
中國移動通信聯(lián)合會區(qū)塊鏈與數(shù)據(jù)要素專業(yè)委員會主任委員、首席數(shù)字經(jīng)濟(jì)學(xué)家陳曉華表示,近年來,我國相關(guān)政策對人工智能技術(shù)應(yīng)用和大模型的技術(shù)研發(fā)和產(chǎn)業(yè)創(chuàng)新提供了良好環(huán)境,但由于前期投入不足,在基礎(chǔ)研究和核心算法的原始創(chuàng)新上還有差距。
陳曉華說:“人工智能革命將會推動算力基礎(chǔ)設(shè)施的需求猛增,此外文生視頻大模型將帶動視頻數(shù)據(jù)的調(diào)用規(guī)模持續(xù)放大,這對寬帶質(zhì)量也提出了更高的要求?!?/p>
商務(wù)部研究院電子商務(wù)研究所副研究員洪勇向《證券日報》記者表示:“國際上,部分大型科技公司憑借雄厚的技術(shù)積累和資源在人工智能賽道占據(jù)領(lǐng)先地位。中國企業(yè)在某些細(xì)分領(lǐng)域已具備國際競爭力,但仍有短板。當(dāng)下需要清醒意識到差距,加強(qiáng)基礎(chǔ)科研、培養(yǎng)高層次人才、建立合規(guī)體系,并積極參與國際合作與競爭,進(jìn)一步提升在全球人工智能領(lǐng)域的地位?!?#xff08;記者 郭冀川 丁蓉)
相關(guān)稿件