国产一级性片,欧美极品在线,天天夜干,一级黄免费

中國(guó)企業(yè)報(bào)集團(tuán)主管主辦

中國(guó)企業(yè)信息交流平臺(tái)

微博 微信

大模型路線之爭(zhēng)MoE獲勝,國(guó)內(nèi)MoE誰(shuí)最強(qiáng)?

2024-04-22 10:15 來(lái)源:中國(guó)企業(yè)網(wǎng) 次閱讀
 
大模型路線之爭(zhēng)MoE獲勝,國(guó)內(nèi)MoE誰(shuí)最強(qiáng)?

2024042123323413.001.jpeg

英偉達(dá)暴跌了。

4月19日一開(kāi)盤(pán),英偉達(dá)遭遇2024年以來(lái)最大規(guī)模的股票恐慌性拋售,最終出現(xiàn)股價(jià)下跌10%,市值消失1.5萬(wàn)億人民幣的悲劇。

更關(guān)鍵的是,海外部分AI玩家燒不起錢(qián)了,尤其是那些基于llama 2和3開(kāi)源模型的公司,用的transformer架構(gòu),成本太貴。再加上一些悄悄研發(fā)自己大模型的廠商(比如蘋(píng)果)也開(kāi)始撤出。這些信息的疊加,引發(fā)機(jī)構(gòu)投資者對(duì)完全依靠資源堆積的大模型發(fā)展模式感到擔(dān)憂,最終導(dǎo)致英偉達(dá)股價(jià)下跌。

富國(guó)銀行分析師萊恩.克里對(duì)外表示,英偉達(dá)出現(xiàn)恐慌式拋售不奇怪,“資本市場(chǎng)在進(jìn)入2024年后,其實(shí)一直對(duì)AI硬件股票小心謹(jǐn)慎。原因在于大家覺(jué)得一方面他們估值過(guò)高,另一方面其實(shí)是目前主流的幾家大模型,都沒(méi)有找到可持續(xù)的變現(xiàn)途徑,支撐不起龐大且長(zhǎng)期不變的硬件投入。”

實(shí)際上,這已經(jīng)成為資本市場(chǎng)的共同認(rèn)知。所以,對(duì)于這幾家AI硬件龍頭股票,機(jī)構(gòu)投資者在進(jìn)入2024年后,都視作是一場(chǎng)“擊鼓傳花”游戲。

當(dāng)然,資本也開(kāi)始對(duì)新的技術(shù)模式展開(kāi)探討,比如MoE專家網(wǎng)絡(luò)以及去二次方大模型架構(gòu)等等。尤其是MoE,因?yàn)榧夹g(shù)的可持續(xù)性,被認(rèn)為是下階段大模型發(fā)展破局的突破口,資金開(kāi)始瘋狂進(jìn)入。

于是,行業(yè)產(chǎn)生一系列問(wèn)題需要回答:這到底是怎么發(fā)生的?大模型還有未來(lái)嗎?未來(lái)又在哪里?MoE是什么?誰(shuí)能代表MoE扛起AI大旗?

1.巨頭的無(wú)奈

為什么大家開(kāi)始認(rèn)為以英偉達(dá)算力芯片為核心的AI硬件,變成擊鼓傳花的游戲?原因就在于英偉達(dá)每升級(jí)一個(gè)版本,其相關(guān)芯片的價(jià)格就會(huì)暴漲幾倍。

英偉達(dá)A100算力芯片在中國(guó)市場(chǎng)備受矚目,2021年上市后大規(guī)模出口中國(guó),成為AI和大模型應(yīng)用的基礎(chǔ)算力。初期定價(jià)為3000-5000美元,隨后價(jià)格上漲至8000美元。

2022年底,美國(guó)禁令限制向中國(guó)出口A100,導(dǎo)致定制版A800價(jià)格飆升至10000美元以上。英偉達(dá)隨后發(fā)布的H100芯片起售價(jià)接近2萬(wàn)美元,而GB200芯片組起售價(jià)在3-4萬(wàn)美元。

在國(guó)外社交媒體上,有人戲稱英偉達(dá)“技術(shù)進(jìn)步以漲價(jià)為本”。

其實(shí)英偉達(dá)有自己的無(wú)奈,中國(guó)市場(chǎng)頂峰時(shí)曾占英偉達(dá)1/4的份額,目前因?yàn)檎我蛩匾呀?jīng)下降到不到4%,這中間巨大的市場(chǎng)缺失不得不通過(guò)新產(chǎn)品漲價(jià)來(lái)彌補(bǔ)。

但不斷上漲的算力芯片價(jià)格,也讓那些開(kāi)發(fā)大模型的互聯(lián)網(wǎng)巨頭開(kāi)始吃不消。

2024042123323413.003.png

當(dāng)下最主要的這些互聯(lián)網(wǎng)巨頭推出的模型,大部分使用的都是transformer模型架構(gòu)。而這個(gè)架構(gòu)是2017年由Google團(tuán)隊(duì)在論文《Attention Is All You Need》中提出以來(lái),已成為自然語(yǔ)言處理(NLP)領(lǐng)域的核心技術(shù)之一。

這個(gè)架構(gòu)有很多好處,但最大的缺點(diǎn)就是必須不斷投入大量的運(yùn)算資源,以支撐模型的訓(xùn)練和對(duì)外提供服務(wù)。紐約時(shí)報(bào)曾爆料,OpenAI支撐ChatGPT對(duì)外提供服務(wù),需要使用3萬(wàn)塊英偉達(dá)A100的算卡,而且每天的耗電超過(guò)50萬(wàn)度。

想想都覺(jué)得可怕。

英偉達(dá)一直在尋求解決方案以降低互聯(lián)網(wǎng)巨頭使用Transformer模型訓(xùn)練和推理的成本。黃仁勛表示,英偉達(dá)的芯片進(jìn)化正是為此目的。隨著算力芯片性能的提升,成本有望進(jìn)一步下降。

問(wèn)題是由于巨頭間的激烈競(jìng)爭(zhēng),模型訓(xùn)練和推理能力需持續(xù)增強(qiáng),這推動(dòng)了英偉達(dá)最新算卡出貨量的大幅增長(zhǎng)。

另一方面,無(wú)論是引領(lǐng)潮流的OpenAI與ChatGPT,還是Meta、谷歌、馬斯克推出的開(kāi)源大模型,都未找到穩(wěn)定的商業(yè)化道路。

OpenAI在推出GPT4之前,據(jù)說(shuō)每月收入不足成本的1/3。面臨商業(yè)模式不清晰、收入無(wú)法覆蓋成本的困境,以及英偉達(dá)年年漲價(jià)的事實(shí),互聯(lián)網(wǎng)巨頭管理層開(kāi)始反思這種以資源投入和算卡堆砌推動(dòng)模型發(fā)展的模式。

2.MoE成為解題關(guān)鍵

對(duì)于這些推出大模型服務(wù)的互聯(lián)網(wǎng)科技巨頭來(lái)說(shuō),想解決英偉達(dá)算卡漲價(jià)帶來(lái)的成本支出不可持續(xù)問(wèn)題,有兩個(gè)解決方向。

一個(gè)是自研算力芯片。近年來(lái),多家科技巨頭如微軟、OpenAI、Meta、馬斯克,以及谷歌和亞馬遜等,均宣布了自研芯片計(jì)劃或已制作出樣片。然而,自研算力芯片需要進(jìn)行后期對(duì)接效果調(diào)整,并擺脫英偉達(dá)的CUDA重新制作中間層,這導(dǎo)致時(shí)間成本難以估量。

因此,另一個(gè)解題方向就被他們異常重視,希望通過(guò)改變模型底層架構(gòu),換一種不耗費(fèi)那么多資源就可以達(dá)到很好訓(xùn)練和推理效果的模型架構(gòu),來(lái)開(kāi)發(fā)自己的大模型。

而在硅谷,確實(shí)有這么一種模型架構(gòu)在這兩年被人不斷提起,甚至在很多中小模型開(kāi)發(fā)方的實(shí)踐中,得到了印證。

這就是MoE。

其實(shí)在更早一些的時(shí)間,MoE一直被應(yīng)用于統(tǒng)計(jì)學(xué)的研究中。這是一種機(jī)器學(xué)習(xí)模型架構(gòu),它將多個(gè)專家(Experts)模型組合起來(lái),共同解決一個(gè)問(wèn)題。每個(gè)專家都是一個(gè)小型的神經(jīng)網(wǎng)絡(luò),它們各自擅長(zhǎng)處理任務(wù)的某一方面。當(dāng)MoE模型接到一個(gè)任務(wù)時(shí),它會(huì)將任務(wù)分配給最合適的專家,最后通過(guò)一個(gè)門(mén)控網(wǎng)絡(luò)匯總專家的輸出,給出最終答案。

2024042123323413.005.png

這就像一家公司有多個(gè)部門(mén),在做決策的時(shí)候,公司的CEO可以聽(tīng)從市場(chǎng)部、生產(chǎn)部、策劃部甚至財(cái)務(wù)部相關(guān)專業(yè)領(lǐng)導(dǎo)的建議,最終產(chǎn)生最優(yōu)的決策。

由于這種架構(gòu)運(yùn)營(yíng)的核心,實(shí)際上是將大任務(wù)分成小任務(wù),日常的訓(xùn)練也是針對(duì)于各個(gè)小神經(jīng)網(wǎng)絡(luò)的專家進(jìn)行,所以他所需要的推理和訓(xùn)練資源遠(yuǎn)遠(yuǎn)低于整體運(yùn)算的transformer架構(gòu)。

關(guān)鍵在于這種架構(gòu)對(duì)技術(shù)的理解和使用,切分任務(wù)和找到關(guān)鍵神經(jīng)細(xì)分網(wǎng)絡(luò)并訓(xùn)練專家模型是該架構(gòu)成功的核心,這需要強(qiáng)大的技術(shù)實(shí)力。相較于不斷增長(zhǎng)的硬件投入,這種軟性投入對(duì)大模型開(kāi)發(fā)者來(lái)說(shuō)更可接受。此外,MoE架構(gòu)的特點(diǎn)有利于新興大模型企業(yè)的發(fā)展壯大,因?yàn)樗鼈兛梢酝ㄟ^(guò)技術(shù)理解和發(fā)展來(lái)突破現(xiàn)有巨頭的硬件護(hù)城河。

正因?yàn)檫@樣的一個(gè)特點(diǎn),MoE開(kāi)始成為大模型破局的關(guān)鍵。

3.國(guó)內(nèi)其實(shí)一點(diǎn)也不慢

MoE作為統(tǒng)計(jì)學(xué)架構(gòu)早在1997年就被提出,真正落實(shí)到自然語(yǔ)音學(xué)習(xí)是2018年以后的事情。

但由于這個(gè)架構(gòu)有幾個(gè)比較困難的訓(xùn)練難點(diǎn),比如結(jié)果可能擬合,這意味著模型最終結(jié)果可能只是因?yàn)樘囟ㄒ蛩赜绊懺斐啥鵁o(wú)法廣泛使用;再比如最后門(mén)框網(wǎng)絡(luò)的采用過(guò)程中,有可能偏愛(ài)幾個(gè)細(xì)分專家模型,而不能從整體的專家模型結(jié)果中獲得結(jié)論等等。

所以,哪怕谷歌在研究中有了相應(yīng)進(jìn)展,MoE相對(duì)于Transformer架構(gòu),在模型發(fā)展的廣泛性上遠(yuǎn)遠(yuǎn)不如。

真正讓MoE模型架構(gòu)照進(jìn)現(xiàn)實(shí)的,是一篇2023年6月名為《MoE Meets Instruction Tuning》的論文。這篇論文提出了幾種假設(shè)和相應(yīng)的解決方案,從技術(shù)可行性上解決了MoE非常難以控制的特點(diǎn)。

MoE模型架構(gòu)逐漸受到關(guān)注,成為許多新興模型研發(fā)方的選擇。2023年12月8日,Mistra AI在X平臺(tái)發(fā)布了首個(gè)開(kāi)源MoE模型,引起行業(yè)震動(dòng)。與此同時(shí),國(guó)內(nèi)模型研發(fā)團(tuán)隊(duì)也迅速跟進(jìn),MiniMax宣布將于2024年年初發(fā)布基于MoE架構(gòu)的大模型,新旦智能、元象科技等也相繼加入,推動(dòng)了MoE在國(guó)內(nèi)的快速發(fā)展。

而業(yè)內(nèi)普遍認(rèn)同的MoE在中國(guó)發(fā)展標(biāo)志事件,是今年2月6日,昆侖萬(wàn)維正式發(fā)布新版MoE大語(yǔ)言模型“天工2.0”與新版“天工AI智能助手”APP。這是國(guó)內(nèi)首個(gè)搭載MoE架構(gòu)并面向全體C端用戶免費(fèi)開(kāi)放的千億級(jí)參數(shù)大語(yǔ)言模型AI應(yīng)用。

其實(shí),昆侖萬(wàn)維是國(guó)內(nèi)最早投入精力研究MoE模型架構(gòu)的平臺(tái)公司。

這種一手抓技術(shù),一手抓應(yīng)用的模式,對(duì)于MoE模型架構(gòu)在中國(guó)的普及才是最有意義的。畢竟任何一種新的技術(shù),無(wú)論有多炸裂,只有大量的應(yīng)用才能對(duì)于產(chǎn)業(yè),以及人們的生活帶來(lái)新的價(jià)值。

而很多時(shí)候有新價(jià)值產(chǎn)生,是衡量一個(gè)技術(shù)能否持續(xù)發(fā)展的關(guān)鍵。

2024年4月17日,昆侖萬(wàn)維重磅宣布,“天工3.0”正式開(kāi)啟公測(cè)。

“天工3.0”是采用4千億級(jí)參數(shù)MoE混合專家模型的全球領(lǐng)先模型之一,并將開(kāi)源。行業(yè)內(nèi)現(xiàn)在一致認(rèn)為,在國(guó)內(nèi)MoE模型的排名里,昆侖萬(wàn)維的天工是第一位,字節(jié)豆包第二, Minimax第三。

點(diǎn)贊()
上一條:數(shù)字經(jīng)濟(jì)如何助力經(jīng)濟(jì)增長(zhǎng)2024-04-21
下一條:人工智能熱度攀升市場(chǎng)廣闊2024-04-22

相關(guān)稿件

國(guó)內(nèi)企業(yè)競(jìng)速“垂直大模型”新賽道 2023-07-27
大模型,冷靜! 2023-07-25
上海打造大模型產(chǎn)業(yè)高密度創(chuàng)新“苗圃” 2024-04-03
AI大模型助力金融高質(zhì)量發(fā)展!馬上消費(fèi)“天鏡大模型”問(wèn)世 2023-08-30
王小川:大模型的機(jī)會(huì)不一定落在大廠里 2023-08-09
國(guó)務(wù)院國(guó)有資產(chǎn)管理委員會(huì) 中國(guó)企業(yè)聯(lián)合會(huì) 中國(guó)企業(yè)報(bào) 中國(guó)社會(huì)經(jīng)濟(jì)網(wǎng) 中國(guó)國(guó)際電子商務(wù)網(wǎng) 新浪財(cái)經(jīng) 鳳凰財(cái)經(jīng) 中國(guó)報(bào)告基地 企業(yè)社會(huì)責(zé)任中國(guó)網(wǎng) 杭州網(wǎng) 中國(guó)產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國(guó)網(wǎng) 天機(jī)網(wǎng) 中貿(mào)網(wǎng) 湖南經(jīng)濟(jì)新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國(guó)經(jīng)濟(jì)網(wǎng) 中國(guó)企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟(jì)網(wǎng) 華訊財(cái)經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當(dāng)代金融家雜志 借貸撮合網(wǎng) 大公財(cái)經(jīng) 誠(chéng)搜網(wǎng) 中國(guó)鋼鐵現(xiàn)貨網(wǎng) 證券之星 融易在線 2014世界杯 中華魂網(wǎng) 納稅人俱樂(lè)部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國(guó)國(guó)資報(bào)道 金融界 中國(guó)農(nóng)業(yè)新聞網(wǎng) 中國(guó)招商聯(lián)盟 和訊股票 經(jīng)濟(jì)網(wǎng) 中國(guó)數(shù)據(jù)分析行業(yè)網(wǎng) 中國(guó)報(bào)道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng)新企業(yè)誠(chéng)信聯(lián)盟網(wǎng) 中國(guó)白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國(guó)石油化工集團(tuán) 中國(guó)保利集團(tuán)公司 東風(fēng)汽車公司 中國(guó)化工集團(tuán)公司 中國(guó)電信集團(tuán)公司 華為技術(shù)有限公司 廈門(mén)銀鷺食品有限公司 中國(guó)恒天集團(tuán)有限公司 濱州東方地毯集團(tuán)有限公司 大唐電信科技股份有限公司 中國(guó)誠(chéng)通控股集團(tuán)有限公司 喜來(lái)健醫(yī)療器械有限公司 中國(guó)能源建設(shè)股份有限公司 內(nèi)蒙古伊利實(shí)業(yè)集團(tuán)股份有限公司 中國(guó)移動(dòng)通信集團(tuán)公司 中國(guó)化工集團(tuán)公司 貴州茅臺(tái)酒股份有限公司