国产一级性片,欧美极品在线,天天夜干,一级黄免费

中國企業(yè)報集團(tuán)主管主辦

中國企業(yè)信息交流平臺

微博 微信

大模型發(fā)展提速 中文語料夠“吃”嗎

2024-06-27 14:21 來源:科技日報 次閱讀
 
大模型發(fā)展提速 中文語料夠“吃”嗎

  采寫:本報記者 龔 茜

  策劃:何 屹 房琳琳

  繼去年“百模大戰(zhàn)”之后,今年國內(nèi)大模型產(chǎn)業(yè)應(yīng)用進(jìn)入爆發(fā)元年。

  然而,大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓(xùn)練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質(zhì)量參差不齊,尤其是高質(zhì)量中文語料短缺的問題日益凸顯,成為各方關(guān)注焦點。

  阿里研究院5月發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。

  同樣,語料的質(zhì)量會顯著影響大模型的性能。在大模型領(lǐng)域,輸入低質(zhì)量數(shù)據(jù),必然會輸出低質(zhì)量結(jié)果。

  在近日舉辦的第六屆北京智源大會上,中國互聯(lián)網(wǎng)協(xié)會理事長尚冰指出,高質(zhì)量數(shù)據(jù)的生成速度遠(yuǎn)低于AI大模型訓(xùn)練數(shù)據(jù)需求量的增長速度,數(shù)據(jù)短缺問題已初現(xiàn)端倪。

  如何獲取規(guī)?;哔|(zhì)量中文數(shù)據(jù)?建設(shè)高質(zhì)量中文數(shù)據(jù)集的難點和堵點是什么?加速數(shù)據(jù)流通,推動中國特色大模型創(chuàng)新發(fā)展與應(yīng)用的意義何在?對此,科技日報記者進(jìn)行了采訪。

  高質(zhì)量中文語料供給嚴(yán)重匱乏

  語料即大模型訓(xùn)練所需數(shù)據(jù),是大模型訓(xùn)練的基礎(chǔ),也是決定大模型性能和專業(yè)性的關(guān)鍵因素。商湯科技大裝置事業(yè)群高級總監(jiān)張行程告訴記者,中文高質(zhì)量語料相對缺乏是國內(nèi)外大模型面臨的共同問題。中文語料庫不僅規(guī)模較小,且其電子化和網(wǎng)絡(luò)化程度明顯不足。此外,受版權(quán)、隱私等限制,許多優(yōu)質(zhì)中文語料庫也無法公開獲取。

  其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料。《白皮書》主要編寫成員、阿里研究院數(shù)據(jù)經(jīng)濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規(guī)律,大模型需要學(xué)習(xí)大量知識和價值觀層面的數(shù)據(jù),這些數(shù)據(jù)深受人類主觀意志的影響。

  在王崢看來,文言文、古漢語、電子書等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容,以及主流媒體發(fā)布的反映本土價值觀的內(nèi)容,都可視為具有中式價值觀的高質(zhì)量語料。

  “訓(xùn)練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性?!蓖鯈樥f,“更重要的是,能更好地服務(wù)中國本土用戶,滿足行業(yè)發(fā)展的需要?!?/p>

  但目前面臨的實際困難是,這類語料開放共享與開發(fā)利用的程度遠(yuǎn)遠(yuǎn)不夠,且無法通過機器翻譯彌補其短缺問題?!栋灼分赋?#xff0c;中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發(fā)展的短板。

  高質(zhì)量中文語料的供給是中國大模型本土化的關(guān)鍵。“我們希望行業(yè)能加強企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同,共同推動高質(zhì)量中文數(shù)據(jù)集的共享、開放,鼓勵數(shù)據(jù)提供方將高質(zhì)量中文語料庫在一定范圍內(nèi)公開,為各行各業(yè)大模型技術(shù)創(chuàng)新和應(yīng)用奠定堅實的基礎(chǔ),形成中國特色的AI大模型創(chuàng)新路徑,不斷提高國際競爭力?!睆埿谐陶f。

  供需雙方合作機制尚待完善

  一方面,大模型廠商需要高質(zhì)量數(shù)據(jù)支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質(zhì)量中文語料庫的數(shù)據(jù)擁有者,如擁有各類圖書、文獻(xiàn)的出版商等,也期望在智能化時代實現(xiàn)數(shù)據(jù)增值。因此,探索數(shù)據(jù)供需雙方合作模式是關(guān)鍵。

  然而,要推動數(shù)據(jù)供需雙方建立合作并非易事?!皵r路虎”到底是什么?

  當(dāng)前,大模型數(shù)據(jù)獲取主要有合理爬取、版權(quán)采購等途徑。

  張行程透露,商湯目前的解決方案是聯(lián)合各機構(gòu)盡量挖取、尋找現(xiàn)存的中文高質(zhì)量語料,比如精心編校過的書本、論文等,以及向供應(yīng)商購買版權(quán)語料?!半m然購買數(shù)量有限,但質(zhì)量很高?!睆埿谐陶f。這是以前置協(xié)商付費方式來獲取版權(quán)類語料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問”大模型也采取了類似做法。

  王錚還提到第二種潛在的方式,即與版權(quán)方協(xié)商,以訓(xùn)練后的模型為版權(quán)方提供服務(wù)的方式進(jìn)行對價。

  然而,關(guān)于版權(quán)類語料使用,數(shù)據(jù)提供者和大模型廠商持有不同見解。王崢認(rèn)為,大模型對版權(quán)類訓(xùn)練語料的使用屬于轉(zhuǎn)換性使用,而非復(fù)制式拷貝,應(yīng)構(gòu)成“合理使用”或“法定許可”。

  上海世紀(jì)出版集團(tuán)數(shù)字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學(xué)習(xí)機制與人類學(xué)習(xí)有相似之處,使用版權(quán)類數(shù)據(jù)進(jìn)行訓(xùn)練,類似于人類閱讀文獻(xiàn)后撰寫論文而不標(biāo)注參考文獻(xiàn)?!皬膶W(xué)術(shù)規(guī)范上來說,這種做法很難說沒有瑕疵?!彼f。

  此外,大模型廠商訓(xùn)練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符?!胺ǘㄔS可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構(gòu)成“法定許可”。

  在人工智能時代,高質(zhì)量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認(rèn)為,在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下,切實保障知識產(chǎn)權(quán),對高質(zhì)量數(shù)據(jù)集進(jìn)行有效開發(fā)和高質(zhì)量轉(zhuǎn)化,是出版行業(yè)的核心。

  “出版行業(yè)為大模型提供語料,相應(yīng)地,大模型的技術(shù)進(jìn)步、功能提升,也應(yīng)惠及包括出版行業(yè)在內(nèi)的更廣泛群體?!眲⒁禾岢院献鞴糙A的方式與大模型廠商開展數(shù)據(jù)交易,通過訂立授權(quán)協(xié)議,明確授權(quán)范圍和條件,實現(xiàn)共同發(fā)展。

  “如何將出版物進(jìn)一步加工為數(shù)據(jù)要素并有效、有序流通,是擺在出版人面前的新問題。”中國出版?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀(jì)臣說,“但我認(rèn)為這同樣是新機遇,因為我國出版行業(yè)一直強調(diào)知識服務(wù)這一理念。將出版物作為語料使用,從而提供產(chǎn)品和服務(wù)能力,正是出版知識服務(wù)的產(chǎn)品化體現(xiàn)?!?/p>

  數(shù)據(jù)開源分享動力不足

  目前,我國可供大模型訓(xùn)練的優(yōu)質(zhì)數(shù)據(jù)資源呈碎片化、分散狀態(tài)。

  “特別是語料和科研成果等中文高質(zhì)量數(shù)據(jù)集開放程度低,企業(yè)在訓(xùn)練大模型時使用的語料來源不透明、權(quán)屬不明確,開源后存在合規(guī)風(fēng)險,這導(dǎo)致企業(yè)更傾向于自行采集和使用數(shù)據(jù),大模型數(shù)據(jù)流通機制尚未形成。”王崢說。

  北京理工大學(xué)管理學(xué)院副研究員尹西明認(rèn)為,需要構(gòu)建一個市場化、互利共贏的數(shù)據(jù)共享機制,以促進(jìn)高質(zhì)量中文數(shù)據(jù)的積累和有效利用。

  “確立清晰的數(shù)據(jù)要素市場制度對于激發(fā)高質(zhì)量數(shù)據(jù)集構(gòu)建至關(guān)重要。”在復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華看來,只有當(dāng)市場機制能夠確保數(shù)據(jù)貢獻(xiàn)者獲得合理回報時,才能吸引更多的數(shù)據(jù)流入市場,充分挖掘并實現(xiàn)數(shù)據(jù)共享的巨大潛力與價值。

  2023年12月31日,國家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,強調(diào)堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。

  該行動計劃進(jìn)一步明確,要提升數(shù)據(jù)供給水平,在科研、文化、交通運輸?shù)阮I(lǐng)域,推動科研機構(gòu)、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設(shè),打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。

  事實上,作為數(shù)據(jù)流通領(lǐng)域中最大的“富礦”,公共數(shù)據(jù)開放的步伐正不斷加快?!度珖鴶?shù)據(jù)資源調(diào)查報告》顯示,2023年,我國公共數(shù)據(jù)開放量同比增長16%;省一級政府的開放數(shù)據(jù)量同比增長了18.5%,北京、浙江等15地數(shù)據(jù)管理部門開始探索公共數(shù)據(jù)授權(quán)運營機制。

  今年初開始實施“數(shù)據(jù)入表”政策。張紀(jì)臣認(rèn)為,隨著“數(shù)據(jù)入表”政策的實施,出版企業(yè)的數(shù)字資源經(jīng)過確權(quán)、評估、標(biāo)準(zhǔn)化后入表,成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎(chǔ)上構(gòu)建大模型訓(xùn)練使用方與出版企業(yè)共贏的商業(yè)模式,能發(fā)揮中國價值核心數(shù)據(jù)在人工智能時代的智能服務(wù)話語權(quán)。“這樣一來,‘?dāng)?shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動、共享并實現(xiàn)共贏的關(guān)鍵一步?!彼f。

  數(shù)據(jù)流通環(huán)節(jié)問題突出

  算法、算力、數(shù)據(jù)和場景是大模型發(fā)展的4個核心要素。當(dāng)前,我國大模型算力算法能力顯著提升,高質(zhì)量發(fā)展取決于數(shù)據(jù)和場景,應(yīng)構(gòu)建“供得出、流得通、用得好”的高質(zhì)量數(shù)據(jù)集。

  尹西明表示,大模型變強用好,前提是建立以場景驅(qū)動創(chuàng)新的思維,引領(lǐng)高質(zhì)量數(shù)據(jù)持續(xù)在各種應(yīng)用場景中發(fā)揮價值。那么,解決數(shù)據(jù)“供得出”難題后,應(yīng)重點確保高質(zhì)量數(shù)據(jù)“流得通”,真正面向場景釋放數(shù)據(jù)乘數(shù)效應(yīng)和大模型對新質(zhì)生產(chǎn)力的引擎價值。

  數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要,數(shù)據(jù)要素流動帶來的開放性與動態(tài)性問題,為傳統(tǒng)數(shù)據(jù)理論與相應(yīng)技術(shù)帶來新挑戰(zhàn)和新要求。

  “其中之一便是數(shù)據(jù)確權(quán)?!毙ぱ鋈A表示,相比其他生產(chǎn)要素,數(shù)據(jù)要素在流通過程中主體更加多樣,涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運營者和其他產(chǎn)權(quán)人,權(quán)屬界定復(fù)雜。

  北京智源人工智能研究院理事長、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會主任委員黃鐵軍指出:“當(dāng)前普遍存在一種誤解,即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實,數(shù)據(jù)并非物理資產(chǎn),作為數(shù)字形態(tài)產(chǎn)品,它可以被無限次使用,且不會導(dǎo)致數(shù)據(jù)損耗?!?/p>

  他提倡在確保使用合規(guī)的前提下,大模型訓(xùn)練階段可以免費獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過程中并未產(chǎn)生商業(yè)利益,則無需支付任何費用;反之,一旦通過數(shù)據(jù)使用獲得了商業(yè)收益,便應(yīng)按照既定比例支付相應(yīng)的數(shù)據(jù)使用費用。

  “雖然這一模式背后還涉及到數(shù)據(jù)確權(quán)、費率設(shè)定、監(jiān)管機制等復(fù)雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發(fā)展?!秉S鐵軍說。

  王崢則認(rèn)為,確保數(shù)據(jù)流通需政府與企業(yè)、開源或非盈利組織、學(xué)界、多類型機構(gòu)等社會力量協(xié)同推進(jìn)。

  他建議,在政府側(cè),對可用于模型訓(xùn)練的公共數(shù)據(jù)鼓勵“應(yīng)開盡開”,避免在數(shù)據(jù)開放過程中因為預(yù)設(shè)特定場景限制了應(yīng)用范圍;在社會力量側(cè),應(yīng)堅持“應(yīng)試盡試”原則,通過不斷迭代,探索數(shù)據(jù)的有效搭配,尋找發(fā)揮最大價值的“配方”。

  標(biāo)注專業(yè)化、規(guī)?;嵘先粘?/strong>

  從2022年《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》出臺以來,數(shù)據(jù)要素建設(shè)和市場改革正穩(wěn)步推進(jìn)。今年5月,國家數(shù)據(jù)局提出建設(shè)國家級數(shù)據(jù)標(biāo)注基地,這一舉措對人工智能發(fā)展至關(guān)重要。

  中國信息通信研究院人工智能研究所高級工程師、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會主任李蓀表示,數(shù)據(jù)標(biāo)注是推動人工智能進(jìn)步的核心環(huán)節(jié),它能夠提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)核心價值,形成高質(zhì)量數(shù)據(jù)集,持續(xù)為AI提供數(shù)據(jù)支持。

  也就是說,在一定程度解決數(shù)據(jù)供給、促進(jìn)數(shù)據(jù)共享和打通流通機制后,如何讓大模型學(xué)習(xí)到高質(zhì)量數(shù)據(jù),是接下來各界面臨的另一個新挑戰(zhàn)。

  數(shù)據(jù)標(biāo)注的專業(yè)性和規(guī)模化也被提上日程。

  李蓀指出,當(dāng)前國內(nèi)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)還比較初級,大部分標(biāo)注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統(tǒng)手工標(biāo)注或簡單自動化標(biāo)注方法無法滿足大模型對大規(guī)模、高質(zhì)量、多樣化數(shù)據(jù)的需求,特別是具備模型訓(xùn)練知識、行業(yè)領(lǐng)域知識的專業(yè)化數(shù)據(jù)標(biāo)注人才也相對匱乏。

  “大模型訓(xùn)練數(shù)據(jù)標(biāo)注人員的學(xué)歷要求比以前更高,很多是本科畢業(yè)。”王崢表示,行業(yè)大模型數(shù)據(jù)標(biāo)注凸顯了專業(yè)知識的重要性。

  機器在對語言水平這一抽象概念進(jìn)行評估時,必須依賴預(yù)先設(shè)定的人類價值判斷和標(biāo)準(zhǔn)。電子科技大學(xué)智能語言學(xué)習(xí)與測評實驗室與字節(jié)跳動合作開發(fā)了一款語言水平考試產(chǎn)品。實驗室負(fù)責(zé)人陳大建說,在研發(fā)階段,實驗室負(fù)責(zé)對自行收集的用戶音頻數(shù)據(jù)進(jìn)行標(biāo)注,其標(biāo)注內(nèi)容主要是基于音頻所體現(xiàn)的英語能力水平進(jìn)行分類和標(biāo)記。標(biāo)注人員由學(xué)校四五十名大學(xué)英語教師組成,且均為應(yīng)用語言學(xué)專業(yè)的碩博士。

  “吃”得好、“吃”得香,還要“吃”得夠。只有最終實現(xiàn)了規(guī)模化高質(zhì)量標(biāo)注,才能切實提升大模型理解中文、傳遞中國傳統(tǒng)文化價值的能力。中國大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播,架起一座連接古今、溝通中外的橋梁。

  中國出版集團(tuán)中國圖書進(jìn)出口總公司下屬中圖科信數(shù)智技術(shù)(北京)有限公司總經(jīng)理李沄沨認(rèn)為,從正式出版物如文獻(xiàn)、學(xué)術(shù)專著等入手,依托先進(jìn)的提取工具和解析技術(shù),將出版物語料化、碎片化、標(biāo)準(zhǔn)化,加工成高質(zhì)量的語料數(shù)據(jù),有別于一般的數(shù)據(jù)加工?!拔覀円呀?jīng)實現(xiàn)了大規(guī)模和批量開展數(shù)據(jù)語料化的技術(shù)和工具軟件,能夠更深層次地解析數(shù)據(jù),并形成獨立的圖片、表格、公式數(shù)據(jù)集,為大模型人工智能服務(wù)提供價值更高、標(biāo)準(zhǔn)程度更好的語料供給,使出版數(shù)據(jù)在人工智能時代煥發(fā)出新活力?!彼f。

  在數(shù)字經(jīng)濟大潮中,數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著,成為推動相關(guān)產(chǎn)業(yè)高質(zhì)量發(fā)展的必然要求。張紀(jì)臣認(rèn)為:“我們正站在新一輪產(chǎn)業(yè)科技革命的門口。這是一個不進(jìn)則退的時代?!?/p>

點贊()
上一條:“硬科技”上新 5G-A商用加速 2024-06-27
下一條:大模型發(fā)展提速 中文語料夠“吃”嗎2024-06-27

相關(guān)稿件

AI大模型助力金融高質(zhì)量發(fā)展!馬上消費“天鏡大模型”問世 2023-08-30
大模型,冷靜! 2023-07-25
大模型發(fā)展再迎政策利好 2024-01-24
發(fā)展大模型賦能數(shù)字重慶建設(shè) 2023-10-23
杜蘭:AI大模型應(yīng)更多應(yīng)用于實體產(chǎn)業(yè)發(fā)展 2023-08-21
國務(wù)院國有資產(chǎn)管理委員會 中國企業(yè)聯(lián)合會 中國企業(yè)報 中國社會經(jīng)濟網(wǎng) 中國國際電子商務(wù)網(wǎng) 新浪財經(jīng) 鳳凰財經(jīng) 中國報告基地 企業(yè)社會責(zé)任中國網(wǎng) 杭州網(wǎng) 中國產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國網(wǎng) 天機網(wǎng) 中貿(mào)網(wǎng) 湖南經(jīng)濟新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國經(jīng)濟網(wǎng) 中國企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟網(wǎng) 華訊財經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當(dāng)代金融家雜志 借貸撮合網(wǎng) 大公財經(jīng) 誠搜網(wǎng) 中國鋼鐵現(xiàn)貨網(wǎng) 證券之星 融易在線 2014世界杯 中華魂網(wǎng) 納稅人俱樂部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國國資報道 金融界 中國農(nóng)業(yè)新聞網(wǎng) 中國招商聯(lián)盟 和訊股票 經(jīng)濟網(wǎng) 中國數(shù)據(jù)分析行業(yè)網(wǎng) 中國報道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng)新企業(yè)誠信聯(lián)盟網(wǎng) 中國白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國石油化工集團(tuán) 中國保利集團(tuán)公司 東風(fēng)汽車公司 中國化工集團(tuán)公司 中國電信集團(tuán)公司 華為技術(shù)有限公司 廈門銀鷺食品有限公司 中國恒天集團(tuán)有限公司 濱州東方地毯集團(tuán)有限公司 大唐電信科技股份有限公司 中國誠通控股集團(tuán)有限公司 喜來健醫(yī)療器械有限公司 中國能源建設(shè)股份有限公司 內(nèi)蒙古伊利實業(yè)集團(tuán)股份有限公司 中國移動通信集團(tuán)公司 中國化工集團(tuán)公司 貴州茅臺酒股份有限公司