采寫(xiě):本報(bào)記者 龔 茜
策劃:何 屹 房琳琳
繼去年“百模大戰(zhàn)”之后,今年國(guó)內(nèi)大模型產(chǎn)業(yè)應(yīng)用進(jìn)入爆發(fā)元年。
然而,大模型產(chǎn)業(yè)發(fā)展如火如荼的同時(shí),其訓(xùn)練數(shù)據(jù)規(guī)模的增長(zhǎng)速度跟不上、語(yǔ)料質(zhì)量參差不齊,尤其是高質(zhì)量中文語(yǔ)料短缺的問(wèn)題日益凸顯,成為各方關(guān)注焦點(diǎn)。
阿里研究院5月發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書(shū)》(以下簡(jiǎn)稱(chēng)《白皮書(shū)》)顯示,互聯(lián)網(wǎng)上中文語(yǔ)料和英文語(yǔ)料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。
同樣,語(yǔ)料的質(zhì)量會(huì)顯著影響大模型的性能。在大模型領(lǐng)域,輸入低質(zhì)量數(shù)據(jù),必然會(huì)輸出低質(zhì)量結(jié)果。
在近日舉辦的第六屆北京智源大會(huì)上,中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)理事長(zhǎng)尚冰指出,高質(zhì)量數(shù)據(jù)的生成速度遠(yuǎn)低于AI大模型訓(xùn)練數(shù)據(jù)需求量的增長(zhǎng)速度,數(shù)據(jù)短缺問(wèn)題已初現(xiàn)端倪。
如何獲取規(guī)?;哔|(zhì)量中文數(shù)據(jù)?建設(shè)高質(zhì)量中文數(shù)據(jù)集的難點(diǎn)和堵點(diǎn)是什么?加速數(shù)據(jù)流通,推動(dòng)中國(guó)特色大模型創(chuàng)新發(fā)展與應(yīng)用的意義何在?對(duì)此,科技日?qǐng)?bào)記者進(jìn)行了采訪。
高質(zhì)量中文語(yǔ)料供給嚴(yán)重匱乏
語(yǔ)料即大模型訓(xùn)練所需數(shù)據(jù),是大模型訓(xùn)練的基礎(chǔ),也是決定大模型性能和專(zhuān)業(yè)性的關(guān)鍵因素。商湯科技大裝置事業(yè)群高級(jí)總監(jiān)張行程告訴記者,中文高質(zhì)量語(yǔ)料相對(duì)缺乏是國(guó)內(nèi)外大模型面臨的共同問(wèn)題。中文語(yǔ)料庫(kù)不僅規(guī)模較小,且其電子化和網(wǎng)絡(luò)化程度明顯不足。此外,受版權(quán)、隱私等限制,許多優(yōu)質(zhì)中文語(yǔ)料庫(kù)也無(wú)法公開(kāi)獲取。
其中,有一類(lèi)型的中文語(yǔ)料極為重要,但又非常短缺——中式價(jià)值觀類(lèi)語(yǔ)料。《白皮書(shū)》主要編寫(xiě)成員、阿里研究院數(shù)據(jù)經(jīng)濟(jì)研究中心副主任王崢解釋說(shuō),為了更好理解客觀世界和掌握客觀規(guī)律,大模型需要學(xué)習(xí)大量知識(shí)和價(jià)值觀層面的數(shù)據(jù),這些數(shù)據(jù)深受人類(lèi)主觀意志的影響。
在王崢看來(lái),文言文、古漢語(yǔ)、電子書(shū)等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容,以及主流媒體發(fā)布的反映本土價(jià)值觀的內(nèi)容,都可視為具有中式價(jià)值觀的高質(zhì)量語(yǔ)料。
“訓(xùn)練中融入更多這類(lèi)中式價(jià)值觀語(yǔ)料,有助于大模型深入理解和反映中文使用者的文化背景和價(jià)值取向,從而在全球化背景下保持中國(guó)文化的獨(dú)特性。”王崢說(shuō),“更重要的是,能更好地服務(wù)中國(guó)本土用戶(hù),滿(mǎn)足行業(yè)發(fā)展的需要?!?/p>
但目前面臨的實(shí)際困難是,這類(lèi)語(yǔ)料開(kāi)放共享與開(kāi)發(fā)利用的程度遠(yuǎn)遠(yuǎn)不夠,且無(wú)法通過(guò)機(jī)器翻譯彌補(bǔ)其短缺問(wèn)題?!栋灼?shū)》指出,中文語(yǔ)料量的短缺尚有可解決方案,但中式價(jià)值觀類(lèi)語(yǔ)料的短缺,則會(huì)成為制約我國(guó)大模型發(fā)展的短板。
高質(zhì)量中文語(yǔ)料的供給是中國(guó)大模型本土化的關(guān)鍵?!拔覀兿M袠I(yè)能加強(qiáng)企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同,共同推動(dòng)高質(zhì)量中文數(shù)據(jù)集的共享、開(kāi)放,鼓勵(lì)數(shù)據(jù)提供方將高質(zhì)量中文語(yǔ)料庫(kù)在一定范圍內(nèi)公開(kāi),為各行各業(yè)大模型技術(shù)創(chuàng)新和應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ),形成中國(guó)特色的AI大模型創(chuàng)新路徑,不斷提高國(guó)際競(jìng)爭(zhēng)力?!睆埿谐陶f(shuō)。
供需雙方合作機(jī)制尚待完善
一方面,大模型廠商需要高質(zhì)量數(shù)據(jù)支撐,以解“巧婦難為無(wú)米之炊”的困境;另一方面,高質(zhì)量中文語(yǔ)料庫(kù)的數(shù)據(jù)擁有者,如擁有各類(lèi)圖書(shū)、文獻(xiàn)的出版商等,也期望在智能化時(shí)代實(shí)現(xiàn)數(shù)據(jù)增值。因此,探索數(shù)據(jù)供需雙方合作模式是關(guān)鍵。
然而,要推動(dòng)數(shù)據(jù)供需雙方建立合作并非易事?!皵r路虎”到底是什么?
當(dāng)前,大模型數(shù)據(jù)獲取主要有合理爬取、版權(quán)采購(gòu)等途徑。
張行程透露,商湯目前的解決方案是聯(lián)合各機(jī)構(gòu)盡量挖取、尋找現(xiàn)存的中文高質(zhì)量語(yǔ)料,比如精心編校過(guò)的書(shū)本、論文等,以及向供應(yīng)商購(gòu)買(mǎi)版權(quán)語(yǔ)料?!半m然購(gòu)買(mǎi)數(shù)量有限,但質(zhì)量很高?!睆埿谐陶f(shuō)。這是以前置協(xié)商付費(fèi)方式來(lái)獲取版權(quán)類(lèi)語(yǔ)料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問(wèn)”大模型也采取了類(lèi)似做法。
王錚還提到第二種潛在的方式,即與版權(quán)方協(xié)商,以訓(xùn)練后的模型為版權(quán)方提供服務(wù)的方式進(jìn)行對(duì)價(jià)。
然而,關(guān)于版權(quán)類(lèi)語(yǔ)料使用,數(shù)據(jù)提供者和大模型廠商持有不同見(jiàn)解。王崢認(rèn)為,大模型對(duì)版權(quán)類(lèi)訓(xùn)練語(yǔ)料的使用屬于轉(zhuǎn)換性使用,而非復(fù)制式拷貝,應(yīng)構(gòu)成“合理使用”或“法定許可”。
上海世紀(jì)出版集團(tuán)數(shù)字出版部副主任劉寅春對(duì)此持有保留意見(jiàn)。她指出,大模型的深度學(xué)習(xí)機(jī)制與人類(lèi)學(xué)習(xí)有相似之處,使用版權(quán)類(lèi)數(shù)據(jù)進(jìn)行訓(xùn)練,類(lèi)似于人類(lèi)閱讀文獻(xiàn)后撰寫(xiě)論文而不標(biāo)注參考文獻(xiàn)?!皬膶W(xué)術(shù)規(guī)范上來(lái)說(shuō),這種做法很難說(shuō)沒(méi)有瑕疵?!彼f(shuō)。
此外,大模型廠商訓(xùn)練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿(mǎn)足一定條件,包括說(shuō)明作品的出處、作者姓名,并支付報(bào)酬。如果這些條件無(wú)法滿(mǎn)足,那么在顯性法律釋義下,這種行為很難構(gòu)成“法定許可”。
在人工智能時(shí)代,高質(zhì)量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認(rèn)為,在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下,切實(shí)保障知識(shí)產(chǎn)權(quán),對(duì)高質(zhì)量數(shù)據(jù)集進(jìn)行有效開(kāi)發(fā)和高質(zhì)量轉(zhuǎn)化,是出版行業(yè)的核心。
“出版行業(yè)為大模型提供語(yǔ)料,相應(yīng)地,大模型的技術(shù)進(jìn)步、功能提升,也應(yīng)惠及包括出版行業(yè)在內(nèi)的更廣泛群體?!眲⒁禾岢院献鞴糙A的方式與大模型廠商開(kāi)展數(shù)據(jù)交易,通過(guò)訂立授權(quán)協(xié)議,明確授權(quán)范圍和條件,實(shí)現(xiàn)共同發(fā)展。
“如何將出版物進(jìn)一步加工為數(shù)據(jù)要素并有效、有序流通,是擺在出版人面前的新問(wèn)題?!敝袊?guó)出版?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀(jì)臣說(shuō),“但我認(rèn)為這同樣是新機(jī)遇,因?yàn)槲覈?guó)出版行業(yè)一直強(qiáng)調(diào)知識(shí)服務(wù)這一理念。將出版物作為語(yǔ)料使用,從而提供產(chǎn)品和服務(wù)能力,正是出版知識(shí)服務(wù)的產(chǎn)品化體現(xiàn)?!?/p>
數(shù)據(jù)開(kāi)源分享動(dòng)力不足
目前,我國(guó)可供大模型訓(xùn)練的優(yōu)質(zhì)數(shù)據(jù)資源呈碎片化、分散狀態(tài)。
“特別是語(yǔ)料和科研成果等中文高質(zhì)量數(shù)據(jù)集開(kāi)放程度低,企業(yè)在訓(xùn)練大模型時(shí)使用的語(yǔ)料來(lái)源不透明、權(quán)屬不明確,開(kāi)源后存在合規(guī)風(fēng)險(xiǎn),這導(dǎo)致企業(yè)更傾向于自行采集和使用數(shù)據(jù),大模型數(shù)據(jù)流通機(jī)制尚未形成。”王崢說(shuō)。
北京理工大學(xué)管理學(xué)院副研究員尹西明認(rèn)為,需要構(gòu)建一個(gè)市場(chǎng)化、互利共贏的數(shù)據(jù)共享機(jī)制,以促進(jìn)高質(zhì)量中文數(shù)據(jù)的積累和有效利用。
“確立清晰的數(shù)據(jù)要素市場(chǎng)制度對(duì)于激發(fā)高質(zhì)量數(shù)據(jù)集構(gòu)建至關(guān)重要?!痹趶?fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華看來(lái),只有當(dāng)市場(chǎng)機(jī)制能夠確保數(shù)據(jù)貢獻(xiàn)者獲得合理回報(bào)時(shí),才能吸引更多的數(shù)據(jù)流入市場(chǎng),充分挖掘并實(shí)現(xiàn)數(shù)據(jù)共享的巨大潛力與價(jià)值。
2023年12月31日,國(guó)家數(shù)據(jù)局等部門(mén)印發(fā)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,強(qiáng)調(diào)堅(jiān)持需求牽引、注重實(shí)效,試點(diǎn)先行、重點(diǎn)突破,有效市場(chǎng)、有為政府,開(kāi)放融合、安全有序4方面基本原則。
該行動(dòng)計(jì)劃進(jìn)一步明確,要提升數(shù)據(jù)供給水平,在科研、文化、交通運(yùn)輸?shù)阮I(lǐng)域,推動(dòng)科研機(jī)構(gòu)、龍頭企業(yè)等開(kāi)展行業(yè)共性數(shù)據(jù)資源庫(kù)建設(shè),打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。
事實(shí)上,作為數(shù)據(jù)流通領(lǐng)域中最大的“富礦”,公共數(shù)據(jù)開(kāi)放的步伐正不斷加快。《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告》顯示,2023年,我國(guó)公共數(shù)據(jù)開(kāi)放量同比增長(zhǎng)16%;省一級(jí)政府的開(kāi)放數(shù)據(jù)量同比增長(zhǎng)了18.5%,北京、浙江等15地?cái)?shù)據(jù)管理部門(mén)開(kāi)始探索公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)機(jī)制。
今年初開(kāi)始實(shí)施“數(shù)據(jù)入表”政策。張紀(jì)臣認(rèn)為,隨著“數(shù)據(jù)入表”政策的實(shí)施,出版企業(yè)的數(shù)字資源經(jīng)過(guò)確權(quán)、評(píng)估、標(biāo)準(zhǔn)化后入表,成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎(chǔ)上構(gòu)建大模型訓(xùn)練使用方與出版企業(yè)共贏的商業(yè)模式,能發(fā)揮中國(guó)價(jià)值核心數(shù)據(jù)在人工智能時(shí)代的智能服務(wù)話語(yǔ)權(quán)。“這樣一來(lái),‘?dāng)?shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動(dòng)、共享并實(shí)現(xiàn)共贏的關(guān)鍵一步?!彼f(shuō)。
數(shù)據(jù)流通環(huán)節(jié)問(wèn)題突出
算法、算力、數(shù)據(jù)和場(chǎng)景是大模型發(fā)展的4個(gè)核心要素。當(dāng)前,我國(guó)大模型算力算法能力顯著提升,高質(zhì)量發(fā)展取決于數(shù)據(jù)和場(chǎng)景,應(yīng)構(gòu)建“供得出、流得通、用得好”的高質(zhì)量數(shù)據(jù)集。
尹西明表示,大模型變強(qiáng)用好,前提是建立以場(chǎng)景驅(qū)動(dòng)創(chuàng)新的思維,引領(lǐng)高質(zhì)量數(shù)據(jù)持續(xù)在各種應(yīng)用場(chǎng)景中發(fā)揮價(jià)值。那么,解決數(shù)據(jù)“供得出”難題后,應(yīng)重點(diǎn)確保高質(zhì)量數(shù)據(jù)“流得通”,真正面向場(chǎng)景釋放數(shù)據(jù)乘數(shù)效應(yīng)和大模型對(duì)新質(zhì)生產(chǎn)力的引擎價(jià)值。
數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要,數(shù)據(jù)要素流動(dòng)帶來(lái)的開(kāi)放性與動(dòng)態(tài)性問(wèn)題,為傳統(tǒng)數(shù)據(jù)理論與相應(yīng)技術(shù)帶來(lái)新挑戰(zhàn)和新要求。
“其中之一便是數(shù)據(jù)確權(quán)。”肖仰華表示,相比其他生產(chǎn)要素,數(shù)據(jù)要素在流通過(guò)程中主體更加多樣,涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運(yùn)營(yíng)者和其他產(chǎn)權(quán)人,權(quán)屬界定復(fù)雜。
北京智源人工智能研究院理事長(zhǎng)、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)人工智能工作委員會(huì)主任委員黃鐵軍指出:“當(dāng)前普遍存在一種誤解,即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實(shí),數(shù)據(jù)并非物理資產(chǎn),作為數(shù)字形態(tài)產(chǎn)品,它可以被無(wú)限次使用,且不會(huì)導(dǎo)致數(shù)據(jù)損耗?!?/p>
他提倡在確保使用合規(guī)的前提下,大模型訓(xùn)練階段可以免費(fèi)獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過(guò)程中并未產(chǎn)生商業(yè)利益,則無(wú)需支付任何費(fèi)用;反之,一旦通過(guò)數(shù)據(jù)使用獲得了商業(yè)收益,便應(yīng)按照既定比例支付相應(yīng)的數(shù)據(jù)使用費(fèi)用。
“雖然這一模式背后還涉及到數(shù)據(jù)確權(quán)、費(fèi)率設(shè)定、監(jiān)管機(jī)制等復(fù)雜問(wèn)題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發(fā)展。”黃鐵軍說(shuō)。
王崢則認(rèn)為,確保數(shù)據(jù)流通需政府與企業(yè)、開(kāi)源或非盈利組織、學(xué)界、多類(lèi)型機(jī)構(gòu)等社會(huì)力量協(xié)同推進(jìn)。
他建議,在政府側(cè),對(duì)可用于模型訓(xùn)練的公共數(shù)據(jù)鼓勵(lì)“應(yīng)開(kāi)盡開(kāi)”,避免在數(shù)據(jù)開(kāi)放過(guò)程中因?yàn)轭A(yù)設(shè)特定場(chǎng)景限制了應(yīng)用范圍;在社會(huì)力量側(cè),應(yīng)堅(jiān)持“應(yīng)試盡試”原則,通過(guò)不斷迭代,探索數(shù)據(jù)的有效搭配,尋找發(fā)揮最大價(jià)值的“配方”。
標(biāo)注專(zhuān)業(yè)化、規(guī)模化提上日程
從2022年《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》出臺(tái)以來(lái),數(shù)據(jù)要素建設(shè)和市場(chǎng)改革正穩(wěn)步推進(jìn)。今年5月,國(guó)家數(shù)據(jù)局提出建設(shè)國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地,這一舉措對(duì)人工智能發(fā)展至關(guān)重要。
中國(guó)信息通信研究院人工智能研究所高級(jí)工程師、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會(huì)主任李蓀表示,數(shù)據(jù)標(biāo)注是推動(dòng)人工智能進(jìn)步的核心環(huán)節(jié),它能夠提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)核心價(jià)值,形成高質(zhì)量數(shù)據(jù)集,持續(xù)為AI提供數(shù)據(jù)支持。
也就是說(shuō),在一定程度解決數(shù)據(jù)供給、促進(jìn)數(shù)據(jù)共享和打通流通機(jī)制后,如何讓大模型學(xué)習(xí)到高質(zhì)量數(shù)據(jù),是接下來(lái)各界面臨的另一個(gè)新挑戰(zhàn)。
數(shù)據(jù)標(biāo)注的專(zhuān)業(yè)性和規(guī)?;脖惶嵘先粘獭?/p>
李蓀指出,當(dāng)前國(guó)內(nèi)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)還比較初級(jí),大部分標(biāo)注工作以人工為主,勞動(dòng)密集型特點(diǎn)比較突出。但是,在通用人工智能時(shí)代,傳統(tǒng)手工標(biāo)注或簡(jiǎn)單自動(dòng)化標(biāo)注方法無(wú)法滿(mǎn)足大模型對(duì)大規(guī)模、高質(zhì)量、多樣化數(shù)據(jù)的需求,特別是具備模型訓(xùn)練知識(shí)、行業(yè)領(lǐng)域知識(shí)的專(zhuān)業(yè)化數(shù)據(jù)標(biāo)注人才也相對(duì)匱乏。
“大模型訓(xùn)練數(shù)據(jù)標(biāo)注人員的學(xué)歷要求比以前更高,很多是本科畢業(yè)?!蓖鯈槺硎?#xff0c;行業(yè)大模型數(shù)據(jù)標(biāo)注凸顯了專(zhuān)業(yè)知識(shí)的重要性。
機(jī)器在對(duì)語(yǔ)言水平這一抽象概念進(jìn)行評(píng)估時(shí),必須依賴(lài)預(yù)先設(shè)定的人類(lèi)價(jià)值判斷和標(biāo)準(zhǔn)。電子科技大學(xué)智能語(yǔ)言學(xué)習(xí)與測(cè)評(píng)實(shí)驗(yàn)室與字節(jié)跳動(dòng)合作開(kāi)發(fā)了一款語(yǔ)言水平考試產(chǎn)品。實(shí)驗(yàn)室負(fù)責(zé)人陳大建說(shuō),在研發(fā)階段,實(shí)驗(yàn)室負(fù)責(zé)對(duì)自行收集的用戶(hù)音頻數(shù)據(jù)進(jìn)行標(biāo)注,其標(biāo)注內(nèi)容主要是基于音頻所體現(xiàn)的英語(yǔ)能力水平進(jìn)行分類(lèi)和標(biāo)記。標(biāo)注人員由學(xué)校四五十名大學(xué)英語(yǔ)教師組成,且均為應(yīng)用語(yǔ)言學(xué)專(zhuān)業(yè)的碩博士。
“吃”得好、“吃”得香,還要“吃”得夠。只有最終實(shí)現(xiàn)了規(guī)?;哔|(zhì)量標(biāo)注,才能切實(shí)提升大模型理解中文、傳遞中國(guó)傳統(tǒng)文化價(jià)值的能力。中國(guó)大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播,架起一座連接古今、溝通中外的橋梁。
中國(guó)出版集團(tuán)中國(guó)圖書(shū)進(jìn)出口總公司下屬中圖科信數(shù)智技術(shù)(北京)有限公司總經(jīng)理李沄沨認(rèn)為,從正式出版物如文獻(xiàn)、學(xué)術(shù)專(zhuān)著等入手,依托先進(jìn)的提取工具和解析技術(shù),將出版物語(yǔ)料化、碎片化、標(biāo)準(zhǔn)化,加工成高質(zhì)量的語(yǔ)料數(shù)據(jù),有別于一般的數(shù)據(jù)加工。“我們已經(jīng)實(shí)現(xiàn)了大規(guī)模和批量開(kāi)展數(shù)據(jù)語(yǔ)料化的技術(shù)和工具軟件,能夠更深層次地解析數(shù)據(jù),并形成獨(dú)立的圖片、表格、公式數(shù)據(jù)集,為大模型人工智能服務(wù)提供價(jià)值更高、標(biāo)準(zhǔn)程度更好的語(yǔ)料供給,使出版數(shù)據(jù)在人工智能時(shí)代煥發(fā)出新活力。”他說(shuō)。
在數(shù)字經(jīng)濟(jì)大潮中,數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著,成為推動(dòng)相關(guān)產(chǎn)業(yè)高質(zhì)量發(fā)展的必然要求。張紀(jì)臣認(rèn)為:“我們正站在新一輪產(chǎn)業(yè)科技革命的門(mén)口。這是一個(gè)不進(jìn)則退的時(shí)代。”
相關(guān)稿件