人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。數(shù)據(jù)標(biāo)注是對(duì)原始數(shù)據(jù)進(jìn)行采集、清洗、分類、標(biāo)記、質(zhì)量檢驗(yàn)等專業(yè)數(shù)據(jù)治理活動(dòng),能有效提升數(shù)據(jù)供給質(zhì)量,是人工智能發(fā)展的關(guān)鍵環(huán)節(jié)。大力發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè),對(duì)推動(dòng)人工智能創(chuàng)新發(fā)展、帶動(dòng)大學(xué)生就業(yè)和促進(jìn)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展具有重大意義。
01
發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的重大意義
(一)數(shù)據(jù)標(biāo)注是提升數(shù)據(jù)供給質(zhì)量的關(guān)鍵環(huán)節(jié),是提升人工智能產(chǎn)業(yè)競(jìng)爭(zhēng)力的先手棋
大模型已成為中美科技競(jìng)爭(zhēng)的制高點(diǎn),數(shù)據(jù)供給質(zhì)量決定了模型的基礎(chǔ)能力。當(dāng)前,全球主流基礎(chǔ)大模型,中文語(yǔ)料僅占全部語(yǔ)料的1%,高質(zhì)量中文數(shù)據(jù)成為制約我國(guó)基礎(chǔ)大模型能力的瓶頸。訓(xùn)練一個(gè)領(lǐng)先的大模型,需要數(shù)百萬(wàn)甚至數(shù)千萬(wàn)條標(biāo)注數(shù)據(jù)。數(shù)據(jù)標(biāo)注發(fā)展水平成為決定中美人工智能勝負(fù)的關(guān)鍵因素。美國(guó)在數(shù)據(jù)標(biāo)注領(lǐng)域投入巨大,培育了一批數(shù)據(jù)標(biāo)注獨(dú)角獸企業(yè),產(chǎn)業(yè)迅速發(fā)展。例如,OpenAI在訓(xùn)練GPT系列模型時(shí),投入數(shù)千人力和數(shù)億資金進(jìn)行數(shù)據(jù)標(biāo)注,高質(zhì)量語(yǔ)料集煉就了全球最好性能基礎(chǔ)大模型。相比之下,我國(guó)雖是全球第二大數(shù)據(jù)資源國(guó),但數(shù)據(jù)質(zhì)量不高,開(kāi)發(fā)利用比例低。全面提升中文語(yǔ)料質(zhì)量,成為破解我國(guó)大模型發(fā)展和提升人工智能產(chǎn)業(yè)競(jìng)爭(zhēng)力的關(guān)鍵環(huán)節(jié)。
(二)數(shù)據(jù)標(biāo)注是充分釋放數(shù)據(jù)要素價(jià)值的前提條件,是數(shù)據(jù)要素價(jià)值化的必選項(xiàng)
我國(guó)是全球第一個(gè)將數(shù)據(jù)資源作為核心生產(chǎn)要素的國(guó)家,加快數(shù)據(jù)要素市場(chǎng)化配置,發(fā)揮數(shù)據(jù)的倍增、疊加、放大效應(yīng),是實(shí)現(xiàn)數(shù)據(jù)要素價(jià)值賦能經(jīng)濟(jì)創(chuàng)新發(fā)展的關(guān)鍵。我國(guó)是數(shù)據(jù)資源大國(guó),但不是數(shù)據(jù)資源強(qiáng)國(guó)。2023年,我國(guó)數(shù)據(jù)資源32ZB(澤字節(jié)),保存數(shù)據(jù)僅有2.9%,數(shù)據(jù)留存率遠(yuǎn)低于發(fā)達(dá)國(guó)家水平。數(shù)據(jù)質(zhì)量低,大量數(shù)據(jù)被浪費(fèi),成為制約我國(guó)數(shù)據(jù)資源價(jià)值發(fā)揮的瓶頸。數(shù)據(jù)標(biāo)注能為機(jī)器提供高質(zhì)量的數(shù)據(jù),賦能機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法的訓(xùn)練,從而實(shí)現(xiàn)數(shù)據(jù)價(jià)值轉(zhuǎn)化。以醫(yī)療領(lǐng)域?yàn)槔?,通過(guò)對(duì)大量醫(yī)療影像數(shù)據(jù)進(jìn)行標(biāo)注,可以訓(xùn)練出精準(zhǔn)的疾病診斷模型,提高醫(yī)療診斷的準(zhǔn)確性和效率,為患者提供更好的醫(yī)療服務(wù)。目前,標(biāo)注數(shù)據(jù)已廣泛應(yīng)用于生成式人工智能、自動(dòng)駕駛、電子商務(wù)、精準(zhǔn)醫(yī)療、智能制造等智能場(chǎng)景應(yīng)用,是數(shù)據(jù)要素化的必選項(xiàng)。
(三)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)逐步向智能化、知識(shí)化和專業(yè)化邁進(jìn),是解決大學(xué)生就業(yè)的有效路徑
隨著人工智能從通用領(lǐng)域向?qū)I(yè)領(lǐng)域演進(jìn),數(shù)據(jù)標(biāo)注對(duì)專業(yè)性、技術(shù)性的人才需求日益增長(zhǎng),數(shù)據(jù)標(biāo)注產(chǎn)業(yè)也從勞動(dòng)密集型,逐步向知識(shí)密集型轉(zhuǎn)變,為大學(xué)生創(chuàng)造了數(shù)百萬(wàn)就業(yè)崗位。比如,美國(guó)從事數(shù)據(jù)標(biāo)注的崗位超過(guò)30萬(wàn),德國(guó)最大的數(shù)據(jù)標(biāo)注公司Clickworker全球雇傭了120萬(wàn)標(biāo)注員,印度到2030年數(shù)據(jù)標(biāo)注人才的需求也將到100萬(wàn)。我國(guó)各地發(fā)展的數(shù)據(jù)標(biāo)注基地,也對(duì)拉動(dòng)大學(xué)生就業(yè)產(chǎn)生了顯著效果。比如,日照數(shù)據(jù)標(biāo)注基地,2024年從業(yè)人員突破1.1萬(wàn)人。國(guó)內(nèi)大型互聯(lián)網(wǎng)公司在全國(guó)數(shù)據(jù)標(biāo)注基地人員都超過(guò)了數(shù)萬(wàn)人。通過(guò)發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè),能夠有效緩解大學(xué)生就業(yè)壓力,促進(jìn)人才培養(yǎng)與產(chǎn)業(yè)發(fā)展的良性互動(dòng)。
(四)發(fā)達(dá)國(guó)家紛紛布局?jǐn)?shù)據(jù)標(biāo)注產(chǎn)業(yè),使之成為數(shù)字經(jīng)濟(jì)發(fā)展的基礎(chǔ)性、戰(zhàn)略性產(chǎn)業(yè)
美國(guó)、德國(guó)、英國(guó)、印度等國(guó)家和地區(qū)紛紛將數(shù)據(jù)標(biāo)注產(chǎn)業(yè)作為數(shù)字經(jīng)濟(jì)發(fā)展的基礎(chǔ)性、戰(zhàn)略性產(chǎn)業(yè),支持?jǐn)?shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展。美國(guó)是數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的領(lǐng)航者,通過(guò)政府戰(zhàn)略、企業(yè)創(chuàng)新、產(chǎn)業(yè)領(lǐng)先等方面,全方位推動(dòng)了數(shù)據(jù)標(biāo)注服務(wù)的高質(zhì)量發(fā)展。特別是前沿技術(shù)的深度融合應(yīng)用上。歐盟則通過(guò)構(gòu)建“歐洲共同數(shù)據(jù)空間”和推動(dòng)數(shù)據(jù)相關(guān)法案,整合了工業(yè)、綠色協(xié)議、移動(dòng)、衛(wèi)生、金融、能源、農(nóng)業(yè)、公共行政、技能等多個(gè)戰(zhàn)略性行業(yè)和領(lǐng)域的數(shù)據(jù),試圖構(gòu)建歐洲統(tǒng)一數(shù)據(jù)市場(chǎng)并大力發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè)。印度憑借龐大的低成本數(shù)字人才優(yōu)勢(shì),吸引全球科技巨頭投資,大力發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè),成為全球重要的數(shù)據(jù)標(biāo)注基地。
02
推動(dòng)我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的思路與重點(diǎn)
一是加快發(fā)展一批數(shù)據(jù)標(biāo)注基地,培育壯大市場(chǎng)主體。今年5月,國(guó)家數(shù)據(jù)局公布首批全國(guó)數(shù)據(jù)標(biāo)注基地建設(shè)城市名單,通過(guò)推動(dòng)數(shù)據(jù)標(biāo)注基地建設(shè),以點(diǎn)帶面大力發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè),激發(fā)行業(yè)發(fā)展活力。以國(guó)家數(shù)據(jù)標(biāo)注基地試點(diǎn)為抓手,圍繞技術(shù)創(chuàng)新、行業(yè)賦能、生態(tài)培育、標(biāo)注應(yīng)用、人才就業(yè)和安全發(fā)展等六個(gè)方面做好試點(diǎn),探索推進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的最優(yōu)路徑。另外,通過(guò)加大財(cái)稅政策支持力度、完善數(shù)據(jù)標(biāo)注基礎(chǔ)設(shè)施建設(shè)、制定行業(yè)標(biāo)準(zhǔn)規(guī)范、鼓勵(lì)技術(shù)創(chuàng)新與應(yīng)用、強(qiáng)化人才培養(yǎng)與引進(jìn)等措施的實(shí)施,培育和壯大市場(chǎng)主體。
二是鼓勵(lì)數(shù)據(jù)標(biāo)注核心技術(shù)研發(fā),提升數(shù)據(jù)標(biāo)注水平。通過(guò)國(guó)家重點(diǎn)研發(fā)專項(xiàng),加大對(duì)人工智能技術(shù)在標(biāo)注技術(shù)研發(fā)投入。加快數(shù)據(jù)標(biāo)注技術(shù)研發(fā)費(fèi)用納入研發(fā)加計(jì)扣除,鼓勵(lì)企業(yè)加快科技創(chuàng)新投入。重點(diǎn)布局跨語(yǔ)言、跨領(lǐng)域、跨模態(tài)語(yǔ)義對(duì)齊、4D標(biāo)注、大模型標(biāo)注、數(shù)據(jù)合成等標(biāo)注核心技術(shù)攻關(guān)項(xiàng)目。支持研發(fā)專家標(biāo)注、多模態(tài)標(biāo)注、眾包標(biāo)注、標(biāo)注審查、質(zhì)量評(píng)估等智能化高端化工具,提升數(shù)據(jù)標(biāo)注科技水平。
三是圍繞數(shù)據(jù)標(biāo)注關(guān)鍵環(huán)節(jié),制定數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)。構(gòu)建數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)框架體系,加快制定數(shù)據(jù)標(biāo)注的國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn),明確標(biāo)注質(zhì)量、流程、技術(shù)等方面的要求。建立健全數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)實(shí)施與監(jiān)督機(jī)制,促進(jìn)協(xié)同創(chuàng)新。加強(qiáng)對(duì)數(shù)據(jù)標(biāo)注企業(yè)和項(xiàng)目的監(jiān)督和檢查。
四是加大數(shù)據(jù)標(biāo)注人才培養(yǎng),提升人才專業(yè)化素養(yǎng)。加強(qiáng)職業(yè)教育和培訓(xùn)體系建設(shè),支持高校和職業(yè)院校開(kāi)設(shè)數(shù)據(jù)標(biāo)注相關(guān)專業(yè)和課程。推動(dòng)企業(yè)與教育機(jī)構(gòu)合作,共建實(shí)訓(xùn)基地和培訓(xùn)中心,培養(yǎng)具備專業(yè)技能和職業(yè)素養(yǎng)的數(shù)據(jù)標(biāo)注人才。制定吸引和留住高層次人才的政策措施,促進(jìn)數(shù)據(jù)標(biāo)注領(lǐng)域的國(guó)際交流與人才合作。