隨著人工智能大模型的不斷涌現,“以數據為中心的人工智能”(Data-centric AI)越來越成為行業共識。數據作為新的生產要素,真正成為人工智能的“石油”,有效賦能企業“AI+”發展。中國信通院人工智能研究所平臺與工程化部主任曹峰圍繞企業推動 “AI+” 發展中數據的核心價值、高質量數據集構建路徑及企業“AI+”發展中的數據問題破解策略等展開深度解讀。
企業推動“AI+”發展中數據的重要性
一是數據成為人工智能發展的核心驅動要素。80%的高質量數據與20%的模型訓練構成了更好的模型。DeepSeek V3等主流基座大模型的訓練階段均使用了10萬億token以上、經過嚴格清洗和標注的高質量數據。通用人工智能對數據的需求量還將持續級數增長,訓練數據的數量和質量對模型能力的決定性作用越來越高。
二是數據成為模型場景部署和深度應用的基礎。Deep Seep R1模型開源以來,包括44家央企在內的200多家企業完成了DeepSeek R1模型的適配和集成部署。在這個過程中,模型與場景的適配過程需要使用高質量行業數據進行監督微調或知識增強,才能適應行業應用需求。
三是企業構建“AI+”發展的先決條件。企業是推動AI+應用的主體,是推動高價值行業應用場景落地關鍵力量。擁有海量高質量數據積累的企業,能夠率先在垂直行業訓練出性能優異的模型,推動人工智能的行業應用。同時,在大模型應用、研發迭代過程中采集到更多高質量數據集資源,形成“數據飛輪”,進一步提升模型性能,進而帶動智能化水平的持續提升。
企業推動“AI+”發展中構建高質量數據集的方法
什么是高質量數據集?我們總結,高質量數據集應該具備“三高”的特征:一是高價值應用,高質量數據集面向高價值的領域場景,帶來更高的收益。二是高知識密度,高質量數據集應包含更多的專業知識和技能,具備多學科融合特征。三是高技術含量,通過智能化、人機協同標注和合成數據等技術顯著提升數據質量。
企業在推動高質量數據集建設中存在以下幾方面問題:
一是目標定位模糊化。企業經常陷入“為數據而數據”的誤區,智能場景需求與數據集建設目標脫節,未能將數據工程目標與核心業務指標深度綁定,導致數據價值難以轉化為模型性能提升,未能形成“數據采集-模型訓練-業務反饋-數據迭代”的閉環優化機制。
二是實施路徑碎片化。從數據采集到模型訓練的全鏈路缺乏系統性規劃和設計,無法形成體系化數據集構建和維護機制,造成多源異構數據標準難統一、跨部門跨層級難協作,致使清洗、標注等數據處理成本激增。
三是技術底座薄弱化。缺乏適配行業特性的工具鏈,自動化程度低,人力依賴嚴重,工程落地效率受阻,行業特性適配工具鏈的缺失等問題導致現有數據處理技術難以應對復雜人工智能場景需求。
破解企業“AI+”發展中的數據問題
面向人工智能的新一代數據工程,涵蓋數據采集、預處理、標注、評估、合成與共享等全生命周期,既強調數據的規模與多樣性,也重視質量、有效性與合規性。
一是高水平數據標注提升數據集供給能力。自動化與智能化標注工具創新成為焦點,多模態數據標注技術的融合逐漸成為趨勢,持續學習與反饋機制引入促進數據標注質量和效率雙重提升。中國信通院作為國家數據局人工智能專班組長單位,全力支撐國家級數據標注基地建設工作,推動企業數據標注能力提升。
二是評估和反饋機制推動數據質量提升。質量評估與反饋機制深度融合,多模態數據質量評估框架快速發展,動態數據質量監控體系逐步完善。中國信通院共推出5項人工智能數據相關行業標準,搭建國內首個人工智能全周期數據工程評估體系。目前,已正式發布人工智能數據集質量評估體系(ADAQ)。目前,招商局集團、中國建筑集團、中國物流集團已經通過ADAQ質量評估,部分央企正在洽談后續的深入合作。
三是積極探索使用合成數據等新技術解決大模型數據瓶頸。合成數據在增加數據量、提高數據質量、增強數據多樣性、保護隱私和安全等方面,形成了對大模型訓練數據的有效補充,并已經被應用于自動駕駛和金融服務領域。中國信通院編制形成《人工智能合成數據生成和管理能力要求》行業標準,面向數據服務方提供人工智能合成數據生產和應用能力建設指導,同時也為數據應用方和需求方提供選型規范。
數據賦能企業“AI+”發展,將逐步形成“數據-算法-應用”的生態協同,以標準化體系破解跨域協作難題,以智能化工具提升數據生產效能,以合規可信框架保障數據要素安全流通。高質量數據集不僅是技術競爭的 “硬實力”,更將成為產業升級的 “催化劑”,為“人工智能+”場景落地開辟無限可能,助力我國在全球智能產業變革中搶占先機、引領未來。