高質量、多模態、精標注的數據,對人工智能發展至關重要,是人工智能發展的不竭動力。當前,業內普遍反應高質量數據集不足導致人工智能發展受限。
7月22日上午,在國家數據局新聞發布會上,國家數據局副局長余英提及破題的辦法,包括挖掘醫療、工業、交通等重點領域標桿實踐,建設數據標注基地等。
她表示,截至今年上半年,合肥、成都等7個數據標注基地建設數據集有524個,規模超過29PB,服務大模型163個。
此外,在即將舉辦的2025中國國際大數據產業博覽會上,還將開展高質量數據集和數據標注交流活動,舉辦數據標注和高質量數據集供需對接活動,并發布一批高質量數據集典型案例。
下半年計劃布局建設一批數據產業集聚區試點
“當前,全球數字經濟正邁入以數據要素市場化為核心、以智能化技術為驅動的新階段。數據作為數字經濟的關鍵要素,已深度融入經濟社會各領域,成為重塑產業格局、培育新質生產力的關鍵引擎。”余英表示。
她指出,充分發揮我國規模市場和海量數據雙優勢,大力發展數據產業,培育新的經濟增長點,已成為各方共識。
可以看到,無論從政策支持還是各地探索方面,數據要素市場建設正在積極推進。
去年12月,國家數據局等5部門印發《關于促進數據產業高質量發展的指導意見》,聚焦數據產業發展現狀和市場需求,推動培育多元經營主體,營造競爭有序、繁榮活躍的數據產業生態。上海、河南等地制定出臺促進數據產業發展的實施意見或專項政策,山東、山西等地紛紛開展數據企業培育工作。
數據要素市場建設過程中,政務數據開放一直是重要的議題。在本次發布會中,貴陽市人民政府市長王宏特別指出,貴陽依托貴州省數據共享交換平臺建設了貴陽貴安數據專區,推動實現省市一體化政府數據共享開放。目前,貴陽已經面向全國提供數據產品登記、數據資產登記、數據交易登記等服務,打造了氣象、電力、算力等22個特色數據專區,上架數據產品2735個,發布高質量數據集939個。
算力資源供應是數據要素市場建設的基礎。2025數博會的舉辦地貴州,作為我國西部大開發戰略中“東數西算”的重要樞紐點,目前已經擁有28個大型數據中心,儲存能力達到25EB,全省的智算規模也達到了85EFLOPS,占比超過98%,算力基礎設施建設和算力服務已經達到較高水平。
記者還從會上獲悉一個細節,在國產動漫大片《哪吒2》的云渲染算力工作中,貴州省也發揮了重要作用。貴州已經為全球50多個國家和地區、20多萬用戶提供了云渲染算力服務,
余英談及,接下來國家數據局將進一步優化數據產業規劃布局,推動數據產業從“單點突破”向“全域發展”來轉變。下半年,還將計劃布局建設一批數據產業集聚區試點,發揮產業區域聚集和規模效應,探索多元化數據產業的培育發展路徑。
將開展數據標注和高質量數據集供需對接活動
伴隨著人工智能的快速發展,高質量、多模態、精標注的數據變得尤為重要。
當前,這類數據存在數據供給存在困難,專業領域標注成本過高等問題。
對此,余英提到,國家數據局將開展生態培育專項行動,主要涉及三方面內容。一是征集高質量數據集典型案例并做好示范推廣,挖掘醫療、工業、交通等重點領域標桿實踐;二是定期舉辦技術交流活動,圍繞數據標注、合成、高質量數據集建設方法論等開展深度研討;三是搭建常態化供需對接平臺,促進數據供給方、技術提供方、場景應用方精準匹配。
余英介紹。下一步,還將充分發揮有效市場和有為政府的作用,著力打造“數據標注+高質量數據集+模型+應用場景+市場化價值化”的閉環生態,推進數據要素市場化配置改革和“人工智能+”行動同向發力、同頻共振。
本次數博會上,還會開展高質量數據集和數據標注交流活動,舉辦數據標注和高質量數據集供需對接活動,并發布一批高質量數據集典型案例。