2025-10-02
近日,于“第十五届聪明都会与智能经济展览会”勾当时期,由宁波市数据局主理的“宁波数据要素立异成长交流勾当暨2025年‘数据要素x’年夜赛浙江分赛宁波站颁奖典礼”于浙江省宁波市乐成举办。中国信息通讯研究院(如下简称“中国信通院”)工业互联网与物联网研究所副所长刘阳受邀参会,并以《高质量数据集立异成长路径》为题发表主题演讲,体系论述了高质量数据集于人工智能成长中的焦点作用、近况挑战以和焦点设置装备摆设路径,并提出了对于我国行业高质量数据集将来设置装备摆设成长的思索与建议。

人工智能成长离不开AI数据基础举措措施支撑。当前人工智能能力呈指数级增加,跟着算力供应日趋足够以和模子架构慢慢不变,数据质量及数目已经成为决议模子机能的要害因素。高质量数据集不仅是练习AI模子的基础,更是鞭策人工智能与实体经济深度交融的主要支撑。构建高效、强盛且专业化的AI数据能力是支撑人工智能成长的要害地点。
我国高质量数据集面对设置装备摆设体量不足、行业漫衍不均等问题。2025年8月,国务院发布了《关在深切实行“人工智能+”步履的定见(国发〔2025〕11号)》,明确提出要连续增强人工智能范畴高质量数据集的设置装备摆设。工业及信息化部、国度数据局等多个部分夸大要加速设置装备摆设高质量数据集。北京、上海、江苏等地踊跃相应,纷纷出台相干政策,以鞭策高质量数据集的设置装备摆设。截至今朝,相较在发财国度,我国于数据集的整体数目和行业类目笼罩规模方面仍存差距,公然数据显示美国数据集数目跨越32万个、笼罩49个类目,欧盟数据集数目超195万个、笼罩204个类目,而我国数据集数目3.5万个、重点笼罩10余个典型行业,虽然统计方式及尺度尚纷歧致,但必然水平上反应了我国数据集设置装备摆设正面对“质量差、范围不敷、供需匹配难”等诸多挑战。
打造高质量数据集飞轮效应是推进数智财产成长的要害路径。高质量数据集应缭绕“数据需求、数据计划、数据收罗、数据预处置惩罚、数据标注、模子验证”等六年夜焦点环节睁开,并连续开展迭代优化,经由过程推进先行先试、打造标杆案例、成立工程系统、鞭策畅通生意业务、加快生态培育、增强政策撑持、银河集团官网设置装备摆设支撑系统等七年夜步履助力数据集生态的周全成长。经由过程构建涵盖数据资源所有者、数据标注办事商、AI模子办事商、智能体与智能运用办事商的四类焦点主体协同生态,实现“数据—数据集—模子—智能运用”的闭环反馈机制落地。一是完身分散数据原料到高质量数据集的系统化构建;二是依托优质数据集支撑 AI 模子训推,助力数智运用的场景化落地;三是从已经落地的智能运用办事中及时沉淀场景化数据,反向回馈数据集迭代。经由过程构建三阶段高质量数据集飞轮效应,实现数据集的动态更新、模子的连续优化以和智能办事的迭代进级,形成数据价值与智能办事双向增益的良性成长格式。
连续晋升数据工程能力,加快推进“人工智能+”步履。一是鞭策高质量数据集跨行业交融、巨细模子、新型场景等多维适配,晋升繁杂数据处置惩罚程度。二因此运用为导向,聚焦重点场景典型需求,开展定向数据集设置装备摆设,摒弃“洪流漫灌”式数据集设置装备摆设,经由过程成立输出成果、练习反馈之间的高效回流机制,实现数据集的 “自演化” 及 “自加强” ,防止数据集设置装备摆设老化问题,打造数据集轮回机制的焦点竞争力。三是增强财产指导,阐扬区域特点,铆定区位要素,加速构建垂直范畴行业高质量数据集设置装备摆设和评价尺度,强化需求导向,推进高质量数据集快速成长。
下一步,中国信通院将继承结合财产各方,开展技能研究、尺度制订、平台设置装备摆设与生态培育,鞭策高质量数据集设置装备摆设与国度数据基础举措措施交融成长,为构建“人工智能+”时代的数据基石提供坚实支撑。
编纂:杨赞
-银河集团官网