在2023年8月26日于深圳举行的“2025人民数据大会”上,中国信息通信研究院副院长魏亮以主旨演讲的形式提出,建设高质量的数据集是推动人工智能(AI)技术取得重大突破和实现产业落地的核心要素。他强调,在大模型技术快速演进的背景下,数据已成为人工智能发展的重要基石,而数据的有效利用和管理,将直接影响AI应用的成功与否。

数据飞轮效应:提升模型与数据的协同作用
魏亮指出,高质量数据集的建设应当从数据技术、数据工程与数据治理三方面进行协同推进。他引用亚马逊的“数据飞轮”效应来说明如何实现垂直领域的模型和数据生产之间的良性循环。当垂直领域的大模型在实际生产中得到广泛应用时,这些模型能够不断生成高质量的数据来反哺其训练过程,从而形成“数据-模型-应用”的闭环。这种模式在金融风险控制和医疗诊断等领域的成功应用中得到了验证,例如宁德时代通过构建AI数据治理,显著提升了数据清洗效率和模型决策的准确性。
四大核心数据类型:助推AI应用场景的升级
魏亮对四类核心数据类型进行了重点分析,强调这些数据类型是推动AI应用场景升级的重要支撑。例如,由自然资源部第三大地测量队构建的三维地表动态监测数据集,通过整合文本、图像和三维模型,将自然资源要素的提取时间缩短至小时级,其目标识别准确率提升至90%。浪潮云洲开发的工业智能体通过多模态感知与任务规划,有效解决了复杂工业环境中的自主作业难题,推动设备适应性提升40%,工艺准备时间缩短60%。
同时,新加坡管理大学提出的GCoT框架,创新性地将思维链提示学习应用于无文本图数据中,使得在少样本分类任务中的准确率超越现有方法,为复杂决策提供了新的思路。在自动驾驶领域,科技公司通过结合自动化标注工具与人工审核,确保标注的时间连贯性与准确性,进而支持行为识别和事件预测模型的训练。
技术、工程与治理:构建三位一体的数据供给体系
针对如何建立高质量的数据集,魏亮强调,数据技术需要在新一代标注与合成技术上实现突破。例如,DeepSeek使用数据蒸馏技术,从低质量的数据中提取有效信息,并结合强化学习构建推理型训练集。数据工程方面,中国信通院建立的“可信AI”数据集质量评估体系(ADAQ),涵盖12个一级指标和36个二级指标,确保从数据采集到应用的全流程可控。
在数据治理方面,魏亮指出,必须在安全与合规之间找到平衡。例如,联邦学习技术在医疗数据共享中的应用,不仅有效保护了患者隐私,而且提升了模型的泛化能力。
行业应用转型:从“经验驱动”到“标准驱动”
目前,垂直领域的大模型已在金融和医疗等行业初步落地,创略科技通过AI分析客户行为数据,使得企业客户流失预警的准确率提高至85%,交叉销售效率提升50%。虽然如此,行业内在面对挑战时仍需积极应对,尤其是在工业领域。浪潮云洲通过建设“感知-决策-执行”工业生态,自主解决设备维护成本的问题,使其降低了30%之多,但仍然面临数据孤岛和实时性不足的挑战。
未来展望:数据驱动的AI新阶段
魏亮认为,随着“人工智能+”行动的推进,数据要素的价值将在未来进一步释放。他呼吁产业界加强标准建设,推动数据技术、工程与治理的深度协同与创新,共同构建“数据驱动”的智能生态。
在此过程中,跨行业的合作显得尤为重要,仅靠单一企业或领域的内部努力难以实现数据价值的最大化。在未来前景广阔的人工智能产业中,拥有高质量的数据集将是企业制胜的关键,这也是人工智能应用更为广泛和深入的基础。因此,魏亮的演讲不仅为业界提供了科学的指导方向,同时也在现实的行业应用中指引着一条更为光明的道路。
