我国已建成3.5万个高质量数据集,交易额近40亿助推AI发展

来源: 小世评选

在当今数字化日益加深的时代,数据已成为推动经济增长的重要动力。中国在国家层面积极推进高质量数据集的建设,以期为人工智能(AI)的迅猛发展提供强有力的支撑。在近日的发布会上,国家发展改革委党组成员、国家数据局局长刘烈宏透露,截至2023年6月底,我国已建成高质量数据集超过3.5万个,数据总量达到400PB,这一成果在多个领域展现出巨大的潜力,推动了AI的发展与应用。

数据集建设的规模和力度

根据刘烈宏的介绍,这些高质量数据集的构建,标志着我国在数据资源的获取与利用上,已经形成了一套系统化的机制。为了便于理解,400PB的存储容量可容纳约5亿张2MB大小的高清照片,这一数据量甚至相当于中国国家图书馆数字资源总量的140倍之多。如此庞大的数据基础,将为各类人工智能应用提供源源不断的养分,推动技术的优化和迭代。

交易市场的蓬勃发展

伴随着数据集的不断增加,数据交易的需求也在逐步上升。根据统计,截至2023年6月底,我国各地高质量数据集的累计交易额接近40亿元,体现出市场对高质量数据的迫切需求。这一增长趋势在数据交易机构中明显。例如,在北京数据交易所,高质量数据集占交易总量的比例已经从去年的10%飙升至近80%,极大地提升了市场对优质数据的认可。

诸如上海、天津、安徽等地开始试点“数据语料作价入股”等创新模式,鼓励企业将掌握的优质数据集合并计算为股权,从而为企业的发展注入新活力。这一举措不仅为企业提供了新的融资渠道,也进一步激活了市场的流动性。

数据标注产业的支撑作用

高质量数据集的建设离不开强大的数据标注产业支撑。刘烈宏表示,国家数据局已在全国范围内布局了成都、沈阳、合肥等七个数据标注基地,通过专业化的标注服务,提升数据质量,推动高质量数据集的有效形成。这些基地不仅为企业提供新鲜的数据源,也促进了技术的交流与合作,为数据集的建设提供了可靠的保障。

在数据使用方面,刘烈宏还特别提到中文数据在模型训练中的重要性。经过多方努力,目前国内大部分模型训练中使用的中文数据占比已超过60%,个别模型甚至达到了80%。这一进展为中文语境下的AI应用奠定了基础,使其在多个行业中创造出更多的实际价值。

未来展望:继续推动高质量数据集建设

展望未来,刘烈宏强调国家将持续通过体系化的布局加强高质量数据集的建设,尤其是在具身智能、低空经济和生物制造等重点领域,力争打造数据高地,以进一步推动技术的创新与应用。国家还将倡导全社会增强数据要素的价值认同,加快推进数据要素的共创,培育“为优质数据买单”的市场共识。这一系列措施的实施,有望为中国的数字经济发展提供更加坚实的基础。

我国高质量数据集的建设与发展,不仅是人工智能技术进步的重要基石,更是数字经济时代深层次变革的动因。在未来的日子里,我们期待看到这些数据如何助力各行各业的创新,推动经济的持续增长,同时在数据的应用和交易中,形成更加健康和合理的市场生态。

相关阅读
精品推荐