随着人工智能技术的不断进步与发展,中文数据正成为推动国内AI大模型性能提升的重要引擎。根据国家数据局近期发布的数据,目前我国在AI模型训练中所使用的中文数据占比已超60%,一些先进模型的这一比例甚至高达80%。高质量中文数据的持续开发和供应能力的加强正在为我国人工智能领域的发展注入新活力。
国家数据局局长刘烈宏指出,人工智能的快速演变与我国对数据工作的高度重视是密不可分的。数据被认为是人工智能发展的核心要素之一,而高质量的数据集建设在推动“人工智能+”发展方面至关重要。在刘烈宏看来,Token的使用成为了AI文本处理中的关键,Token是文本的最小数据单元,类似于互联网时代所强调的“流量”。预计到2024年初,我国日均Token的消耗量将达到1000亿,而截至今年6月底,这一数据已经突破了30万亿,显示出我国在人工智能应用规模上的飞速增长。
除数据的丰富性外,我国在高质量数据集的建设方面也取得了显著成就。截至今年6月底,全国已经构建了超过3.5万个高质量数据集,总数据量超过400PB(1PB约可存储5亿张2MB大小的高清图片),这一总量约为中国国家图书馆数字资源总量的140倍。这些数据集为模型训练提供了丰富的素材,有效提升了模型的学习效果和准确性。
人工智能模型的不断成熟也推动了数据交易市场的繁荣。数据显示,截至今年6月底,国内高质量数据集的累计交易额接近40亿元,各地挂牌的高质量数据集总规模已经达到246PB。这一现象反映了市场对高质量数据的强烈需求和日益增长的关注度,表明数据已经成为推动技术进步的重要资源。
展望未来,国家数据局将进一步推进高质量数据集的建设,围绕具身智能、低空经济、生物制造等关键领域,打造数据高地,加速数据要素价值的认知。刘烈宏表示,下一步将通过体系化布局,鼓励社会各界强化数据要素的价值认同,并推动形成“为优质数据买单”的市场共识。这一政策将进一步激发数据市场的活力,使得更多高质量数据能够被应用于人工智能的研发和实践中。
在全球人工智能竞争日益激烈的背景下,我国的中文数据优势将为本土AI大模型的发展提供强有力的支撑。面对未来,我国需继续加大对数据资源的投资和生态建设,确保在人工智能领域的领先地位不断巩固和提升。
中文数据的利用正在推动国内AI大模型的性能显著提升,未来随着高质量数据集的增加与优化,我国的人工智能技术将迎来更为广阔的发展前景。这不仅是对技术的追求,更是对各种行业的转型升级以及更好服务于社会、新经济时代的有力推动。