2023年,AI技术的发展势头持续加速,尤其是在大型语言模型(大模型)领域。今年初,DeepSeek的推出不仅标志着大模型技术的突破,更推动了“深度思考”能力的广泛应用。在这种背景下,如何评估大模型在传媒行业的真实应用能力,成为了行业人士关注的重点。新京报AI研究院于7月11日联合中国经济传媒协会发布了《2023年中国AI大模型测评报告(第二期)》,通过对包括文本生成、长文本、语言翻译、伦理判断与事实核查、媒体信息检索等五个核心维度的严谨测试,揭示了当前大模型在媒体工作中的实际应用状况及其能力差异。
本次测评共涵盖八款主流大模型产品,通过为期数月的严格测试与专家评审,最终结果显示,通义、讯飞星火、文心一言、腾讯元宝分别以超过7500的高分位列前四。他们依托“大厂”的强大技术和资源背景,不仅在综合能力方面表现卓越,还显示出在特定任务中的优异能力。例如,在信息检索能力上,这些模型不仅能够快速提供相关信息,还能够有效避免虚假信息的干扰。相比之下,豆包、DeepSeek、Kimi和智谱清言则因为在长文本能力上表现不佳,与前者拉开了明显差距。
在文本生成方面,测评以“写稿”能力这一关键维度进行评估。该维度考查了大模型在快讯、评论、深度文章以及视频脚本创作的表现。通义与讯飞星火表现优异,凭借良好的写作结构、数据应用和深入的分析能力,获得了较高的评分。相对而言,文心一言、Kimi及智谱清言的创作质量则受到了一定的影响,表现平平。
更值得注意的是,本次评测首次引入伦理判断能力的评测。在伦理评估中,通义、文心一言和豆包的得分均超过1500,显示出其在情感关系处理中的价值判断能力。腾讯元宝在这一领域却因应对伦理问题的失误而落后,导致总成绩出现下滑,这提醒我们AI模型在伦理和道德的敏感问题上,依然面临着不小的挑战。
在长文本处理方面,随着媒体对信息深度分析需求的增加,长文本能力的重要性日益凸显。测评结果显示,通义、文心一言和讯飞星火在这一领域表现优异,得分超过1500。DeepSeek、Kimi和智谱清言由于文件容量限制,无法充分发挥其潜力,导致得分低于预期。例如,在“上传两份财报并进行对比”的测试题中,部分模型只能处理文件极小的比例,显著影响了最终成绩。
语言翻译能力一向被视为大模型的标杆。此次测评显示,讯飞星火、腾讯元宝和通义在语言翻译的测试中名列前茅,证明了其在实际应用中的高效性。
《AI大模型测评报告(第二期)》揭示了使用大模型技术的媒体行业各项能力水平的显著差异,尤其是在信息检索、文本生成和翻译等核心领域展现出巨大潜力。报告同时也指出了当前大模型发展所面临的挑战,比如虚假信息识别能力的不足、长文本处理的成本与效率瓶颈以及伦理安全防线的脆弱性。
在选择与应用大模型工具的过程中,媒体从业者被建议优先考虑综合表现稳定、安全可靠的头部模型。在进行事实核查时,务必保持对模型反馈的警惕,特别在涉及热点或有争议的问题时尤为重要。在处理超长文档或复杂分析任务时,务必要确认模型的实际处理能力,以免因容量限制而导致工作失败。
从业界反馈来看,随着AI技术的不断演进,未来媒体行业将得到前所未有的变化和提升,尤其在信息处理和内容创作方面,大模型将发挥愈加重要的作用。新京报在此背景下发布的测评报告,不仅为行业提供了宝贵的参考,也为未来高效、精准的媒体运作指明了方向。