新京报发布AI大模型测评报告：媒体行业应用能力显现差异_硬件资讯

2023年，AI技术的发展势头持续加速，尤其是在大型语言模型（大模型）领域。今年初，DeepSeek的推出不仅标志着大模型技术的突破，更推动了“深度思考”能力的广泛应用。在这种背景下，如何评估大模型在传媒行业的真实应用能力，成为了行业人士关注的重点。新京报AI研究院于7月11日联合中国经济传媒协会发布了《2023年中国AI大模型测评报告（第二期）》，通过对包括文本生成、长文本、语言翻译、伦理判断与事实核查、媒体信息检索等五个核心维度的严谨测试，揭示了当前大模型在媒体工作中的实际应用状况及其能力差异。

本次测评共涵盖八款主流大模型产品，通过为期数月的严格测试与专家评审，最终结果显示，通义、讯飞星火、文心一言、腾讯元宝分别以超过7500的高分位列前四。他们依托“大厂”的强大技术和资源背景，不仅在综合能力方面表现卓越，还显示出在特定任务中的优异能力。例如，在信息检索能力上，这些模型不仅能够快速提供相关信息，还能够有效避免虚假信息的干扰。相比之下，豆包、DeepSeek、Kimi和智谱清言则因为在长文本能力上表现不佳，与前者拉开了明显差距。

在文本生成方面，测评以“写稿”能力这一关键维度进行评估。该维度考查了大模型在快讯、评论、深度文章以及视频脚本创作的表现。通义与讯飞星火表现优异，凭借良好的写作结构、数据应用和深入的分析能力，获得了较高的评分。相对而言，文心一言、Kimi及智谱清言的创作质量则受到了一定的影响，表现平平。

更值得注意的是，本次评测首次引入伦理判断能力的评测。在伦理评估中，通义、文心一言和豆包的得分均超过1500，显示出其在情感关系处理中的价值判断能力。腾讯元宝在这一领域却因应对伦理问题的失误而落后，导致总成绩出现下滑，这提醒我们AI模型在伦理和道德的敏感问题上，依然面临着不小的挑战。

在长文本处理方面，随着媒体对信息深度分析需求的增加，长文本能力的重要性日益凸显。测评结果显示，通义、文心一言和讯飞星火在这一领域表现优异，得分超过1500。DeepSeek、Kimi和智谱清言由于文件容量限制，无法充分发挥其潜力，导致得分低于预期。例如，在“上传两份财报并进行对比”的测试题中，部分模型只能处理文件极小的比例，显著影响了最终成绩。

语言翻译能力一向被视为大模型的标杆。此次测评显示，讯飞星火、腾讯元宝和通义在语言翻译的测试中名列前茅，证明了其在实际应用中的高效性。

《AI大模型测评报告（第二期）》揭示了使用大模型技术的媒体行业各项能力水平的显著差异，尤其是在信息检索、文本生成和翻译等核心领域展现出巨大潜力。报告同时也指出了当前大模型发展所面临的挑战，比如虚假信息识别能力的不足、长文本处理的成本与效率瓶颈以及伦理安全防线的脆弱性。

在选择与应用大模型工具的过程中，媒体从业者被建议优先考虑综合表现稳定、安全可靠的头部模型。在进行事实核查时，务必保持对模型反馈的警惕，特别在涉及热点或有争议的问题时尤为重要。在处理超长文档或复杂分析任务时，务必要确认模型的实际处理能力，以免因容量限制而导致工作失败。

从业界反馈来看，随着AI技术的不断演进，未来媒体行业将得到前所未有的变化和提升，尤其在信息处理和内容创作方面，大模型将发挥愈加重要的作用。新京报在此背景下发布的测评报告，不仅为行业提供了宝贵的参考，也为未来高效、精准的媒体运作指明了方向。