科大讯飞大模型新升级：20秒制作PPT，拟人语音能力超越ChatGPT

原标题：科大讯飞大模型新升级：20秒制作PPT，拟人语音能力超越ChatGPT｜最前线

作者｜武静静

编辑｜邓咏仪

1月30日，科大讯飞发布新升级的讯飞认知大模型星火V3.5，并发布了自研的语音大模型，以及星火开源大模型——星火开源-13B。

过去一年，科大讯飞的重点都在大模型方向上，临近岁末放出大量更新，某种程度也展示了讯飞的投入决心。就在1月29日，公司发布了2023年业绩预告：预计营收为200亿元，比2022年增长了7%。不过，由于大模型方面的巨大投入，公司的净利润有所下降，2023年公司预计（扣除非经常性损益后）净利润在0.8亿元-1.2亿元区间，比2022年下滑了70%以上。

科大讯飞称，讯飞星火V3.5基于全国产化算力底座飞星一号平台打造，是首个基于全国产化算力平台训练的全民开放大模型。升级后的讯飞星火V3.5在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。

升级之后，讯飞星火的文本生成能力和数理运算能力都有提升，可以轻松回答初三的数学物理题。

现场演示中，对“前进20米、右转60 、反复下去能否回到原点，如果能回到，需要多少米”这一问题，星火V3.5都可以轻松应对。

整体参数上，星火V3.5在语言理解、数学能力已超过GPT-4 Turbo，代码能力和多模态理解能力，都已达到GPT-4V能力的90%以上。

星火V3.5与GPT能力对比

依靠星火V3.5的新升级，科大讯飞也发布了新的AIGC工具“讯飞智文”。

在现场，科大讯飞同样进行了实时演示。依据给定的文档信息，讯飞智文可以用20秒时间，快速制作出一套几十页PPT的新升级技能。PPT生成之后，还可以配备专业的虚拟人对PPT进行讲解。

PPT生成能力依靠的是星火V3.5的要素抽取、概念理解、知识推理、问题生成、图文生成能力。星火V3.5不仅可以逻辑化处理文档信息，还可以让大模型提供更多文档之外的增量信息，拓展PPT内容的深度。

科大讯飞也发布了新的多模态模型进展。

新发布的“星火语音大模型”，基于大语言模型框架，结合讯飞语种、音色、内容等多维度语音属性解耦表征预训练而成。它可以实现多语种并达到超拟人的语音合成效果。其首批40个语种平均MOS分（评估音频或视频质量的一种标准，5分为最高）提升了0.25，拟人测试中MOS达到4.5分，拟人度达到83%，拟人语音合成能力超越ChatGPT。