声网 AIGC x RTE 解决方案：AI 语音对话延时低至1.9秒

9月9日，「人人都是产品经理」举办了2023产品经理大会·北京站，大会围绕当下热门的“AIGC、数字化趋势与业务增长之道”展开为期两天的会议探讨。针对 AIGC 的相关话题，声网与「人人都是产品经理」也在大会期间举办了一场闭门研讨会，声网 AIGC产品负责人杜浦带来了“AIGC 加持下，APP 体验场景创新哪些玩法值得期待?”的主题演讲，并分享了声网在实时互动+AIGC 探索上的最新成果。

AIGC 自爆火以来，不断促进各行业内容生产方式革新，例如文字生成式对话、代码辅助开发、图片绘制、视频处理等，同时也催生了很多热门场景应用与玩法，例如数字人虚拟主播，AI 语音陪聊、智能办公助手等，但在大多数的 AIGC 场景中，企业都是选择文本互动的方式展开AI对话，相比之下，实时音视频的互动方式就更加有沉浸感，与 AI 的互动感也更强一些。这也是声网围绕“实时互动+AIGC”一直在探索的方向，并推出了 AIGC 一站式音视频解决方案。

杜浦表示，声网 AIGC 一站式音视频解决方案通过注入实时音视频能力，提供更真实、更有趣的 AI 互动玩法，并具备更沉浸、低延时、易开发三大核心优势：音视频互动更具沉浸感：相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案，声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验，更好地表达情感和传达用户的个性化意图。同时，实时音视频互动相比输入文字，操作更加便捷，且能够与其它多模态互动方式结合，进一步提升用户体验。响应延时低至1.9秒内：声网作为实时互动云服务的开创者，在音视频领域积累了深厚的技术优势，针对目前市面上大多数 AI 生成式对话响应慢的问题，声网的研发团队对 AIGC 场景下音视频互动的延时做了很多技术优化，可以将对话响应延时控制在 1.9 秒内，也就意味着当用户对 AI 角色语音提问结束后，到AI 开始说话的时间间隔，声网可以做到 1.9 秒以内，相比市场上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。易开发，3h 快速上线场景：在场景开发层面，有些企业缺少 AIGC 所需的开发经验和能力储备，期望能够接入整体解决方案，对此声网提供封装完整的 SDK，包含实时音视频、实时消息、语音转文字（STT）/文字转语音（TTS）、语音驱动虚拟人嘴型等多种能力，并支持 API 快速调用，提供开箱即用的场景化 Demo，最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言，可以节省很多开发时间。

AIGC x RTE 解决方案架构图此外，杜浦还进一步介绍了声网 AIGC 解决方案的一站式产品能力，包含大模型能力、语言能力、场景人设定制、交互体验四个方向。国内外多种商用大模型灵活切换：大语言模型是整个 AIGC 解决方案最核心的部分，在大模型能力方面，声网也跟很多热门的国内外大模型进行了合作，根据业务场景集成测试了多个大模型的能力，以及支持开源大模型的私有化部署和模型 Fine-tune，支持企业根据自身需求进行灵活切换。声网会根据客户的场景选择合适的大模型，根据不同的场景做特定的模型数据库和 Prompt，同时结合声网 RTC 的低延时特性，让用户交互延迟达到最优，模型输出更符合真实场景。此外，声网在开源大模型层面也有在尝试做私有化部署，以满足部分企业对数据安全及网络的要求。支持丰富的语言能力：声网凭借在音频处理领域的经验，对语言转文字（STT）+文字转语音（TTS) 模型精细化调优，实现人声分离，断句优化，让整个语言体验更加流畅。此外，声网还支持AI 实时变声、定制化声音克隆，让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音，学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。场景人设定制：声网在1V1语音聊天等场景还对 AI 角色进行了人设定制，通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面，声网也尝试了多人语音场景的验证，例如在谁是卧底、狼人杀等多人游戏的场景中，AI 可以作为一个玩家参与到游戏中，真正的与用户一起玩游戏。交互体验升级：围绕语音大模型的交互体验，声网也做了一些尝试，例如长期对话记忆，在一些对话场景中，用户在进行多轮文字互动后，有可能大模型记不住用户之前说的内容，影响对话体验。对此，声网通过实现多轮对话记忆，可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户，声网 AIGC 方案支持公域、私域 Vector DB 接入的能力，可以解决各种类型的数据分析和相关任务，特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。此外，在视觉层面，声网也尝试了语音驱动的玩法，包括语音驱动 3D Avatar、语音驱动虚拟分身/2D 真人分身来满足客户不同场景的虚拟形象需要，使 AI 对话更加生动有趣。我们可以通过下方的两个视频体验下声网 AI 语音助手的中英文对话展示。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

声网 AI 语音助手 Demo 中文对话体验展示

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

声网 AI 语音助手 Demo 英文对话体验展示除了能够支持各类人设的实时语音对话 Demo《AI语音助手》外，杜浦还介绍了声网今年5月推出的 AI + 谁是卧底的玩法，该玩家是由 AI 来充当《谁是卧底》中的一名玩家，Ta 可以通过在游戏中学习、提炼其他玩家的发言格式，对自己的关键词进行描述发言，并能通过分析其他玩家的发言，做出“谁是卧底”的判断并进行投票。该模式目前也已经在探索应用到诸如狼人杀、剧本杀等更多游戏场景中。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新