9月9日,「人人都是产品经理」举办了2023产品经理大会·北京站,大会围绕当下热门的“AIGC、数字化趋势与业务增长之道”展开为期两天的会议探讨。针对 AIGC 的相关话题,声网与「人人都是产品经理」也在大会期间举办了一场闭门研讨会,声网 AIGC产品负责人杜浦带来了“AIGC 加持下,APP 体验场景创新哪些玩法值得期待?”的主题演讲,并分享了声网在实时互动+AIGC 探索上的最新成果。

AIGC 自爆火以来,不断促进各行业内容生产方式革新,例如文字生成式对话、代码辅助开发、图片绘制、视频处理等,同时也催生了很多热门场景应用与玩法,例如数字人虚拟主播,AI 语音陪聊、智能办公助手等,但在大多数的 AIGC 场景中,企业都是选择文本互动的方式展开AI对话,相比之下,实时音视频的互动方式就更加有沉浸感,与 AI 的互动感也更强一些。这也是声网围绕“实时互动+AIGC”一直在探索的方向,并推出了 AIGC 一站式音视频解决方案。

杜浦表示,声网 AIGC 一站式音视频解决方案通过注入实时音视频能力,提供更真实、更有趣的 AI 互动玩法,并具备更沉浸、低延时、易开发三大核心优势:音视频互动更具沉浸感:相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案,声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。同时,实时音视频互动相比输入文字,操作更加便捷,且能够与其它多模态互动方式结合,进一步提升用户体验。响应延时低至1.9秒内:声网作为实时互动云服务的开创者,在音视频领域积累了深厚的技术优势,针对目前市面上大多数 AI 生成式对话响应慢的问题,声网的研发团队对 AIGC 场景下音视频互动的延时做了很多技术优化,可以将对话响应延时控制在 1.9 秒内,也就意味着当用户对 AI 角色语音提问结束后,到AI 开始说话的时间间隔,声网可以做到 1.9 秒以内,相比市场上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。易开发,3h 快速上线场景:在场景开发层面,有些企业缺少 AIGC 所需的开发经验和能力储备,期望能够接入整体解决方案,对此声网提供封装完整的 SDK,包含实时音视频、实时消息、语音转文字(STT)/文字转语音(TTS)、语音驱动虚拟人嘴型等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。AIGC x RTE 解决方案架构图此外,杜浦还进一步介绍了声网 AIGC 解决方案的一站式产品能力,包含大模型能力、语言能力、场景人设定制、交互体验四个方向。国内外多种商用大模型灵活切换:大语言模型是整个 AIGC 解决方案最核心的部分,在大模型能力方面,声网也跟很多热门的国内外大模型进行了合作,根据业务场景集成测试了多个大模型的能力,以及支持开源大模型的私有化部署和模型 Fine-tune,支持企业根据自身需求进行灵活切换。声网会根据客户的场景选择合适的大模型,根据不同的场景做特定的模型数据库和 Prompt,同时结合声网 RTC 的低延时特性,让用户交互延迟达到最优,模型输出更符合真实场景。此外,声网在开源大模型层面也有在尝试做私有化部署,以满足部分企业对数据安全及网络的要求。支持丰富的语言能力:声网凭借在音频处理领域的经验,对语言转文字(STT)+文字转语音(TTS) 模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持AI 实时变声、定制化声音克隆,让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音,学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。场景人设定制:声网在1V1语音聊天等场景还对 AI 角色进行了人设定制,通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面,声网也尝试了多人语音场景的验证,例如在谁是卧底、狼人杀等多人游戏的场景中,AI 可以作为一个玩家参与到游戏中,真正的与用户一起玩游戏。交互体验升级:围绕语音大模型的交互体验,声网也做了一些尝试,例如长期对话记忆,在一些对话场景中,用户在进行多轮文字互动后,有可能大模型记不住用户之前说的内容,影响对话体验。对此,声网通过实现多轮对话记忆,可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户,声网 AIGC 方案支持公域、私域 Vector DB 接入的能力,可以解决各种类型的数据分析和相关任务,特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。此外,在视觉层面,声网也尝试了语音驱动的玩法,包括语音驱动 3D Avatar、语音驱动虚拟分身/2D 真人分身来满足客户不同场景的虚拟形象需要,使 AI 对话更加生动有趣。我们可以通过下方的两个视频体验下声网 AI 语音助手的中英文对话展示。
关闭
观看更多
更多
退出全屏

视频加载失败,请刷新页面再试

刷新
声网 AI 语音助手 Demo 中文对话体验展示
关闭
观看更多
更多
退出全屏

视频加载失败,请刷新页面再试

刷新
声网 AI 语音助手 Demo 英文对话体验展示除了能够支持各类人设的实时语音对话 Demo《AI语音助手》外,杜浦还介绍了声网今年5月推出的 AI + 谁是卧底的玩法,该玩家是由 AI 来充当《谁是卧底》中的一名玩家,Ta 可以通过在游戏中学习、提炼其他玩家的发言格式,对自己的关键词进行描述发言,并能通过分析其他玩家的发言,做出“谁是卧底”的判断并进行投票。该模式目前也已经在探索应用到诸如狼人杀、剧本杀等更多游戏场景中。
关闭
观看更多
更多
退出全屏

视频加载失败,请刷新页面再试

刷新
《谁是卧底》游戏场景展示

目前 AI 语音助手、AIGC 版谁是卧底 的 Demo 均已开放体验 ,如您想进一步体验与咨询,可以点击下方阅读原文,与我们取得联系。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注