BoonKiong.com2026™

人气 152

OpenAI 发布语音 Agent 多模态模型

文***已获得官方认证 2025-8-29 11:09

[img][/img]



0c2dcacf-892c-4657-9449-e8ed8f0d6099.jpeg


今天凌晨,OpenAI 正式发布了专用于语音 Agent 的多模态模型 GPT-realtime。

官方介绍,新模型在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面表现优秀,譬如在重复字母/数字、逐字阅读免责声明脚本、句子之间无缝切换语言等场景。

值得一提的是,GPT-realtime 拥有出色的理解能力,能够捕捉到非语言类线索(如笑声),并且能实时在呈现的语音中调整语气。

根据内部评估,GPT-realtime 在其他语言(包括西班牙语、中文、日语和法语)中检测字母数字序列(如电话号码、VIN 等)的准确性也更高。在衡量推理能力的 Big Bench Audio 基准测试中, GPT-realtime 的准确率达到了 82.8%,超越了 2024 年 12 月发布的 GPT-4o-realtime(65.6%)。

其他方面,GPT-realtime 新增了「Marin」和「Cedar」音色。并且 GPT-realtime 还支持图像输入。

另外,OpenAI 还上线了 Realtime API 的多项全新功能:

   •   在 Realtime API 会话中,开发者只需在会话配置中轻松传入远程 MCP 服务器的 URL,即可快速启用 MCP 支持。
   •   Realtime API 能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他 SIP 终端建立连接。

文章来源:爱范儿




<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 source/module/forum/forum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強berrybkboonkiongadmin老谟深虑TaC9528huaekinteresabitchJCYSORALINc.t.teo

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|小黑屋|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2026 Discuz! Team. |本站总访问量已经运行: