请选择 进入手机版 | 继续访问电脑版

BoonKiong.com2025™

人气 117

OpenAI 推出新一代语音模型 API

文***已获得官方认证 2025-3-21 17:05



OpenAI 推出新一代语音模型 API

OpenAI 推出新一代语音模型 API



今日凌晨,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。新产品的核心亮点概述如下:

   •   gpt-4o-transcribe(语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型。采用多
       样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性,并更
       适用于处理口音多样、环境嘈杂、语速变化等挑战场景;
   •   gpt-4o-mini-transcribe(语音转文本):gpt-4o-transcribe 的精简版本,基于 GPT-4o-mini 架构,通过知识蒸馏技术
       从大模型转移能力,速度更快、效率更高,适合资源有限但仍需高质量语音识别的应用场景;
   •   gpt-4o-mini-tts(文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「
       如何说」。具体而言,开发者可以预设多种语音风格,并能根据指令调整语音风格。

值得关注的是,gpt-4o-transcribe 与 gpt-4o-mini-transcribe 这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

价格方面,gpt-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元;而 gpt-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元;gpt-4o-mini-tts 为每分钟 0.015 美元。目前,所有全新音频模型已向全球开发者开放。

此外,OpenAI 还介绍了两种构建语音 Agent 技术路径:

   •   「语音到语音模型」采用端到端的直接处理方式:系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤;
   •   「链式方法」:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回
          应文本,最后通过文本转语音模型将回应转为自然语音输出。其优势在于模块化设计,各组件可独立优化;处理结果
          更稳定;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。



文章来源:爱范儿






<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 source/module/forum/forum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強bkboonkiongadmin老谟深虑TaChuaekin海岛吴迪osifefei220088小甜天

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2025 Discuz! Team. |本站总访问量已经运行: