新闻详情

GPT-4o登场！实时语音视频交互震撼全场或推动AI应用打开商业化空间

财联社2024年05月14日

北京时间周二（5月14日）凌晨，美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

GPT-4o是迈向更自然人机交互的一步，与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸。开源证券发布研报称，国内AI多模态模型不断跃迁，或持续赋能IP开发、影视、音乐、教育、营销等领域降本提效，拉动对音视频语料的需求，并衍生全新变现模式，建议继续布局多模态AI应用。

GPT-4o登场！实时语音视频交互震撼全场 或推动AI应用打开商业化空间

GPT-4o登场！实时语音视频交互震撼全场或推动AI应用打开商业化空间