GPT-4o登场!实时语音视频交互震撼全场 或推动AI应用打开商业化空间
财联社2024年05月14日
北京时间周二(5月14日)凌晨,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。OpenAI在活动中发布了新旗舰模型“GPT-4o”,“可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
GPT-4o是迈向更自然人机交互的一步,与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸。开源证券发布研报称,国内AI多模态模型不断跃迁,或持续赋能IP开发、影视、音乐、教育、营销等领域降本提效,拉动对音视频语料的需求,并衍生全新变现模式,建议继续布局多模态AI应用。