OpenAI 发布 GPT-4o：多模态AI模型，实现自然人机交互-Toy模板网

GPT-4o 可以读懂代码，学会“看脸色行事”，判断出人的情绪

OpenAI 最近推出了一款名为 GPT-4o 的新型多模态人工智能模型，该模型代表了人工智能领域的一个重大进步。GPT-4o（"o" 代表 "omni"）能够实时处理音频、视觉和文本数据，极大地提升了人机交互的自然性。

性能方面，GPT-4o 的处理速度是前代模型的五倍，语音延迟显著降低，平均延迟仅为 320 毫秒，最短可达 232 毫秒，几乎与人类反应时间相当。此外，GPT-4o 还具备了图像理解能力，能够提供翻译、解释和建议等服务。

OpenAI 发布 GPT-4o

OpenAI 发布了 GPT-4o（“o”代表“omni”）的新型多模态人工智能模型，可以实时对音频、视觉和文本进行推理，迈向更自然的人机交互。

OpenAI 首席技术官 Mira Murati 在直播演示中宣布，推出新的 OpenAI 旗舰 AI 模型，名为 GPT-4o，称它面向所有人，包括免费用户。

GPT-4o 同时具备文本、图片、视频、音频多方面的能力，即可以接受任何文本、音频等形式及其组合的输入，并生成同样媒介形式的回答。

GPT-4o 的速度是上一代的5倍，语音延迟大幅改善，平均为 320 毫秒，甚至可以短至 232 毫秒，达到了人类的反应级别，它能够理解和讨论用户共享的图像，提供翻译、解释和建议等功能。

OpenAI 计划优化 GPT-4o 以实现更自然、实时的语音对话，并计划通过实时视频与 ChatGPT 进行对话。此外，GPT-4o 的语言功能在质量和速度方面得到了提高，支持 50 多种语言。

OpenAI 还推出了适用于 macOS 的新版 ChatGPT 桌面应用，以及为 ChatGPT 引入了新的外观和感觉，更加友好和具有对话性。

GPT-4o 编码助手和桌面应用程序的现场演示：

这个功能对我们开发人员来说已经迫不及待想上手使用了：

OpenAI 称，GPT-4o 还可以检测人的情绪。

GPT-4o 视觉功能的现场演示，Zoph将手机举到自己面前正对着脸，要求 ChatGPT 告诉他自己长什么样子：文章来源地址https://www.toymoban.com/diary/system/770.html

到此这篇关于OpenAI 发布 GPT-4o：多模态AI模型，实现自然人机交互的文章就介绍到这了,更多相关内容可以在右上角搜索或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！