GPT-4o 可以读懂代码,学会“看脸色行事”,判断出人的情绪
OpenAI 最近推出了一款名为 GPT-4o 的新型多模态人工智能模型,该模型代表了人工智能领域的一个重大进步。GPT-4o("o" 代表 "omni")能够实时处理音频、视觉和文本数据,极大地提升了人机交互的自然性。
性能方面,GPT-4o 的处理速度是前代模型的五倍,语音延迟显著降低,平均延迟仅为 320 毫秒,最短可达 232 毫秒,几乎与人类反应时间相当。此外,GPT-4o 还具备了图像理解能力,能够提供翻译、解释和建议等服务。
OpenAI 发布 GPT-4o
OpenAI 首席技术官 Mira Murati 在直播演示中宣布,推出新的 OpenAI 旗舰 AI 模型,名为 GPT-4o,称它面向所有人,包括免费用户。
GPT-4o 同时具备文本、图片、视频、音频多方面的能力,即可以接受任何文本、音频等形式及其组合的输入,并生成同样媒介形式的回答。
GPT-4o 的速度是上一代的5倍,语音延迟大幅改善,平均为 320 毫秒,甚至可以短至 232 毫秒,达到了人类的反应级别,它能够理解和讨论用户共享的图像,提供翻译、解释和建议等功能。
GPT-4o 实时翻译现场演示:
OpenAI 计划优化 GPT-4o 以实现更自然、实时的语音对话,并计划通过实时视频与 ChatGPT 进行对话。此外,GPT-4o 的语言功能在质量和速度方面得到了提高,支持 50 多种语言。
OpenAI 还推出了适用于 macOS 的新版 ChatGPT 桌面应用,以及为 ChatGPT 引入了新的外观和感觉,更加友好和具有对话性。
GPT-4o 编码助手和桌面应用程序的现场演示:
这个功能对我们开发人员来说已经迫不及待想上手使用了:
GPT4-o 语音变体的现场演示:
OpenAI 称,GPT-4o 还可以检测人的情绪。文章来源:https://www.toymoban.com/diary/system/770.html
GPT-4o 视觉功能的现场演示,Zoph将手机举到自己面前正对着脸,要求 ChatGPT 告诉他自己长什么样子:文章来源地址https://www.toymoban.com/diary/system/770.html
到此这篇关于OpenAI 发布 GPT-4o:多模态AI模型,实现自然人机交互的文章就介绍到这了,更多相关内容可以在右上角搜索或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!