OpenAI 发布 GPT-4o:多模态AI模型,实现自然人机交互

GPT-4o 可以读懂代码,学会“看脸色行事”,判断出人的情绪

OpenAI 最近推出了一款名为 GPT-4o 的新型多模态人工智能模型,该模型代表了人工智能领域的一个重大进步。GPT-4o("o" 代表 "omni")能够实时处理音频、视觉和文本数据,极大地提升了人机交互的自然性。

性能方面,GPT-4o 的处理速度是前代模型的五倍,语音延迟显著降低,平均延迟仅为 320 毫秒,最短可达 232 毫秒,几乎与人类反应时间相当。此外,GPT-4o 还具备了图像理解能力,能够提供翻译、解释和建议等服务。

OpenAI 发布 GPT-4o

OpenAI 发布了 GPT-4o(“o”代表“omni”) 的新型多模态人工智能模型,可以实时对音频、视觉和文本进行推理,迈向更自然的人机交互。

OpenAI 首席技术官 Mira Murati 在直播演示中宣布,推出新的 OpenAI 旗舰 AI 模型,名为 GPT-4o,称它面向所有人,包括免费用户。

GPT-4o 同时具备文本、图片、视频、音频多方面的能力,即可以接受任何文本、音频等形式及其组合的输入,并生成同样媒介形式的回答。

GPT-4o 的速度是上一代的5倍,语音延迟大幅改善,平均为 320 毫秒,甚至可以短至 232 毫秒,达到了人类的反应级别,它能够理解和讨论用户共享的图像,提供翻译、解释和建议等功能。

GPT-4o 实时翻译现场演示:

OpenAI 计划优化 GPT-4o 以实现更自然、实时的语音对话,并计划通过实时视频与 ChatGPT 进行对话。此外,GPT-4o 的语言功能在质量和速度方面得到了提高,支持 50 多种语言。

OpenAI 还推出了适用于 macOS 的新版 ChatGPT 桌面应用,以及为 ChatGPT 引入了新的外观和感觉,更加友好和具有对话性。

GPT-4o 编码助手和桌面应用程序的现场演示:

这个功能对我们开发人员来说已经迫不及待想上手使用了:

2.jpg

GPT4-o 语音变体的现场演示:

OpenAI 称,GPT-4o 还可以检测人的情绪。

GPT-4o 视觉功能的现场演示,Zoph将手机举到自己面前正对着脸,要求 ChatGPT 告诉他自己长什么样子:文章来源地址https://www.toymoban.com/diary/system/770.html

到此这篇关于OpenAI 发布 GPT-4o:多模态AI模型,实现自然人机交互的文章就介绍到这了,更多相关内容可以在右上角搜索或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

原文地址:https://www.toymoban.com/diary/system/770.html

如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用
免费、开源、好用的SQL客户端合集:精选工具推荐
上一篇 2024年05月12日 09:35
Unity中实现滑块跟随物体的算法解析
下一篇 2024年05月18日 10:27

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包