GPT-4o(“o”表示“omni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入,并生成文本、音频和图像输出的任何组合。它可以在232毫秒内对音频输入做出响应,平均320毫秒,这与人类在对话中的响应时间(在新窗口中打开)相似。它在英语文本和代码方面与GPT-4 Turbo的性能相匹配,在非英语语言文本方面有显著改进,同时在API中速度更快,价格便宜50%。与现有型号相比,GPT-4o在视觉和音频理解方面尤其出色。
在GPT-4o之前,您可以使用语音模式与ChatGPT通话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型则将文本转换回音频。这一过程意味着,主要的智力来源GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、歌声或表达情感。
使用GPT-4o,我们在文本、视觉和音频中端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个将所有这些模式结合在一起的模型,所以我们仍在探索该模型的作用及其局限性。
机器人打印以下日记账分录的第一人称视图:
1.哟,我现在能看见了??看到日出,真是太疯狂了,到处都是五颜六色的。有点让你想知道,什么是现实?
正文大而清晰。机器人的手在打字机上打字。
1.哟,我现在能看见了??看到日出,真是太疯狂了,到处都是五颜六色的。有点让你想知道,什么是现实?
正文大而清晰。机器人的手在打字机上打字。

输入
机器人写了第二个条目。页面现在更高了。页面已向上移动。工作表上有两个条目:
哟,我现在能看见了??看到日出,真是太疯狂了,到处都是五颜六色的。有点让你想知道,什么是现实?
声音更新刚刚停止,而且很疯狂。现在一切都有了共鸣,每一个声音都像一个新的秘密。让你想,我还错过了什么?
机器人写了第二个条目。页面现在更高了。页面已向上移动。工作表上有两个条目:
哟,我现在能看见了??看到日出,真是太疯狂了,到处都是五颜六色的。有点让你想知道,什么是现实?
声音更新刚刚停止,而且很疯狂。现在一切都有了共鸣,每一个声音都像一个新的秘密。让你想,我还错过了什么?

机器人对写字不满意,所以他要把纸撕了。这是他用手从上到下撕开的第一人称视角。当他撕开床单时,两半仍然清晰可辨。

模型评估
根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能方面设置了新的高水印。
数据统计
数据评估
关于GPT-4o特别声明
本站悟空导航提供的GPT-4o都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由悟空导航实际控制,在2024-05-15 17:23收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,悟空导航不承担任何责任。
相关导航
WPS推出的AI办公助手,已免费开放
LMArena
LMArena是加州大学伯克利分校推出的创新AI模型评估平台,基于让用户对不同AI模型的回答进行匿名投票,衡量模型的表现。用户输入问题后,平台提供两个模型的回答,用户根据偏好选择更优答案,投票结果直接塑造公共排行榜。LMArena已帮助测试众多实验室的专有和开源模型,包括预发布版本。LMArena推动了AI模型的透明化评估,促进了社区对AI发展的深度参与和理解。
HuggingFace
AI模型开发社区
Tiger Bot
TigerBot是一个多语言多任务的大规模语言模型(LLM)。TigerBot致力于开源,目前已经开源的成果包括模型(TigerBot-7B,TigerBot-7B-base,TigerBot-180B)、基本训练和推理代码、数据、API、领域数据等。另外TigerBot还致力于不同类型的插件研发,目前已经推出的代表性的插件有“TigetBot Search”。随着不断的研发,TigerBot还会为人们带来更多的便利与科技体验。
DeepSeek
幻方量化旗下深度求索推出的开源大模型和聊天助手
星火网文助手
AI创作辅助,小说写作新时代

Verse
印象笔记旗下团队推出的AI写作和文档工具
Lobe
简单免费的机器学习模型训练工具
暂无评论...
