GPT-4 是多模态的,我们可以合理地预测 GPT-4 能够做什么
admin
2023-08-01 03:27:01
0
  • 点击进入:ChatGPT工具插件导航大全

*如果* GPT-4 是多模态的,我们可以合理地预测 GPT-4 *可能*能够做什么,鉴于微软之前的工作 Kosmos-1:

– 视觉智商测试:是的,人类参加的测试!
– 无 OCR 阅读理解:输入屏幕截图、扫描文档、路牌或任何包含文本的像素。直接对内容进行推理,无需显式 OCR。这对于解锁多媒体网页上的 AI 驱动的应用程序或来自现实世界摄像头的“野外文本”非常有用。
– 多模式聊天:就图片进行对话。您甚至可以在中间提供“后续”图像。
– 广泛的视觉理解能力,如字幕、视觉问答、物体检测、场景布局、常识推理等。
– 音频和语音识别(??):在 Kosmos-1 论文中没有提到,但 Whisper 已经是一个 OpenAI API,应该很容易集成。Fq4AeOHWwBEKFjKFq4AeOHWwBEKFjK

注意:这些预测是基于据称微软德国首席技术官安德烈亚斯布劳恩所说的话。它们可能准确也可能不准确(这就是我称之为“预测”的原因)。但 Kosmos-1 非常真实且坚如磐石。它提供了 GPT-4 或微软接下来将提供的任何人工智能服务的一瞥。我很难相信 Kosmos-1 会留在实验室而不成为产品。

无论如何,请为多模式 API 做好准备——它们迟早会出现!

相关内容

热门资讯

Windows 11 和 10... Windows 11/10 文件夹属性中缺少共享选项卡 – 已修复 1.检查共享选项卡是否可用 右键...
Radmin VPN Wind... Radmin VPN 是一款免费且用户友好的软件,旨在牢固地连接计算机以创建一个有凝聚力的虚拟专用网...
如何修复 Steam 内容文件... Steam 内容文件锁定是当您的 Steam 文件无法自行更新时出现的错误。解决此问题的最有效方法之...
在 Windows 11 中打... 什么是链路状态电源管理? 您可以在系统控制面板的电源选项中看到链接状态电源管理。它是 PCI Exp...
事件 ID 7034:如何通过... 点击进入:ChatGPT工具插件导航大全 服务控制管理器 (SCM) 负责管理系统上运行的服务的活动...
Hive OS LOLMine... 目前不清退的交易所推荐: 1、全球第二大交易所OKX欧意 国区邀请链接: https://www.m...
在 iCloud 上关闭“查找... 如果您是 Apple 的长期用户,您肯定会遇到过 Find My 应用程序,它本机安装在 iPhon...
iPhone 屏幕上有亮绿色斑... iPhone 是市场上最稳定的智能手机之一,这主要归功于专为它们设计的 iOS 操作系统。然而,他们...
balenaEtcher烧录后... balenaEtcher烧录后u盘或者内存卡无法识别不能使用的解决方法想要恢复原来的方法,使用win...
farols1.1.501.0... faro ls 1.1.501.0(64bit)可以卸载,是一款无需连接外部PC机或笔记本计算机即可...