微软的新视觉语言(VL)系统大大超越了人类的表现
admin
2023-08-03 03:52:24
0

Windows 11 Pro ISO文件在哪下载最新版?如何下载原装纯净版Win11 ?点击进入   持续更新!

Microsoft-Vision-Language-SystemMicrosoft-Vision-Language-System

视觉语言(VL)系统允许搜索相关图像以进行文本查询(反之是然),并使用自然语言描述图像的内容。通常,VL系统使用图像编码模块和视觉语言融合模块。微软研究院最近开发的图像编码称为一个新的对象属性检测模型VINVL V isual功能  V ision-大号anguage)。

当VinVL与OSCAR 和 VIVO等VL融合模块结合使用时,新的Microsoft VL系统就可以在最具竞争力的VL排行榜中占据领先地位,包括视觉问题解答(VQA),Microsoft COCO图像字幕和Novel Object Captioning( nocaps)。微软研究团队还强调,这种新的VL系统在CIDEr方面(92.5与85.3)在nocaps排行榜上大大超过了人类的表现。

VinVL在改善图像编码以增强VL理解方面显示出巨大潜力。如本文中的示例所示,我们新开发的图像编码模型可以使各种VL任务受益 。尽管我们获得了令人鼓舞的结果,例如在图像字幕基准上超过了人类的表现,但我们的模型绝不能达到人类对VL理解的智能。未来工作的有趣方向包括:(1)通过利用海量图像分类/标记数据进一步扩大对象-属性检测的预训练,以及(2)将跨模式VL表示学习的方法扩展到建立基于感知的语言模型,可以像人类一样以自然语言为视觉概念打下基础,反之是然。

Microsoft VinVL已集成到Azure认知服务中,该服务支持各种Microsoft服务,例如Seeing AI,Office和LinkedIn中的图像字幕以及其他功能。微软研究团队还将向公众发布VinVL模型和源代码。

下载最新版Windows 11 Pro ISO文件:点击进入   持续更新原装纯净版Win11 

相关内容

热门资讯

Windows 11 和 10... Windows 11/10 文件夹属性中缺少共享选项卡 – 已修复 1.检查共享选项卡是否可用 右键...
事件 ID 7034:如何通过... 点击进入:ChatGPT工具插件导航大全 服务控制管理器 (SCM) 负责管理系统上运行的服务的活动...
Radmin VPN Wind... Radmin VPN 是一款免费且用户友好的软件,旨在牢固地连接计算机以创建一个有凝聚力的虚拟专用网...
Hive OS LOLMine... 目前不清退的交易所推荐: 1、全球第二大交易所OKX欧意 国区邀请链接: https://www.m...
如何修复 Steam 内容文件... Steam 内容文件锁定是当您的 Steam 文件无法自行更新时出现的错误。解决此问题的最有效方法之...
Hive OS 部署 PXE ... 目前不清退的交易所推荐: 1、全球第二大交易所OKX欧意 国区邀请链接: https://www.m...
如何在电报Telegram中隐... 点击进入:ChatGPT工具插件导航大全 在Android上的电报中隐藏您的电话号码 您可以通过切换...
在 iCloud 上关闭“查找... 如果您是 Apple 的长期用户,您肯定会遇到过 Find My 应用程序,它本机安装在 iPhon...
farols1.1.501.0... faro ls 1.1.501.0(64bit)可以卸载,是一款无需连接外部PC机或笔记本计算机即可...
如何在Instagram上扫描... 如何在Instagram上扫描名称标签/ QR? 总而言之,您可以通过大约四种不同的方法来扫描这些I...