吉娃娃or松饼难题被解决！IDEA研究院新模型T-Rex2打通文本视觉Prompt，连黑客帝国的子弹都能数清楚、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影拍摄、活动会议跟拍、AI视频短剧制作、纪录专题片拍摄、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

吉娃娃or松饼难题被解决！IDEA研究院新模型T-Rex2打通文本视觉Prompt，连黑客帝国的子弹都能数清楚

uidhs168

2024-03-29 20:37:22

声明：本文来自于微信公众号量子位（ID：QbitAI），作者：量子位，授权站长之家转载发布。

还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2，可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题，它只需被投喂一张吉娃娃的照片，就能瞬间迎刃而解。

此前，也是同样的团队，推出了基于视觉提示的检测模型T-Rex。

如今，他们将视觉和文本提示融合，相互弥补各自的缺陷，实现了更强的目标检测能力。

并且与多目标跟踪模型结合后，各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域，尽管文本提示受到一定的青睐，但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性，对于一些难以用语言描绘的对象，因受限于无法精确描述，也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法，但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示，因此接受多种格式的输入，包括文本提示、视觉提示以及两者的组合。

在不同场景中，它可以通过在两种提示方式之间切换来处理。

因此，它大致有三种工作模式:

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例，用户可以通过向模型提供任意数量的示例图片，来自定义特定对象的视觉嵌入，然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动，就能完成检测任务。

最终在在四个学术基准测试集 COCO， LVIS， ODinW，和Roboflow100上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调，T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务，还为智能交互标注领域提供新的解决方案。

除此之外，结合现有的多目标跟踪模型（如ByteTrack ），T-Rex2还可用于视频检测任务。

事实上，这种跨图检测能力，让目标检测技术在生产生活中可以真正开始广泛应用。

比如工业生产流水线器件检测，交通航运领域的船舶、飞机检测，农业领域的农作物、果蔬检测，生物医学领域的细胞、组织检测，物流领域的货物检测，环境领域的野生动物监测等。

现在，T-Rex2让通用物体检测又迈出了新的一步。

试玩链接:

https://deepdataspace.com/playground/ivp

T-Rex2API:https://github.com/IDEA-Research/T-Rex

论文链接:

https://arxiv.org/abs/2403.14610

—完—

（）

（来源：站长之家）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

上一篇：发的时候没人要！小米汽车F码在闲鱼被转卖炒至5万元：客服回应可售卖

下一篇：马斯克：汽车实现大批量、正利润率的生产才最痛苦

栏目索引

相关内容

友情链接

传媒行业的商业全面服务与您共创美好未来

合作共赢

交互式网络传媒领域
资源丰富，体系完善
创造更加精准、有效的，线上线下互动品牌整合服务
多年传媒行业尽管，见证品牌及产品的蜕变、递增和成长

创造优势

苏州钰尚传媒-商业品牌企业运营服务商最新资讯

致力于传媒行业领域的专业公司

友情链接