魔搭社区开源多模态对齐统一框架OneLLM、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影拍摄、活动会议跟拍、AI视频短剧制作、纪录专题片拍摄、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

魔搭社区开源多模态对齐统一框架OneLLM

69852srtt

2023-12-22 08:37:13

站长之家(ChinaZ.com) 12月22日消息:OneLLM 是一种多模态对齐的统一框架，它使用通用编码器和统一的投影模块与 LLM（Large Language Model）对齐多模态输入。OneLLM 还通过使用 modality tokens 实现了在不同模态之间的切换。

OneLLM 的核心组件包括多模态 token 的 tokenizer、通用编码器、统一的投影模块和大语言模型。

多模态 token 的 tokenizer 将输入的各种模态信号转换为 token 序列，以便进行后续处理和对齐。

微信截图_20231222082654.png

通用编码器是在 LAION（Language and AI ON）平台上训练的 CLIP VIT Large 模型，它具有强大的语义理解能力，可以对多模态输入进行编码。

统一的投影模块（UPM）是将各个模态的输入投影到 LLM 的 embedding 向量空间中，以实现多模态的对齐。UPM 由 K 个投影专家组成，每个专家包含多个 transformers 块和大量的参数。

大语言模型是 OneLLM 采用的开源 LLaMA2-7B 模型，它在大规模文本数据上进行了预训练，可以对输入进行更深入的语义理解和生成。

OneLLM 支持多种不同模态数据的理解，包括图像、音频、视频、点云、深度 / 法线图、IMU 和 fMRI 大脑活动。

实验证明，OneLLM 在视频 - 文本、音频 - 视频 - 文本、音频 - 文本等任务中优于现有方法，表现出了较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM

（）

（来源：站长之家）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：北交所最新部署！事关上市公司年报披露

下一篇：汇率反弹！人民币2024年走势如何？

栏目索引

友情链接

传媒行业的商业全面服务与您共创美好未来

合作共赢

交互式网络传媒领域
资源丰富，体系完善
创造更加精准、有效的，线上线下互动品牌整合服务
多年传媒行业尽管，见证品牌及产品的蜕变、递增和成长

创造优势

苏州钰尚传媒-商业品牌企业运营服务商最新资讯

致力于传媒行业领域的专业公司

最新文章

标签云

友情链接

苹果上调产品售价马...

余承东：全新一代问界...

豆包输入法iOS版升...

高通骁龙8E6/8E...

友情链接

最新文章

标签云

友情链接

苹果上调产品售价 马...

余承东：全新一代问界...

豆包输入法iOS版升...

高通骁龙8E6/8E...

友情链接

苹果上调产品售价马...