https://github.com/OpenGVLab/VisionLLM

generalist-model large-language-models object-detection

Last synced: about 1 year ago
JSON representation

VisionLLM Series

StarryDivineSky - OpenGVLab/VisionLLM - 4等，并持续探索新的架构和训练方法。VisionLLM模型能够执行图像描述、视觉问答、图像生成等多种任务。其核心工作原理通常涉及将视觉信息编码为向量表示，并与文本信息进行融合，然后利用Transformer等架构进行学习和推理。该项目旨在推动多模态人工智能的发展，为更智能的视觉应用提供基础。项目提供了代码、模型权重和数据集等资源，方便研究者和开发者使用。VisionLLM的目标是构建通用且高效的视觉语言模型，解决现实世界中的复杂问题。 (多模态大模型 / 资源传输下载)

ecosyste.ms