awesome_ai_paper

https://github.com/chenin-wang/awesome_ai_paper

Last synced: 17 days ago
JSON representation

多模态
- Vision-Language Model Predictive Control for Manipulation Planning and Trajectory Generation - VLMPC，它用运动轨迹生成代替视频预测，以降低计算复杂度，同时保持精度。Traj-VLMPC根据候选动作估计运动动态，为长周期任务和实时应用提供了更高效的替代方案。VLMPC和Traj-VLMPC都使用基于VLM的分层成本函数来选择最佳动作序列，该函数捕获当前观察结果和任务输入之间的像素级和知识级一致性。我们证明了这两种方法在公共基准测试中都优于现有的最先进方法，并在各种现实世界的机器人操作任务中取得了优异的性能。代码可在https://github.com/PPjmchen/VLMPC获取。|
- Transfer between Modalities with MetaQueries - 标题数据和标准的扩散目标函数。值得注意的是，即使MLLM主干保持冻结状态，这种迁移也很有效，从而在保持其最先进的多模态理解能力的同时实现强大的生成性能。此外，我们的方法非常灵活，可以很容易地进行指令微调，用于高级应用，如图像编辑和主题驱动生成。|
- ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering - nlp/ChartQAPro 发布 ChartQAPro。|
- SocialGesture: Delving into Multi-person Gesture Understanding
- Probing the Visualization Literacy of Vision Language Models: the Good, the Bad, and the Ugly - CAM)，以可视化输入特征（图像和文本）对模型响应的影响和重要性。利用这种方法，我们对四个开源（ChartGemma、Janus 1B 和 7B 以及 LLaVA）和两个闭源（GPT-4o、Gemini）模型进行了检查，比较了它们的性能，并针对开源模型比较了它们的 AG-CAM 结果。总体而言，我们发现针对图表问答 (QA) 微调的 3B 参数 VLM ChartGemma 优于其他开源模型，并且表现出与参数规模更大的闭源 VLM 相当的性能。我们还发现，VLM 通过准确定位关键图表特征来展现空间推理能力，并通过将视觉元素与相应的数据值和查询标记相关联来展现语义推理能力。我们的方法首次展示了在广泛使用的早期融合 VLM 架构上以及在图表问答中使用 AG-CAM。我们还展示了初步证据，表明这些结果与人类推理一致。我们充满希望的开源 VLM 结果为人工智能可视化素养方面的透明和可重复研究铺平了道路。|
- SmolVLM: Redefining small and efficient multimodal models - 256M，在推理过程中使用不到 1GB 的 GPU 内存，并且性能优于比其大 300 倍的 Idefics-80B 模型，尽管两者有 18 个月的开发差距。我们最大的模型，参数量为 22 亿，可与最先进的 VLM 媲美，而后者消耗的 GPU 内存是其两倍。SmolVLM 模型的功能超越了静态图像，展示了强大的视频理解能力。我们的结果强调，战略性的架构优化、积极而高效的分词以及精心整理的训练数据可以显著增强多模态性能，从而促进在更小规模下实现实用、节能的部署。|
- Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework
- A Taxonomy of Self-Handover
- SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models - e-V/SCAM 下公开发布了本文中介绍的数据集，以及 https://github.com/Bliss-e-V/SCAM 上的评估代码。|
- Don't Lag, RAG: Training-Free Adversarial Detection Using RAG - VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO，以及闭源模型Gemini-2.0。值得注意的是，开源UI-TARS-72B-DPO模型的分类准确率高达95%，为开源对抗性补丁检测树立了新的最先进水平。Gemini-2.0的总体准确率最高，达到98%，但仍然是闭源的。实验结果表明，VRAG能够以最少的人工标注识别各种对抗性补丁，为抵御不断演变的对抗性补丁攻击的鲁棒、实用的防御铺平了道路。|
- M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models - context Vectors) 代替显式演示的方法，这些向量直接集成到LVLM中。通过利用多头注意力 (MHA) 和多层感知器 (MLP) 的互补优势，M2IV 通过训练实现了鲁棒的跨模态保真度和细粒度的语义蒸馏。这显著提高了各种 LVLM 和任务的性能，并有效地扩展到多样本场景，绕过了上下文窗口的限制。我们还引入了VLibrary，一个用于存储和检索 M2IV 的存储库，支持 LVLM 在跨模态对齐、定制化生成和安全性改进等任务上的灵活操控。在七个基准测试和三个 LVLM 上的实验表明，M2IV 超越了 Vanilla ICL 和先前的表示工程方法，在相同样本数量下，平均精度比 ICL 提高了3.74%，同时具有显著的效率优势。|
- SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding - 1M，这是一个专为多模态SAR图像理解而设计的大规模基准数据集，主要侧重于将SAR与文本模态相结合。SARLANG-1M包含从全球59个以上城市收集的超过100万个高质量SAR图像-文本对。它具有分层分辨率（范围从0.1米到25米）、细粒度的语义描述（包括简洁和详细的标题）、多样化的遥感类别（1,696种对象类型和16种土地覆盖类别），以及涵盖七个应用和1,012种问题类型的多任务问答对。在主流VLM上的大量实验表明，使用SARLANG-1M进行微调可以显著提高其在SAR图像解译方面的性能，达到与人类专家相当的水平。数据集和代码将在https://github.com/Jimmyxichen/SARLANG-1M上公开发布。|
- NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving - SpatialQA，这是第一个专门设计用于评估VLM在自动驾驶中空间理解和推理能力的大规模基于真实数据的问答（QA）基准测试。该基准测试构建于NuScenes数据集之上，通过自动化的3D场景图生成流程和问答生成流程构建而成。该基准测试系统地评估了VLM在多个维度上的空间理解和推理性能。我们使用此基准测试对各种VLM（包括通用模型和空间增强模型）进行了广泛的实验，首次对其在自动驾驶中的空间能力进行了全面评估。令人惊讶的是，实验结果表明，空间增强VLM在定性问答方面表现出色，但在定量问答方面却没有展现出竞争力。总体而言，VLM在空间理解和推理方面仍然面临相当大的挑战。|
- TokenFLEX: Unified VLM Training for Flexible Visual Tokens Inference
- MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories - 2视觉语言模型生成微调后的图像描述，并通过早期融合策略将其与视觉特征相结合。融合后的表示使用深度Q网络（DQN）和近端策略优化（PPO）智能体进行处理。实验结果表明，经过充分训练后，多模态智能体在任务完成率方面提高了20%，并且显著优于纯视觉和纯文本基线。与基于Transformer和循环神经网络的多模态强化学习模型相比，我们的方法在累积奖励和描述质量指标（BLEU、METEOR、ROUGE-L）方面实现了优越的性能。这些结果突出了语义对齐的语言线索在提高智能体学习效率和泛化能力方面的影响。所提出的框架有助于推动多模态强化学习和具身人工智能系统在动态的现实环境中的发展。|
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding
- Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence
- Robot-Led Vision Language Model Wellbeing Assessment of Children
- Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness
- Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images
- Large (Vision) Language Models are Unsupervised In-Context Learners - epfl/joint-inference)**|大型语言模型和视觉语言模型的最新进展实现了零样本推理，允许模型在没有特定任务训练的情况下解决新任务。各种适应技术，例如提示工程、上下文学习 (ICL) 和监督微调，可以进一步提高模型在下游任务中的性能，但它们需要大量手动工作来构建有效的提示或标记示例。在这项工作中，我们引入了一个用于完全无监督适应的联合推理框架，从而无需手动提示工程和标记示例。与进行独立预测的零样本推理不同，联合推理对给定任务中的所有输入同时进行预测。由于直接联合推理涉及计算成本高昂的优化，我们开发了高效的近似技术，从而产生了两种无监督适应方法：无监督微调和无监督ICL。我们证明了我们的方法在各种任务和模型中的有效性，包括在自然语言处理任务上的纯语言模型Llama-3.1，在小学数学问题上的推理导向模型Qwen2.5-Math，在视觉任务上的视觉语言模型OpenFlamingo，以及在大型多学科任务上仅通过API访问的GPT-4o模型。我们的实验表明，与标准零样本方法相比，该方法取得了显著改进，包括在具有挑战性的GSM8K数学推理数据集上实现了39%的绝对改进。值得注意的是，尽管是完全无监督的，但我们的框架的性能通常与依赖于真实标签的监督方法相当。|
- Re-thinking Temporal Search for Long-Form Video Understanding - Haystack，这是第一个包含3874个人工标注实例的基准测试，它包含用于评估关键帧搜索质量和计算效率的细粒度评估指标。在LV-Haystack上的实验结果突出了时序搜索能力的显著研究差距，最先进的关键帧选择方法在LVBench子集上仅实现了2.1%的时序F1分数。接下来，受图像视觉搜索的启发，我们重新思考了时序搜索，并提出了一个轻量级的关键帧搜索框架T*，它将昂贵的时序搜索转化为空间搜索问题。T*利用了通常用于图像的卓越视觉定位能力，并引入了一种在时间和空间维度上运行的自适应放大机制。我们广泛的实验表明，与现有方法集成时，T*显著提高了最先进的长视频理解性能。具体来说，在32帧的推理预算下，T*将GPT-4o在LongVideoBench XL子集上的性能从50.5%提高到53.1%，将LLaVA-OneVision-72B的性能从56.5%提高到62.4%。我们的PyTorch代码、基准数据集和模型包含在补充材料中。|
- One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image - RAG）最近成为一种通过事实知识库（KB）抑制大型多模态模型（LMM）幻觉的方法。然而，M-RAG 也为旨在通过向知识库注入恶意条目来破坏系统的攻击者引入了新的攻击向量。在这项工作中，我们提出了一种针对视觉文档检索应用的 M-RAG 投毒攻击，其中知识库包含文档页面的图像。我们的目标是制作一个单一的图像，使其能够被各种不同的用户查询检索到，并持续影响生成模型产生的输出，从而对 M-RAG 系统造成普遍的拒绝服务（DoS）攻击。我们证明，虽然我们的攻击对各种广泛使用的、最先进的检索器（嵌入模型）和生成器（LMM）有效，但它对鲁棒的嵌入模型也可能无效。我们的攻击不仅突出了 M-RAG 管道易受投毒攻击的漏洞，还揭示了一个潜在的弱点，即使在良性环境中也可能影响其性能。||
- FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs - 图像预训练）已在各个领域和广泛的下游视觉语言任务中取得了显著成功。然而，流行的CLIP模型中的文本编码器仅限于处理77个文本标记，这限制了它们有效处理更长、更详细的标题的能力。此外，CLIP模型通常难以有效地捕捉详细的视觉和文本信息，这阻碍了它们在需要细粒度分析的任务上的性能。为了解决这些限制，我们提出了一种新颖的方法FineLIP，它扩展了CLIP的功能。FineLIP通过在CLIP风格的框架内结合细粒度对齐和更长的文本输入来增强跨模态文本图像映射。FineLIP首先扩展位置嵌入以处理更长的文本，然后动态聚合局部图像和文本标记。聚合的结果随后用于强制执行细粒度的标记到标记的跨模态对齐。我们在具有长而详细标题的数据集上验证了我们的模型，涵盖了两个任务：零样本跨模态检索和文本到图像生成。定量和定性的实验结果证明了FineLIP的有效性，其性能优于现有的最先进方法。此外，全面的消融研究验证了FineLIP中关键设计元素的优势。||
- A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 - 4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet，甚至推理模型，如o1、Claude-3.7-thinking和Gemini-2.0-flash-thinking。我们的方法在GPT-4.5、4o和o1上实现了超过90%的成功率，显著优于所有先前的最先进攻击方法。我们不同配置下优化的对抗样本和训练代码可在https://github.com/VILA-Lab/M-Attack获取。||
- HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
- DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding - o1，这是一个专门设计用于推进自动驾驶逐步视觉推理的新数据集和基准。我们的基准在训练集中包含超过1.8万个VQA示例，在测试集中包含超过4千个示例，涵盖了关于感知、预测和规划的各种问题，每个示例都通过逐步推理来丰富，以确保自动驾驶场景中的逻辑推理。我们进一步引入了一个在我们的推理数据集上微调的大型多模态模型，在复杂的驾驶场景中展现了强大的性能。此外，我们在我们提出的数据集上对各种开源和闭源方法进行了基准测试，系统地比较了它们在自动驾驶任务中的推理能力。我们的模型在最终答案准确率上实现了+7.49%的提升，同时推理得分比之前的最佳开源模型提高了3.62%。我们的框架、数据集和模型可在https://github.com/ayesha-ishaq/DriveLMM-o1获取。||
- CoSTA $\ast$ : Cost-Sensitive Toolpath Agent for Multi-turn Image Editing - lab/CoSTAR)**|像Stable Diffusion和DALLE-3这样的文生图模型仍然难以进行多轮图像编辑。我们将此类任务分解为一个代理工作流程（路径），该流程利用各种成本的人工智能工具来解决一系列子任务。传统的搜索算法需要进行昂贵的探索才能找到工具路径。虽然大型语言模型（LLM）拥有子任务规划的先验知识，但它们可能缺乏对工具能力和成本的准确估计，无法确定在每个子任务中应用哪个工具。我们能否结合LLM和图搜索的优势来找到具有成本效益的工具路径？我们提出了一种名为“CoSTA*”的三阶段方法，它利用LLM创建子任务树，帮助修剪给定任务的AI工具图，然后在小子图上进行A*搜索以找到工具路径。为了更好地平衡总成本和质量，CoSTA*结合每个工具在每个子任务上的两个指标来指导A*搜索。然后，每个子任务的输出由视觉语言模型（VLM）评估，如果失败，将触发工具在该子任务上的成本和质量的更新。因此，A*搜索可以快速从失败中恢复，探索其他路径。此外，CoSTA*可以跨子任务自动切换模态，以获得更好的成本-质量权衡。我们构建了一个新的具有挑战性的多轮图像编辑基准，CoSTA*在成本和质量方面都优于最先进的图像编辑模型或代理，并且可以根据用户偏好进行多功能权衡。||
- GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
- VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search - OV-mid训练，在各个基准测试中显示出10-20%的绝对点数提升，(2) 从MAmmoTH-VL训练，显示出5%的绝对点数提升。我们的最佳模型MAmmoTH-VL2在MMMU-Pro-std (40.7%)、MathVerse (42.6%)和DynaMath (55.7%)上展现了100亿参数级别内的最佳性能。这些显著的结果突出了我们的数据集在增强视觉语言模型推理能力以应对复杂多模态任务方面的有效性。||
- Towards Fast, Memory-based and Data-Efficient Vision-Language Policy - Bench 上的性能优于最先进的视觉语言策略，且训练时间极短。此外，LiteVLP 表现出卓越的推理速度，同时保持了极高的准确性。在长时程操作任务中，LiteVLP 还展现了显著的记忆能力，比性能最佳的基线模型高出 18.8%。这些结果突出了 LiteVLP 作为一个有前途的模型，可以将 VLM 的智能集成到机器人学习中。||
- SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence
- ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning
- IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models - planning.github.io/ 上获取。||
- ComicsPAP: understanding comic strips by picking the correct panel
- GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training - 7b 模型在各种视觉环境中的性能和泛化能力，与具有明显更小模型尺寸的最先进模型相比，实现了 3-5 倍更高的任务成功率。||
- External Knowledge Injection for CLIP-Based Class-Incremental Learning - u-n/pycil)**|类增量学习 (CIL) 使学习系统能够不断适应不断变化的数据流。随着预训练的进步，利用预训练的视觉语言模型（例如 CLIP）为 CIL 提供了一个有希望的起点。然而，CLIP 通过将视觉嵌入与类名匹配来做出决策，忽略了通过语言传达的丰富上下文信息。例如，“猫”的概念可以分解成尾巴、毛皮和脸等特征进行识别。此外，由于模型不断更新，这些详细特征在 CIL 中会被覆盖，需要外部知识来补偿。在本文中，我们介绍了用于基于 CLIP 的 CIL 的外部知识注入 (ENGINE)。为了增强数据集外部的知识转移，我们提出了一个双分支注入调整框架，该框架对来自视觉和文本模态的信息性知识进行编码。视觉分支通过数据增强得到增强，以丰富视觉特征，而文本分支则利用 GPT-4 重写判别性描述符。除了这种动态知识注入之外，我们还在推理过程中通过重新排序预测结果来实现后调整知识。通过注入的知识，模型可以更好地捕获信息特征，以用于随着数据演变的下游任务。大量实验表明 ENGINE 具有最先进的性能。代码可在以下网址获得：https://github.com/RenaissCode/ENGINE||
- MMRL: Multi-Modal Representation Learning for Vision-Language Models
- SuperCap: Multi-resolution Superpixel-based Image Captioning
- Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions - 视频相似度和查询-叙述相似度来计算双模态匹配分数；4）使用来自不同视角的两种相似度，通过难负例损失来学习具有区分性的特征。实验结果表明，NarVid在各种基准数据集上实现了最先进的性能。||
- PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability - zwj/PhysVLM)**|理解环境和机器人的物理可达性对于任务执行至关重要。虽然最先进的视觉语言模型 (VLM) 在环境感知方面表现出色，但由于缺乏对机器人物理可达性的理解，它们在具体视觉推理任务中经常生成不准确或不切实际的响应。为了解决这个问题，我们提出了一个跨不同机器人的统一物理可达性表示，即空间物理可达性地图（S-P Map），以及PhysVLM，一个将这种可达性信息整合到视觉推理中的视觉语言模型。具体来说，S-P Map将机器人的物理可达性抽象为一个通用的空间表示，独立于特定的机器人配置，使模型能够专注于可达性特征而不是特定于机器人的参数。随后，PhysVLM通过加入一个额外的特征编码器来处理S-P Map，扩展了传统的VLM架构，使模型能够在不影响其通用视觉语言能力的情况下推理物理可达性。为了训练和评估PhysVLM，我们构建了一个大规模多机器人数据集Phys100K，以及一个具有挑战性的基准测试EQA-phys，其中包括在模拟和真实环境中六种不同机器人的任务。实验结果表明，PhysVLM优于现有模型，在EQA-phys上比GPT-4o提高了14%，并在RoboVQA-val和OpenEQA基准测试中超过了先进的具体VLM，如RoboMamba和SpatialVLM。此外，S-P Map与各种VLM表现出很强的兼容性，将其集成到GPT-4o-mini中可使其性能提高7.1%。||
- FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback
- Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving - RECHead。我们的实验表明，我们的TPCNet及其各个模块在Talk2Radar和Talk2Car数据集上都实现了最先进的性能。||
- Modeling Variants of Prompts for Vision-Language Models
- Uni $\textbf{F}^2$ ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models - 130K，其中包含 130K 个图文对和一百万个问答对，涵盖了广泛的面部属性。其次，我们建立了离散扩散分数匹配和掩码生成模型之间的理论联系，同时优化了两个证据下界，这显著提高了模型合成面部细节的能力。最后，我们引入了token级别和序列级别的混合专家，从而能够对理解和生成任务进行高效的细粒度表示学习。在 UniF²ace-130K 上进行的大量实验表明，UniF²ace 优于现有的 UMM 和生成模型，在理解和生成任务上均实现了卓越的性能。||
- VLMs Play StarCraft II: A Benchmark and Multimodal Decision Method - ai/vlm-play-starcraft2)**|我们引入了VLM-Attention，这是一个多模态星际争霸II环境，使人工智能体的感知与人类游戏体验相一致。传统的框架（例如SMAC）依赖于抽象状态表示，这与人类感知存在显著差异，限制了智能体行为的生态有效性。我们的环境通过结合RGB视觉输入和自然语言观察来解决这一限制，这些输入和观察更接近地模拟了人类在游戏过程中的认知过程。VLM-Attention框架由三个集成组件组成：（1）一个视觉语言模型，通过专门的自注意力机制增强，用于战略单位目标选择和战场评估；（2）一个检索增强生成系统，利用特定领域的星际争霸II知识来指导战术决策；（3）一个基于角色的动态任务分配系统，支持多智能体的协同行为。我们跨21个自定义场景的实验评估表明，由基础模型（特别是Qwen-VL和GPT-4o）驱动的基于VLM的智能体可以在没有明确训练的情况下执行复杂的战术动作，达到与需要大量训练迭代的传统MARL方法相当的性能。这项工作为开发与人类对齐的星际争霸II智能体奠定了基础，并推进了多模态游戏人工智能的更广泛研究议程。我们的代码实现可在https://github.com/camel-ai/VLM-Play-StarCraft2获取。||
- Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation
- Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation
- Enhancing Visual Classification using Comparative Descriptors - 1准确率可能相对较低，但top-5准确率通常要高得多。这种差距意味着大多数错误分类发生在几个相似的类别之间，突出了模型难以区分具有细微差异的类别。为了应对这一挑战，我们引入了比较描述符的新概念。这些描述符强调目标类别与其最相似类别之间的独特特征，从而增强区分度。通过生成并将这些比较描述符整合到分类框架中，我们改进了语义焦点并提高了分类精度。额外的过滤过程确保这些描述符更接近CLIP空间中的图像嵌入，进一步提高了性能。我们的方法通过解决细微的类间差异这一特定挑战，提高了视觉分类任务的准确性和鲁棒性。|
- End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering - upenn.github.io/VLMnav/找到。|
- Towards Low-Resource Harmful Meme Detection with LMM Agents - huang/lorehm)**|在社交媒体时代，网络迷因的泛滥使得有效识别有害迷因成为必要。由于迷因的动态特性，现有的数据驱动模型在只有少量标记样本的低资源场景下可能会遇到困难。本文提出了一个基于代理的低资源有害迷因检测框架，利用少量标注样本进行外向和内向分析。受大型多模态模型 (LMM) 在多模态推理方面强大能力的启发，我们首先检索带有标注的相关迷因，以利用标签信息作为LMM代理的辅助信号。然后，我们引出LMM代理内部的知识修正行为，以获得对迷因有害性的良好泛化洞察。通过结合这些策略，我们的方法能够对复杂和隐含的危害指示模式进行辩证推理。在三个迷因数据集上进行的大量实验表明，我们提出的方法在低资源有害迷因检测任务上取得了优于现有最先进方法的性能。|
- Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
- RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models - aimi/ravl)**|微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联，导致零样本测试性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作，而不是直接干预细粒度的图像特征，并且 (ii) 主要为单模态设置而设计。在这项工作中，我们提出了 RaVL，它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联，从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM，RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征，从而发现虚假关联。然后，RaVL 通过一种新颖的区域感知损失函数来减轻已识别的虚假关联，该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明，RaVL 能够准确地发现（比最接近的基线提高 191%）和减轻（最差组图像分类准确率提高 8.2%）虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。||
- DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model
- Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction - 2（一种开源视觉语言模型 (VLM)）来自动化且高效地提取 GD&T 信息的方法。该模型在包含 400 张工程图的数据集上进行训练，其中真实标注由领域专家提供。为了进行比较，两个最先进的闭源 VLM，GPT-4o 和 Claude-3.5-Sonnet，也在同一数据集上进行了评估。所有模型均使用精确率、召回率、F1 值和幻觉指标进行评估。由于针对特定领域任务微调大型闭源 VLM 的计算成本和不切实际性，GPT-4o 和 Claude-3.5-Sonnet 在零样本设置下进行了评估。相比之下，Florence-2 拥有 2.3 亿个参数，是一个较小的模型，它通过在三个不同的实验中进行全参数微调来进行优化，每个实验都使用了不同程度增强的数据集。结果表明，与性能最佳的闭源模型相比，Florence-2 的精确率提高了 29.95%，召回率提高了 37.75%，F1 值提高了 52.40%，幻觉率降低了 43.15%。这些发现突出了微调较小的开源 VLM（如 Florence-2）的有效性，为自动化 GD&T 提取提供了一种实用且高效的解决方案，以支持下游制造任务。||
- Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation - gdm-alignment)**|隐性表征对齐已成为构建多模态大型语言模型 (MLLM) 的基础技术，它将不同模态的嵌入映射到共享空间，通常与大型语言模型 (LLM) 的嵌入空间对齐，以实现有效的跨模态理解。虽然初步的蛋白质导向 MLLM 已经出现，但它们主要依赖于启发式方法，缺乏对跨表征的最佳对齐实践的基本理解。在本研究中，我们探索了蛋白质领域中 LLM 和几何深度模型 (GDM) 之间多模态表征的对齐。我们全面评估了三个最先进的 LLM（Gemma2-2B、LLaMa3.1-8B 和 LLaMa3.1-70B）与四个蛋白质特化 GDM（GearNet、GVP、ScanNet、GAT）。我们的工作从模型和蛋白质角度检验对齐因素，确定当前对齐方法中的挑战，并提出改进对齐过程的策略。我们的主要发现表明，结合图和 3D 结构信息的 GDM 可以更好地与 LLM 对齐，更大的 LLM 表现出改进的对齐能力，蛋白质的稀有性会显着影响对齐性能。我们还发现，增加 GDM 嵌入维度、使用双层投影头以及在蛋白质特定数据上微调 LLM 可以显着提高对齐质量。这些策略为增强蛋白质相关多模态模型的性能提供了潜力。我们的代码和数据可在 https://github.com/Tizzzzy/LLM-GDM-alignment 获取。|
- Real-World Offline Reinforcement Learning from Vision Language Model Feedback - VLM-F，提出了一个新颖的系统，该系统使用来自视觉语言模型的偏好反馈和任务的文本描述，自动为离线数据集生成奖励标签。然后，我们的方法使用带有奖励标签的数据集进行离线强化学习来学习策略。我们展示了该系统在复杂的现实世界机器人辅助穿衣任务中的适用性，我们首先使用视觉语言模型在次优离线数据集上学习奖励函数，然后使用学习到的奖励函数，采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及操纵刚性和可变形物体的仿真任务中也表现良好，并且显著优于行为克隆和逆强化学习等基线方法。总之，我们提出了一个新的系统，能够从未标记的、次优的离线数据集中自动进行奖励标记和策略学习。|
- On Erroneous Agreements of CLIP Image Embeddings - 1.5-7B 却达到了接近 100% 的准确率。我们发现 CLIP 图像嵌入向量中可提取的信息可能被 CLIP 不充分的视觉语言对齐所掩盖：其通过对比目标学习的匹配分数可能没有捕获所有不同的图像-文本对应关系。我们还研究了 MMVP 基准测试，先前的工作表明 LLaVA-1.5 无法区分具有高余弦相似度的图像对。我们观察到通过替代解码算法更多地关注视觉输入所带来的性能提升。此外，如果模型可以将两个图像都作为输入以强调它们细微的差异，则准确性会显着提高。这两项发现都表明 LLaVA-1.5 没有充分利用提取的视觉信息。总之，我们的研究结果表明，虽然改进图像编码器可能对 VLM 有利，但通过应用更好的提取和利用视觉信息的策略，仍然有提升使用固定图像编码器的模型的空间。|
- DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
- Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs
- Vision Language Models are In-Context Value Learners
- CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multimodal Model - Drive，这是一个由置信度感知大型多模态模型 (LMM) 赋能的新型自动驾驶框架。我们的方法采用 Top-K 置信度提取，这有助于生成多个候选决策及其置信度。此外，我们提出了一个新的规划模块，该模块集成了用于轨迹生成的扩散模型和用于寻找最佳路径的分层优化过程。该框架能够选择兼顾低级别解决方案质量和高级别战术置信度的最佳方案，从而降低一次性决策的风险并克服短视评分机制带来的限制。在 nuPlan 闭环仿真环境中的综合评估证明了 CALMM-Drive 在实现可靠和灵活的驾驶性能方面的有效性，展示了在 LMM 赋能的自动驾驶车辆中集成不确定性的重大进步。代码将在论文被接收后发布。|
- VisionZip: Longer is Better but Not Necessary in Vision Language Models - Next 13B模型的推理速度比LLaVA-Next 7B模型更快，同时取得了更好的结果。此外，我们分析了这种冗余的原因，并鼓励社区专注于提取更好的视觉特征，而不是仅仅增加标记长度。我们的代码可在https://github.com/dvlab-research/VisionZip获取。|
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition - 2023，这是一个新策划的、手动标记的数据集，具有新颖的概念，并展示了我们的模型通过对其进行基准测试来识别这些概念的能力。我们的模型在其他下游任务（如检索）上取得的显著改进进一步突出了我们的方法学习到的表示的优越质量。代码可在https://github.com/shaunak27/grain-clip获取。|
- SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model - Set），它具有三个主要优势：（1）体量大，包含30万张带有全面注释的AI生成/篡改图像和真实图像；（2）多样性广，涵盖各种类别的完全合成图像和篡改图像；（3）真实度高，图像主要通过肉眼无法与真实图像区分。此外，利用大型多模态模型的卓越能力，我们提出了一个新的图像深度伪造检测、定位和解释框架，名为SIDA（社交媒体图像检测、定位和解释助手）。SIDA不仅能够识别图像的真伪，还可以通过掩码预测描绘篡改区域，并提供模型判断标准的文本解释。与在SID-Set和其他基准测试中最先进的深度伪造检测模型相比，大量实验表明，SIDA在各种设置下均实现了卓越的性能。代码、模型和数据集将公开发布。|
- 3D Part Segmentation via Geometric Aggregation of 2D Visual Features - cops.github.io获取。|
- AIpparel: A Large Multimodal Generative Model for Digital Garments
- MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models - Instruct，用作 VLM 的监督微调 (SFT) 数据集；MegaCOIN-Bench，一个带注释的测试集，可用作独立的问答数据集。MegaCOIN 为 220,000 张真实图像提供了三个注释特征：前景颜色、背景颜色和对象物理环境的描述，构成了 660k 个人工注释。此外，MegaCOIN 可用于对域泛化 (DG) 算法进行基准测试。我们探索了在 VLM 线性探测设置中对 DG 方法进行基准测试，并展示了一些新见解。最后但同样重要的是，我们发现包括 GPT-4o 在内的 VLM 的颜色识别能力不足，使用 MegaCOIN 进行微调可以提高视觉评估任务的性能。在某些情况下，使用 MegaCOIN 微调的小规模开源模型（如 LLaVA 和 Bunny）可以胜过闭源的 GPT-4o。我们希望 MegaCOIN 的实用性能够阐明 VLM 的改进方向，并为域泛化算法提供更复杂的平台。|
- VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models - 4V等闭源视觉语言模型（VLM）的高质量视觉指令微调样本的激增加速了各种规模开源VLM的发布。然而，使用更大的模型扩展VLM以提高性能带来了巨大的计算挑战，尤其是在资源受限的设备（如移动平台和机器人）上进行部署时。为了解决这个问题，我们提出了VLsI：Verbalized Layers-to-Interactions，这是一个新的VLM系列，模型大小为2B和7B，它优先考虑效率而不牺牲准确性。VLsI利用独特的逐层蒸馏过程，引入中间“verbalizers”，将每一层的特征映射到自然语言空间，从而允许较小的VLM灵活地与较大VLM的推理过程对齐。这种方法减轻了输出模仿中经常遇到的训练不稳定性，并且超越了典型的最终层微调，通过将小型VLM的逐层进展与大型VLM的逐层进展对齐。我们在十个具有挑战性的视觉语言基准上验证了VLsI，在无需模型缩放、合并或架构更改的情况下，相比GPT-4V实现了显著的性能提升（2B模型提升11.0%，7B模型提升17.4%）。|
- CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance - 图像预训练 (CLIP) 的成功之外，近期的趋势标志着人们开始探索轻量级视觉语言模型在资源受限场景下的适用性。这些模型通常仅依赖单一的图文对比学习目标时，性能表现欠佳，这凸显了对更有效训练机制的需求，以保证鲁棒的跨模态特征对齐。在这项工作中，我们提出了 CLIP-PING：基于近邻内在引导的对比语言-图像预训练，这是一种简单高效的训练范式，旨在以最小的计算开销和更低的数据需求来提升轻量级视觉语言模型的性能。CLIP-PING 利用从任意预训练编码器中提取的单模态特征来获取近邻样本的内在引导，即最近邻 (NN) 和交叉最近邻 (XNN)。我们发现，来自这些邻居的额外对比监督可以显著促进跨模态对齐，使轻量级模型能够学习更通用的特征，并具有丰富的语义多样性。大量实验表明，CLIP-PING 在零样本泛化和跨模态检索任务中明显优于同类模型。具体来说，与使用在 300 万（图像，文本）对上训练的 ViT-XS 图像编码器的原始 CLIP 相比，CLIP-PING 在零样本 ImageNet1K 上获得了 5.5% 的提升，在 Flickr30K 上的图像到文本 (I2T) 和文本到图像 (T2I) 检索分别提升了 10.7% 和 5.7%。此外，CLIP-PING 在线性评估协议下，在多个下游任务中展现出强大的迁移能力。|
- LL-ICM: Image Compression for Low-level Machine Vision via Large Vision-Language Model - ICM。通过联合优化压缩和低级任务，所提出的 LL-ICM 不仅增强了其编码能力以泛化到各种低级任务，而且还优化了下游低级任务模型的处理能力，实现了图像编解码器和低级任务模型的相互适应。此外，我们将大规模视觉语言模型集成到 LL-ICM 框架中，为低级视觉任务生成更通用且抗失真的特征嵌入。因此，一个 LL-ICM 编解码器可以泛化到多个任务。我们建立了一个可靠的基准来评估 LL-ICM，其中包括使用全参考和无参考图像质量评估进行的广泛客观实验。实验结果表明，LL-ICM 比最先进的方法可以实现 22.65% 的 BD 率降低。|
- Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
- CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs
- SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection
- GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks - ai-alliance/geo-bench-vlm)**|虽然最近有许多基准测试专注于评估通用的视觉语言模型 (VLM)，但它们未能满足地理空间应用的独特需求。通用的 VLM 基准测试并非设计用于处理地理空间数据的复杂性，而这对于环境监测、城市规划和灾害管理等应用至关重要。地理空间领域的一些独特挑战包括变化的时间分析、大量目标计数、微小目标检测以及理解遥感影像中实体之间的关系。为了弥补地理空间领域的这一差距，我们提出了 GEOBench-VLM，这是一个专门设计用于评估 VLM 在地理空间任务上的综合基准测试，包括场景理解、目标计数、定位、细粒度分类和时间分析。我们的基准测试包含超过 10,000 条手动验证的指令，涵盖了视觉条件、目标类型和规模的各种变化。我们评估了几个最先进的 VLM，以评估它们在地理空间环境中的准确性。结果表明，尽管现有的 VLM 具有潜力，但在处理地理空间特定示例时仍面临挑战，这凸显了进一步改进的空间。具体而言，表现最好的 GPT4o 在多项选择题上的准确率仅为 40%，仅为随机猜测性能的两倍。我们的基准测试公开发布于 https://github.com/The-AI-Alliance/GEO-Bench-VLM。|
- GRAPE: Generalizing Robot Policy via Preference Alignment - 语言-动作（VLA）模型在各种机器人任务中取得了最新进展，但由于它们完全依赖于从成功部署中进行行为克隆，因此存在一些关键问题，例如对未见任务的泛化能力差。此外，它们通常经过微调以复制专家在不同设置下收集的演示，从而引入了分布偏差，并限制了它们对不同操作目标（例如效率、安全性和任务完成）的适应性。为了弥合这一差距，我们引入了GRAPE：通过偏好对齐泛化机器人策略。具体来说，GRAPE在轨迹级别上对齐VLA，并隐式地对成功和失败试验的奖励进行建模，以提高对不同任务的泛化能力。此外，GRAPE将复杂的操作任务分解为独立的阶段，并通过大型视觉语言模型提出的关键点的定制时空约束，自动引导偏好建模。值得注意的是，这些约束是灵活的，可以定制以使模型与不同的目标对齐，例如安全性、效率或任务成功。我们在现实世界和模拟环境中的各种任务中评估了GRAPE。实验结果表明，GRAPE增强了最先进的VLA模型的性能，将域内和未见操作任务的成功率分别提高了51.79%和60.36%。此外，GRAPE可以与各种目标对齐，例如安全性和效率，分别将碰撞率降低了44.31%，并将部署步长缩短了11.15%。所有代码、模型和数据均可在https://grape-vla.github.io/获取。|
- BYE: Build Your Encoder with One Sequence of Exploration Data for Long-Term Dynamic Scene Understanding
- Initial Study On Improving Segmentation By Combining Preoperative CT And Intraoperative CBCT Using Synthetic Data - Assisted Interventions）使临床医生能够执行精确的微创手术，通常依赖于先进的成像方法。锥形束计算机断层扫描（CBCT）可用于辅助计算机辅助介入，尽管它经常受到伪影的影响，给准确解释带来了挑战。虽然图像质量下降会影响图像分析，但高质量的术前扫描的可用性提供了改进的潜力。我们在此考虑一种术前CT和术中CBCT扫描均可用的情况，然而，扫描之间的对齐（配准）并不完美，以模拟真实场景。我们提出了一种多模态学习方法，融合粗略对齐的CBCT和CT扫描，并研究其对分割性能的影响。在本实验中，我们使用包含真实CT和合成CBCT体积以及相应体素标注的合成生成数据。结果表明，在20个研究设置中，有18个设置的分割性能得到了改进。|
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy - OCR，这是一个包含各种场景、任务和挑战的综合基准。CC-OCR 包含四个以 OCR 为中心的赛道：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。它包含 39 个子集，共 7,058 张完整标注的图像，其中 41% 来自实际应用，首次发布。此外，我们评估了九个著名的 LMMs，并揭示了这些模型的优势和劣势，特别是在文本定位、多方向和重复幻觉方面。CC-OCR 旨在全面评估 LMMs 在以 OCR 为中心的各项任务上的能力，从而推动 LMMs 的发展。|
- LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models
- VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding - 语言任务中展现了良好的泛化性能，无需微调，但将 ICL 应用于视频-语言任务面临挑战，因为视频 LMM 的上下文长度有限，而视频需要更长的标记长度。为了解决这些问题，我们提出了 VideoICL，一个用于 OOD 任务的新型视频上下文学习框架，它引入了基于相似度的相关示例选择策略和基于置信度的迭代推理方法。这允许选择最相关的示例并根据相似度对其进行排序，用于推理。如果生成的响应置信度低，我们的框架会选择新的示例并再次执行推理，迭代地改进结果，直到获得高置信度的响应。这种方法通过扩展有效上下文长度来提高 OOD 视频理解性能，而不会产生高昂的成本。在多个基准测试上的实验结果表明，该方法取得了显著的性能提升，尤其是在特定领域场景下，为更广泛的视频理解应用奠定了基础。代码将发布在 https://github.com/KangsanKim07/VideoICL|
- VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning
- X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models - prompt)**|上下文生成是大型语言模型 (LLM) 开放任务泛化能力的关键组成部分。通过利用少量示例作为上下文，LLM 可以执行域内和域外任务。建立在 LLM 之上的自回归视觉语言模型 (VLM) 的最新进展在文本到图像生成方面展现了令人印象深刻的性能。然而，上下文学习在一般图像生成任务中的潜力很大程度上仍未得到探索。为了解决这个问题，我们引入了 X-Prompt，这是一个纯自回归的大型视觉语言模型，旨在在统一的上下文学习框架内，在各种已见和未见图像生成任务中提供具有竞争力的性能。X-Prompt 采用了一种专门的设计，可以有效地压缩上下文示例中的宝贵特征，支持更长的上下文标记序列，并提高其泛化到未见任务的能力。用于文本和图像预测的统一训练任务使 X-Prompt 能够处理一般的图像生成，并通过上下文示例增强任务感知能力。大量实验验证了该模型在各种已见图像生成任务中的性能及其泛化到先前未见任务的能力。|
- SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition - GNN)。SDR-GNN 基于说话者和上下文关系，使用滑动窗口构建语句语义交互图，以建模情感依赖关系。为了捕获高阶和高频信息，SDR-GNN 利用加权关系聚合，确保跨语句一致的语义特征提取。此外，它在谱域中进行多频聚合，通过提取高频和低频信息，能够有效地恢复不完整的模态。最后，应用多头注意力机制来融合和优化用于情感识别的特征。在各种真实世界数据集上的大量实验表明，我们的方法在不完整多模态学习中是有效的，并且优于当前最先进的方法。|
- SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks - dkfz/sure-vqa)**|视觉语言模型 (VLM) 在医学任务中具有巨大潜力，例如视觉问答 (VQA)，它们可以作为患者和临床医生的交互助手。然而，它们对未见数据分布变化的鲁棒性仍然是安全部署的关键问题。评估这种鲁棒性需要一个受控的实验设置，以便系统地了解模型的行为。然而，我们证明了目前的设置无法提供足够彻底的评估，限制了它们准确评估模型鲁棒性的能力。为了弥补这一差距，我们的工作引入了一个名为 SURE-VQA 的新框架，该框架围绕三个关键要求构建，以克服当前的缺陷并系统地分析 VLM 的鲁棒性：1) 由于合成偏移的鲁棒性不一定转化为现实世界的偏移，因此鲁棒性应该在 VQA 数据固有的现实世界偏移上进行测量；2) 传统的标记匹配指标通常无法捕捉潜在的语义，因此需要使用大型语言模型 (LLM) 进行更准确的语义评估；3) 由于缺少健全性基线，模型性能通常缺乏可解释性，因此应报告有意义的基线，以便评估多模态对 VLM 的影响。为了证明该框架的相关性，我们对三种医学数据集上的各种微调方法在四种不同类型的分布偏移下的鲁棒性进行了研究。我们的研究揭示了几个重要发现：1) 不使用图像数据的健全性基线可以表现得 surprisingly well；2) 我们确认 LoRA 是表现最佳的 PEFT 方法；3) 没有一种 PEFT 方法在应对偏移的鲁棒性方面始终优于其他方法。代码位于 https://github.com/IML-DKFZ/sure-vqa。|
- CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation - 语言-动作（VLA）模型的进步显著提高了机器人操作在语言引导任务执行和泛化到未见场景方面的能力。虽然现有的由预训练大型视觉-语言模型（VLM）改进而来的VLA已经展现出良好的泛化性，但它们的性能仍然不尽如人意，不同环境下的低任务成功率就证明了这一点。在本文中，我们提出了一种源自VLM的新型高级VLA架构。与先前直接通过简单的动作量化将VLM用于动作预测的工作不同，我们提出了一个组件化的VLA架构，它包含一个专门的动作模块，并以VLM输出为条件。我们系统地研究了动作模块的设计，并展示了使用扩散动作Transformer进行动作序列建模的强大性能提升及其良好的扩展性。我们还进行了全面的实验和消融研究，以评估我们模型在不同设计下的有效性。在模拟和真实世界中对5种机器人实体的评估表明，我们的模型不仅在任务性能上显著优于现有的VLA，而且对新机器人表现出卓越的适应性，并能泛化到未见过的物体和背景。在模拟评估中，它的平均成功率比模型规模（7B）相似的OpenVLA高出35%以上，在真实机器人实验中高出55%以上。它还比大型RT-2-X模型（55B）在模拟中的绝对成功率高出18%。代码和模型可以在我们的项目页面 (https://cogact.github.io/) 上找到。|
- Interleaved-Modal Chain-of-Thought
- Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
- Embodied Red Teaming for Auditing Robotic Foundation Models
- VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models - 英语视觉语言模型 (VLM)，VARCO-VISION。我们采用了一种逐步训练策略，使模型能够学习语言和视觉信息，同时保留骨干模型的知识。与类似规模的模型相比，我们的模型在需要双语图像文本理解和生成能力的各种设置中展现出优异的性能。VARCO-VISION 还具备图像定位、指称和光学字符识别 (OCR) 功能，扩展了其在实际场景中的用途和潜在应用。除了模型之外，我们还发布了五个韩语评估数据集，包括四个闭集和一个开集基准测试。我们预计，我们的里程碑将为致力于训练 VLM 的人工智能研究人员拓宽机会。VARCO-VISION 可在 https://huggingface.co/NCSOFT/VARCO-VISION-14B 获取。|
- Evaluating Vision-Language Models as Evaluators in Path Planning
- Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning
- GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing - oryx/geopixel)**|大型多模态模型（LMM）的最新进展已经认识到细粒度基础是视觉理解和对话的必要因素。然而，这种表示在LMM中的优势仅限于自然图像领域，而这些模型在遥感（RS）方面的表现不佳。高分辨率遥感影像中独特的俯视视角、尺度变化以及小目标的存在对区域级理解提出了独特的挑战。此外，由于缺乏细粒度的、特定于遥感领域的基础数据，LMM在遥感领域内基础对话能力的发展受到阻碍。为了解决这些限制，我们提出了GeoPixel——第一个支持像素级基础的端到端高分辨率遥感LMM。这种能力允许通过在对话中生成交错掩码来进行细粒度的视觉感知。GeoPixel支持高达4K高清分辨率的任意纵横比图像，非常适合高精度遥感图像分析。为了支持遥感影像中的基础对话生成（GCG），我们通过一个半自动化的流程构建了一个视觉基础数据集GeoPixelD，该流程利用了针对遥感数据定制的标记集提示和空间先验，以有条不紊地控制数据生成过程。GeoPixel在像素级理解方面表现出优异的性能，在单目标和多目标分割任务中均超过了现有的LMM。我们的方法消融研究验证了整体架构中每个组件的有效性。我们的代码和数据将公开发布。|
- Privacy-Preserving Personalized Federated Prompt Learning for Multimodal Large Language Models - FPL) 方法来应对这一挑战，该方法利用低秩自适应方案来捕捉泛化性，同时保留一个残差项来保持个性化的表达能力。为了确保隐私，我们引入了一种新方法，将局部差分隐私应用于局部提示的两个低秩组件，并将全局差分隐私应用于全局提示。我们的方法减轻了隐私噪声对模型性能的影响，同时平衡了个性化和泛化性之间的权衡。大量实验表明，我们的方法比其他基准方法更有效。|
- Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning - COCO，这是第一个旨在推进细粒度视觉理解的全景像素级字幕数据集。为了实现这一目标，我们精心设计了一个自动标注流程，该流程提示GPT-4V为图像中的单个对象生成像素对齐的、特定于实例的字幕，使模型能够学习对象与其上下文之间更细粒度的关系。这种方法生成了167,254个详细的字幕，平均每个字幕包含22.94个单词。基于Pix2Cap-COCO，我们引入了一项新的任务，即全景分割字幕，该任务要求模型识别图像中的实例并同时为每个实例提供详细的描述。为了对这项任务进行基准测试，我们设计了一个基于X-Decoder的鲁棒基线。实验结果表明，Pix2Cap-COCO是一个极具挑战性的数据集，因为它要求模型在细粒度视觉理解和详细的语言生成方面都表现出色。此外，我们利用Pix2Cap-COCO对大型多模态模型（LMM）进行监督微调（SFT）以增强其性能。例如，使用Pix2Cap-COCO进行训练显著提高了GPT4RoI的性能，在Visual Genome数据集上CIDEr提高了1.4%，ROUGE提高了0.4%，SPICE提高了0.5%，并增强了其在ViP-BENCH上的区域理解能力，整体提高了5.1%，其中识别准确率显著提高了11.2%，语言生成质量提高了22.2%。|
- Large Vision-Language Models for Knowledge-Grounded Data Annotation of Memes - 50-templates (CM50)，这是一个包含超过33,000个模因的大规模数据集，以50个流行的模因模板为中心。我们还提出了一个利用大型视觉语言模型的自动知识基础标注流程，以生成高质量的图像标题、模因标题和修辞手法标签，克服了手动标注的劳动密集型需求。此外，我们提出了一个模因文本检索CLIP模型(mtrCLIP)，它利用跨模态嵌入来增强模因分析，显著提高了检索性能。我们的贡献包括：(1) 一个用于大规模模因研究的新型数据集，(2) 一个可扩展的模因标注框架，以及(3) 一个用于模因文本检索的微调CLIP模型，所有这些都旨在推进对模因的大规模理解和分析。|
- Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos - MMMU，这是一个多模态、多学科的基准测试，旨在评估 LMM 从视频中获取和利用知识的能力。Video-MMMU 包含 300 个专家级视频和 900 个跨六个学科的人工标注问题，通过与阶段对齐的问答对（感知、理解和应用）来评估知识获取。提出的知识增益指标 Δknowledge 量化了观看视频后的性能提升。对 LMM 的评估表明，随着认知需求的增加，其性能急剧下降，并突出了人类和模型知识获取之间的显著差距，强调需要改进 LMM 从视频中学习和适应的能力的方法。|
- Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak
- Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task - 4o 和 Gemini 在内的最先进模型不仅超越了人类基准，而且在结构化推理任务中表现出色，其中成分分析尤其有效。然而，消融研究揭示了关键挑战，例如处理合成图像、进行细粒度区分以及解释细微的上下文信息。这些见解强调了进一步提高模型鲁棒性和泛化能力的必要性，同时也突出了结构化推理方法在增强 VLM 能力方面的变革潜力。|
- Text-driven Online Action Detection - 图像预训练）文本嵌入，从而能够高效地使用VLM，而不会产生显著的计算开销。我们的模型在THUMOS14数据集上实现了82.46%的mAP，优于现有方法，并在THUMOS14和TVSeries数据集上为零样本和小样本性能设定了新的基准。|
- Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge - LLM 的发展，通过桥接视频数据和语言任务推进了多模态学习。然而，目前的视频理解模型难以处理长视频序列、支持多轮对话以及适应现实世界的动态场景。为了解决这些问题，我们提出了 StreamChat，一个用于流式视频推理和对话交互的免训练框架。StreamChat 利用一种新颖的分层记忆系统来高效地处理和压缩扩展序列中的视频特征，从而实现实时多轮对话。我们的框架结合了并行系统调度策略，提高了处理速度并减少了延迟，确保了在实际应用中的稳健性能。此外，我们引入了 StreamBench，这是一个多功能基准测试，用于评估跨各种媒体类型和交互场景（包括多轮交互和复杂推理任务）的流式视频理解。在 StreamBench 和其他公共基准测试上的大量评估表明，StreamChat 在准确性和响应时间方面显著优于现有的最先进模型，证实了其在流式视频理解方面的有效性。代码可在 StreamChat 获取：https://github.com/hmxiong/StreamChat。|
- InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model - xcomposer)**|尽管大型视觉语言模型（LVLMs）在视觉理解方面表现出色，但它们偶尔会生成错误的输出。虽然使用强化学习或测试时缩放的奖励模型（RMs）提供了改进生成质量的潜力，但仍然存在一个关键差距：公开可用的LVLMs多模态RMs很少，且专有模型的实现细节通常不清楚。我们通过InternLM-XComposer2.5-Reward (IXC-2.5-Reward)弥合了这一差距，这是一个简单而有效的多模态奖励模型，使LVLMs与人类偏好保持一致。为了确保IXC-2.5-Reward的鲁棒性和通用性，我们建立了一个高质量的多模态偏好语料库，涵盖了跨不同领域的文本、图像和视频输入，例如指令遵循、常识理解、富文本文档、数学推理和视频理解。IXC-2.5-Reward在最新的多模态奖励模型基准测试中取得了优异的成绩，并在纯文本奖励模型基准测试中展现了竞争力。我们进一步展示了IXC-2.5-Reward的三个关键应用：（1）为强化学习训练提供监督信号。我们将IXC-2.5-Reward与近端策略优化（PPO）集成，产生了IXC-2.5-Chat，这在指令遵循和多模态开放式对话方面显示出一致的改进；（2）从候选响应中选择最佳响应以进行测试时缩放；（3）从现有的图像和视频指令微调训练数据中过滤异常值或噪声样本。为了确保可重现性并促进进一步研究，我们已在https://github.com/InternLM/InternLM-XComposer开源所有模型权重和训练方法。|
- Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2 - B16）和SWIN转换器作为图像编码器，并使用BART和GPT-2模型作为文本解码器。我们使用来自IU-Xray数据集的胸部X光图像和报告来评估SWIN Transformer-BART、SWIN Transformer-GPT-2、ViT-B16-BART和ViT-B16-GPT-2模型在报告生成方面的可用性，旨在找到这些模型中的最佳组合。SWIN-BART模型在四种模型中表现最佳，在几乎所有评估指标（如ROUGE、BLEU和BERTScore）上都取得了显著成果。|
- CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification
- Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks - Agent-E，这是一个能够通过过去经验进行自我演化的分层多代理框架。所谓分层，是指将高层规划和低层动作执行明确分开。该框架包含一个管理器，负责通过将复杂任务分解为子目标来制定总体计划，以及四个下属代理——感知器、操作器、动作反射器和记录器——分别处理细粒度的视觉感知、即时动作执行、错误验证和信息聚合。Mobile-Agent-E还具有一个新颖的自我进化模块，该模块维护一个包含技巧和快捷方式的持久长期记忆。技巧是从先前任务中学习到的关于如何有效地与环境交互的通用指导和经验教训。快捷方式是针对特定子例程的可重用、可执行的原子操作序列。技巧和快捷方式的加入促进了性能和效率的持续改进。除了这个框架，我们还引入了Mobile-Eval-E，这是一个新的基准测试，包含需要长期、多应用交互的复杂移动任务。实证结果表明，Mobile-Agent-E在三个基础模型主干上比之前的最先进方法实现了22%的绝对改进。项目页面：https://x-plug.github.io/MobileAgent.|
- SimLabel: Consistency-Guided OOD Detection with Pretrained Vision-Language Models - 1/simlabel)**|在现实世界的机器学习应用中，尤其是在安全关键领域，检测分布外 (OOD) 数据至关重要。现有方法通常利用来自视觉语言模型 (VLM) 的语言信息，通过丰富的类别文本信息改进置信度估计，从而增强 OOD 检测。然而，在基于分布内 (ID) 文本图像关联构建 OOD 检测分数时，现有工作要么关注每个 ID 类别，要么关注整个 ID 标签集，忽略了 ID 类别之间固有的联系。我们发现，不同 ID 类别之间的语义信息有利于有效的 OOD 检测。因此，我们研究了 VLM 中不同语义相关 ID 标签之间的图像文本理解能力，并提出了一种名为 SimLabel 的新型后处理策略。SimLabel 通过建立一个更鲁棒的图像类别相似性度量来增强 ID 和 OOD 样本的可分离性，该度量考虑了一组相似类别标签的一致性。大量实验表明，SimLabel 在各种零样本 OOD 检测基准测试中表现出色。所提出的模型还扩展到了各种 VLM 骨干网络，展现了其良好的泛化能力。我们的演示和实现代码可在以下网址获取：https://github.com/ShuZou-1/SimLabel。|
- ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction
- Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding
- HiMix: Reducing Computational Complexity in Large Vision-Language Models
- FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization - iva-lab/filo)**|异常检测方法通常需要大量的目标类别正常样本进行训练，这限制了它们在需要快速适应的场景（例如冷启动）中的适用性。零样本和少样本异常检测不需要预先提供目标类别的标记样本，使其成为一个有前景的研究方向。现有的零样本和少样本方法通常利用强大的多模态模型，通过比较图像-文本相似性来检测和定位异常。然而，它们手工制作的通用描述无法捕捉不同对象中可能出现的各种异常，并且简单的图像-文本块级匹配通常难以定位形状和大小各异的异常区域。为了解决这些问题，本文提出了FiLo++方法，它包含两个关键组件。第一个组件，融合细粒度描述（FusDes），利用大型语言模型为每个对象类别生成异常描述，结合了固定和可学习的提示模板，并应用了运行时提示过滤方法，从而生成更准确、更具任务特异性的文本描述。第二个组件，可变形定位（DefLoc），集成了视觉基础模型Grounding DINO和位置增强文本描述以及多尺度可变形跨模态交互（MDCI）模块，能够准确定位各种形状和大小的异常。此外，我们设计了一种位置增强型图像块匹配方法，以提高少样本异常检测性能。在多个数据集上的实验表明，FiLo++与现有方法相比实现了显著的性能提升。代码将在https://github.com/CASIA-IVA-Lab/FiLo上提供。|
- Mitigating Hallucinations on Object Attributes using Multiview Images and Negative Instructions
- MVTamperBench: Evaluating Robustness of Vision-Language Models - 8B 等模型实现了高性能，而 Llama-VILA1.5-8B 等其他模型则表现出严重的漏洞。为了促进更广泛的采用和可重复性，MVTamperBench 被集成到 VLMEvalKit 中，这是一个模块化评估工具包，可实现简化的测试并促进模型鲁棒性的进步。我们的基准代表了朝着开发防篡改 VLM 的关键一步，确保了它们在现实世界场景中的可靠性。项目页面：https://amitbcp.github.io/MVTamperBench/|
- OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis - Genesis，一种新颖的 GUI 数据合成流程，它颠覆了传统的轨迹收集过程。OS-Genesis 不是依赖预定义的任务，而是使代理首先感知环境并执行逐步交互，然后回顾性地导出高质量的任务以实现轨迹级探索。然后采用轨迹奖励模型来确保生成的轨迹的质量。我们证明，使用 OS-Genesis 训练 GUI 代理可以显著提高它们在极具挑战性的在线基准测试中的性能。深入分析进一步验证了 OS-Genesis 的效率及其相比现有合成方法更高的数据质量和多样性。我们的代码、数据和检查点可在\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis 主页}获取。|
- From Elements to Design: A Layered Approach for Automatic Graphic Design Composition
- Is Your Text-to-Image Model Robust to Caption Noise?
- Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
- CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models
- Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching - 文本匹配任务作为连接视觉和语言的桥梁，变得越来越重要。基于现有研究，本研究提出了一种创新的视觉语义嵌入模型，名为多头一致性感知视觉语义嵌入模型（MH-CVSE）。该模型在一致性感知视觉语义嵌入模型（CVSE）的基础上引入了多头自注意力机制，从而能够并行地捕获多个子空间中的信息，显著增强了模型理解和表示图像与文本之间复杂关系的能力。此外，我们采用了一种参数化的特征融合策略，灵活地整合不同层级的特征信息，进一步提升了模型的表达能力。在损失函数设计方面，MH-CVSE模型采用了动态权重调整策略，根据损失值本身动态调整权重，使模型在训练过程中能够更好地平衡不同损失项的贡献。同时，我们引入了余弦退火学习率策略，帮助模型在训练后期更稳定地收敛。在Flickr30k数据集上的大量实验验证表明，MH-CVSE模型在双向图像和文本检索任务中均取得了比现有方法更好的性能，充分证明了其有效性和优越性。|
- MoPD: Mixture-of-Prompts Distillation for Vision-Language Models
- Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation - SGG）通过将视觉关系表示与开放词汇文本表示对齐来克服封闭集合假设的局限性。这使得能够识别新的视觉关系，使其适用于具有多样化关系的现实场景。然而，现有的OV-SGG方法受到固定文本表示的限制，限制了图像-文本对齐的多样性和准确性。为了应对这些挑战，我们提出了关系感知分层提示（RAHP）框架，该框架通过整合主语-宾语和特定区域的关系信息来增强文本表示。我们的方法利用实体聚类来解决关系三元组类别的复杂性，从而能够有效地整合主语-宾语信息。此外，我们利用大型语言模型（LLM）生成详细的区域感知提示，捕捉细粒度的视觉交互，并改进视觉和文本模态之间的对齐。RAHP还在视觉语言模型（VLM）中引入了动态选择机制，该机制根据视觉内容自适应地选择相关的文本提示，从而减少来自无关提示的噪声。在Visual Genome和Open Images v6数据集上的大量实验表明，我们的框架始终 achieves state-of-the-art 的性能，证明了其在解决开放词汇场景图生成挑战方面的有效性。|
- TAB: Transformer Attention Bottlenecks enable User Intervention and Debugging in Vision-Language Models
- MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning - CH/auto-mixer)**|选择合适的深度学习架构来进行多模态数据融合是一项具有挑战性的任务，因为它需要有效地整合和处理具有不同结构和特征的各种数据类型。在本文中，我们介绍了 MixMAS，这是一个基于采样的混合器架构搜索框架，专为多模态学习而定制。我们的方法可以针对给定的多模态机器学习 (MML) 任务自动选择最佳的基于 MLP 的架构。具体来说，MixMAS 利用基于采样的微基准测试策略来探索各种模态特定编码器、融合函数和融合网络的组合，系统地识别最符合任务性能指标的架构。||
- HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation - 语言模型（Med-LVLM），它在统一的自回归范式中集成了医学视觉理解和生成能力。我们的自举理念是将异构的理解和生成知识逐步适应于预训练的大型语言模型（LLM）。这是通过一种新颖的异构低秩适应（H-LoRA）技术实现的，该技术辅以定制的分层视觉感知方法和三阶段学习策略。为了有效地训练HealthGPT，我们设计了一个全面的医学领域特定理解和生成数据集，称为VL-Health。实验结果证明了HealthGPT在医学视觉统一任务中的卓越性能和可扩展性。我们的项目可以通过https://github.com/DCDmllm/HealthGPT访问。|
- Probing Perceptual Constancy in Large Vision Language Models
- VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models - 100K，这是一个从交错图文网页文档中派生出来的新颖数据集。我们的方法将 OBELICS 数据集中的 4.5 万个网页文档转换为 10 万个图像对话样本。我们利用 GPT-4V 生成图像上下文描述，并使用 OpenChat 3.5 模型将这些描述转换为多样化的自由形式和多项选择问答对。整合该数据集进行微调，可以显著提高 VLM 在多个基准测试中的性能。与仅关注细粒度视觉内容的方法不同，我们的方法利用伴随的网页上下文，从而产生更优异的结果。我们还发现，“泄漏模态混合”（即对话样本包含可以从图像及其上下文描述中回答的问题）的性能优于非泄漏的描述和问答对组合。VisCon-100k 数据集在两种流行的 VLM 方法中表现出强大的性能：使用图像描述数据将纯文本大型语言模型 (LLM) 与视觉编码器对齐 (ShareGPT4V-7b)，以及使用交错图文数据进行多模态预训练的 LLM (IDEFICS2-8b)。除了发布 VisCon-100K 数据集外，我们还提供了一个在该数据集上训练的上下文描述生成器，以便于为未来的研究和开源应用生成可扩展的微调数据。使用相同的流程，但用我们训练的上下文描述生成器替代 GPT-4V，我们还发布了更大的 VisCon-1M 数据集。|
- Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
- Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation - Language-Action models (VLA) have advanced robot imitation learning, but high data collection costs and limited demonstrations hinder generalization and current imitation learning methods struggle in out-of-distribution scenarios, especially for long-horizon tasks. A key challenge is how to mitigate compounding errors in imitation learning, which lead to cascading failures over extended trajectories. To address these challenges, we propose the Diffusion Trajectory-guided Policy (DTP) framework, which generates 2D trajectories through a diffusion model to guide policy learning for long-horizon tasks. By leveraging task-relevant trajectories, DTP provides trajectory-level guidance to reduce error accumulation. Our two-stage approach first trains a generative vision-language model to create diffusion-based trajectories, then refines the imitation policy using them. Experiments on the CALVIN benchmark show that DTP outperforms state-of-the-art baselines by 25% in success rate, starting from scratch without external pretraining. Moreover, DTP significantly improves real-world robot performance.|
- Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting
- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency - CoT，这是一个专门用于评估LMM的CoT推理性能的基准测试，涵盖六个领域：数学、科学、光学字符识别（OCR）、逻辑、时空和一般场景。作为该领域的首次综合研究，我们提出了一个全面的评估套件，其中包含三个新颖的指标，用于在细粒度级别评估推理质量、鲁棒性和效率。利用精心策划的高质量数据和独特的评估策略，我们对最先进的LMM进行了深入分析，揭示了几个关键见解：1）具有反思机制的模型表现出更优的CoT质量，其中Kimi k1.5的性能优于GPT-4o，并展现出最高的质量结果；2）CoT提示通常会降低LMM在感知密集型任务上的性能，这表明存在潜在的有害过度思考行为；3）尽管CoT质量很高，但具有反思机制的LMM在正常响应和自我校正阶段都表现出显著的低效率。我们希望MME-CoT能够成为推进LMM多模态推理的基础。项目页面：https://mmecot.github.io/|
- GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis - AI-Lab/GAIA)**|地球轨道卫星的持续运行产生了庞大且不断增长的遥感 (RS) 图像档案。自然语言为访问、查询和解释此类档案中的数据提供了一个直观的界面。然而，现有的视觉语言模型 (VLM) 主要是在网络抓取的嘈杂图像文本数据上进行训练的，对遥感专业领域的接触有限。这种缺陷导致在特定遥感任务上的性能不佳，因为常用的数据集通常缺乏详细的、科学准确的文本描述，而只强调日期和位置等属性。为了弥合这一关键差距，我们引入了 GAIA，这是一个专为多尺度、多传感器和多模态遥感图像分析而设计的新颖数据集。GAIA 包含 205,150 个精心策划的遥感图像文本对，代表了与不同空间分辨率相关的各种遥感模式。与现有的遥感视觉语言数据集不同，GAIA 特别关注捕获各种遥感应用，提供有关环境变化、自然灾害和各种其他动态现象的独特信息。该数据集提供了空间和时间上的平衡分布，涵盖全球范围，涵盖过去 25 年，并具有均衡的观测时间分布。GAIA 的构建涉及一个两阶段过程：(1) 从信誉良好的遥感相关来源定向抓取图像和 accompanying 文本，以及 (2) 使用精心设计的提示，利用 GPT-4o 先进的视觉语言能力，为每个图像生成五个高质量、具有科学依据的合成描述。我们广泛的实验，包括对 CLIP 和 BLIP2 模型进行微调，表明 GAIA 显着提高了遥感图像分类、跨模态检索和图像描述任务的性能。|
- When and How Does CLIP Enable Domain and Compositional Generalization?
- PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models
- Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model - gu/vision-language-in-context-learning-driven-few-shot-visual-inspection-model)**|我们提出了一种通用的视觉检测模型，利用视觉-语言模型（VLM）结合少量无缺陷或缺陷产品的示例图像以及作为检测标准的解释性文本。尽管现有的VLM在各种任务中表现出很高的性能，但它们并没有针对视觉检测等特定任务进行训练。因此，我们构建了一个数据集，其中包含从网络收集的各种无缺陷和缺陷产品的图像，以及统一格式的输出文本，并对VLM进行了微调。对于新产品，我们的方法采用上下文学习（In-Context Learning），允许模型通过无缺陷或缺陷图像示例以及相应的带有视觉提示的解释性文本来执行检测。这种方法无需为每个产品收集大量训练样本并重新训练模型。实验结果表明，我们的方法在MVTec AD数据集上以单次学习（one-shot）的方式实现了高性能，MCC达到0.804，F1分数达到0.950。我们的代码可在https://github.com/ia-gu/Vision-Language-In-Context-Learning-Driven-Few-Shot-Visual-Inspection-Model获取。|
- ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots
- What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification - 文本对进行预训练引入了语言先验。然而，以前的文本提示缺乏对病理先验知识的考虑，因此没有实质性地提高模型的性能。此外，收集此类图像-文本对和预训练过程非常耗时且资源密集。为了解决上述问题，我们提出了一种用于全幻灯片图像分类的双尺度视觉语言多示例学习（ViLa-MIL）框架。具体来说，我们提出了一种基于冻结大型语言模型（LLM）的双尺度视觉描述性文本提示，以有效提升VLM的性能。为了有效地将VLM迁移到WSI处理中，对于图像分支，我们提出了一个原型引导的补丁解码器，通过将相似的补丁分组到相同的原型中来逐步聚合补丁特征；对于文本分支，我们引入了一个上下文引导的文本解码器，通过结合多粒度图像上下文来增强文本特征。在三个多癌种和多中心的亚型数据集上的大量研究证明了ViLa-MIL的优越性。||
- UniCoRN: Unified Commented Retrieval Network with LMMs
- LLaVA-o1: Let Vision Language Models Reason Step-by-Step - o1，一个旨在进行自主多阶段推理的新型VLM。与思维链提示不同，LLaVA-o1独立地进行摘要、视觉解释、逻辑推理和结论生成等连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度显著提高。为此，我们编译了LLaVA-o1-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化的推理标注。此外，我们提出了一种推理时阶段级集束搜索方法，实现了有效的推理时规模扩展。值得注意的是，仅使用10万个训练样本和一个简单而有效的推理时规模扩展方法，LLaVA-o1不仅在各种多模态推理基准测试中比其基础模型的性能提高了8.9%，而且还超过了更大甚至闭源模型的性能，例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。|
- Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement - 特征干扰模块，利用校准后的特征和概念锚之间的相似性，进一步生成具有辨别力的任务特定特征。在公共WSI数据集上的大量实验表明，CATE显着提高了MIL模型的性能和泛化能力。此外，热力图和umap可视化结果也揭示了CATE的有效性和可解释性。源代码可在https://github.com/HKU-MedAI/CATE获取。|
- Cross-Modal Consistency in Multimodal Large Language Models - 4V这样将计算机视觉与高级语言处理相结合的模型，在处理需要同时理解文本和视觉信息的复杂任务方面表现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型（VLLM）在各种领域（包括目标检测、图像描述和其他相关领域）的有效性。然而，现有的分析往往存在局限性，主要集中在孤立地评估每种模态的性能，而忽略了探索它们复杂的跨模态交互。具体来说，这些模型在面对不同模态的相同任务实例时是否达到相同的准确度水平的问题仍然没有答案。在本研究中，我们主动通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣的模态之间的交互和比较。此外，我们提出了一个基于此概念的定量评估框架。我们从自己开发的一系列精选的平行视觉语言数据集中得出的实验结果表明，尽管GPT-4V被描述为一个统一的多模态模型，但其视觉和语言模态之间存在明显的不一致性。我们的研究揭示了此类模型的适当使用方法，并暗示了改进其设计的潜在途径。|
- ClevrSkills: Compositional Language and Visual Reasoning in Robotics
- SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning - 100w 和 SEAGULL-3k，用于训练和评估基于 ROI 的 IQA。SEAGULL-100w 包含约 100 万张合成失真图像和 3300 万个 ROI，用于预训练以提高模型的区域质量感知能力，而 SEAGULL-3k 包含约 3000 个真实失真 ROI，以增强模型感知真实世界失真的能力。在 SEAGULL-100w 上进行预训练并在 SEAGULL-3k 上进行微调后，SEAGULL 在细粒度 ROI 质量评估方面展现出卓越的性能。代码和数据集已在 https://github.com/chencn2020/Seagull 公开发布。|
- Federated Domain Generalization via Prompt Learning and Aggregation
- DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models - LLM（基于依赖感知的多机器人任务分解和执行系统），旨在应对这些挑战。DART-LLM 利用 LLM 解析自然语言指令，将其分解为多个具有依赖关系的子任务，以建立复杂的任务序列，从而增强多机器人系统中的高效协调和并行执行。该系统包含问答LLM模块、分解函数模块、执行模块和基于视觉语言模型 (VLM) 的目标检测模块，支持将自然语言指令转换为机器人动作的任务分解和执行。实验结果表明，DART-LLM 擅长处理长周期任务和具有复杂依赖关系的协作任务。即使使用较小的模型（如 Llama 3.1 8B），该系统也能取得良好的性能，突出了 DART-LLM 在模型规模方面的鲁棒性。更多视频和代码，请访问项目网站：https://wyd0817.github.io/project-dart-llm/。|
- The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
- Sharingan: Extract User Action Sequence from Desktop Recordings
- Voxeland: Probabilistic Instance-Aware Semantic Mapping with Evidence-based Uncertainty Quantification
- Retrieval Augmented Recipe Generation
- Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models - LJc/UMFC获取。||
- DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection - ood-detection)**|分布外 (OOD) 检测对于通过识别偏离训练分布的样本从而确保机器学习模型的鲁棒性至关重要。虽然传统的 OOD 检测主要关注单模态输入（例如图像），但多模态模型的最新进展已经证明了利用多模态（例如视频、光流、音频）来增强检测性能的潜力。然而，现有方法通常忽略分布内 (ID) 数据中的类内差异，假设同一类的样本完全一致且没有变化。这种假设会导致性能下降，尤其当预测差异在所有样本中被均匀放大时。为了解决这个问题，我们提出了动态原型更新 (DPU)，这是一个用于多模态 OOD 检测的即插即用框架，它考虑了类内变化。我们的方法通过测量每个批次中相似样本的方差来动态更新每个类的中心表示，从而实现自适应调整。这种方法允许我们根据更新的类中心放大预测差异，从而提高模型在不同模态下的鲁棒性和泛化能力。在两个任务、五个数据集和九个基础 OOD 算法上的大量实验表明，DPU 显着提高了 OOD 检测性能，在多模态 OOD 检测中树立了新的最先进水平，在远距离 OOD 检测中的改进高达 80%。为了促进可访问性和可重复性，我们的代码已在 GitHub 上公开发布。||
- JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation - ai/janus)**|我们提出了JanusFlow，这是一个强大的框架，它在单个模型中统一了图像理解和生成。JanusFlow引入了一个极简的架构，它将自回归语言模型与校正流（一种最先进的生成建模方法）集成在一起。我们的主要发现表明，校正流可以直接在大型语言模型框架内进行训练，而无需复杂的架构修改。为了进一步提高我们统一模型的性能，我们采用了两个关键策略：（i）解耦理解编码器和生成编码器，以及（ii）在统一训练期间对齐它们的表示。大量实验表明，JanusFlow在其各自领域实现了与专用模型相当或更优的性能，同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈出的一步。||
- SparrowVQE: Visual Question Explanation for Course Content Understanding - 2 语言模型处理转录文本。实验结果表明，我们的 SparrowVQE 在我们开发的 MLVQE 数据集中取得了更好的性能，并且在其他五个基准 VQA 数据集中优于最先进的方法。源代码可在 \url{https://github.com/YoushanZhang/SparrowVQE} 获取。||
- Multimodal Fusion Balancing Through Game-Theoretic Regularization
- StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification - 4 来回答这些问题，并使用准确率作为自动评估指标来评估描述质量。实验表明，StoryTeller 在 MovieQA 上的性能优于所有开源和闭源基线模型，准确率比最强基线 Gemini-1.5-pro 高 9.5%，并且在人工并排评估中展现出 +15.56% 的优势。此外，结合 StoryTeller 的视听角色识别功能，所有视频描述模型的性能均有所提高，Gemini-1.5-pro 和 GPT-4o 在 MovieQA 上的准确率分别提高了 5.5% 和 13.0%。||
- Renaissance: Investigating the Pretraining of Vision-Language Encoders - slim/renaissance)**|在过去几年中，用于视觉语言任务的可用模型数量激增。然而，现有文献仍然存在许多与设计和训练此类模型的最佳实践相关的问题。在本文中，我们试图通过元分析来回答几个与视觉语言编码器预训练相关的问题。在我们的第一组实验中，我们表明，通过在预训练期间冻结视觉语言模型的大部分，我们可以在不损失下游性能的情况下节省大量的计算资源。在我们的第二组实验中，我们研究了基于视觉模型与基于文本模型的视觉语言转换器的效果。此外，我们介绍了一个名为Renaissance的视觉语言建模平台，我们使用该平台进行所有实验。该程序为创建、训练和评估用于视觉语言建模的Transformer编码器提供了极大的灵活性。Renaissance的源代码可以在https://github.com/bsu-slim/renaissance找到。||
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework - LongDoc，一个包含851个样本的基准测试，以及一个用于评估大型多模态模型性能的自动化框架。我们进一步提出了一种检索感知的调整方法，以实现高效且有效的多模态文档阅读。与现有工作相比，我们的基准测试包含更新且更长的文档（数百页），同时也需要开放式答案，而不仅仅是提取式答案。据我们所知，我们的训练框架是第一个直接解决多模态长文档检索问题的框架。为了能够调整开源模型，我们以全自动的方式构建了一个用于此类文档问答任务的训练语料库。实验表明，与基线开源模型相比，我们的调整方法使模型响应的正确性提高了4.6%。我们的数据、代码和模型可在https://multimodal-documents.github.io获取。||
- Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection - V 注意力层来捕获详细的局部图像特征。最后，我们引入了全局对比学习来改进全局和局部提示的互补学习，从而有效地检测跨各个领域的异常模式。GlocalCLIP 在 ZSAD 中的泛化性能在来自工业和医疗领域的 15 个真实世界数据集上得到了证明，实现了优于现有方法的性能。||
- An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models - mm)**|大型多模态模型 (LMMs) 在各种视觉和语言任务中都取得了强大的性能。然而，它们的空间推理能力却缺乏研究。在本文中，我们构建了一个新颖的视觉问答数据集 Spatial-MM，以全面研究 LMMs 的空间理解和推理能力。我们对对象关系和多跳推理的分析揭示了几个重要发现。首先，边界框和场景图，即使是合成的，也可以显著增强 LMMs 的空间推理能力。其次，LMMs 在处理从人类视角提出的问题时，比从相机视角提出的问题更困难。第三，思维链 (CoT) 提示并不能提高模型在涉及空间关系的复杂多跳问题上的性能。最后，我们对 GQA-spatial 的扰动分析表明，LMMs 在基本物体检测方面比复杂空间推理方面更强。我们相信我们的基准数据集和深入分析可以激发对 LMMs 空间推理的进一步研究。Spatial-MM 基准数据集可在以下网址获取：https://github.com/FatemehShiri/Spatial-MM||
- BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities - 英语）生物医学专家大型多模态模型 (LMM)，它采用统一架构集成了文本和视觉模态，支持高级图像理解和医学应用。BiMediX2利用Llama3.1架构，并整合了文本和视觉能力，以便于英语和阿拉伯语的无缝交互，支持基于文本的输入和涉及医学图像的多轮对话。该模型在一个包含160万个阿拉伯语和英语混合的文本和图像模态的双语医疗数据集上进行训练，该数据集包含各种医学交互样本。我们还提出了第一个基于双语GPT-4o的医学LMM基准测试，名为BiMed-MBench。BiMediX2在基于文本和基于图像的任务上进行了基准测试，在多个医学基准测试中实现了最先进的性能。它在医学LLM评估基准测试中优于最近的最先进模型。我们的模型还在多模态医学评估中树立了新的基准，在英语评估中提高了9%以上，在阿拉伯语评估中提高了20%以上。此外，它在UPHILL事实准确性评估中超过GPT-4约9%，并在各种医学视觉问答、报告生成和报告摘要任务中表现出色。项目页面包含源代码和训练好的模型，网址为https://github.com/mbzuai-oryx/BiMediX2。|
- DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
- MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning - Finance，一个面向实际应用的双语开放式视觉问答（VQA）基准。我们的基准的特点是金融性和专业性，包括构建反映用户实际使用需求的图表（例如，电脑截图和手机拍摄）、根据金融领域查询偏好创建问题，以及由具有10年以上金融行业经验的专家进行问题标注。此外，我们还开发了一个定制的金融评估系统，在多模态评估过程中首先引入视觉信息。我们对19个主流MLLM进行了广泛的实验评估，以测试它们的感知、推理和认知能力。结果表明，在通用基准上表现良好的模型在MME-Finance上表现不佳；例如，表现最好的开源和闭源模型分别获得了65.69（Qwen2VL-72B）和63.18（GPT-4o）的分数。它们在与金融最相关的类别中表现尤其差，例如K线图和技术指标图。此外，我们还提出了一个中文版本，有助于比较MLLM在中文语境下的性能。|
- Inference Optimal VLMs Need Only One Visual Token but Larger Models - token-compression)**|视觉语言模型 (VLM) 在各种视觉理解和推理任务中展现出强大的能力。然而，由于大型语言模型 (LLM) 处理大量输入标记（主要来自图像）所需的计算量巨大，导致推理过程中延迟较高，这常常限制了它们在现实世界的部署。为了降低推理成本，可以缩小 LLM 的规模或减少输入图像标记的数量，后者是最近许多关于标记压缩工作的重点。然而，由于这两个因素都直接影响 VLM 的性能，因此最佳的权衡策略尚不清楚。我们首先通过建立捕捉这两个因素的性能变化的缩放法则来描述视觉标记数量和 LLM 参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势：对于视觉推理任务，VLM 中推理最优的行为，即在任何给定的固定推理计算量下，下游误差最小，是在使用推理预算内最大的 LLM 的同时最小化视觉标记数量（通常减少到单个标记）时实现的。虽然标记减少的文献主要关注于通过适度减少标记数量（例如 5-10 倍）来保持基础模型的性能，但我们的结果表明，计算最优的推理机制需要在更高的标记压缩比下运行。基于这些见解，我们初步尝试构建针对高标记压缩设置的方法。代码可在 https://github.com/locuslab/llava-token-compression 获取。|
- HumanVLM: Foundation for Human-Scene Vision-Language Model - 10M)，数据源自互联网，以促进特定领域的对齐；(2) 开发了一种以人为中心的图像的描述方法，捕捉人脸、身体和背景，并构建了一个高质量的人景图文数据集 (HumanCaptionHQ，约 31.1 万对)，其中包含尽可能详细的人物信息；(3) 使用 HumanCaption-10M 和 HumanCaptionHQ，我们训练了一个 HumanVLM。在实验中，我们随后在各种下游任务中评估了我们的 HumanVLM，它在同等规模的多模态模型中展现出优越的整体性能，尤其在与人类相关的任务中表现出色，并显著优于类似模型，包括 Qwen2VL 和 ChatGPT-4o。HumanVLM 以及引入的数据将促进人类相关领域的研究。|
- Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning
- DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark
- INQUIRE: A Natural World Text-to-Image Retrieval Benchmark - benchmark/INQUIRE)**|我们推出了INQUIRE，这是一个文本到图像检索基准测试，旨在挑战多模态视觉语言模型在专家级查询上的能力。INQUIRE包含iNaturalist 2024 (iNat24)，这是一个包含五百万张自然世界图像的新数据集，以及250个专家级检索查询。这些查询与iNat24中所有相关的图像进行了全面配对和标注，总共包含33,000个匹配项。查询涵盖物种识别、环境、行为和外观等类别，强调需要细致的图像理解和领域专业知识的任务。我们的基准测试评估了两个核心检索任务：(1) INQUIRE-Fullrank，一个全数据集排序任务，以及 (2) INQUIRE-Rerank，一个用于改进top-100检索结果的重排序任务。对一系列最新多模态模型的详细评估表明，INQUIRE提出了一个重大挑战，即使是最佳模型也未能达到50%以上的mAP@50。此外，我们还展示了使用更强大的多模态模型进行重排序可以提高检索性能，但仍有很大的改进空间。INQUIRE专注于具有科学动机的生态挑战，旨在弥合人工智能能力与现实世界科学探究需求之间的差距，鼓励开发能够协助加速生态和生物多样性研究的检索系统。我们的数据集和代码可在https://inquire-benchmark.github.io获取。|
- One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering - VQAv2和CLOVE-function基准测试集。GaB 的性能优于所有无数据基线，在跨不断变化的任务中保持 VQA 性能方面有了实质性的改进，同时与可以访问过去数据的方法不相上下。|
- TableGPT2: A Large Multimodal Model with Tabular Data Integration - 表格-输出元组，其表格相关数据的规模在以往的研究中是前所未有的。这种广泛的训练使TableGPT2能够在以表格为中心的任务中表现出色，同时保持强大的通用语言和编码能力。TableGPT2的关键创新之一是其新颖的表格编码器，专门设计用于捕获模式级和单元格级信息。这种编码器增强了模型处理现实应用中常见的歧义查询、缺失列名和不规则表格的能力。与视觉语言模型类似，这种开创性的方法与解码器集成，形成了一个强大的大型多模态模型。我们相信结果令人信服：在23个基准测试指标中，TableGPT2在7B模型和72B模型上分别比之前的基准中性LLM平均性能提高了35.20%和49.32%，同时保持了强大的通用能力。|
- Foundations and Recent Trends in Multimodal Mobile Agents: A Survey - mobile-agents 获取。|
- Bayesian-guided Label Mapping for Visual Reprogramming - group/bayesianlm)**|视觉重编程（VR）利用预训练视觉模型的内在能力，通过调整其输入或输出接口来解决下游任务，这些任务的标签（即下游标签）可能与预训练模型相关的标签（即预训练标签）完全不同。在调整输出接口时，标签映射方法通过在下游标签和预训练标签之间建立一个无梯度的一对一对应关系，将预训练标签转换为下游标签。然而，在本文中，我们揭示了一对一映射可能忽略了预训练标签和下游标签之间的复杂关系。基于这一观察，我们提出了一种贝叶斯引导的标签映射（BLM）方法。BLM构建了一个迭代更新的概率标签映射矩阵，其中每个元素量化了预训练标签和下游标签之间的成对关系。该矩阵值的分配由贝叶斯条件概率引导，考虑了预训练模型对下游样本预测的标签和下游标签的联合分布。在预训练视觉模型（例如ResNeXt）和视觉语言模型（例如CLIP）上进行的实验表明，BLM的性能优于现有的标签映射方法。BLM的成功也提供了一个概率视角，可以用来理解和分析VR的有效性。我们的代码可在https://github.com/tmlr-group/BayesianLM获取。|
- EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection - hoi)**|在零样本设置下检测人与物体交互 (HOI) 是一个巨大的挑战，模型必须处理未见过的类别。现有方法依赖于将视觉编码器与大型视觉语言模型 (VLM) 对齐以利用 VLM 的广泛知识，这需要大型的、计算成本高的模型，并且会遇到训练困难。使用提示学习调整 VLM 提供了直接对齐的替代方案。然而，由于缺乏未见类别的标签，在特定任务数据集上进行微调通常会导致对已见类别的过拟合以及对未见类别的次优性能。为了应对这些挑战，我们引入了一种新的基于提示学习的框架，用于高效的零样本 HOI 检测 (EZ-HOI)。首先，我们引入了大型语言模型 (LLM) 和 VLM 指导的可学习提示，整合详细的 HOI 描述和视觉语义，以使 VLM 适应 HOI 任务。然而，由于训练数据集仅包含已见类别的标签，因此在此类数据集上微调 VLM 往往会针对已见类别而不是未见类别优化可学习提示。因此，我们利用来自相关已见类别信息的提示学习来处理未见类别，并利用 LLM 突出显示未见类别与相关已见类别之间的差异。在基准数据集上的定量评估表明，我们的 EZ-HOI 在各种零样本设置下均实现了最先进的性能，与现有方法相比，仅使用了 10.35% 到 33.95% 的可训练参数。代码可在 https://github.com/ChelsieLei/EZ-HOI 获取。|
- Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP
- SuctionPrompt: Visual-assisted Robotic Picking with a Suction Cup Using Vision-Language Models and Facile Hardware Design
- EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark - Bench，这是一个多模态基准测试，旨在评估 LMM 解决实际工程任务的能力，使用电气与电子工程 (EEE) 作为测试平台。我们的基准测试包含 2860 个精心策划的问题，涵盖 10 个重要子领域，例如模拟电路、控制系统等。与其他领域的基准测试相比，工程问题的本质是 1) 视觉上更复杂和多样化，2) 解决方案更不确定。成功解决这些问题通常需要比以往更严格地整合视觉和文本信息，因为模型需要理解复杂的图像（如抽象电路和系统图），同时还要考虑专业指令，这使得它们成为 LMM 评估的绝佳候选者。除了 EEE-Bench，我们还提供了对 17 种广泛使用的开源和闭源 LLM 和 LMM 的广泛定量评估和细粒度分析。我们的结果表明，当前基础模型在 EEE 方面存在显著缺陷，平均性能范围为 19.48% 至 46.78%。最后，我们揭示并探讨了 LMM 的一个关键缺点，我们称之为“懒惰”：在对技术图像问题进行推理时，倾向于走捷径，依赖文本而忽略视觉上下文。总之，我们相信 EEE-Bench 不仅揭示了 LMM 的一些值得注意的局限性，而且为推进其在实际工程任务中应用的研究提供了宝贵的资源，推动其处理复杂现实场景的能力的未来改进。|
- $π_0$ : A Vision-Language-Action Flow Model for General Robot Control
- Exploring Vision Language Models for Facial Attribute Recognition: Emotion, Race, Gender, and Age - 4o模型，用于在图像中存在多个人时，使用针对具有特定面部和/或身体属性的人设计的提示来识别上述属性。结果强调了FaceScanGPT卓越的多任务处理能力，仅使用提示即可驱动检测和识别任务，检测个体的属性，如发型、服装颜色、姿势等。|
- Nearest Neighbor Normalization Improves Multimodal Retrieval - interpretability/nnn)**|多模态模型利用大规模预训练在图像描述、视觉问答和跨模态检索等任务上取得了显著但仍不完美的性能。本文提出了一种简单有效的方法，无需额外训练即可纠正已训练的对比图像-文本检索模型中的错误，称为最近邻归一化 (NNN)。我们展示了在我们测试的所有对比模型（CLIP、BLIP、ALBEF、SigLIP、BEiT）以及我们使用的两个数据集（MS-COCO 和 Flickr30k）上，文本检索和图像检索指标均有所改进。NNN 需要一个参考数据库，但不需要对该数据库进行任何训练，甚至可以在模型微调后提高其检索精度。|
- ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding
- Active Learning for Vision-Language Models
- CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP - 100和Flickr30K数据集上，针对四个CLIP下游任务进行的大量实验表明，CLIPErase可以有效地遗忘零样本任务中多模态样本的指定关联，同时在遗忘后保持模型在保留集上的性能。|
- EMMA: End-to-End Multimodal Model for Autonomous Driving
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning - il.github.io/|
- Natural Language Inference Improves Compositionality in Vision-Language Models - 文本对齐一致性的人类判断基准测试中取得了最先进的结果，并在 Winoground 上实现了 +19.2%（组得分）的性能提升，在 EqBen 上实现了 +12.9%（组得分）的性能提升，超过了之前的最佳工作（使用目标数据进行微调）。||
- Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving - VLM）和端到端模型（Senna-E2E）的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM用自然语言生成规划决策，而Senna-E2E预测精确的轨迹。Senna-VLM利用多图像编码方法和多视角提示词来实现高效的场景理解。此外，我们引入了面向规划的问答以及三阶段训练策略，这增强了Senna-VLM的规划性能，同时保留了常识。在两个数据集上的大量实验表明，Senna实现了最先进的规划性能。值得注意的是，通过在大型数据集DriveX上进行预训练并在nuScenes上进行微调，Senna相比未经预训练的模型显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们相信Senna的跨场景泛化能力和可迁移性对于实现完全自动驾驶至关重要。代码和模型将在https://github.com/hustvl/Senna发布。||
- Are VLMs Really Blind - VLMs-Really-Blind)**|视觉语言模型擅长处理各种复杂任务，包括光学字符识别 (OCR)、视觉问答 (VQA) 和高级几何推理。然而，这些模型在人类特别容易掌握的低级基本视觉任务中表现不佳。我们这项工作的目标是确定这些模型是否真的对几何推理“视而不见”，或者是否存在增强其在这方面能力的方法。我们的工作提出了一种新颖的自动流水线，旨在根据特定问题从图像中提取关键信息。我们没有仅仅依赖直接的 VQA，而是使用从问题中提取的关键词来创建一个标题，突出显示图像中与问题相关的重要的细节。然后，语言模型使用此标题来提供对问题的精确答案，而无需外部微调。||
- Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications - Vision 和 LLaVA）。这些图像处理策略涉及使用多模态嵌入和从图像生成文本摘要。我们使用 LLM 作为评判者的方法来评估我们的实验。我们的结果表明，多模态 RAG 可以胜过单模态 RAG 设置，尽管图像检索比文本检索更具挑战性。此外，利用图像的文本摘要与使用多模态嵌入相比，提供了一种更有希望的方法，为未来的进步提供了更多机会。||
- Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models - zsr)**|由于预训练视觉语言模型（例如CLIP）令人印象深刻的零样本能力，它们吸引了广泛关注并在各个领域得到应用。然而，CLIP已被观察到容易受到对抗样本的攻击。通过实验分析，我们观察到一个现象：对抗扰动会导致文本引导的注意力发生偏移。基于这一观察，我们提出了一个简单而有效的策略：文本引导注意力零样本鲁棒性（TGA-ZSR）。该框架包含两个组件：注意力细化模块和基于注意力的模型约束模块。我们的目标是保持CLIP模型的泛化能力并增强其对抗鲁棒性：注意力细化模块将通过对抗样本从目标模型获得的文本引导注意力与通过干净样本从原始模型获得的文本引导注意力对齐。这种对齐增强了模型的鲁棒性。此外，基于注意力的模型约束模块使用干净样本从目标模型和原始模型获取文本引导注意力。其目标是保持模型在干净样本上的性能，同时增强整体鲁棒性。实验验证，我们的方法在16个数据集上，将零样本鲁棒精度比当前最先进的技术提高了9.58%。我们的代码可在https://github.com/zhyblue424/TGA-ZSR获取。||
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? - V)**|大型视觉语言模型（LVLMs）已成为推进视觉和语言信息融合的关键，促进了各种复杂应用和任务的发展。然而，LVLMs 的评估面临着重大挑战，因为评估基准的构建总是需要大量的人力成本，并且一旦构建完成就保持静态，缺乏灵活性。尽管在文本模态中已经探索了自动评估，但视觉模态仍然缺乏研究。因此，在这项工作中，我们提出了一个问题：“LVLMs 能否成为自动基准测试的途径？”. 我们引入了 AutoBench-V，这是一个用于按需进行评估的自动化框架，即基于模型能力的特定方面对 LVLMs 进行基准测试。在接收到评估能力后，AutoBench-V 利用文本到图像模型生成相关的图像样本，然后利用 LVLMs 来编排视觉问答（VQA）任务，从而高效灵活地完成评估过程。通过对七个流行的 LVLMs 在五个用户输入（即评估能力）上的广泛评估，该框架展现了有效性和可靠性。我们观察到以下几点：（1）我们构建的基准准确地反映了不同的任务难度；（2）随着任务难度的增加，模型之间的性能差距会扩大；（3）虽然模型在抽象层面的理解上表现出很强的性能，但在细节推理任务中表现不佳；（4）构建具有不同难度级别的 datasets 对于全面彻底的评估至关重要。总的来说，AutoBench-V 不仅成功地利用 LVLMs 进行自动基准测试，还揭示了 LVLMs 作为评估者的巨大潜力。||
- Similarity-Aware Token Pruning: Your VLM but Faster - 探索器-聚合器），从而能够在早期阶段进行积极的剪枝而不牺牲关键信息。对于ViT，SAINT在ImageNet-1K上仅损失0.6%的准确率的情况下，将224px分辨率的ViT-H/14的吞吐量提高了一倍，超过了最接近的竞争对手0.8%。对于VLM，我们以三种模式应用SAINT：仅ViT、仅LLM和混合模式。SAINT将LLaVA-13B的token减少了75%，实现了与LLaVA-7B相当的延迟，并且在各项基准测试中性能损失不到1%。我们的工作为ViT和VLM的高效推理建立了一个统一且实用的框架。|
- Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
- Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them
- HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding
- Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction
- STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding - STOP获取。|
- AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models - QA，这是一个自动化的流程，可以将现有的驾驶问答数据集（包括DriveLM、NuScenes-QA和LingoQA）转换为结构化的多项选择题（MCQ）格式。该基准系统地评估感知、预测和规划任务，提供了一个标准化和客观的评估框架。AutoDrive-QA采用自动化流程，利用大型语言模型（LLM）根据自动驾驶场景中常见的特定领域错误模式生成高质量、上下文相关的干扰项。为了评估通用能力和泛化性能，我们在三个公共数据集上测试了该基准，并在一个未见数据集上进行了零样本实验。零样本评估显示，GPT-4V以69.57%的准确率领先——感知准确率74.94%，预测准确率65.33%，规划准确率68.45%——这表明尽管所有模型在感知方面都表现出色，但在预测方面却存在困难。因此，AutoDrive-QA为整合和评估不同视觉语言模型在各种自动驾驶数据集上的性能建立了严格、公正的标准，从而提高了该领域的泛化能力。我们在AutoDrive-QA GitHub存储库中发布了所有代码。|
- UMIT: Unifying Medical Imaging Tasks via Vision-Language Models
- What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? - 召回率权衡、缺乏对三元组重要性的认识以及评估方案不当。另一方面，大型多模态模型（LMM）的最新进展在视频理解方面展现出巨大潜力，但尚未在诸如DSGG之类的细粒度逐帧理解任务上进行测试。在本研究中，我们首次对用于执行DSGG的视频LMM进行了系统分析。在不依赖复杂架构设计的情况下，我们展示了具有简单仅解码器结构的LMM可以转化为最先进的场景图生成器，有效地克服了上述问题，同时只需要少量微调（5-10%的训练数据）。|
- Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation - MS-CLIP，这是第一个使用大规模多光谱数据集上的对比学习进行预训练的视觉语言模型，并报告了由于扩展光谱范围而带来的性能提升。此外，我们提出了迄今为止最大的多光谱图像-字幕数据集，其中包含一百万个 Sentinel-2 样本和使用 Llama3-LLaVA-Next 和 Overture Maps 数据生成的相应文本描述。我们开发了一个可扩展的字幕生成流水线，并已由领域专家验证。我们使用三个不同复杂度的数据集，在多光谱零样本图像分类和检索任务上评估了 Llama3-MS-CLIP。我们的结果表明，Llama3-MS-CLIP 明显优于其他基于 RGB 的方法，与次优模型相比，分类精度平均提高了 6.77%，检索性能提高了 4.63% mAP。我们的结果强调了多光谱视觉语言学习的相关性。我们将图像-字幕数据集、代码和模型权重以开源许可证的形式发布。|
- CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention - 最大博弈来优化因果特征，同时惩罚混杂特征。大量实验表明我们提出的方法具有最先进的性能。代码可在 https://github.com/WUTCM-Lab/CausalCLIPSeg 获取。|
- Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts
- TULIP: Towards Unified Language-Image Pretraining - 文本对比模型最近取得了成功，但这些模型在需要高保真图像理解的以视觉为中心的的任务（例如计数、深度估计和细粒度对象识别）中常常表现不佳。这些模型通过执行语言对齐，倾向于优先考虑高级语义而不是视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型擅长处理视觉信息，但在理解语言方面却存在困难，限制了它们在语言驱动任务中的灵活性。在这项工作中，我们推出了TULIP，一个开源的、可直接替代现有类似CLIP模型的替代方案。我们的方法利用生成式数据增强、增强的图像-图像和文本-文本对比学习以及图像/文本重建正则化来学习细粒度的视觉特征，同时保留全局语义对齐。我们的方法扩展到超过10亿个参数，在多个基准测试中优于现有的最先进 (SOTA) 模型，在ImageNet-1K上建立了新的SOTA零样本性能，在RxRx1的线性探测少样本分类中实现了高达 $2\times$的SigLIP性能提升，并改进了视觉语言模型，在MMVP上实现了比SigLIP高$3\times$ 以上的分数。我们的代码/检查点可在https://tulip-berkeley.github.io获取。|
- Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense
- Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers - Transformer模型（VAMBA），该模型采用Mamba-2块以线性复杂度编码视频标记。在不进行任何标记压缩的情况下，VAMBA可以在单个GPU上编码超过1024帧（640×360）的视频，而基于Transformer的模型只能编码256帧。在长视频输入上，VAMBA在训练和推理过程中至少减少了50%的GPU内存使用量，并且与基于Transformer的LMM相比，每个训练步骤的速度几乎翻倍。我们的实验结果表明，在具有挑战性的小时长视频理解基准测试LVBench上，VAMBA的准确率比之前的有效视频LMM提高了4.3%，并在各种长短视频理解任务上保持了强大的性能。|
- SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
- PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models
- Road Rage Reasoning with Vision-language Models (VLMs): Task Definition and Evaluation Dataset
- Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment - 4o）的能力。我们的研究调查了其处理语音和音频以进行多粒度和多维度发音评估的能力，重点是反馈生成和评分。在我们的实验中，我们使用了公开可用的 Speechocean762 数据集。评估侧重于两个关键方面：多级评分和生成反馈的实用性。将评分结果与 Speechocean762 数据集中提供的人工评分进行比较，同时使用大型语言模型 (LLM) 评估反馈质量。研究结果突出了将 LMM 与传统发音评估方法相结合的有效性，提供了对模型优势的见解，并确定了需要进一步改进的领域。|
- Augmenting Image Annotation: A Human-LMM Collaborative Framework for Efficient Object Selection and Label Generation
- DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models - VLM）。DynRsl-VLM采用了一种动态分辨率图像输入处理方法，可以捕获图像中的所有实体特征信息，同时确保图像输入对于视觉Transformer（ViT）而言在计算上仍然易于处理。此外，我们设计了一种新颖的图文对齐模块来取代Q-Former，从而在处理动态分辨率图像输入时能够简单高效地与文本对齐。我们的方法在不超出计算限制的情况下增强了自动驾驶系统的环境感知能力。|
- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
- DoPTA: Improving Document Layout Analysis using Patch-Text Alignment
- ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation
- CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels - 文本嵌入相似度的 FSL 中表现良好，但它容易受到噪声标签引起的错误分类的影响。如何在 FSL 任务中增强 CLIP 在噪声数据上的域泛化能力是一个关键挑战。在本文中，我们提供了一种新的视角来减轻噪声标签的影响，即基于 CLIP 的鲁棒少样本学习 (CRoF)。CRoF 是一个适用于基于 CLIP 模型的通用插件模块。为了避免错误分类和标签嵌入混淆，我们设计了面向少样本任务的提示生成器，为每个类别提供更具辨别力的描述。所提出的提示实现了更大的类间文本嵌入距离。此外，我们没有完全信任 CLIP 的零样本分类，而是使用类似标签平滑的加权策略，在具有噪声的少样本新领域数据上微调 CLIP。多个潜在正确标签的权重考虑了 CLIP 的先验知识与原始标签信息之间的关系，以确保可靠性。我们的多标签损失函数进一步支持这种范式下的鲁棒训练。综合实验表明，CRoF 作为插件，在不同噪声类型和噪声比率上优于微调和原始 CLIP 模型。|
- Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference - Llama-3-8B-V 进行详细实验，并使用 LLaVA-1.5-7B 和 LLaVA-1.5-13B 在各种视觉和文本任务中进行验证。我们的研究结果表明，选择性地更新 25% 的 LLM 层（稀疏且均匀分布）可以保留近 99% 的视觉性能，同时保持或增强文本任务结果，并且还有效地减少了训练时间。基于这种定向训练方法，我们进一步提出了一种新的基于视觉区域的剪枝范式，去除视觉区域外不重要的层，从而最大限度地减少性能损失。这项研究通过激活 LLM 中的逐层视觉区域，为 LVLM 训练和推理提供了一种有效且高效的策略，该策略在不同模型和参数规模上始终有效。|
- SPHERE: A Hierarchical Evaluation on Spatial Perception and Reasoning for Vision-Language Models
- PBVS 2024 Solution: Self-Supervised Learning and Sampling Strategies for SAR Classification in Extreme Long-Tail Distribution - EO图像对及其各自的类别标签来预测低分辨率航拍图像的类别标签。所提供的数据集由SAR-EO图像对组成，其特征是具有严重的“长尾”分布，最大类别和最小类别之间的差异超过1000倍，这使得典型的长尾方法难以应用。此外，SAR和EO数据集之间的域差异也使得标准多模态方法的有效性变得复杂。为了应对这些重大挑战，我们提出了一种两阶段学习方法，该方法利用自监督技术，结合多模态学习和通过SAR到EO转换进行推理，以有效利用EO数据。在PBVS 2024多模态航拍图像挑战赛——分类（SAR分类）任务的最终测试阶段，我们的模型实现了21.45%的准确率、0.56的AUC和0.30的总分，在比赛中排名第九。|
- DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation - COV19、BM-Seg和MoNuSeg）上取得了优异的性能，Dice分别为82.52%、74.61%和78.03%。|
- Causal Diffusion Transformers for Generative Modeling
- CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology - Omni，这是第一个拥有 150 亿参数的 LMM，旨在统一补丁和 WSI 级别的图像分析，整合这两个级别的各种任务，包括分类、视觉问答、字幕生成和视觉参考提示。大量实验表明，CPath-Omni 在 42 个数据集中 39 个的七项不同任务中实现了最先进的 (SOTA) 性能，优于或匹配为单个任务训练的特定任务模型。此外，我们为 CPath-Omni 开发了一个专门的基于病理学 CLIP 的视觉处理器 CPath-CLIP，它首次集成了不同的视觉模型，并结合大型语言模型作为文本编码器，构建了一个更强大的 CLIP 模型，在九个零样本和四个少样本数据集中实现了 SOTA 性能。我们的研究结果突出了 CPath-Omni 统一各种病理学任务的能力，展示了其简化和推进病理学基础模型领域的潜力。|
- Apollo: An Exploration of Video Understanding in Large Multimodal Models - LMM 的发展。为了解决这个问题，我们提出了一项综合研究，以帮助揭示在 LMM 中有效驱动视频理解的因素。我们首先批判性地研究了与视频-LMM 研究相关的高计算需求的主要原因，并发现了规模一致性，即在较小模型和数据集（达到临界规模）上做出的设计和训练决策可以有效地迁移到较大模型。利用这些见解，我们探索了视频-LMM 的许多视频特定方面，包括视频采样、架构、数据组成、训练计划等等。例如，我们证明了训练期间的 fps 采样比均匀帧采样更可取，并且哪些视觉编码器最适合视频表示。在这些发现的指导下，我们推出了 Apollo，这是一个最先进的 LMM 系列，可在不同模型大小上实现卓越的性能。我们的模型可以有效地感知长达一小时的视频，Apollo-3B 的性能优于大多数现有的 7B 模型，在 LongVideoBench 上取得了令人印象深刻的 55.1 分。Apollo-7B 与 7B LMM 相比处于最先进水平，在 MLVU 上得分为 70.9，在 Video-MME 上得分为 63.3。|
- A dual contrastive framework - 解码器对齐的难度。我们提出了 AlignCap，这是一个旨在通过潜在空间的细粒度对齐来增强区域级别理解的框架。我们的方法引入了一个新颖的潜在特征细化模块，增强了条件潜在空间表示，从而提高区域级别描述的性能。我们还提出了一种创新的对齐策略，即语义空间对齐模块，它可以提高多模态表示的质量。此外，我们在两个模块中都以一种新颖的方式结合了对比学习，以进一步增强区域级别描述的性能。为了解决空间限制，我们采用了一种通用目标检测（GOD）方法作为数据预处理流程，增强了区域级别的空间推理能力。大量实验表明，我们的方法显著提高了各种任务中区域级别描述的性能。|
- WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model
- DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding - ai/deepseek-vl2)**|我们推出了DeepSeek-VL2，这是一系列先进的大型混合专家模型（MoE）视觉语言模型，它通过两个关键的主要升级在其前身DeepSeek-VL的基础上进行了显著改进。对于视觉组件，我们采用了一种动态分块视觉编码策略，旨在处理具有不同纵横比的高分辨率图像。对于语言组件，我们利用具有多头潜在注意力机制的DeepSeekMoE模型，将键值缓存压缩为潜在向量，以实现高效推理和高吞吐量。DeepSeek-VL2在改进的视觉语言数据集上进行训练，在各种任务中展现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉定位。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别具有10亿、28亿和45亿个激活参数。与现有的开源密集型和基于MoE的模型相比，DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。代码和预训练模型可在https://github.com/deepseek-ai/DeepSeek-VL2公开访问。|
- CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models - caloraify)**|肥胖现象，即体重问题，是全球范围内可预防慢性病的主要原因。传统的卡路里估算工具通常依赖于特定的数据格式或复杂的流程，限制了它们在现实场景中的实用性。近年来，视觉语言模型 (VLM) 在理解现实世界环境和实现对话交互方面表现出色，使其成为诸如成分分析等下游任务的理想选择。然而，将 VLM 应用于卡路里估算需要特定领域的数据和对齐策略。为此，我们构建了 CalData，这是一个包含 33 万个图像-文本对的数据集，专为成分识别和卡路里估算而设计，它结合了大规模食谱数据集和详细的营养说明，以实现稳健的视觉语言训练。基于此数据集，我们提出了 CaLoRAify，这是一个新颖的 VLM 框架，通过使用视觉-文本对进行训练来对齐成分识别和卡路里估算。在推理过程中，用户只需一张单目食物图像即可估算卡路里，同时保留基于代理的对话交互的灵活性。借助低秩自适应 (LoRA) 和检索增强生成 (RAG) 技术，我们的系统增强了基础 VLM 在卡路里估算垂直领域的性能。我们的代码和数据已在 https://github.com/KennyYao2001/16824-CaLORAify 完全开源。|
- VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation - Bench，这是一个基于检索增强生成（RAG）的视觉问答（VQA）基准，用于评估视觉语言模型（VLM）。与现有的基于外部知识的VQA评估数据集不同，我们提出的VLR-Bench包含五个输入段落。这允许测试确定哪个段落对回答给定查询有用的能力，这是先前研究中缺乏的能力。在此背景下，我们构建了一个包含32,000个自动生成的指令遵循示例的数据集，我们将其称为VLR-IF。该数据集旨在通过使VLM学习如何根据输入段落生成适当的答案来增强其RAG能力。我们使用基于最先进Llama3的VLM模型Llava-Llama-3评估了所提出的基准和训练数据的有效性，并验证了其性能。提出的VLR-Bench和VLR-IF数据集已公开在线提供。|
- Selective State Space Memory for Large Vision-Language Models
- BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation
- V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
- PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models
- Performance of ChatGPT on tasks involving physics visual representations: the case of the Brief Electricity and Magnetism Assessment - 4和ChatGPT-4o在简明电磁评估（BEMA）中的表现，BEMA是一个包含大量视觉表示（如矢量场、电路图和图表）的概念物理题库。定量分析表明，ChatGPT-4o的表现优于ChatGPT-4和大量大学生样本，并展示了ChatGPT-4o相比其前身ChatGPT-4在视觉解释能力方面的改进。然而，对ChatGPT-4o回答的定性分析揭示了其持续存在的挑战。我们确定了聊天机器人在回答BEMA任务时遇到的三种类型的困难：（1）视觉解释困难，（2）提供正确的物理定律或规则困难，以及（3）空间协调和应用物理表征困难。空间推理任务，特别是那些需要使用右手定则的任务，被证明尤其困难。这些发现表明，使用最广泛的大型多模态模型聊天机器人ChatGPT-4o在处理涉及视觉表示的物理任务时仍然存在显著困难。虽然聊天机器人在教育应用方面展现出潜力，包括个性化辅导以及为盲人或低视力学生提供无障碍支持，但其局限性需要谨慎对待。另一方面，我们的研究结果也可以用于设计难以被聊天机器人解决的评估。|
- Causal Graphical Models for Vision-Language Compositional Understanding
- GaGA: Towards Interactive Global Geolocation Assistant - Geo) 数据集，这是一个包含 500 万个高质量图文对的综合集合。GaGA 在 GWS15k 数据集上实现了最先进的性能，在国家级别和城市级别分别将准确率提高了 4.57% 和 2.92%，树立了新的基准。这些进步代表着在开发高度精确、交互式且具有全球适用性的地理定位系统方面取得了重大飞跃。||
- DocVLM: Make Your VLM an Efficient Reader - VL 集成时，则从 84.4% 提高到 91.2%。在 LLaVA-OneVision 中，DocVLM 使用的图像令牌减少了 80%，同时实现了更好的结果。减少的令牌使用量可以有效地处理多个页面，在 DUDE 上展现出令人印象深刻的零样本结果，并在 MP-DocVQA 上实现了最先进的性能，突出了 DocVLM 在需要高性能和效率的应用中的潜力。||
- StreamChat: Chatting with Streaming Video - RoPE 机制，用于编码视觉和文本标记的相对时间信息。实验结果表明，StreamChat 在已有的图像和视频基准测试中取得了具有竞争力的性能，并且在流媒体交互场景中展现出比最先进的视频 LMM 更优越的能力。||
- Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM - wong/bytevideollm)**|大型视觉语言模型 (LVLMs) 在图像和视频分析中的应用是一个令人兴奋且快速发展的领域。近年来，我们看到用于微调图像理解的高质量图文数据集有了显著增长，但视频方面仍然缺乏可比的数据集。此外，许多 VideoLLM 是单图像 VLM 的扩展，可能无法有效处理较长视频的复杂性。在本研究中，我们介绍了一个使用专有模型创建的大规模合成数据集，并使用精心设计的提示来处理各种问题。我们还探索了一种动态视觉标记压缩架构，在计算效率和性能之间取得了平衡。我们提出的\model{}在各种视频任务中取得了最先进的结果，并展现出令人印象深刻的泛化能力，为多图像理解设定了新的基准。值得注意的是，\model{}在 VideoMME 上比 LLaVA-OneVision 绝对提升了 2.7%，在 MuirBench 上提升了 10.7%。代码可在 https://github.com/Hon-Wong/ByteVideoLLM 获取。||
- Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis - 图像预训练 (CLIP)）——我们生成了用于多类别分类任务的图像嵌入。然后将简单的线性分类器应用于这些嵌入。该方法在各种医学影像模态中进行了评估，包括视网膜图像、乳腺X线照片、皮肤镜图像和胸部X线照片。将性能与使用传统方法训练和测试的基准模型进行了比较。在各种医学影像模态的多类别分类任务中，基于嵌入的模型的受试者工作特征曲线下面积 (AUC-ROC) 得分比基准模型高出87个百分点。值得注意的是，CLIP 嵌入模型实现了最高的 AUC-ROC 得分，展示了卓越的分类性能，同时显著降低了计算需求。我们的研究表明，利用预训练基础模型的嵌入可以有效地替代医学图像分析中传统的、资源密集型训练和测试程序。这种基于嵌入的方法为图像分割、分类和预测提供了更高效的替代方案，可能加速 AI 技术在临床实践中的集成。||
- Multimodal Latent Language Modeling with Next-Token Diffusion - VAE 来解决方差崩溃的挑战，这对于自回归建模至关重要。大量实验验证了 LatentLM 跨各种模态的有效性。在图像生成方面，LatentLM 在性能和可扩展性方面都超过了扩散Transformer。当集成到多模态大型语言模型中时，LatentLM 提供了一个统一多模态生成和理解的通用接口。实验结果表明，在扩大训练标记的设置中，LatentLM 与 Transfusion 和矢量量化模型相比取得了更好的性能。在文本到语音合成方面，LatentLM 在说话人相似性和鲁棒性方面优于最先进的 VALL-E 2 模型，同时解码步骤减少了 10 倍。这些结果表明 LatentLM 是一种高效且可扩展的方法，可以推进大型多模态模型的发展。||
- Synthetic Vision: Training Vision-Language Models to Understand Physics
- Social Genome: Grounded Social Reasoning Abilities of Multimodal Models
- ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval - 2 架构。为了在有限的计算资源下训练该架构，我们开发了一种“学生友好”的最佳实践，包括全局难样本挖掘以及大规模数据集的选择和整理。在评估方面，我们建立了两个新的分布外基准测试，Occluded COCO 和 ImageNet-R，以评估模型对不同领域的零样本泛化能力。得益于新颖的架构和数据整理，实验表明，我们增强的网络显著提升了 CLIP/SigLIP 的性能，并在文本到图像检索方面超越了最先进的 BLIP-2 模型。|
- Testing the limits of fine-tuning to improve reasoning in vision language models
- FaultGPT: Industrial Fault Diagnosis Question Answering System by Vision Language Models - 文本标签对和人工指令-真实答案对。为了提高生成高质量故障诊断报告的能力，我们设计了一个多尺度跨模态图像解码器来提取细粒度的故障语义，并在不引入额外训练参数的情况下对LVLM进行指令微调。大量的实验，包括故障诊断报告生成、跨多个数据集的少样本和零样本评估，验证了FaultGPT在各种工业场景中的优越性能和适应性。|
- LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models - Agent，这是一个通过聚合多级描述来合成长字幕数据的框架。使用LongCaption-Agent，我们构建了一个新的长字幕数据集LongCaption-10K。我们还开发了LongCaption-Bench，这是一个旨在全面评估LMM生成的字幕质量的基准测试。通过将LongCaption-10K纳入训练，我们使LMM能够生成超过1000个单词的字幕，同时保持高质量的输出。在LongCaption-Bench中，我们的80亿参数模型实现了最先进的性能，甚至超过了更大的专有模型。我们将在论文发表后发布数据集和代码。|
- CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models - 过滤-比较测试框架，并结合多LVLM辩论来评估侵权的可能性，并提供详细的判断理由。基于这些判断，我们进一步引入了一种通用的基于LVLM的缓解策略，通过避免敏感表达来自动优化侵权提示，同时保留非侵权内容。此外，我们的方法可以通过强化学习探索扩散潜在空间内的非侵权噪声向量来增强，即使不修改原始提示。实验结果表明，我们的识别方法达到了与现有最佳方法相当的性能，同时在各种侵权形式中提供了更好的泛化性和可解释性，并且我们的缓解方法可以更有效地减轻记忆和IP侵权，而不会丢失非侵权表达。|
- PairBench: A Systematic Framework for Selecting Reliable Judge VLMs
- InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback - Bench，它使用两个具有代表性的数据集 MMMU-Pro 和 MathVerse 来评估 10 个不同的开源 LMM 的交互智能。此外，我们还展示了 InterFeedback-Human，这是一个包含 120 个案例的新收集数据集，旨在手动测试领先模型（如 OpenAI-o1 和 Claude-3.5-Sonnet）的交互性能。我们的评估结果表明，即使是最先进的 LMM（如 OpenAI-o1）也无法通过人类反馈将其结果纠正到 50% 以上。我们的研究结果表明，需要开发能够增强 LMM 解释和利用反馈能力的方法。|
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation - 4V 和 Gemini 1.5 Flash 等专有模型。此外，CoSyn 可以生成合成的指向数据，使 VLM 能够在输入图像中定位信息，展示其开发能够在现实环境中行动的多模态代理的潜力。|
- CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models
- AMPS: ASR with Multimodal Paraphrase Supervision
- Large Language Model-Brained GUI Agents: A Survey
- Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents
- Multimodal Integration of Longitudinal Noninvasive Diagnostics for Survival Prediction in Immunotherapy Using Deep Learning
- VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models - GenRM）在对齐和评估多模态AI系统中扮演着至关重要的角色，然而对其自身的评估却仍未得到充分探索。目前的评估方法主要依赖于来自传统视觉语言任务的AI标注的偏好标签，这可能会引入偏差，并且通常无法有效地挑战最先进的模型。为了解决这些局限性，我们引入了VL-RewardBench，这是一个涵盖通用多模态查询、视觉幻觉检测和复杂推理任务的综合基准测试。通过我们结合样本选择和人工验证的AI辅助标注流程，我们精心挑选了1250个高质量示例，专门用于探测模型的局限性。对16个领先的大型视觉语言模型进行的全面评估表明，VL-RewardBench作为一个具有挑战性的测试平台是有效的，即使是GPT-4o也仅达到了65.4%的准确率，而像Qwen2-VL-72B这样的最先进的开源模型也很难超过随机猜测的水平。重要的是，VL-RewardBench上的性能与使用VL-GenRM进行Best-of-N采样的MMMU-Pro准确率密切相关（皮尔逊相关系数r > 0.9）。分析实验揭示了改进VL-GenRM的三个关键见解：（i）模型主要在基本的视觉感知任务上失败，而不是推理任务；（ii）推理时缩放的收益因模型容量而异；（iii）训练VL-GenRM学习判断能够大幅提升判断能力（7B VL-GenRM的准确率提升了14.7%）。我们相信VL-RewardBench以及这些实验见解将成为推进VL-GenRM发展的宝贵资源。||
- Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning - V，这是一个受Actor-Critic范式启发的新颖框架，旨在提升VLM的推理能力。该框架通过集成两个独立的组件来解耦推理过程和评论过程：根据视觉和文本输入生成推理路径的Reasoner，以及提供建设性评论以改进这些路径的Critic。在这种方法中，Reasoner根据文本提示生成推理响应，这些响应可以作为策略根据Critic的反馈进行迭代演进。这种交互过程的理论基础是强化学习框架，其中Critic提供自然语言评论而不是标量奖励，从而实现更细致的反馈，以提升Reasoner在复杂推理任务上的能力。Critic模型使用直接偏好优化（DPO）进行训练，利用基于规则奖励（RBR）排序的评论偏好数据集来增强其评论能力。评估结果表明，Critic-V框架在8个基准测试中的5个上显著优于现有方法，包括GPT-4V，尤其是在推理准确性和效率方面。将Reasoner的动态文本策略与偏好优化Critic的建设性反馈相结合，实现了更可靠且上下文敏感的多模态推理过程。我们的方法为增强VLM的可靠性提供了一个有前景的解决方案，从而提高其在自动驾驶和具身智能等现实世界推理密集型多模态应用中的性能。||
- COREval: A Comprehensive and Objective Benchmark for Evaluating the Remote Sensing Capabilities of Large Vision-Language Models
- VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis - 物交互（HOI）检测任务（VLM-HOI）的目标函数形式。具体来说，我们提出了一种使用图文匹配技术量化预测的HOI三元组相似性的方法。我们以语言方式表示HOI三元组，以充分利用VLM的语言理解能力，由于其定位和以对象为中心的特性，VLM比CLIP模型更适合于此任务。该匹配得分用作对比优化的目标。据我们所知，这是首次将VLM的语言能力用于HOI检测。实验结果证明了我们方法的有效性，在基准测试中达到了最先进的HOI检测精度。我们相信将VLM集成到HOI检测中代表着朝着更高级和更具解释性的人-物交互分析迈出的重要一步。||
- HOPPR Medical-Grade Platform for Medical Imaging AI
- NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?
- CoA: Chain-of-Action for Generative Semantic Labels
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM - Assessor)**|大型多模态模型 (LMM) 的快速发展导致人工智能生成视频 (AIGV) 的迅速扩张，这凸显了对专为 AIGV 设计的有效视频质量评估 (VQA) 模型的迫切需求。由于存在独特的失真，例如不真实的物体、不自然的运动或不一致的视觉元素，目前的 VQA 模型通常无法准确评估 AIGV 的感知质量。为了应对这一挑战，我们首先提出了 AIGVQA-DB，这是一个包含 36,576 个 AIGV 的大规模数据集，这些 AIGV 是由 15 个先进的文本到视频模型使用 1,048 个不同的提示生成的。利用这些 AIGV，我们设计了一个包含评分和排序过程的系统注释流程，迄今为止已收集了 37 万条专家评分。基于 AIGVQA-DB，我们进一步推出了 AIGV-Assessor，这是一种新颖的 VQA 模型，它利用时空特征和 LMM 框架来捕捉 AIGV 复杂的质量属性，从而准确预测精确的视频质量分数和视频对偏好。通过在 AIGVQA-DB 和现有 AIGV 数据库上进行的综合实验，AIGV-Assessor 展现了最先进的性能，在多个感知质量维度上显著超越了现有的评分或评估方法。||
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment - Bench，包含8个类别和21个子类别中的1150个样本。该基准数据集包含复杂的语言-视觉依赖关系和黄金答案，可以有效地评估模型在以视觉为中心的任务（例如风格迁移）上的表现，这是当前模型的一个挑战领域。使用ISG-Bench，我们证明了最近的统一视觉语言模型在生成交错内容方面表现不佳。虽然组合方法结合了单独的语言和图像模型，在整体水平上比统一模型提高了111%，但它们在块级和图像级上的性能仍然欠佳。为了促进未来的工作，我们开发了ISG-Agent，一个采用“计划-执行-改进”流程来调用工具的基线代理，实现了122%的性能提升。||
- Context-Aware Multimodal Pretraining
- Information Extraction from Heterogenous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation
- VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection - 4o 生成问答对。我们进一步开发了视频思维链 (CoT) 标注来丰富推理过程，引导 GPT-4o 从问答对和视频内容中提取逻辑关系。为了充分利用高质量 VideoQA 对的潜力，我们提出了一个混合 LVLMs 协作框架，该框架包含一个帧选择器和一个经过两阶段指令微调的推理 LVLM。该框架自适应地选择核心帧，并使用多模态证据进行 CoT 推理。在我们提出的包含 14 项任务的基准测试中，针对 9 个流行的 LVLMs 进行评估，我们的方法在大多数任务上都优于现有基线，展现出卓越的视频推理能力。我们的代码和数据集将在以下地址发布：https://github.com/hshjerry/VideoEspresso||
- Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation
- Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation
- Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models - probology)**|尽管多模态人工智能研究取得了显著进展，但在一个重要领域，现代人工智能仍然远远落后于人类儿童：逻辑运算符的可靠部署。在这里，我们考察了三种形式的逻辑运算符：关系、否定和离散数字。我们要求人类受访者（总共 N=178）评估由最先进的图像生成人工智能 (DALL-E 3) 生成的图像，这些图像由这些“逻辑探针”提示生成，并发现没有一个能够可靠地产生超过 50% 的人类一致性评分。否定探针和数字（超过 3）失败的频率最高。在第四个实验中，我们评估了一个“基础扩散”流程，它利用目标提示工程和结构化中间表示来实现更大的组合控制，但发现其性能在所有提示中都被评判为比 DALL-E 3 更差。为了进一步阐明这些文本到图像系统中潜在的成功和失败来源，我们用多个辅助分析和示意图补充了我们的 4 个核心实验，例如，直接量化了关系提示的 N-gram 频率与生成图像的平均匹配之间的关系；在否定提示的渲染中，3 种不同提示修改策略的成功率；以及涉及整数的提示的标量可变性/比率依赖性（“近似计算能力”）。最后，我们讨论了“基础”多模态学习系统中固有的局限性，这些系统的基础严重依赖于基于向量的语义（例如 DALL-E 3）或未充分指定的句法约束（例如“基础扩散”），并提出了最小修改（受发展启发，基于图像），这些修改可以帮助弥合规模和结构之间挥之不去的组合差距。所有数据和代码都可以在 https://github.com/ColinConwell/T2I-Probology 获取。||
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation - OT）集成了多模板知识蒸馏方法，该方法复制了无监督表示学习中的多视图对比学习策略，但不会增加额外的计算复杂度。在呈现不同复杂度的多个流行测试时适应基准上的大量实验，凭经验表明了CLIP-OT的优越性，相较于最近的最先进方法，实现了高达7%的性能提升，同时保持计算和内存效率。||
- Probing the limitations of multimodal language models for chemistry and materials research - org/mac-bench)**|人工智能的最新进展激发了人们对科学助手的兴趣，这些助手可以支持研究人员的整个科研工作流程，从文献综述到实验设计和数据分析。此类系统的关键能力是处理和推理视觉和文本形式的科学信息——从解释光谱数据到理解实验室装置。在此，我们介绍MaCBench，这是一个综合基准，用于评估视觉语言模型如何处理现实世界的化学和材料科学任务，涵盖三个核心方面：数据提取、实验理解和结果解释。通过对领先模型的系统评估，我们发现虽然这些系统在基本感知任务中显示出有希望的能力——在设备识别和标准化数据提取方面达到近乎完美的性能——但它们在空间推理、跨模态信息合成和多步逻辑推理方面表现出根本性的局限性。我们的见解对化学和材料科学之外的领域具有重要意义，这表明开发可靠的多模态人工智能科学助手可能需要在整理合适的训练数据和训练这些模型的方法方面取得进展。||
- Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge - ViT作为视觉骨干网络。然而，这些模型经常遇到视觉编码器（VE）和大型语言模型（LLM）之间“认知错位”的核心问题。具体来说，VE对视觉信息的表示可能无法与LLM的认知框架完全一致，导致视觉特征超出语言模型解释范围的不匹配。为了解决这个问题，我们研究了VE表示的变化如何影响LVLM的理解能力，尤其是在LLM面对VE未知数据（图像的视觉表示不明确，挑战VE的解释精度）时。因此，我们构建了一个多粒度地标数据集，并系统地检验了VE已知和VE未知数据对解释能力的影响。我们的结果表明，VE未知数据限制了LVLM的准确理解能力，而具有丰富独特特征的VE已知数据有助于减少认知错位。基于这些见解，我们提出了实体增强认知对齐（EECA）方法，该方法采用多粒度监督来生成视觉上丰富且对齐良好的标记，这些标记不仅融入LLM的嵌入空间，而且与LLM的认知框架对齐。这种对齐显著增强了LVLM在地标识别中的性能。我们的研究结果强调了VE未知数据带来的挑战，并突出了认知对齐在推进多模态系统发展中的重要作用。||
- PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision - bell-labs公开发布。||
- LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction - max 为 83.7%，并附带异常解释。这大大超过了现有的最先进方法。|
- MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders - KD)，这是一个将多个视觉编码器的独特能力蒸馏到单个高效编码器模型中的新框架。具体来说，为了减少冲突并保留每个教师编码器的独特特性，我们采用低秩自适应 (LoRA) 和混合专家 (MoE) 技术，根据输入特征选择性地激活专业知识，从而提高适应性和效率。为了规范知识蒸馏过程并提高性能，我们提出了一种基于注意力的蒸馏策略，该策略自适应地调整不同视觉编码器的权重，并强调有价值的视觉标记，从而减轻了从多个教师复制全面但不同特征的负担。在流行的 VLM（例如 LLaVA 和 LLaVA-NeXT）上进行的全面实验验证了我们方法的有效性。代码将被发布。|
- GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models - 局部对应关系。为了解决这个问题，我们引入了GPT4Scene，这是一种在VLM训练和推理中新颖的视觉提示范式，有助于建立全局-局部关系，从而显著提高对室内场景的三维空间理解能力。具体而言，GPT4Scene从视频中构建三维鸟瞰图（BEV）图像，并在帧和BEV图像上标记一致的对象ID。然后，模型输入带有标记的拼接BEV图像和视频帧。在零样本评估中，GPT4Scene的性能优于GPT-4o等闭源VLM。此外，我们准备了一个包含16.5万文本标注的处理后的视频数据集，用于微调开源VLM，在所有三维理解任务上均实现了最先进的性能。令人惊讶的是，使用GPT4Scene范式训练后，即使在推理过程中没有视觉提示和BEV图像作为显式对应关系，VLM的性能也会持续提高。这表明，所提出的范式有助于VLM发展理解三维场景的内在能力，为扩展预训练VLM以进行三维场景理解的非侵入式方法铺平了道路。|
- CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering - UP：基于CLIP的不可回答问题检测方法，这是一种新颖的轻量级方法，用于使VLM能够拒绝回答无法回答的问题。通过利用CLIP提取问题与图像的对齐信息，CLIP-UP只需对几个额外的层进行高效训练，同时保持原始VLM的权重不变。在LLaVA模型上进行测试，CLIP-UP在用于评估多项选择VQA中不可回答性的MM-UPD基准测试上取得了最先进的结果，同时保持了在其他任务上的原始性能。|
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries
- Asymmetric Reinforcing against Multi-modal Representation Bias
- 3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer - LLaVA，一个简单但功能强大的3D LMM，旨在充当理解、推理和与3D世界交互的智能助手。与现有的依赖复杂流程（例如离线多视图特征提取或额外的特定任务头）的最佳性能方法不同，3D-LLaVA采用极简设计和集成架构，并且仅将点云作为输入。3D-LLaVA的核心是一个新的全能超点Transformer（OST），它集成了三个功能：（1）一个视觉特征选择器，用于转换和选择视觉标记；（2）一个视觉提示编码器，用于将交互式视觉提示嵌入到视觉标记空间中；（3）一个参考掩码解码器，用于根据文本描述生成3D掩码。这种多功能的OST通过混合预训练来获得感知先验，并用作连接3D数据和LLM的视觉连接器。在执行统一指令微调后，我们的3D-LLaVA在各种基准测试中都取得了令人印象深刻的结果。代码和模型将被发布以促进未来的探索。|
- Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs - MLLM）在视频文本多模态任务中已显示出易受对抗样本攻击的漏洞。然而，对抗视频对未知模型的迁移性——一种常见且实际的现实场景——仍未得到探索。在本文中，我们率先研究了对抗视频样本在不同V-MLLM之间的迁移性。我们发现，现有的对抗攻击方法在应用于V-MLLM的黑盒设置时面临着显著的局限性，我们将这些局限性归因于以下几点：（1）扰动视频特征缺乏泛化性，（2）仅关注稀疏的关键帧，以及（3）未能整合多模态信息。为了解决这些局限性并加深对黑盒场景下V-MLLM漏洞的理解，我们引入了图像到视频MLLM（I2V-MLLM）攻击。在I2V-MLLM中，我们利用基于图像的多模态模型（IMM）作为代理模型来制作对抗视频样本。多模态交互和时间信息被整合以扰乱潜在空间中的视频表示，从而提高对抗迁移性。此外，我们还引入了一种扰动传播技术来处理不同的未知帧采样策略。实验结果表明，我们的方法可以生成在不同V-MLLM和多个视频文本多模态任务上表现出强大迁移性的对抗样本。与在这些模型上的白盒攻击相比，我们的黑盒攻击（使用BLIP-2作为代理模型）实现了具有竞争力的性能，在VideoQA任务中，对MSVD-QA和MSRVTT-QA的平均攻击成功率分别为55.48%和58.26%。我们的代码将在论文被接收后发布。|
- Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models - 30%。|
- 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining - nlp-sg/multimodal_textbook)**|与图文对数据相比，交错语料库使视觉语言模型 (VLM) 能够像人类一样更自然地理解世界。然而，此类现有数据集是从网页爬取的，面临着知识密度低、图文关系松散以及图像之间逻辑连贯性差等挑战。另一方面，互联网拥有大量人类广泛用于学习基础学科的教学视频（例如，在线几何课程），但这些宝贵的资源在 VLM 训练中仍未得到充分探索。在本文中，我们介绍了一个高质量的\textbf{多模态教科书}语料库，其中包含更丰富的基础知识，用于 VLM 预训练。它收集了超过 2.5 年的教学视频，总计 22,000 个课时。我们首先使用 LLM 提出的分类法系统地收集教学视频。然后，我们逐步从视频中提取和优化视觉（关键帧）、音频（ASR）和文本知识（OCR），并根据时间顺序组织成图文交错的语料库。与其对应物相比，我们以视频为中心的教科书提供了更连贯的上下文、更丰富的知识和更好的图文对齐。实验结果表明，其预训练性能出色，尤其是在知识和推理密集型任务（如 ScienceQA 和 MathVista）中。此外，在我们的教科书上进行预训练的 VLM 表现出出色的交错上下文感知能力，在其少样本上下文中利用视觉和文本线索来解决任务。|
- Hierarchical Banzhaf Interaction for General Video-Language Representation Learning - 语言表征学习专注于利用预定义的视频-文本对之间的全局语义交互来学习表征。然而，为了增强和细化这种粗粒度的全局交互，更细粒度的交互对于细粒度多模态学习至关重要。在本研究中，我们引入了一种新方法，将视频-文本建模为博弈参与者，利用多元合作博弈论来处理细粒度语义交互过程中存在的不确定性，这些交互具有多样化的粒度、灵活的组合以及模糊的强度。具体而言，我们设计了分层班扎夫交互（Hierarchical Banzhaf Interaction）来模拟视频片段和文本单词之间从分层角度来看的细粒度对应关系。此外，为了减轻班扎夫交互计算中的偏差，我们提出通过融合单模态和跨模态成分来重建表征。这种重建的表征确保了与单模态表征相当的细粒度，同时保留了跨模态表征的自适应编码特性。此外，我们将原始结构扩展到一个灵活的编码器-解码器框架中，使模型能够适应各种下游任务。在常用的文本-视频检索、视频问答和视频字幕基准数据集上进行的大量实验表明，我们的方法具有优越的性能，验证了其有效性和泛化能力。||
- WalkVLM:Aid Visually Impaired People Walking by Vision Language Model - 人工注释对，为盲人行走任务提供了一个公平的训练和测试基准。此外，我们提出了一个WalkVLM模型，该模型采用思维链进行分层规划，以生成简洁而信息丰富的提示，并利用时间感知自适应预测来减少提示的时间冗余。最后，我们建立了一个稳固的盲人行走任务基准，并验证了WalkVLM在该任务的流媒体视频处理中相较于其他VLM的优势。我们的数据集和代码将在匿名链接https://walkvlm2024.github.io发布。||
- Audiopedia: Audio QA with Knowledge - AQA），其中问题基于单个音频样本回答；（ii）多音频问答（m-AQA），需要对多个音频样本进行推理；以及（iii）检索增强音频问答（r-AQA），其中涉及检索相关音频以回答问题。我们对大型音频语言模型（LALM）在这些子任务上进行了基准测试，并观察到其性能欠佳。为了解决这个问题，我们提出了一个可以适应任何LALM的通用框架，使其具备知识推理能力。我们的框架有两个组成部分：（i）音频实体链接（AEL）和（ii）知识增强音频大型多模态模型（KA2LM），它们共同提高了知识密集型AQA任务的性能。据我们所知，这是第一个通过Audiopedia等知识密集型任务来解决高级音频理解的工作。||
- Diff4MMLiTS: Advanced Multimodal Liver Tumor Segmentation via Diffusion-Based Image Synthesis and Alignment
- Are Vision-Language Models Truly Understanding Multi-vision Sensor? - yun/ms-pr)**|大规模视觉语言模型 (VLM) 通过将视觉输入与文本对齐取得了进展，显著提高了计算机视觉任务的性能。此外，为了使 VLM 能够有效地应用于实际应用中，理解不同的多视觉传感器数据（例如热、深度和 X 射线信息）至关重要。然而，我们发现当前的 VLM 在处理多视觉传感器图像时，缺乏对传感器信息的深入理解，忽略了每个传感器独特的物理特性。这种限制制约了它们解释和回答需要多视觉传感器推理的复杂问题的能力。为了解决这个问题，我们提出了一个新颖的多视觉传感器感知和推理 (MS-PR) 基准测试，评估 VLM 对特定传感器推理的能力。此外，我们引入了多样性负属性 (DNA) 优化，使 VLM 能够对多视觉传感器任务进行深度推理，有助于弥合图像和传感器数据之间的核心信息差距。大量的实验结果证实，所提出的 DNA 方法可以显著提高 VLM 的多视觉传感器推理能力。||
- UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models
- M $^3$oralBench: A MultiModal Moral Benchmark for LVLMs
- Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks - 文本图对齐（VEGA）的方法，通过测量VLM在未标记下游任务中两种模态之间的一致性来选择VLM，无需任何标注。VEGA的动机来自于VLM的预训练范式，该范式将来自视觉和文本模态的具有相同语义的特征对齐，从而将两种模态映射到共享的表示空间中。具体来说，我们首先分别在视觉和文本特征上构建两个图。然后，VEGA被定义为视觉图和文本图在节点和边缘级别上的总体相似性。在涵盖各种应用场景和下游数据集的三个不同基准测试中的大量实验表明，VEGA能够对VLM在未标记下游任务上的性能提供一致可靠且准确的估计。||
- YOLO-UniOW: Efficient Universal Open-World Object Detection - mig/yolo-uniow)**|传统的目标检测模型受限于闭集数据集，只能检测在训练期间遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别，但由于跨模态融合，它们引入了显著的推理开销，并且仍然受限于预定义词汇，导致它们在处理开放世界场景中的未知对象时效率低下。在这项工作中，我们引入了通用开放世界目标检测 (Uni-OWD)，这是一种统一开放词汇和开放世界目标检测任务的新范式。为了应对这种设置的挑战，我们提出了 YOLO-UniOW，一个在效率、通用性和性能方面都取得了进步的新颖模型。YOLO-UniOW 结合了自适应决策学习，用 CLIP 潜在空间中的轻量级对齐取代计算成本高昂的跨模态融合，从而在不影响泛化性的情况下实现高效检测。此外，我们设计了一种通配符学习策略，将分布外对象检测为“未知”，同时支持动态词汇扩展，而无需增量学习。这种设计使 YOLO-UniOW 能够无缝适应开放世界环境中的新类别。大量实验验证了 YOLO-UniOW 的优越性，在 LVIS 上实现了 34.6 AP 和 30.0 APr，推理速度为 69.6 FPS。该模型还在 M-OWODB、S-OWODB 和 nuScenes 数据集上设立了基准，展示了其在开放世界目标检测中无与伦比的性能。代码和模型可在 https://github.com/THU-MIG/YOLO-UniOW 获取。||
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models - HALLUCINOGEN，这是一种针对生物医学领域定制的幻觉攻击，并评估了LVLMs在医学图像上的幻觉性能，这是一个精度至关重要的关键领域。最后，我们对八个LVLMs和两种幻觉缓解策略进行了跨多个数据集的广泛评估，以表明当前的通用和医学LVLMs仍然容易受到幻觉攻击。||
- EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models - Former 在标记压缩方面的优点。考虑到视频的时间信息，我们在文本区域压缩器中引入了滑动窗口机制。为了对视频字幕提取任务进行基准测试，我们提出了一个包含 250 万个视频的大型数据集 ViSa。在 ViSa 上的大量实验表明，所提出的 EVE 可以优于现有的开源工具和 LVLMs。||
- Vision-Language Models Struggle to Align Entities across Modalities
- A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning
- AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM - VAD) 技术和AnyAnomaly模型。C-VAD将用户定义的文本视为异常事件，并在视频中检测包含指定事件的帧。我们使用上下文感知的视觉问答有效地实现了AnyAnomaly，而无需微调大型视觉语言模型。为了验证所提出模型的有效性，我们构建了C-VAD数据集并证明了AnyAnomaly的优越性。此外，我们的方法在VAD基准数据集上表现出具有竞争力的性能，在UBnormal数据集上实现了最先进的结果，并且在所有数据集的泛化方面都优于其他方法。我们的代码可在github.com/SkiddieAhn/Paper-AnyAnomaly在线获取。||
- Semantic Alignment of Unimodal Medical Text and Vision Representations
- TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction
- ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task - Interleave Bench 上验证了我们的方法，该基准涵盖了具有挑战性的多图像任务。此外，我们通过在一个新创建的基准 ComPairs 上测试我们的方法，将方法推向极致，该基准侧重于多图像比较，其中将大量的图像和视觉标记输入到 LMM。我们广泛的分析考虑了几种 LMM 架构，证明了我们的方法在效率和性能提升方面的优势。||
- Synthetic Data is an Elegant GIFT for Continual Vision-Language Models - 文本对的广泛分布和高度对齐，我们提出了一个对比蒸馏损失以及一个图像-文本对齐约束。为了进一步对抗分布内过拟合并使用有限的生成数据增强蒸馏性能，我们结合了自适应权重巩固，利用来自这些合成图像-文本对的Fisher信息，实现了更好的稳定性-可塑性平衡。大量实验表明，我们的方法在各种设置下始终优于先前的最先进方法。||
- Multimodal AI predicts clinical outcomes of drug combinations from preclinical data
- Words or Vision: Do Vision-Language Models Have Blind Faith in Text?
- Vision-Language Model IP Protection via Prompt-based Learning - 图像预训练）这样的视觉语言模型（VLM）在视觉识别领域取得了显著成功，这凸显了保护训练良好的模型的知识产权（IP）的需求日益增长。有效的知识产权保护不仅仅是确保授权使用；它还需要限制模型部署到授权的数据域，尤其是在针对特定目标域对模型进行微调时。然而，目前的知识产权保护方法通常只依赖于视觉主干网络，这可能缺乏足够的语义丰富性。为了弥合这一差距，我们引入了IP-CLIP，这是一种针对CLIP的轻量级知识产权保护策略，采用基于提示的学习方法。通过利用CLIP冻结的视觉主干网络，我们提取图像风格和内容信息，并将其融入到IP提示的学习中。这种策略就像一个强大的屏障，有效地防止特征从授权域未经授权地转移到未授权域。此外，我们提出了一个风格增强分支，为授权域和未授权域构建特征库。该分支集成了自增强特征和跨域特征，进一步增强了IP-CLIP阻止来自未授权域特征的能力。最后，我们提出了三个新的指标，旨在更好地平衡授权域和未授权域的性能下降。各种场景下的综合实验表明，它在VLM知识产权保护任务中具有广阔的应用潜力。||
- BiasICL: In-Context Learning and Demographic Biases of Vision Language Models
- Decoupling the components of geometric understanding in Vision Language Models
- See What You Are Told: Visual Attention Sink in Large Multimodal Models
- Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection - scale image-text contrastive training, pre-trained vision language model (VLM) like CLIP shows superior open-vocabulary recognition ability. Most existing open-vocabulary object detectors attempt to utilize the pre-trained VLM to attain generative representation. F-ViT uses the pre-trained visual encoder as the backbone network and freezes it during training. However, the frozen backbone doesn't benefit from the labeled data to strengthen the representation. Therefore, we propose a novel two-branch backbone network design, named as ViT-Feature-Modulated Multi-Scale Convolutional network (VMCNet). VMCNet consists of a trainable convolutional branch, a frozen pre-trained ViT branch and a feature modulation module. The trainable CNN branch could be optimized with labeled data while the frozen pre-trained ViT branch could keep the representation ability derived from large-scale pre-training. Then, the proposed feature modulation module could modulate the multi-scale CNN features with the representations from ViT branch. With the proposed mixed structure, detector is more likely to discover novel categories. Evaluated on two popular benchmarks, our method boosts the detection performance on novel category and outperforms the baseline. On OV-COCO, the proposed method achieves 44.3 AP $_{50}^{\mathrm{novel}}$ with ViT-B/16 and 48.5 AP$_{50}^{\mathrm{novel}}$ with ViT-L/14. On OV-LVIS, VMCNet with ViT-B/16 and ViT-L/14 reaches 27.8 and 38.4 mAP$_{r}$ .|
- Improving Vision-Language-Action Model with Online Reinforcement Learning - language models (VLMs) into low-level robotic control by supervised fine-tuning (SFT) with expert robotic datasets, resulting in what we term vision-language-action (VLA) models. Although the VLA models are powerful, how to improve these large models during interaction with environments remains an open question. In this paper, we explore how to further improve these VLA models via Reinforcement Learning (RL), a commonly used fine-tuning technique for large models. However, we find that directly applying online RL to large VLA models presents significant challenges, including training instability that severely impacts the performance of large models, and computing burdens that exceed the capabilities of most local machines. To address these challenges, we propose iRe-VLA framework, which iterates between Reinforcement Learning and Supervised Learning to effectively improve VLA models, leveraging the exploratory benefits of RL while maintaining the stability of supervised learning. Experiments in two simulated benchmarks and a real-world manipulation suite validate the effectiveness of our method.|
- BiFold: Bimanual Cloth Folding with Language Guidance
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding - 图像-文本数据，分为四大领域：物理对象属性、物理对象关系、物理场景理解和基于物理的动力学，进一步细分为 19 个子类和 8 个不同的能力维度。我们对 75 个代表性 VLM 进行的广泛实验表明，虽然这些模型在常识推理方面表现出色，但在理解物理世界方面却存在困难——这可能是由于其训练数据中缺乏物理知识以及缺乏嵌入的物理先验。为了解决这一不足，我们引入了 PhysAgent，这是一个结合了 VLM 的泛化优势和视觉模型的专业知识的新型框架，可显著增强 VLM 在各种任务中的物理理解能力，包括 GPT-4o 性能提升 18.4%。此外，我们的结果表明，增强 VLM 的物理世界理解能力可以帮助 embodied AI，例如 MOKA。我们相信 PhysBench 和 PhysAgent 提供了宝贵的见解，有助于弥合 VLM 与物理世界理解之间的差距。|
- Demystifying the Potential of ChatGPT-4 Vision for Construction Progress Monitoring - 4 Vision，融入各行各业标志着人工智能领域，尤其是在视觉数据分析和解释方面，的重大进步。本文探讨了 GPT-4 Vision 在建筑行业的实际应用，重点关注其在监测和跟踪建筑项目进度方面的能力。本研究利用建筑工地的高分辨率航拍图像，检验了 GPT-4 Vision 如何执行详细的场景分析并跟踪随时间推移的发展变化。研究结果表明，虽然 GPT-4 Vision 能熟练地识别施工阶段、材料和机械，但在精确的目标定位和分割方面仍面临挑战。尽管存在这些限制，但该技术未来发展潜力巨大。这项研究不仅强调了当前在建筑领域使用 LVLMs 的现状和机遇，还讨论了未来通过特定领域训练以及与其他计算机视觉技术和数字孪生集成来增强模型效用的方向。|
- Error-driven Data-efficient Large Multimodal Model Tuning
- VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving - RL，这是一个将预训练的视觉语言模型 (VLM) 与 RL 相结合的统一框架，利用图像观测和自然语言目标生成奖励信号。VLM-RL的核心是对比语言目标 (CLG) 作为奖励的范式，它使用正面和负面的语言目标来生成语义奖励。我们进一步引入了一种分层奖励合成方法，将基于 CLG 的语义奖励与车辆状态信息相结合，提高了奖励的稳定性，并提供了更全面的奖励信号。此外，我们还采用了批量处理技术来优化训练过程中的计算效率。在 CARLA 模拟器中的大量实验表明，VLM-RL 的性能优于最先进的基线方法，碰撞率降低了 10.5%，路线完成率提高了 104.6%，并且对未见过的驾驶场景具有鲁棒的泛化能力。此外，VLM-RL 可以无缝集成几乎任何标准的 RL 算法，这可能会彻底改变现有的依赖于手动奖励工程的 RL 范式，并实现持续的性能改进。演示视频和代码可在以下网址访问：https://zilin-huang.github.io/VLM-RL-website。|
- PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
- EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
- Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation
- Harnessing Large Language and Vision-Language Models for Robust Out-of-Distribution Detection
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model - 50% 的非英语数据，就能在保持强大的英语性能的同时极大地提高多语言性能。我们进一步发现，(iii) 在预训练和指令微调中包含非英语 OCR 数据对于提高多语言文本图像理解至关重要。最后，我们结合所有研究结果，训练了 Centurio，一个支持 100 种语言的 LVLM，在涵盖 14 个任务和 56 种语言的评估中实现了最先进的性能。||
- MM-GEN: Enhancing Task Performance Through Targeted Multimodal Data Curation - gen)**|视觉语言模型 (VLM) 非常有效，但在特定任务上通常表现不佳；例如，由于缺乏特定任务的训练数据，Llava-1.5 在图表和图解理解方面存在困难。现有的训练数据来源于通用数据集，无法捕捉这些任务所需的细微差别。我们引入了 MM-Gen，这是一种可扩展的方法，它利用更强大的模型为候选图像生成特定任务的高质量合成文本。MM-Gen 采用一个三阶段的目标导向流程：将数据划分为子组，根据任务描述生成目标文本，并过滤掉冗余和异常数据。使用 MM-Gen 生成的数据对 VLM 进行微调可以显著提高性能，包括 Llava-1.5 (7B) 在空间推理方面提高 29%，在图解理解方面提高 15%。与人工整理的图像描述数据相比，MM-Gen 对原始模型的改进高达 1.6 倍，证明了其在增强特定任务 VLM 性能和弥合通用数据集与特定需求之间差距方面的有效性。代码可在 https://github.com/sjoshi804/MM-Gen 获取。||
- Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
- Re-ranking the Context for Multimodal Retrieval Augmented Generation - 4o）在处理这些条目以生成 RAG 输出时可能会产生幻觉。在本文中，我们旨在解决第一个挑战，即改进多模态 RAG 检索阶段从知识库中选择相关上下文的过程。具体来说，我们利用先前工作中设计的用于评估 RAG 性能的相关性评分 (RS) 指标，在检索过程中选择更相关的条目。基于嵌入（例如基于 CLIP 的嵌入）和余弦相似度的检索通常表现不佳，尤其是在多模态数据方面。我们表明，通过使用更高级的相关性度量，可以通过从知识库中选择更相关的片段并通过自适应地选择最多 k 个条目而不是固定数量的条目来消除上下文中的不相关片段，从而增强检索过程。我们使用 COCO 数据集进行的评估表明，在选择相关上下文和生成响应的准确性方面取得了显著的改进。||
- DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests
- A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI - ghm)**|多模态生成式AI系统，例如那些结合视觉和语言的系统，依赖于对比预训练来学习不同模态的表示。虽然它们的实际效益已得到广泛认可，但对比预训练框架的严格理论理解仍然有限。本文提出了一个理论框架来解释对比预训练在下游任务（例如零样本分类、条件扩散模型和视觉语言模型）中的成功。我们引入了近似充分统计量的概念，它是经典充分统计量的推广，并表明对比预训练损失的近似最小值是近似充分的，这使得它们能够适应各种下游任务。我们进一步提出了用于图像和文本联合分布的联合生成层次模型，表明Transformer可以通过置信传播有效地逼近该模型中的相关函数。在此框架的基础上，我们基于对比预训练表示推导了多模态学习的样本复杂度保证。数值模拟验证了这些理论发现，证明了对比预训练Transformer在各种多模态任务中的强大泛化性能。||
- Supervision-free Vision-Language Alignment
- Online Gaussian Test-Time Adaptation of Vision-Language Models
- Robotic Programmer: Video Instructed Policy Code Generation for Robotic Manipulation - 4o 11.6%，这甚至可以与强大的监督训练基线相媲美。此外，RoboPro对API格式和技能集的变化具有鲁棒性。||
- Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023 - 4V生成的图表标题，而不是所有其他模型甚至作者撰写的原始标题。基于这一重要发现，我们进行了详细的分析来回答这个问题：先进的LMM是否已经解决了为科学图表生成标题的任务？|
- RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception
- Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models - B/16图像编码器时，TLLA在四个ImageNet变体数据集上的平均性能分别超过TPT 5.32%和6.98%。代码即将发布。|
- Human Re-ID Meets LVLMs: What can we expect? - 4o、Gemini-2.0-Flash、Claude 3.5 Sonnet 和 Qwen-VL-Max 与基线 ReID PersonViT 模型的结果。我们的评估流程包括数据集整理、提示工程和指标选择，以评估模型的性能。结果从多个角度进行了分析：相似度得分、分类准确率和分类指标（包括精确率、召回率、F1 值和曲线下面积 (AUC)）。我们的结果证实了 LVLMs 的优势，但也揭示了其严重的局限性，这些局限性常常导致灾难性的结果，应成为进一步研究的重点。最后，我们展望了一些未来的研究方向，这些研究应融合传统方法和 LVLMs，结合两类技术的优势，实现性能的实质性提升。|
- Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models - 8B 在需要安全相关视觉推理的具有挑战性的多图像任务中，其性能显著优于强大的开源模型和基于 API 的模型。这种方法不仅提供了卓越的安全性能，还保留了通用能力，而没有任何权衡。具体而言，使用 MIS 进行微调将五个通用基准测试的平均准确率提高了 0.83%，并在多个安全基准测试中大幅降低了攻击成功率 (ASR)。数据和模型发布在：\href{https://dripnowhy.github.io/MIS/}{\texttt{https://dripnowhy.github.io/MIS/}}|
- Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks
- Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment
- U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning
- Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching
- Exploring Vision Language Models for Multimodal and Multilingual Stance Detection
- A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches
- Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification - 图像预训练 (CLIP) 模型之类的视觉语言模型，通过利用大规模图文数据集，展现了提高诊断准确性的潜力。然而，由于 CLIP 最初并非为医学图像设计，因此已经开发了几种专门针对医学图像训练的类 CLIP 模型。尽管它们的性能有所增强，但公平性问题——尤其是在人口统计学属性方面——在很大程度上仍未得到解决。在本研究中，我们对应用于 X 射线图像分类的类 CLIP 模型进行了全面的公平性分析。我们使用零样本推理和各种微调技术（包括线性探测、多层感知器 (MLP)、低秩自适应 (LoRA) 和全微调）评估了它们在不同患者人口统计学和疾病类别中的性能和公平性。我们的结果表明，虽然微调提高了模型的准确性，但公平性问题仍然存在，这凸显了在这些基础模型中需要进一步的公平性干预措施。|
- Boosting Weak Positives for Text Based Person Search - 文本对对齐到一个共同的表示空间，而往往忽略了现实世界中正例图像-文本对之间存在不同程度的相似性这一事实。这导致模型优先考虑容易的样本对，并且在一些最近的方法中，具有挑战性的样本在训练期间被当作噪声丢弃。在这项工作中，我们引入了一种 boosting 技术，可以在训练期间动态识别并强调这些具有挑战性的样本。我们的方法受到经典 boosting 技术的启发，并动态更新弱正例样本的权重，其中排名第一的匹配项与查询的身份不符。该权重允许这些排名错误的样本对对损失函数贡献更多，并且网络必须更多地关注此类样本。我们的方法在四个行人数据集上实现了性能提升，证明了我们提出的模块的有效性。||
- Learning Free Token Reduction for Multi-Modal LLM
- Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding
- Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation - Seg的新框架，该框架有效地减少了冗余，以平衡准确性和效率。ERR-Seg包含一个免训练的通道减少模块（CRM），它利用来自CLIP等视觉语言模型的先验知识来识别最相关的类别，同时丢弃其他类别。此外，它还结合了高效语义上下文融合（ESCF），并采用了空间级和类别级序列减少策略。CRM和ESCF在不影响准确性的情况下，显著节省了内存和计算资源。此外，认识到从中间层特征中提取的层次语义对于闭集语义分割的重要性，ERR-Seg引入了层次语义模块（HSM），以在OVSS的上下文中利用层次语义。与之前在ADE20K-847设置下的最先进方法相比，ERR-Seg实现了+5.6%的mIoU提升，并将延迟降低了67.3%。||
- MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
- IAP: Improving Continual Learning of Vision-Language Models via Instance-Aware Prompting - VLM）在实践中经常面临多领域类别增量学习（MCIL）场景，其中多模态任务的多个类别和领域是增量到达的。在无法访问先前学习的任务和未见任务的情况下，内存受限的MCIL会遭受前向和后向遗忘的困扰。为了缓解上述挑战，参数高效的微调技术（PEFT），例如prompt tuning，被用于使PT-VLM适应不同的增量学习任务。为了实现有效的新任务适应，现有方法只考虑了PEFT策略选择的影响，而忽略了PEFT参数设置（例如，prompting）的影响。在本文中，我们解决了在MCIL中为不同任务优化prompt设计的挑战，并提出了一个实例感知Prompting（IAP）框架。具体来说，我们的实例感知门控Prompting（IA-GP）模块通过在实例级别动态分配跨transformer层的prompt来增强对新任务的适应性，同时减轻遗忘。我们的实例感知类别分布驱动Prompting（IA-CDDP）通过为每个实例确定准确的任务标签相关置信度得分来改进任务适应过程。使用三个性能指标，跨11个数据集的实验评估证明了我们提出的方法的有效性。代码可在https://github.com/FerdinandZJU/IAP找到。|
- Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding
- sudo rm -rf agentic_security
- FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation - 1准确率和平均精度均值（mAP）方面有显著提高，并且在遮挡和低质量图像等挑战性场景中获得了更好的分割结果。消融研究进一步证实了多模态融合和分割模块有助于提高重识别和掩码精度。结果表明，FusionSegReID的性能优于传统的单模态模型，为现实世界的行人ReID任务提供了更鲁棒和更灵活的解决方案。|
- Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models - 响应对。利用该基准，我们对最先进的 VLMs 进行了全面的能力评估，并在开源模型上进行了微调。这项研究不仅解决了 VLMs 在多图推理方面未被充分探索的评估差距，而且经验证实了它们在图结构学习中的泛化优势。|
- UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning
- AdaMHF: Adaptive Multimodal Hierarchical Fusion for Survival Prediction
- Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning - RFT，一个新的强化微调框架，可显著增强视觉推理任务的泛化能力。Reason-RFT 为视觉推理引入了一个两阶段训练框架：(1) 使用精心策划的思维链 (CoT) 数据进行监督微调 (SFT)，激活视觉语言模型 (VLMs) 的推理潜力；(2) 基于组相对策略优化 (GRPO) 的强化学习，生成多个推理-响应对，显著增强视觉推理任务的泛化能力。为了评估 Reason-RFT 的视觉推理能力，我们重建了一个涵盖视觉计数、结构感知和空间变换的综合数据集。实验结果证明了 Reasoning-RFT 的三个主要优势：(1) 性能提升：在多项任务中取得了最先进的结果，优于大多数主流的开源和专有模型；(2) 泛化优势：在不同的任务和领域中始终保持稳健的性能，优于其他训练范式；(3) 数据效率：在少样本学习场景中表现出色，超越了全数据集 SFT 基线。项目网站：https://tanhuajie.github.io/ReasonRFT|
- Qwen2.5-Omni Technical Report - Omni，这是一个端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理，音频和视觉编码器都采用了分块处理方法。为了将视频输入的时间戳与音频同步，我们以交错的方式依次组织音频和视频，并提出了一种名为TMRoPE（时间对齐多模态旋转位置编码）的新型位置嵌入方法。为了同时生成文本和语音并避免两种模态之间的干扰，我们提出了Thinker-Talker架构。在此框架中，Thinker充当大型语言模型，负责文本生成，而Talker是一个双轨自回归模型，直接利用Thinker的隐藏表示来生成音频标记作为输出。Thinker和Talker模型都被设计成以端到端的方式进行训练和推理。为了以流式方式解码音频标记，我们引入了滑动窗口DiT，它限制了感受野，旨在减少初始数据包延迟。Qwen2.5-Omni与类似规模的Qwen2.5-VL性能相当，并优于Qwen2-Audio。此外，Qwen2.5-Omni在Omni-Bench等多模态基准测试中取得了最先进的性能。值得注意的是，Qwen2.5-Omni在端到端语音指令遵循方面的性能与其文本输入能力相当，这可以通过MMLU和GSM8K等基准测试来证明。至于语音生成，Qwen2.5-Omni的流式Talker在鲁棒性和自然度方面优于大多数现有的流式和非流式替代方案。|
- CoLLM: A Large Language Model for Composed Image Retrieval - 标题对的零样本方法。然而，这些方法存在明显的局限性：合成三元组的规模有限，缺乏多样性，并且修改文本不自然，而图像-标题对由于缺乏三元组数据而阻碍了多模态查询的联合嵌入学习。此外，现有方法难以处理复杂且细致的修改文本，这些文本需要复杂的融合和对视觉和语言模态的理解。我们提出了 CoLLM，这是一个一站式框架，可以有效地解决这些限制。我们的方法从图像-标题对中动态生成三元组，从而无需手动注释即可进行监督训练。我们利用大型语言模型 (LLM) 生成参考图像和修改文本的联合嵌入，促进更深层次的多模态融合。此外，我们引入了包含 340 万个样本的大规模数据集多文本 CIR (MTCIR)，并改进了现有的 CIR 基准测试（CIRR 和 Fashion-IQ），以增强评估的可靠性。实验结果表明，CoLLM 在多个 CIR 基准测试和设置中实现了最先进的性能。MTCIR 取得了有竞争力的结果，性能提升高达 15%。我们改进的基准测试为 CIR 模型提供了更可靠的评估指标，有助于推动这一重要领域的发展。|
- FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs - Bench，这是一个用于评估长（平均 > 1 小时）视频答案搜索挑战的基准测试，强调了对开放式问题评估的需求。我们的实验表明，FALCONEye 在 FALCON-Bench 中的性能优于现有技术，并且在相关基准测试中表现出相似或更好的性能。|
- ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation - Former 来聚合长期历史上下文，一个大型语言模型 (LLM) 用于驾驶场景推理，以及一个生成式规划器用于精确轨迹预测。ORION 进一步对齐推理空间和动作空间，以实现视觉问答 (VQA) 和规划任务的统一 E2E 优化。我们的方法在具有挑战性的 Bench2Drive 数据集上实现了令人印象深刻的闭环性能，驾驶得分 (DS) 为 77.74，成功率 (SR) 为 54.62%，这比最先进 (SOTA) 方法分别高出 14.28 DS 和 19.61% SR。|
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models
- RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models - Th-Bench，这是第一个旨在评估视觉语言模型（VLM）理解RGB-热图像对能力的基准测试。尽管VLM在视觉推理和多模态理解方面取得了显著进展，但它们的评估主要局限于基于RGB的基准测试，这在评估其红外视觉任务能力方面留下了关键空白。现有的可见光-红外数据集要么特定于任务，要么缺乏对模型进行严格评估所需的高质量注释。为了解决这些限制，RGB-Th-Bench提供了一个全面的评估框架，涵盖14个不同的技能维度，共有1600多个专家注释的是/否问题。该基准测试采用两个准确性指标：标准的问题级准确性和更严格的技能级准确性，后者评估模型在每个技能维度内多个问题上的稳健性。这种设计确保了对模型性能的全面评估，包括对对抗性和虚构响应的抵抗力。我们对19个最先进的VLM进行了广泛的评估，揭示了RGB-热图像理解方面的显著性能差距。我们的结果表明，即使是最强大的模型在热图像理解方面也存在困难，其性能受到基于RGB能力的严重限制。此外，预训练中缺乏大规模特定应用和专家注释的热图像-描述对数据集是造成观察到的性能差距的一个重要原因。RGB-Th-Bench强调了多模态学习方面进一步发展的迫切需求，以弥合可见光和热图像理解之间的差距。数据集可通过此链接获取，评估代码也将公开提供。|
- Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation
- RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation - Plus增强了现有的RoboFlamingo框架，它将深度数据融入VLM中，从而显著提高机器人操作性能。我们的研究通过将预训练的视觉Transformer（ViT）与重采样技术相结合，实现了RGB和深度信息的细致融合，将这些组合数据与语言线索紧密对齐，以实现卓越的多模态理解。RoboFlamingo-Plus的创新之处在于它对深度数据处理的输入进行了调整，利用预训练的重采样器进行深度特征提取，并采用交叉注意力机制进行最佳特征融合。这些改进使RoboFlamingo-Plus不仅可以深入理解3D环境，还可以轻松地在挑战性环境中执行复杂的、语言引导的任务。实验结果表明，RoboFlamingo-Plus将机器人操作性能比现有方法提高了10-20%，标志着取得了重大进展。代码和模型权重已在RoboFlamingo-Plus公开发布。|
- LangBridge: Interpreting Image as a Combination of Language Embeddings - 0.5B 上预训练的 LangBridge 适配器可以直接应用于更大的模型，例如 LLaMA3-8B 或 Qwen2.5-14B，同时保持竞争力。总体而言，LangBridge 通过将视觉表示基于 LLM 词汇嵌入来实现可解释的视觉语言对齐，而其即插即用的设计确保了跨多个 LLM 的高效复用，几乎没有性能下降。请访问我们的项目页面 https://LangBridge.github.io/|
- ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models - Bench。它们由带有 3D 标注的真实世界视频组成，详细描述了物体的运动动态：行进距离、速度、运动方向、物体间距离比较和相对运动方向。为了进一步将此类数据构建扩展到没有 3D 标签的视频，我们提出了一个自动流程，使用真实世界尺度的 4D 重建生成伪标签。利用我们用于时空推理的运动学指令调整数据，我们提出了 ST-VLM，这是一种增强了时空推理能力的 VLM，它在 STKit-Bench 上表现出优异的性能。此外，我们展示了 ST-VLM 可以稳健地泛化到不同的领域和任务，在其他时空基准测试（例如 ActivityNet、TVQA+）上优于基线模型。最后，通过将学习到的时空推理与现有能力相结合，ST-VLM 能够进行复杂的多步推理。项目页面：https://ikodoh.github.io/ST-VLM.|
- LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text - 文本对的LRS2M数据集，首次同时提供短文本和长文本，解决了现有数据集语义粒度限制的问题；（2）基于Long-CLIP的KPS模块设计了LRSCLIP架构，扩展了CLIP的文本处理能力，并通过双文本损失加权机制实现了细粒度的跨模态特征对齐。实验结果表明，在零样本长文本跨模态检索任务中，LRSCLIP的检索精度比Long-CLIP基线提高了10%-20%。对于零样本短文本跨模态检索任务，LRSCLIP在RSITMD数据集上的Text to Image R@1、Image to Text R@1和mR分别比当前最佳模型GeoRSCLIP提高了0.17%、0.67%和0.92%，在RSICD数据集上分别提高了0.04%、2.93%和1.28%。在零样本图像分类任务（平均准确率=75.75%）和语义定位任务（Rmi=0.7653）中，LRSCLIP实现了最先进的性能。这些结果验证了LRSCLIP在细粒度语义理解和全局特征匹配方面的双重优势。这项工作为遥感多模态学习提供了新的基准模型和数据支持。相关代码已开源，可在https://github.com/MitsuiChen14/LRSCLIP获取。|
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement - R1 近期的进展表明，大型语言模型 (LLM) 的复杂推理能力，包括自我验证和自我纠正等复杂行为，可以通过带有可验证奖励的强化学习 (RL) 来实现，并显著提高模型在 AIME 等挑战性任务上的性能。基于这些发现，我们的研究调查了类似的推理能力是否可以成功地整合到大型视觉语言模型 (LVLM) 中，并评估它们对挑战性多模态推理任务的影响。我们考虑了一种方法，它迭代地利用轻量级训练数据的监督微调 (SFT) 和强化学习 (RL) 来进一步提高模型泛化能力。首先，通过使用来自不同视觉数据集的高质量图像描述生成推理步骤，从纯文本 R1 模型中提取推理能力。随后，迭代式 RL 训练进一步增强了推理能力，每次迭代的 RL 改进模型都会为下一轮生成改进的 SFT 数据集。这个迭代过程产生了 OpenVLThinker，这是一个在 MathVista、MathVerse 和 MathVision 等挑战性基准测试中持续提高推理性能的 LVLM，证明了我们的策略在鲁棒视觉语言推理方面的潜力。代码、模型和数据位于 https://github.com/yihedeng9/OpenVLThinker。|
- Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models - 背侧）模型的启发，我们研究了为什么VLM尽管具有强大的物体识别能力，却在空间任务中表现不佳。我们基于可解释性的分析揭示了一个关键的潜在原因：VLM 中的视觉嵌入主要被视为语义上的“词袋”，由于其过大的嵌入范数，掩盖了细微但关键的位置线索。我们通过大量的诊断实验验证了这一见解，证明移除词序或细粒度空间细节对性能的影响极小。在这些发现的指导下，我们提出了简单且可解释的干预措施，包括规范化视觉嵌入范数和提取中间层空间丰富的特征，以恢复空间感知能力。在我们合成的 datasets 和标准基准测试上的实证结果表明空间推理能力得到了改善，突出了可解释性指导的设计选择的价值。我们的研究不仅揭示了当前VLM架构的基本局限性，还为增强对视觉场景的结构化感知提供了可操作的见解。|
- Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology
- Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models
- Beyond Accuracy: What Matters in Designing Well-Behaved Models? - 1k 分类中表现出高度公平性，并且对域变化具有很强的鲁棒性；(ii) 自监督学习是一种有效的训练范式，可以提高几乎所有考虑的质量维度；(iii) 训练数据集大小是大多数质量维度的主要驱动因素。最后，我们引入了 QUBA 分数（超越准确性的质量理解），这是一种新的衡量标准，可以在多个质量维度上对模型进行排名，从而根据特定用户需求提供定制化建议。|
- PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition - CLIP，这是一个参数高效的微调(PEFT)框架，它使CLIP适应DFER，同时显著减少可训练参数并保持高精度。PE-CLIP引入了两个专门的适配器：时间动态适配器(TDA)和共享适配器(ShA)。TDA是一个基于GRU的模块，具有动态缩放功能，可以捕获序列依赖关系，同时强调信息丰富的时间特征并抑制无关的变化。ShA是一个轻量级适配器，可在文本和视觉编码器中优化表示，确保一致性和效率。此外，我们集成了多模态提示学习(MaPLe)，为视觉和基于动作单元的文本输入引入可学习提示，增强了模态之间的语义对齐，并使CLIP能够高效地适应动态任务。我们在两个基准数据集DFEW和FERV39K上评估了PE-CLIP，与最先进的方法相比，实现了具有竞争力的性能，同时需要的可训练参数更少。通过平衡效率和准确性，PE-CLIP在资源高效的DFER中树立了新的基准。所提出的PE-CLIP的源代码将在https://github.com/Ibtissam-SAADI/PE-CLIP公开发布。|
- Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks - Net)，这是一个统一的 DUN 框架，可以同时处理多种退化类型。VLU-Net 利用在退化图像-文本对上进行微调的视觉语言模型 (VLM) 将图像特征与退化描述对齐，从而为目标退化选择合适的变换。通过将基于 VLM 的自动梯度估计策略集成到近端梯度下降 (PGD) 算法中，VLU-Net 有效地解决了复杂的多退化复原任务，同时保持了可解释性。此外，我们设计了一个分层特征展开结构来增强 VLU-Net 框架，从而有效地合成不同级别的退化模式。VLU-Net 是第一个一体化的 DUN 框架，在 SOTS 去雾数据集和 Rain100L 去雨数据集上的性能分别比目前领先的一对一和一体化端到端方法高 3.74 dB 和 1.70 dB。|
- Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification - id/CCD获取。|
- Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction
- MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers - 4o，总体准确率也只有48.55%，在多表格理解任务中准确率仅为20%，而表现第二的模型Qwen2.5-VL-72B的总体准确率为39.86%。此外，我们研究了思维链（CoT）技术对跨源推理的影响，观察到它对小型模型有不利影响，而大型模型的性能则得到显著提升。这些结果突出了开发能够有效利用跨源信息进行推理的VLM的迫切需求。|
- Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key - DPO框架，该框架独特地利用专家反馈来纠正幻觉响应，并以在线策略的方式对齐原始响应和专家修改后的响应。值得注意的是，仅使用4.8k数据，OPA-DPO在LLaVA-1.5-7B的幻觉率方面实现了进一步降低：与使用16k样本训练的先前SOTA算法相比，在AMBER基准测试中降低了13.26%，在Object-Hal基准测试中降低了5.39%。||
- Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness - 1k上的对抗鲁棒性比之前的最佳模型高出约20%。与现有技术相比，Δ²LLaVA在图像描述任务上的鲁棒性提高了约30%，在视觉问答任务上的鲁棒性提高了约20%。此外，与基线模型相比，我们的模型展现出更强的零样本识别能力、更少的幻觉和更优越的推理性能。我们的项目页面是https://doublevisualdefense.github.io/。||
- Vision-Language Models Do Not Understand Negation
- Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning
- Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites
- Continual Test-Time Adaptation for Single Image Defocus Deblurring via Causal Siamese Networks
- IDEA: Image Description Enhanced CLIP-Adapter - 图像预训练模型 (CLIP) 在模式识别和计算机视觉领域取得了巨大成功。如何将CLIP迁移到下游任务（例如零样本或少样本分类）是多模态学习中的一个热点话题。然而，目前的研究主要集中在文本的prompt学习或视觉的适配器调优上，而没有充分利用图像-文本对之间的互补信息和关联性。在本文中，我们提出了一种图像描述增强CLIP适配器（IDEA）方法，以使CLIP适应少样本图像分类任务。该方法通过利用图像的视觉特征和文本描述来捕获细粒度特征。IDEA是一种无需训练的CLIP方法，它在多个任务上的性能可以与最先进的模型相媲美，甚至超越它们。此外，我们引入了可训练的IDEA（T-IDEA），它通过添加两个轻量级可学习组件（即投影器和可学习的潜在空间）来扩展IDEA，进一步提高了模型的性能，并在11个数据集上实现了最先进的结果。作为一个重要的贡献，我们使用Llama模型并设计了一个全面的流程来生成11个数据集的图像文本描述，最终生成了总计1,637,795个图像-文本对，命名为“IMD-11”。我们的代码和数据已发布在https://github.com/FourierAI/IDEA。||
- Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning - LVLM)，该方法在预训练和微调期间将结构化和非结构化知识动态地融入 LVLMs。我们的方法采用知识编码器来表示外部知识，采用检索机制来选择与任务相关的信息，并采用动态适配器来有效地对齐多模态和知识表示。我们在四个基准数据集上评估了我们的方法，证明其性能比最先进的模型有显著提高。此外，人工评估突出了我们模型输出的更高的正确性和相关性。大量的分析证实了 AKGP-LVLM 的鲁棒性、效率和可扩展性，使其成为现实世界知识密集型任务的引人注目的解决方案。||
- Systematic Weight Evaluation for Pruning Large Language Models: Enhancing Performance and Sustainability
- R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts - T2)”，该方法通过将测试样本的路由权重向量移向其邻域中正确预测样本的路由权重向量来局部优化测试时的路由权重向量。我们提出了三种具有不同优化目标和邻域搜索空间的 R2-T2 策略。R2-T2 在不训练任何基础模型参数的情况下，持续且显著地提高了最先进 LMM 在各种任务的挑战性基准测试中的性能。||
- Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
- Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion
- Vision-Encoders (Already) Know What They See: Mitigating Object Hallucination via Simple Fine-Grained CLIPScore - CLIPScore），这是一种简单而有效的评估指标，它通过结合名词短语级别的文本嵌入来增强对象级别的粒度。在 OHD-Caps 基准测试中的评估结果表明，F-CLIPScore 的准确性显著优于传统的 CLIPScore，差距高达 39.6%，且无需额外的训练。我们进一步验证了 F-CLIPScore，结果表明，使用 F-CLIPScore 过滤后的数据训练的 LVLM 能够减少对象幻觉。||
- ProAPO: Progressively Automatic Prompt Optimization for Visual Classification
- Analyzing CLIP's Performance Limitations in Multi-Object Scenarios: A Controlled High-Resolution Study - 图像预训练 (CLIP) 模型在零样本分类任务中表现出色，但在处理复杂多目标场景方面的效率仍然存在挑战。本研究通过受控实验，对 CLIP 在多目标环境下的性能局限性进行了全面分析。我们引入了两个自定义数据集 SimCO 和 CompCO，用于评估 CLIP 在各种多目标配置下的图像和文本编码器。我们的研究结果揭示了两种编码器中的显著偏差：图像编码器偏向于较大的物体，而文本编码器则优先考虑描述中首先提到的物体。我们假设这些偏差源于 CLIP 的训练过程，并通过分析 COCO 数据集和 CLIP 的训练进程提供证据。此外，我们将研究扩展到 Stable Diffusion 模型，发现 CLIP 文本编码器中的偏差会显著影响文本到图像的生成任务。我们的实验展示了这些偏差如何影响 CLIP 在图像-字幕匹配和生成任务中的性能，尤其是在操纵物体大小和它们在字幕中顺序的情况下。这项工作为 CLIP 在复杂视觉环境中的行为提供了宝贵的见解，并突出了未来视觉语言模型改进的方向。||
- Mixtera: A Data Plane for Foundation Model Training
- Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI - VLM-1B和Shakti-VLM-4B在文档理解、视觉推理、OCR提取和通用多模态推理方面表现出色。我们的结果表明，高性能可以通过模型设计和训练策略而不是纯粹的数据量来实现，这使得Shakti成为企业级多模态任务的有效解决方案。||
- Scaling Pre-training to One Hundred Billion Data for Vision Language Models
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification - GigaPath视觉基础模型，通过添加适配器并通过923K图像-文本对上的对比学习将其与医学文本编码器对齐，从而将其扩展为视觉语言模型。然后，该模型用于从少量标注中提取视觉特征和文本嵌入，并使用可学习的提示嵌入进行微调。与先前将提示与冻结特征结合使用前缀嵌入或自注意力的方法不同，我们提出了多粒度注意力，它比较可学习提示与单个图像块及其组之间的交互。这种方法提高了模型捕获细粒度细节和更广泛上下文的能力，增强了其对跨子区域复杂模式的识别能力。为了进一步提高准确性，我们利用基于（非平衡）最优传输的视觉文本距离来确保模型的鲁棒性，通过减轻数据增强过程中可能发生的扰动。在肺、肾和乳腺病理模式上的实证实验验证了我们方法的有效性；因此，我们超越了几个最新的竞争对手，并在包括CLIP、PLIP和Prov-GigaPath集成PLIP在内的各种架构中持续提高了性能。我们在MGPATH发布了我们的实现和预训练模型。|
- Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success - 语言-动作模型（VLA）建立在预训练的视觉-语言模型之上，并利用不同的机器人数据集来展示强大的任务执行能力、语言理解能力和语义泛化能力。尽管取得了这些成功，VLA仍然难以应对新的机器人设置，并且需要微调才能达到良好的性能，然而，考虑到许多可能的策略，如何最有效地微调它们尚不清楚。在这项工作中，我们使用OpenVLA作为我们的代表性基准模型，研究了关键的VLA适应性设计选择，例如不同的动作解码方案、动作表示和微调的学习目标。我们的实证分析提供了一种优化微调（OFT）方案，它集成了并行解码、动作分块、连续动作表示和简单的基于L1回归的学习目标，从而共同提高推理效率、策略性能以及模型输入输出规范的灵活性。我们提出了OpenVLA-OFT，它是该方案的一个实例，它在LIBERO仿真基准测试中树立了新的最先进水平，将OpenVLA在四个任务套件中的平均成功率从76.5%显著提高到97.1%，同时将动作生成吞吐量提高了26倍。在真实世界的评估中，我们的微调方案使OpenVLA能够在双臂ALOHA机器人上成功执行灵巧的高频控制任务，并且优于其他使用其默认方案微调的VLA（π0和RDT-1B），以及从头训练的强大的模仿学习策略（Diffusion Policy和ACT），平均成功率高达15%（绝对值）。我们在https://openvla-oft.github.io/上发布了OFT的代码和预训练模型检查点。||
- Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
- Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions
- WebGames: Challenging General-Purpose Web-Browsing AI Agents - ai/webgames)**|我们推出WebGames，这是一个全面的基准测试套件，旨在通过50多个交互式挑战来评估通用网页浏览AI代理。这些挑战专门设计为对人类来说简单易行，同时系统地测试当前AI系统在基本浏览器交互、高级输入处理、认知任务、工作流程自动化和互动娱乐方面的局限性。我们的框架通过一个封闭的测试环境消除了外部依赖，确保了可重复的评估和可验证的真实解决方案。我们评估了领先的视觉语言模型，包括GPT-4o、Claude Computer-Use、Gemini-1.5-Pro和Qwen2-VL，并与人类表现进行了比较。结果显示，AI能力与人类能力之间存在巨大差距，即使是最好的AI系统也仅取得了43.1%的成功率，而人类的成功率为95.7%，这凸显了当前AI系统在处理人类认为直观的常见网络交互模式方面的根本局限性。该基准测试在webgames.convergence.ai公开可用，提供了一个轻量级的客户端实现，方便快速评估周期。通过其模块化架构和标准化挑战规范，WebGames为衡量更强大的网页浏览代理的开发进度提供了坚实的基础。||
- Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs - llm)**|本文定义并探讨了使用大型语言模型 (LLM) 从富布局文档中提取信息 (IE) 的设计空间。LLM 布局感知 IE 的三个核心挑战是 1) 数据结构化，2) 模型参与，和 3) 输出细化。我们的研究深入探讨了这些核心挑战中的子问题，例如输入表示、分块、提示以及 LLM 和多模态模型的选择。它通过一个新的布局感知 IE 测试套件检查不同设计选择的结果，并以最先进的 (SoA) 模型 LayoutLMv3 为基准进行测试。结果表明，一次一个因素 (OFAT) 试验的配置实现了接近最优的结果，与基线模型相比 F1 值提高了 14.1 分，而全因子探索仅带来了略高的 15.1 分的提升，但 token 使用量增加了约 36 倍。我们证明了配置良好的通用 LLM 可以匹敌专用模型的性能，从而提供了一种经济高效的替代方案。我们的测试套件可在 https://github.com/gayecolakoglu/LayIE-LLM 免费获取。||
- VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion - E2E，这是一个利用 VLM 通过提供注意力线索来增强训练的新颖框架。我们的方法将文本表示集成到鸟瞰图 (BEV) 特征中以进行语义监督，这使模型能够学习更丰富的特征表示，从而显式地捕捉驾驶员的注意力语义。通过关注注意力语义，VLM-E2E 更好地与人类驾驶行为保持一致，这对于在动态和复杂环境中导航至关重要。此外，我们引入了一种 BEV-Text 可学习加权融合策略，以解决融合多模态信息时模态重要性不平衡的问题。这种方法动态地平衡了 BEV 和文本特征的贡献，确保有效地利用来自视觉和文本模态的互补信息。通过明确解决多模态融合中的不平衡问题，我们的方法有助于更全面、更鲁棒地表示驾驶环境。我们在 nuScenes 数据集上评估了 VLM-E2E，并证明了其优于最先进方法的性能，展示了显著的性能改进。||
- Can Multimodal LLMs Perform Time Series Anomaly Detection? - ts/visualtimeanomaly)**|大型语言模型 (LLM) 越来越多地用于时间序列分析。然而，多模态 LLM (MLLM)，特别是视觉语言模型，在时间序列中的潜力很大程度上仍未得到充分探索。人类检测时间序列异常的一种自然方式是通过可视化和文本描述。受此启发，我们提出了一个关键且实际的研究问题：MLLM 能否执行时间序列异常检测？为了回答这个问题，我们提出了 VisualTimeAnomaly 基准来评估 MLLM 在时间序列异常检测 (TSAD) 中的性能。我们的方法将时间序列数值数据转换为图像格式，并将这些图像输入各种 MLLM，包括专有模型（GPT-4o 和 Gemini-1.5）和开源模型（LLaVA-NeXT 和 Qwen2-VL），每个模型都有一个较大版本和一个较小版本。VisualTimeAnomaly 总共包含 12.4k 张时间序列图像，涵盖 3 个场景和 3 个异常粒度，包含 8 个 MLLM 的 9 种异常类型。从单变量情况（点异常和范围异常）开始，我们将评估扩展到更实际的场景，包括多变量和不规则时间序列场景以及变量异常。我们的研究揭示了几个关键见解：1) MLLM 检测范围异常和变量异常比检测点异常更有效。2) MLLM 对不规则时间序列具有高度鲁棒性，即使缺少 25% 的数据也是如此。3) 开源 MLLM 在 TSAD 中的性能与专有模型相当。虽然开源 MLLM 在单变量时间序列上表现出色，但专有 MLLM 在多变量时间序列上表现出更优越的有效性。据我们所知，这是第一个全面研究 MLLM 用于 TSAD 的工作，特别是针对多变量和不规则时间序列场景。我们在 https://github.com/mllm-ts/VisualTimeAnomaly 上发布了我们的数据集和代码，以支持未来的研究。||
- Mind the Gesture: Evaluating AI Sensitivity to Culturally Offensive Non-Verbal Gestures - SIGNS)，这是一个包含 288 个手势-国家对的数据集，涵盖 25 种手势和 85 个国家，并对冒犯性、文化意义和背景因素进行了注释。通过使用 MC-SIGNS 进行系统评估，我们发现了关键局限性：文本到图像 (T2I) 系统表现出强烈的以美国为中心的偏见，在检测美国语境中的冒犯性手势方面比非美国语境表现更好；大型语言模型 (LLM) 倾向于过度标记手势为冒犯性；视觉语言模型 (VLM) 在回应诸如祝某人好运之类的普遍概念时，默认为基于美国的解释，经常建议文化上不适当的手势。这些发现凸显了对文化感知型人工智能安全机制的迫切需求，以确保人工智能技术在全球的公平部署。||
- METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling
- End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models - CoT)，这是一种针对大型视觉语言模型 (LVLM) 优化的全新方法。我们的方法直接训练 LVLM 以端到端的方式处理图表图像并生成文本摘要，从而无需显式的图表解析模块。我们通过指令微调 incorporating 了视觉思维链机制，在摘要生成过程中隐式引导 LVLM 执行视觉推理步骤。在大规模 Chart-Sum-QA 数据集上进行的评估表明，我们的 V-CoT 方法在包括 BLEU、BLEURT、CIDEr 和 CS 在内的一系列自动指标上均显著优于最先进的基线模型，并且在人工评估中展现出更优的匹配度和推理正确性。消融研究和详细分析进一步验证了我们提出的方法的有效性和稳健性，为端到端图表摘要建立了新的基准。||
- DIS-CO: Discovering Copyrighted Content in VLMs Training Data - co)**|我们如何在无法直接访问大型视觉语言模型 (VLM) 训练数据的情况下验证其是否使用了受版权保护的内容进行训练？基于VLM能够识别其训练语料库中图像的假设，我们提出了DIS-CO，一种推断模型开发过程中是否包含受版权保护内容的新方法。通过使用目标受版权保护材料中的特定帧重复查询VLM，DIS-CO 通过自由形式的文本补全提取内容的身份。为了评估其有效性，我们引入了MovieTection，这是一个包含14,000帧的基准测试，每帧都配有详细的字幕，这些帧来自模型训练截止日期之前和之后发布的电影。我们的结果表明，DIS-CO 显着提高了检测性能，在可获取logits的模型上，其平均AUC几乎是最佳现有方法的两倍。我们的研究结果还突出了一个更广泛的问题：所有测试模型似乎都在一定程度上接触过受版权保护的内容。我们的代码和数据可在 https://github.com/avduarte333/DIS-CO 获取。||
- AnyPlace: Learning Generalized Object Placement for Robot Manipulation - place.github.io。|
- TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation - Habitat指令数据集上使用联合语义地图（如VLMaps）的其他方法相比，我们展示了更优越的性能，并详细量化了视觉基础对导航性能的影响。|
- EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
- Learning Musical Representations for Music Performance Question Answering - 视觉建模的典型场景。不同于通常场景中稀疏的音频，音乐表演自始至终都包含密集的音频信号。虽然现有的多模态学习方法在音频-视频问答方面展现出令人印象深刻的能力，但它们无法处理音乐表演中的基本问题：它们对表演中多模态信号之间的交互探索不足，并且未能考虑乐器和音乐的独特特征。因此，现有方法往往无法准确回答有关音乐表演的问题。为了弥合上述研究差距，(i) 鉴于音乐数据固有的复杂多模态互连性，我们的主要骨干网络旨在结合音乐环境下的多模态交互；(ii) 为了使模型能够学习音乐特征，我们在当前的音乐数据集中标注并发布了节奏和音乐来源；(iii) 为了实现时间感知的音频-视觉建模，我们将模型的音乐预测与时间维度对齐。我们的实验在 Music AVQA 数据集上展示了最先进的效果。我们的代码可在 https://github.com/xid32/Amuse 获取。|
- AppVLM: A Lightweight Vision Language Model for Online App Control - 4o）的方法计算成本高昂，而使用较小的微调模型的方法通常缺乏对分布外任务的适应性。在这项工作中，我们介绍了 AppVLM，一种轻量级的视觉语言模型 (VLM)。首先，我们使用 AndroidControl 数据集对其进行离线微调。然后，我们通过从 AndroidWorld 环境收集数据并执行进一步的训练迭代来改进其策略。我们的结果表明，与所有评估的基线相比，AppVLM 在 AndroidControl 数据集的离线评估中实现了最高的动作预测准确率，并且在 AndroidWorld 环境中的在线任务完成成功率与 GPT-4o 相当，同时速度最高可达十倍。这使得 AppVLM 成为现实世界部署的实用且高效的解决方案。|
- When Data Manipulation Meets Attack Goals: An In-depth Survey of Attacks for VLMs
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models
- Fair-MoE: Fairness-Oriented Mixture of Experts in Vision-Language Models - MoE，一个专门设计用于确保公平性和有效性的模型。Fair-MoE包含两个关键组件：公平导向专家混合模型（FO-MoE）和公平导向损失函数（FOL）。FO-MoE旨在利用各种专家的专业知识来过滤掉有偏差的图像块嵌入，并使用集成方法提取与特定任务相关的更公平的信息。FOL是一种新颖的公平导向损失函数，它不仅最小化不同属性之间的距离，还优化各种属性分布离散度的差异。扩展实验证明了Fair-MoE的有效性和公平性。在Harvard-FairVLMed数据集上进行的测试表明，Fair-MoE在所有四个属性的公平性和准确性方面均有所提高。代码将公开发布。|
- DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control - 语言-动作（VLA）模型在泛化机器人技能方面已展现出潜力，但要充分发挥其潜力，需要解决动作表示和高效训练方面的局限性。目前的VLA模型通常侧重于扩展视觉-语言模型（VLM）组件，而动作空间表示仍然是一个关键瓶颈。本文介绍了DexVLA，这是一个旨在提高VLA在不同机器人具身化中处理复杂、长程任务的效率和泛化能力的新颖框架。DexVLA的特点是一个新颖的基于扩散的动作专家模型，规模达到十亿参数，专为跨具身化学习而设计。一种新颖的具身化课程学习策略促进了高效训练：（1）在跨具身化数据上预训练可与VLA分离的扩散专家模型，（2）将VLA模型与特定具身化对齐，以及（3）针对新任务进行快速适应的后续训练。我们针对包括单臂、双臂和灵巧手在内的多种具身化进行了全面的实验，证明了DexVLA对挑战性任务的适应性，无需针对特定任务进行调整；它能够在新的具身化上利用有限的数据学习灵巧技能；以及它能够仅使用直接语言提示来完成复杂、长程任务，例如叠衣服。在所有场景下，我们的方法都展现出比Octo、OpenVLA和Diffusion Policy等现有最先进模型更优越的性能。|
- Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray - VITA，一个简单而有效的大型多模态模型，用于长上下文视觉语言理解任务。它擅长同时处理和分析超过4K帧或1M标记的图像、视频和文本模态，同时在短上下文多模态任务上提供先进的性能。我们提出了一个有效的多模态训练方案，从大型语言模型开始，然后进行视觉语言对齐、通用知识学习以及两个连续阶段的长序列微调。我们进一步实施了上下文并行分布式推理和 logits 遮蔽语言建模头，以在模型推理期间将 Long-VITA 扩展到无限长的图像和文本输入。关于训练数据，Long-VITA 仅基于来自公共数据集的 1700 万个样本的组合构建，并且与具有内部数据的最新前沿模型相比，在各种多模态基准测试中展示了最先进的性能。Long-VITA 是完全可复现的，并且支持 NPU 和 GPU 平台进行训练和测试。我们希望 Long-VITA 可以作为一个有竞争力的基线，并为开源社区在推进长上下文多模态理解方面提供有价值的见解。|
- DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions - RATE 数据集（包含 50,188 对配对的三维胸部 CT 图像和放射学报告）上进行评估，用于 18 种病症的零样本多异常检测。与 ViT、ConvNeXt、PoolFormer 和 TransUNet 相比，DCFormer 实现了更高的效率和准确性，其中 DCFormer-Tiny 仅使用了少量参数即达到了 62.0% 的准确率和 46.3% 的 F1 值。这些结果突出了 DCFormer 在可扩展的、临床上可部署的三维医学 VLM 中的潜力。我们的代码将公开发布。|
- OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting
- Color in Visual-Language Models: CLIP deficiencies - 图像预训练）中编码，CLIP是目前人工智能领域中最具影响力的VML（视觉语言模型）。在对为此任务创建的合成数据集进行不同的实验后，我们得出结论，CLIP能够将正确的颜色标签归因于彩色的视觉刺激，但是，我们发现了两个主要缺陷：（a）对与颜色概念关联较差的消色差刺激存在明显的偏差，因此白色、灰色和黑色很少被指定为颜色标签；以及（b）倾向于优先考虑文本而不是其他视觉信息。在这里，我们通过详尽的斯特鲁普效应测试证明了它在颜色标记中非常重要。为了找到这些颜色缺陷的原因，我们分析了神经元层面的内部表征。我们得出结论，CLIP呈现了大量的文本选择性神经元，尤其是在网络的更深层，以及少量的多模态颜色神经元，这可能是正确理解颜色概念的关键。我们的研究强调了改进神经网络中颜色表征机制的必要性，以促进对人类理解颜色的更全面理解，从而提高CLIP等多模态模型在现实场景中的效率和通用性。|
- Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting - VLM，一个利用预训练视觉语言模型 (VLM) 来桥接时间、视觉和文本模态以增强预测的新型多模态框架。我们的框架包含三个关键组件：（1）检索增强学习器，它通过记忆库交互提取丰富的时序特征；（2）视觉增强学习器，它将时间序列编码为信息图像；（3）文本增强学习器，它生成上下文文本描述。这些组件与冻结的预训练 VLM 协作以生成多模态嵌入，然后将其与时间特征融合以进行最终预测。跨不同数据集的大量实验表明，Time-VLM 实现了卓越的性能，尤其是在少样本和零样本场景中，从而为多模态时间序列预测建立了新的方向。|
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment - 4o之后，激发了人们对开发能够理解更多模态的全模态模型的兴趣。尽管出现了一些开源替代方案，但它们的性能与专门的单模态模型相比仍存在显著差距。在本文中，我们提出了Ola，一个全模态语言模型，在图像、视频和音频理解方面，与专门的对应模型相比实现了具有竞争力的性能。Ola的核心设计在于其渐进式模态对齐策略，该策略逐步扩展了语言模型支持的模态。我们的训练流程从最独特的模态开始：图像和文本，然后使用连接语言和音频知识的语音数据，以及连接所有模态的视频数据，逐步扩展模型的技能。这种渐进式学习流程也使我们能够保持相对较小的跨模态对齐数据规模，从而使从现有视觉语言模型开发全模态模型变得更容易且成本更低。此外，为了解锁像GPT-4o一样的高级交互体验，我们进一步设计了一种用于流式语音生成的逐句解码方案。大量实验表明，Ola在所有模态上都超越了现有的开放全模态大型语言模型，同时与类似规模的最先进的专门模型相比，也取得了极具竞争力的性能。我们的目标是使Ola成为一个完全开放的全模态理解解决方案，以推进这一新兴领域的未来研究。模型权重、代码和数据已在https://github.com/Ola-Omni/Ola开源。|
- Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion - the-Gap。|
- Efficient Few-Shot Continual Learning in Vision-Language Models
- CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing - Editor，这是第一个用于基于文本的 CAD 编辑的框架。为了应对训练所需的精确对应关系的三元组数据带来的挑战，我们提出了一个自动数据合成流程。该流程利用设计变体模型生成原始 CAD 模型和编辑后 CAD 模型的配对数据，并使用大型视觉语言模型 (LVLMs) 将它们的差异概括为编辑指令。为了解决基于文本的 CAD 编辑的复合特性，我们提出了一个“定位-然后-填充”框架，将任务分解为两个重点子任务：定位需要修改的区域以及用适当的编辑填充这些区域。大型语言模型 (LLMs) 作为这两个子任务的支柱，利用其在自然语言理解和 CAD 知识方面的能力。实验表明，CAD-Editor 在定量和定性方面都取得了优异的性能。|
- RadVLM: A Multitask Conversational Vision-Language Model for Radiology - 指令对，其中包含单轮任务（例如报告生成、异常分类和视觉定位）以及多轮、多任务对话交互。在对RadVLM进行微调后，我们评估了它在不同任务中的表现，并与重新实现的基线VLMs进行了比较。我们的结果表明，RadVLM在对话能力和视觉定位方面达到了最先进的性能，同时在其他放射学任务中保持竞争力。消融研究进一步强调了跨多个任务联合训练的好处，尤其是在标注数据有限的情况下。总之，这些发现突出了RadVLM作为临床相关AI助手的潜力，它提供结构化的CXR解读和对话功能，以支持更有效和更易于访问的诊断工作流程。||
- iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs
- EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model - LVLMs）在医疗保健领域展现出巨大潜力，但其依赖通用医学数据和粗粒度的全局视觉理解，限制了其在智能眼科诊断中的应用。目前，智能眼科诊断面临三大挑战：（1）数据：缺乏深度标注、高质量、多模态的眼科视觉指令数据；（2）基准：缺乏用于评估诊断性能的全面且系统的基准；（3）模型：难以将整体视觉架构适配到细粒度、区域特定的眼科病灶识别。在本文中，我们提出了Eyecare Kit，它通过定制的数据集、基准和模型系统地解决了上述三个关键挑战：首先，我们构建了一个基于真实眼科数据的多智能体数据引擎，以生成高质量的眼科视觉指令数据集Eyecare-100K。随后，我们设计了Eyecare-Bench，这是一个基准，可以从多个维度全面评估LVLMs在智能眼科诊断任务中的整体性能。最后，我们开发了EyecareGPT，它针对细粒度的眼科视觉理解进行了全面优化，并结合了自适应分辨率机制和逐层密集连接器。大量的实验结果表明，EyecareGPT在一系列眼科任务中取得了最先进的性能，突显了其在推动智能眼科诊断开放研究方面的巨大潜力。我们的项目可在https://github.com/DCDmllm/EyecareGPT获取。|
- Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation
- Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization - 视觉对齐模块，旨在对齐查询和支持视频的不同层次。同时，为了更好地表达文本层面动作之间的时间依赖性和因果关系以辅助动作定位，我们设计了一种类似思维链（CoT）的推理方法，逐步引导视觉语言模型（VLM）和大型语言模型（LLM）生成类似CoT的视频文本描述。生成的文本比视觉特征可以捕捉到更多的动作变化。我们在公开可用的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们引入了第一个名为“人类相关异常定位”的数据集，并探索了TAL任务在人类异常检测中的应用。实验结果表明，我们提出的方法在单实例和多实例场景下均显著优于现有方法。我们将发布我们的代码、数据和基准测试。|
- Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety
- VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models - of-modality.github.io 获取。|
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding - VideoBench，这是一套用于评估具有挑战性的视频理解任务的基准测试，重点关注对视频的“什么”、“哪里”、“何时”和“如何”进行推理的能力。我们通过提供数据、训练方法、代码和模型，使我们的工作完全可复现。|
- Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training - Recap100M，这是一个低幻觉和知识密集型合成字幕数据集。|
- Probing and Inducing Combinational Creativity in Vision-Language Models - 4V和DALLE-3等视觉语言模型 (VLM) 的进步引发了关于其输出是否反映组合创造力（M. A. Boden (1998) 将其定义为通过组合现有概念来合成新颖想法）或仅仅是训练数据的复杂模式匹配的争论。受认知科学的启发，我们从概念融合的视角研究了VLM的组合创造力。我们提出了识别-解释-蕴涵 (IEI) 框架，它将创造过程分解为三个层次：识别输入空间、提取共享属性和推导出新的语义蕴涵。为了验证该框架，我们构建了CreativeMashup，这是一个包含666个艺术家生成的视觉混搭的高质量数据集，并根据IEI框架进行了注释。通过大量实验，我们证明在理解任务中，最好的VLM已经超过了普通人的表现，但仍未达到专家级的理解水平；在生成任务中，将我们的IEI框架纳入生成流程可以显著提高VLM输出的创造性质量。我们的研究结果为评估人工智能创造力建立了理论基础，并为改进VLM的创造性生成提供了实用指南。|
- NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation
- Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation
- FLIP Reasoning Challenge - Reasoning-Challenge上提供。||
- Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models -
- FedEPA: Enhancing Personalization and Modality Alignment in Multimodal Federated Learning
- Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions
- Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning - 图像对分类桥接到更鲁棒的图像-图像对分类。此外，我们利用基于扩散的合成样本的多样性来增强提示学习，为语义-视觉对齐提供更多信息。在五个公共基准数据集（包括 RESISC45 和 Flowers102）上以及三种学习范式（UL、SSL 和 TRZSL）中进行的大量实验表明，AiR 比最先进的无监督提示学习方法实现了显著且一致的性能提升。||
- UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis - E2I-Synth，用于使用GPT-4o（而非人工标注员）生成各种复杂指令数据集。此外，我们提出了一个新的GUI指令定位基准UI-I2E-Bench，旨在通过结合不同的标注方面来解决现有基准的局限性。我们基于合成数据训练的模型在GUI指令定位方面取得了卓越的性能，证明了所提出的数据合成流水线的进步。所提出的基准以及广泛的分析为GUI定位的未来研究提供了实用见解。我们将在https://colmon46.github.io/i2e-bench-leaderboard/ 上发布相应的工件。||
- Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset
- R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning - TPT)，它可以在推理阶段减轻对抗攻击的影响。我们首先重新构建了经典的边缘熵目标函数，消除了在对抗条件下引入冲突的项，仅保留了逐点熵最小化。此外，我们引入了一种即插即用的基于可靠性的加权集成策略，该策略从可靠的增强视图中聚合有用信息以增强防御能力。R-TPT无需标记的训练数据即可增强对抗攻击的防御能力，同时为推理任务提供高度灵活性。在各种攻击的广泛使用的基准测试中进行的大量实验证明了 R-TPT 的有效性。代码可在 https://github.com/TomSheng21/R-TPT 获取。||
- TerraMind: Large-Scale Generative Multimodality for Earth Observation - in-Modalities，TiM）——在微调和推理过程中生成额外人工数据以改进模型输出的能力，以及 (iii) TerraMind在地球观测的社区标准基准测试（如PANGAEA）中实现了超越最先进技术的性能。预训练数据集、模型权重和我们的代码已在许可许可下开源。||
- Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR
- QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
- PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving
- LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
- ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models - 4o，通过特定类别提示策略，为 DriveLM 基准测试中的驾驶场景生成结构化推理链。我们比较了基于推理的微调、仅答案微调和基线指令微调模型在多个小型 VLM 系列（Llama 3.2、Llava 1.5 和 Qwen 2.5VL）上的性能。我们的结果表明，基于推理的微调始终优于其他方法，其中 Llama3.2-11B-reason 实现了最高性能。使用推理进行微调的模型在准确性和文本生成质量方面均有显著提高，这表明显式推理增强了驾驶决策的内部表征。这些发现强调了透明决策过程在安全关键领域的重要性，并为开发更具可解释性的自动驾驶系统提供了一个有前景的方向。||
- AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark - 4o、LLaMA 模型和人工验证的三阶段数据集构建流程，AgMMU 包含 5,460 道多项选择题 (MCQ) 和开放式问题 (OEQ) 构成的评估集。我们还提供了一个开发集，其中包含 205,399 条农业知识信息，涵盖疾病识别、症状描述、管理指导、昆虫和害虫识别以及物种识别。作为一个多模态事实数据集，AgMMU揭示了现有 VLM 在需要详细感知和事实知识的问题上面临重大挑战。此外，开源 VLM 与专有 VLM 相比仍存在显著的性能差距。为了改进知识密集型 VLM，我们使用我们的开发集进行了微调实验，将 LLaVA-1.5 的评估准确率提高了 3.1%。我们希望 AgMMU 既可以作为专注于农业领域的评估基准，也可以作为将知识密集型专业知识融入通用 VLM 的开发套件。||
- AstroLLaVA: towards the unification of astronomical data and natural language
- LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs - 图像对齐方面的问题。鉴于人工评估的高成本和低效率，需要一种与人类偏好一致的自动评估指标。为此，我们提出了 EvalMi-50K，一个用于评估大型多模态图像生成的综合数据集和基准测试，其特点是 (i) 全面的任务，涵盖 20 个细粒度任务维度中的 2,100 个扩展提示，以及 (ii) 大规模的人类偏好注释，包括 10 万个平均意见得分 (MOS) 和 5 万个问答 (QA) 对，这些注释基于从 24 个 T2I 模型生成的 50,400 张图像。基于 EvalMi-50K，我们提出了 LMM4LMM，一个基于 LMM 的指标，用于从多个维度（包括感知、文本-图像对应和特定任务的准确性）评估大型多模态 T2I 生成。大量实验结果表明，LMM4LMM 在 EvalMi-50K 上实现了最先进的性能，并在其他 AI 生成图像评估基准数据集上展现出强大的泛化能力，体现了 EvalMi-50K 数据集和 LMM4LMM 指标的通用性。EvalMi-50K 和 LMM4LMM 将在 https://github.com/IntMeGroup/LMM4LMM 发布。||
- Investigating Vision-Language Model for Point Cloud-based Vehicle Classification
- VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning - Bench，这是一个旨在全面评估 LVLMs 视频思维链推理能力的新型基准测试。VCR-Bench 包含 859 个涵盖各种视频内容和时长的视频，以及 1034 个高质量的问答对。每个问答对都经过人工标注，带有逐步的 CoT 推理，其中每个步骤都被标记以指示其与感知或推理能力的关联。此外，我们设计了七个不同的任务维度，并提出了 CoT 分数，以根据逐步标记的 CoT 推理来评估整个 CoT 过程。在 VCR-Bench 上进行的大量实验突出了当前 LVLMs 的重大局限性。即使是表现最好的模型 o1，也只取得了 62.8% 的 CoT 分数和 56.7% 的准确率，而大多数模型的得分低于 40%。实验表明，大多数模型在感知步骤上的得分低于推理步骤，这揭示了 LVLMs 在复杂视频推理中时空信息处理的关键瓶颈。CoT 分数和准确率之间存在强烈的正相关关系，这证实了我们评估框架的有效性，并强调了 CoT 推理在解决复杂视频推理任务中的关键作用。我们希望 VCR-Bench 能够作为一个标准化的评估框架，并揭示复杂视频推理任务中的实际缺陷。||
- Scaling Laws for Native Multimodal Models
- Unveiling the Impact of Multimodal Features on Chinese Spelling Correction: From Analysis to Design
- VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model - ai-lab/vlm-r1)**|最近，DeepSeek R1 表明，强化学习 (RL) 可以通过简单而有效的设计大幅提高大型语言模型 (LLM) 的推理能力。R1 的核心在于其基于规则的奖励公式，它利用具有确定性标准答案的任务来实现精确且稳定的奖励计算。在视觉领域，我们同样观察到各种视觉理解任务本身都配备了明确的标准答案标注。这种特性使它们天然地与基于规则的奖励机制兼容。基于这一观察，我们研究了将 R1 风格的强化学习扩展到视觉语言模型 (VLM) 的可能性，旨在增强它们的视觉推理能力。为此，我们开发了 VLM-R1，这是一个专门设计的框架，利用强化学习来提高 VLM 在一般视觉语言任务上的性能。使用此框架，我们进一步探索了将强化学习应用于视觉领域的可能性。实验结果表明，基于强化学习的模型不仅在视觉理解任务上具有竞争力的性能，而且在泛化能力方面也超过了监督微调 (SFT)。此外，我们进行了全面的消融研究，揭示了一系列值得注意的见解，包括目标检测中存在奖励黑客攻击、“目标检测顿悟时刻”的出现、训练数据质量的影响以及不同模型规模下强化学习的扩展行为。通过这些分析，我们旨在加深对强化学习如何增强视觉语言模型能力的理解，并希望我们的发现和开源贡献能够支持视觉语言强化学习社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获取。||
- TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs - VQA，一个新的评估框架，它利用大型视觉语言模型 (LVLMs) 通过带有位置特定概率优化的视觉问答 (VQA) 范式。我们的关键创新在于设计了一个词元感知损失函数，该函数选择性地关注预定义词汇位置的概率分布，这些位置对应于关键语义元素，从而能够精确测量细粒度语义对齐。所提出的框架进一步集成了集成学习技术，以聚合来自不同 LVLMs 架构的多视角评估，从而进一步提高性能。在 NTIRE 2025 T2I 质量评估挑战赛道 1 上进行的评估中，我们的 TokenFocus-VQA 在公开评估中排名第二（0.8445，仅比第一名低 0.0001），在官方私人测试集中排名第二（0.8426），这表明与传统评估方法相比，它在捕捉细微的图文对应关系方面具有优势。||
- Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
- Kimi-VL Technical Report - vl)**|我们推出了 Kimi-VL，一个高效的开源混合专家 (MoE) 视觉语言模型 (VLM)，它提供高级多模态推理、长上下文理解和强大的代理能力——所有这些都仅在其语言解码器 (Kimi-VL-A3B) 中激活 28 亿个参数。Kimi-VL 在多个挑战性领域展现了强大的性能：作为通用 VLM，Kimi-VL 在多轮代理任务（例如，OSWorld）中表现出色，可与旗舰模型相媲美。此外，它在各种具有挑战性的视觉语言任务中展现出卓越的能力，包括大学水平的图像和视频理解、OCR、数学推理和多图像理解。在比较评估中，它可以有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等尖端高效 VLM 竞争，同时在几个关键领域超越 GPT-4o。Kimi-VL 在处理长上下文和清晰感知方面也取得了进步。凭借 128K 扩展上下文窗口，Kimi-VL 可以处理各种长输入，在 LongVideoBench 上取得了 64.5 的优异成绩，在 MMLongBench-Doc 上取得了 35.1 的优异成绩。其原生分辨率视觉编码器 MoonViT 进一步使其能够查看和理解超高分辨率视觉输入，在 InfoVQA 上达到 83.2，在 ScreenSpot-Pro 上达到 34.5，同时保持了常见任务的较低计算成本。基于 Kimi-VL，我们推出了一个高级长思考变体：Kimi-VL-Thinking。该模型通过长思维链 (CoT) 监督微调 (SFT) 和强化学习 (RL) 开发，展现出强大的长程推理能力。它在 MMMU 上取得了 61.7 分，在 MathVision 上取得了 36.8 分，在 MathVista 上取得了 71.3 分，同时保持了紧凑的 28 亿激活 LLM 参数，为高效多模态思维模型树立了新标准。代码和模型可在 https://github.com/MoonshotAI/Kimi-VL 公开访问。||
- Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation
- Fast-Slow Thinking for Large Vision-Language Model Reasoning - GRPO：用于问题表征的基于模型的指标、自适应思考奖励机制和难度感知的 KL 正则化。在七个推理基准测试中的实验表明，FAST 实现了最先进的准确性，相较于基础模型有超过 10% 的相对改进，同时与之前的慢思考方法相比，减少了 32.7-67.3% 的token使用量，有效地平衡了推理长度和准确性。|
- Revisiting Data Auditing in Large Vision-Language Models
- ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding
- FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding - K 选择来选择得分最高的帧。我们证明了这个极其简单的框架适用于长视频和多页文档，并且可以使用现有的 LMMs 而无需任何微调。我们在实验中考虑了两个模型，LLaVA-OneVision 和 InternVL2，并表明 FRAG 始终提高性能，并在长视频和长文档理解方面实现了最先进的性能。对于视频，FRAG 在 MLVU 上将 InternVL2-76B 的性能大幅提高了 5.8%，在 Video-MME 上提高了 3.7%。对于文档，与最近专门用于长文档理解的 LMMs 相比，FRAG 在 MP-DocVQA 上实现了超过 20% 的改进。代码可在以下网址获取：https://github.com/NVlabs/FRAG|
- M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction - MRE），并构建了相应的数据集来支持这项任务。为了应对M-MRE带来的挑战，我们进一步提出了一个提示格式适配器（PFA），它完全兼容各种大型视觉语言模型（LVLMs）。实验结果表明，在多模态图文理解场景下的M-MRE任务中也观察到了MRE。这有力地证明了MRE促进了三个相互关联的任务的共同提升，证实了其在文本领域之外的泛化能力。|
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition
- CAMU: Context Augmentation for Meme Understanding
- Step1X-Edit: A Practical Framework for General Image Editing - 4o和Gemini2 Flash，展现了极具潜力的图像编辑能力。这些模型在满足绝大多数用户驱动的编辑需求方面表现出色，标志着图像处理领域的重大进步。然而，开源算法与这些闭源模型之间仍然存在较大差距。因此，在本文中，我们旨在发布一个名为Step1X-Edit的最先进的图像编辑模型，该模型可以提供与GPT-4o和Gemini2 Flash等闭源模型相媲美的性能。更具体地说，我们采用多模态大语言模型来处理参考图像和用户的编辑指令。提取的潜在嵌入与扩散图像解码器集成以获得目标图像。为了训练模型，我们构建了一个数据生成管道来生成高质量的数据集。为了评估，我们开发了GEdit-Bench，这是一个基于真实用户指令的新型基准测试平台。在GEdit-Bench上的实验结果表明，Step1X-Edit的性能明显优于现有的开源基线模型，并接近领先的专有模型的性能，从而为图像编辑领域做出了重大贡献。|
- Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction - 测试分割比例下实现了稳定的性能，强调了其在医疗保健、自主系统和其他安全敏感领域实际部署中的稳健性。这项工作弥合了多模态人工智能系统中理论可靠性和实际适用性之间的差距，为幻觉检测和不确定性感知决策提供了一种可扩展的解决方案。|
- FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics
- Predicting Targeted Therapy Resistance in Non-Small Cell Lung Cancer Using Multimodal Machine Learning - 酪氨酸激酶抑制剂 (TKI)，对携带激活型和 T790M 耐药 EGFR 突变的 NSCLC 患者展现出显著疗效。尽管奥希替尼疗效确切，但耐药性仍然是患者充分获益于该药物治疗的重大挑战。目前缺乏准确预测 TKI 耐药性（包括奥希替尼耐药性）的标准工具仍然是一个关键障碍。为了弥合这一差距，本研究开发了一种可解释的多模态机器学习模型，用于预测晚期 NSCLC 患者中 EGFR 激活突变患者的奥希替尼耐药性，在多中心数据集上实现了 0.82 的 c 指数。该机器学习模型利用患者就诊和医学评估期间常规收集的 readily available 数据，以促进精准肺癌管理和明智的治疗决策。通过整合各种数据类型，如组织学图像、二代测序 (NGS) 数据、人口统计学数据和临床记录，我们的多模态模型可以生成更全面的建议。我们的实验结果还表明，多模态模型的性能优于单模态模型（c 指数为 0.82，而单模态模型为 0.75 和 0.77），从而强调了在患者预后预测中结合多种模态的优势。|
- SVLA: A Unified Speech-Vision-Language Assistant with Multimodal Reasoning and Speech Generation
- H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding
- HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment
- Texture or Semantics? Vision-Language Models Get Lost in Font Recognition
- KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language - ai/koffvqa)**|大型视觉语言模型（VLMs）的最新出现导致了各种用于评估此类模型的基准测试。尽管如此，我们观察到大多数现有评估方法都存在缺陷：它们要么要求模型从预先确定的答案中进行选择，牺牲了开放性；要么使用判断模型来评估答案，导致主观性和不可靠性。此外，我们观察到缺乏针对韩语VLMs的基准测试，而这些基准测试作为区别于更常见的英语基准测试的单独指标是必要的，因为生成语言模型的性能会因所使用的语言而显著不同。因此，我们提出了KOFFVQA，一个通用的韩语自由形式视觉问答基准测试，用于评估VLMs。我们的基准测试包含275个精心设计的问题，每个问题都与一张图像和涵盖VLM性能10个不同方面的评分标准配对。该评分标准通过允许判断模型根据一组预先确定的规则对每个答案进行评分，从而消除了不可靠性的问题。通过以客观的方式定义评估标准，即使是小型开源模型也可以可靠地用于评估我们基准测试中的模型。除了在我们的基准测试上评估大量现有VLMs之外，我们还通过实验证明，我们使用预先存在的评分标准进行评估的方法比现有方法更可靠。我们的评估代码可在https://github.com/maum-ai/KOFFVQA获取。|
- BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation - seg)**|医学图像分割通常仅依赖于视觉数据，忽略了临床医生用于诊断的丰富文本信息。视觉语言模型试图弥合这一差距，但现有方法通常独立处理视觉和文本特征，导致跨模态对齐较弱。由于空间视觉特征和序列文本嵌入之间存在固有差异，简单的融合技术难以奏效。此外，医学术语不同于通用语言，限制了现成文本编码器的有效性，进一步阻碍了视觉语言对齐。我们提出了BiPVL-Seg，一个端到端的框架，它通过架构和训练创新集成了视觉语言融合和嵌入对齐，其中两个组件相互 reinforcing，以增强医学图像分割。BiPVL-Seg在架构中引入了双向渐进式融合，这促进了视觉和文本编码器之间的阶段性信息交换。此外，它还结合了全局-局部对比对齐，这是一个训练目标，通过在类别和概念层面上对齐文本和视觉嵌入来增强文本编码器的理解能力。在CT和MR模式下的各种医学影像基准上的大量实验表明，BiPVL-Seg在复杂的多类别分割中比最先进的方法具有更优越的性能。源代码可在GitHub代码库中获取。|
- Re-Aligning Language to Visual Objects with an Agentic Workflow - LOD，它包括规划、工具使用和反思步骤。给定一张包含检测到的对象和 VLM 原始语言表达的图像，Real-LOD 会根据我们的神经符号设计自动推断其状态并安排行动（即规划）。该行动将自适应地调整图像和文本提示，并将它们发送到 VLM 以重新描述对象（即工具使用）。然后，我们使用另一个 LLM 来分析这些改进后的表达以获得反馈（即反思）。这些步骤以循环形式进行，逐步改进语言描述，使其重新与视觉对象对齐。我们构建了一个包含少量 0.18M 图像和重新对齐的语言表达的数据集，并训练了一个流行的 LOD 模型，在标准基准测试中，其性能比现有的 LOD 方法高出约 50%。我们的 Real-LOD 工作流程具有自动视觉语言细化功能，揭示了在扩大数据量的同时保持数据质量的潜力，这从数据对齐的角度进一步提高了 LOD 性能。|
- Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models - VLM数据集的子任务中进行了训练和评估。重要的是，我们的方法表明进化提示优化引导语言模型进行自我推理发现，从而提高了跨任务的零样本泛化能力。|
- VisTa: Visual-contextual and Text-augmented Zero-shot Object-level OOD Detection
- FLIP: Towards Comprehensive and Reliable Evaluation of Federated Prompt Learning - ml/flip)**|对隐私和数据安全的日益重视推动了联邦学习的采用，这是一种无需共享原始数据即可训练机器学习模型的去中心化方法。提示学习通过微调预训练模型的提示嵌入，在联邦学习环境中具有显著优势，它可以降低计算成本和通信开销，同时利用CLIP等视觉语言模型强大的性能和泛化能力。本文探讨了联邦学习和提示学习的交叉点，特别是对于视觉语言模型。在这项工作中，我们引入了一个名为FLIP的综合框架来评估联邦提示学习算法。FLIP在4种联邦学习协议和12个开放数据集上评估了8种最先进的联邦提示学习方法的性能，考虑了6种不同的评估场景。我们的研究结果表明，提示学习在数据分布内和分布外场景中都能保持强大的泛化性能，并且资源消耗最小。这项工作突出了联邦提示学习在数据稀缺、未见类别和跨域分布偏移等环境中的有效性。我们将FLIP中所有已实现算法的代码开源，以促进该领域的进一步研究。|
- REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation - R1、o3-mini、QwQ 和 Grok3）进行了基准测试，结果表明 REMAC 的优越性，它将平均成功率提高了 40%，并将执行效率比单机器人基线提高了 52.7%。|
- How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark - 4模型的性能优于所有其他模型，只有一个较小的模型GPT-4o-mini实现了可比的性能。此外，我们观察到，VLMs在复杂场景（例如欺凌或作弊）中往往难以准确推断意图。此外，我们的研究结果还表明，较小的模型有时可以推断出正确的意图，即使它们依赖于不正确的视觉线索。|
- A Survey on Remote Sensing Foundation Models: From Vision to Multimodality - BUAA/A-Review-for-remote-sensing-vision-language-models 中找到。|
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models - 语言-动作模型 (VLA) 已展现出利用预训练视觉-语言模型和多样化的机器人演示来学习泛化感知运动控制的潜力。虽然这种范式有效地利用了来自机器人和非机器人来源的大规模数据，但目前的 VLA 主要关注直接的输入-输出映射，缺乏复杂操作任务中至关重要的中间推理步骤。因此，现有的 VLA 缺乏时间规划或推理能力。在本文中，我们介绍了一种将显式视觉思维链 (CoT) 推理融入视觉-语言-动作模型 (VLA) 的方法，该方法通过自回归预测未来图像帧作为视觉目标，然后生成短动作序列来实现这些目标。我们介绍了 CoT-VLA，一个最先进的 7B VLA，它可以理解和生成视觉和动作标记。我们的实验结果表明，CoT-VLA 实现了强大的性能，在真实世界操作任务中比最先进的 VLA 模型的性能高出 17%，在模拟基准测试中高出 6%。项目网站：https://cot-vla.github.io/|
- On Large Multimodal Models as Open-World Image Classifiers - owc)**|传统的图像分类需要预定义的语义类别列表。相比之下，大型多模态模型 (LMM) 可以绕过这一要求，直接使用自然语言对图像进行分类（例如，回答“图像中的主要对象是什么？”）。尽管具有这种非凡的能力，但大多数现有的关于 LMM 分类性能的研究在范围上却令人惊讶地有限，通常假设一个具有预定义类别集合的封闭世界设置。在这项工作中，我们通过在真正的开放世界环境中彻底评估 LMM 分类性能来弥补这一差距。我们首先将任务形式化，并引入了一个评估协议，定义了各种指标来评估预测类别和真实类别之间的一致性。然后，我们评估了跨越 10 个基准的 13 个模型，涵盖了原型、非原型、细粒度和超细粒度类别，展示了 LMM 在这项任务中面临的挑战。基于所提出的指标的进一步分析揭示了 LMM 产生的错误类型，突出了与粒度和细粒度能力相关的挑战，并展示了定制提示和推理如何缓解这些挑战。|
- SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data - Cap中的超详细图像描述生成。我们的数据集包含45.5万个样本，其中包含340万个问答对。在该数据集上训练后，我们的空间推理增强型（SpaRE）VLM在空间推理基准测试中表现出显著改进，在What's Up基准测试中实现了高达49%的性能提升，同时在一般任务中也保持了良好的效果。我们的工作缩小了人类和VLM在空间推理方面的差距，并使VLM在机器人和导航等实际任务中更具能力。||
- LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
- Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks - 4o，与卷积神经网络 (CNN) 相结合，使用叶片图像进行植物病害自动分类的有效性。利用 PlantVillage 数据集，我们系统地评估了模型在零样本、少样本和渐进式微调场景下的性能。我们对 GPT-4o 和广泛使用的 ResNet-50 模型进行了比较分析，涵盖三种分辨率（100、150 和 256 像素）和两种植物（苹果和玉米）。结果表明，经过微调的 GPT-4o 模型的性能略优于 ResNet-50，在苹果叶片图像上实现了高达 98.12% 的分类准确率，而 ResNet-50 实现了 96.88% 的准确率，同时泛化能力得到提高，训练损失接近于零。然而，GPT-4o 的零样本性能明显较低，这凸显了进行少量训练的必要性。对跨分辨率和跨植物泛化能力的进一步评估揭示了模型在应用于新领域时的适应性和局限性。研究结果突出了将多模态 LLM 集成到自动化病害检测流程中的前景，这可以增强精准农业系统的可扩展性和智能性，同时减少对大型标记数据集和高分辨率传感器基础设施的依赖。大型语言模型，视觉语言模型，LLM 和 CNN，使用视觉语言模型进行病害检测，VLM||
- FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding - Video，这是一个利用轻量级动态加权多帧融合策略的新型框架，它能够自适应地将多帧融合成单一表示，同时保留关键视频信息并降低计算成本。为了增强融合的帧选择，我们引入了一种关键帧选择策略，可以有效地从更大的池中识别信息丰富的帧，从而改进摘要。此外，我们还提出了一种简单但有效的长视频训练数据生成策略，在无需大量人工标注的情况下提高模型性能。实验结果表明，FiLA-Video 在长视频理解方面实现了比现有方法更高的效率和准确性。||
- Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders - VAE 模型在平衡生成一致性和生成质量之间的权衡方面表现出更好的性能，并且可以生成更精确的对数似然估计。随着模态数量的增加，CoDE-VAE 进一步缩小了生成质量差距。在某些情况下，它的生成质量可以达到与单模态 VAE 相似的水平，这是一个大多数现有方法都缺乏的理想特性。最后，CoDE-VAE 实现的分类精度与最先进的多模态 VAE 模型相当。|
- Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models - 4o 等最先进的预训练 VLM 在拟议任务上的有效性，并对它们各自在这些任务上的优势和局限性进行了全面分析。本文旨在阐明 VLM 在确保安全和尊重的在线环境方面的重要应用。|
- Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design - Net、Quilt-LLAVA 和 CONCH，进行了系统研究和分析，使用了一个包含 3,507 个 WSI（每个均为千兆像素）的内部消化病理学数据集，涵盖不同的组织类型。通过对癌症侵袭性和异型增生状态的结构化消融研究，我们开发了一个全面的提示工程框架，系统地改变了领域特异性、解剖精度、指令框架和输出约束。我们的研究结果表明，提示工程会显著影响模型性能，当提供精确的解剖参考时，CONCH 模型的准确性最高。此外，我们确定了解剖上下文在组织病理学图像分析中的关键重要性，因为当降低解剖精度时，性能会持续下降。我们还表明，仅模型复杂性并不能保证卓越的性能，因为有效的领域对齐和特定领域的训练至关重要。这些结果为计算病理学中的提示工程建立了基本准则，并强调了 VLM 在使用适当的领域特定提示进行指导时提高诊断准确性的潜力。|
- Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization
- Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision - Prompt），旨在利用扩散模型为复杂的下游任务生成丰富且细粒度的提示信息。具体来说，我们的方法包括三个阶段。第一阶段，我们训练一个掩码变分自编码器（Mask-VAE）将掩码压缩到潜在空间。第二阶段，我们利用改进的扩散Transformer（DiT）在潜在空间中训练一个提示生成器，使用掩码进行监督。第三阶段，我们将提示生成器的去噪过程与预训练模型在语义空间中对齐，并使用生成的提示对模型进行微调。我们在一个复杂的像素级下游任务——指称表达式理解——上进行了实验，并将我们的方法与各种参数高效的微调方法进行了比较。与基础模型相比，Diff-Prompt 在 R@1 上实现了 8.87 的最大提升，在 R@5 上实现了 14.05 的最大提升，并且在多个指标上也优于其他最先进的方法。实验结果验证了我们方法的有效性，并突出了使用生成模型进行提示生成的潜力。代码可在 https://github.com/Kelvin-ywc/diff-prompt 获取。||
- AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images - QA，这是第一个专门为 AGHI 质量评估而设计的大规模基准测试。该数据集包含 4,000 张图像，这些图像是使用 10 个最先进的 T2I 模型，根据 400 个精心设计的文本提示生成的。我们进行了系统的用户主观研究，以收集多维注释，包括感知质量分数、文本-图像对应分数、可见和扭曲的身体部位标签。基于 AGHI-QA，我们从多个维度评估了当前 T2I 方法在生成人体图像方面的优势和劣势。此外，我们提出了 AGHI-Assessor，这是一种新颖的质量评估指标，它将大型多模态模型 (LMM) 与特定领域的人体特征相结合，以实现对 AGHI 的精确质量预测和可见及扭曲身体部位的识别。大量的实验结果表明，AGHI-Assessor 表现出最先进的性能，在多维质量评估方面显著优于现有的 IQA 方法，并且在检测 AGHI 中的结构扭曲方面超过了领先的 LMM。||
- Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages
- Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation - CXR 数据集，所提出的框架在生成高保真图像和语义连贯的报告方面表现出优异的性能。我们的定量评估揭示了在 FID 和 BLEU 分数方面的显著成果，展示了生成数据的质量。值得注意的是，我们的框架在下游疾病分类任务中实现了与真实数据相当甚至更优的性能，突出了其作为医学研究和诊断工具的潜力。这项研究强调了特定领域适配在增强生成模型在临床应用中的相关性和实用性方面的重要性，为合成多模态医学数据生成的未来发展铺平了道路。|
- SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models - 4o 8.7%。我们的系统性经验设计和由此产生的研究结果为该方向的未来研究提供了宝贵的见解。|
- Visual Test-time Scaling for GUI Agent Grounding - TARS和Qwen2.5-VL的基础上，在Screenspot-pro和WebVoyager基准测试中分别实现了28+%和24+%的显著性能提升，突出了视觉测试时缩放在交互式环境中的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型，我们在ScreenSpot-Pro基准测试中实现了61.6%的最新最先进的基础性能。我们的代码将在https://github.com/tiangeluo/RegionFocus公开发布。|
- MINERVA: Evaluating Complex Video Reasoning - deepmind/neptune?tab=readme-ov-file\#minerva公开发布。|
- LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving - traffic-lab/LightEMMA 获取。|
- V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
- GLIP-OOD: Zero-Shot Graph OOD Detection with Foundation Model - OOD，这是一个利用 LLM 从未标记数据生成语义信息丰富的伪 OOD 标签的新颖框架。这些标签使 GFM 能够捕获 ID 类和 OOD 类之间细致的语义边界，并执行细粒度的 OOD 检测，而无需任何标记节点。我们的方法是第一个在完全零样本设置下实现节点级图 OOD 检测的方法，并在四个基准文本属性图数据集上实现了最先进的性能。||
- YoChameleon: Personalized Vision and Language Generation - 4、Gemini、Chameleon）已经发展成为拥有数百万用户的强大工具。然而，它们仍然是通用模型，缺乏对特定用户概念的个性化知识。先前的工作已经探索了文本生成的个性化，但目前尚不清楚如何将这些方法应用于新的模态，例如图像生成。在本文中，我们介绍了Yo'Chameleon，这是首次尝试研究大型多模态模型的个性化。给定3-5张特定概念的图像，Yo'Chameleon利用软提示调优将特定主题信息嵌入到(i)回答有关主题的问题和(ii)重建像素级细节以在新的上下文中生成主题图像。Yo'Chameleon使用(i)一种自我提示优化机制来平衡跨多种模态的性能，以及(ii)一种“软正”图像生成方法来在少样本设置中增强图像质量进行训练。||
- X-Fusion: Introducing New Modality to Frozen Large Language Models - Fusion，这是一个扩展预训练大型语言模型 (LLM) 以用于多模态任务的框架，同时保留其语言能力。X-Fusion 采用双塔设计和特定模态的权重，保持 LLM 的参数冻结，同时集成视觉特定信息以进行理解和生成。我们的实验表明，X-Fusion 在图像到文本和文本到图像任务上始终优于其他架构。我们发现，结合以理解为中心的数据可以提高生成质量，减少图像数据噪声可以提高整体性能，特征对齐可以加速较小模型的收敛，但对较大模型的影响很小。我们的研究结果为构建高效的统一多模态模型提供了宝贵的见解。||
- Real-Time Wayfinding Assistant for Blind and Low-Vision Users
- FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models
- Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception - Bench”，这是一个新的基准测试，用于评估 LVLMs 正确处理 CPQs 并生成事实响应的能力。应用于 LLaVA 系列，Antidote 可以同时将 CP-Bench 的性能提高 50% 以上，POPE 提高 1.8-3.3%，CHAIR 和 SHR 提高 30-50%，所有这些都不依赖于来自更强 LVLMs 或人工反馈的外部监督，并且没有引入明显的灾难性遗忘问题。||
- Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains - Centric Visual Chain），这是一种增强VLM在多图像场景中感知、理解和推理能力的新范式。为了促进这种范式，我们提出了以焦点为中心的数据合成（Focus-Centric Data Synthesis），一种可扩展的自下而上的方法，用于合成具有复杂推理路径的高质量数据。通过这种方法，我们构建了VISC-150K，这是一个包含以焦点为中心的视觉链形式的推理数据的大规模数据集，专为多图像任务设计。在七个多图像基准测试上的实验结果表明，我们的方法在两种不同的模型架构上实现了平均3.16%和2.24%的性能提升，且不影响其泛视觉语言能力。我们的研究代表着朝着更强大、更有能力处理复杂视觉场景的视觉语言系统迈出了重要一步。||

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

awesome_ai_paper

多模态