Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

awesome_ai_paper

paper.cheninweb.asia
https://github.com/chenin-wang/awesome_ai_paper

Last synced: 5 days ago
JSON representation

  • 多模态

    • Enhancing Visual Classification using Comparative Descriptors - 1准确率可能相对较低,但top-5准确率通常要高得多。这种差距意味着大多数错误分类发生在几个相似的类别之间,突出了模型难以区分具有细微差异的类别。为了应对这一挑战,我们引入了比较描述符的新概念。这些描述符强调目标类别与其最相似类别之间的独特特征,从而增强区分度。通过生成并将这些比较描述符整合到分类框架中,我们改进了语义焦点并提高了分类精度。额外的过滤过程确保这些描述符更接近CLIP空间中的图像嵌入,进一步提高了性能。我们的方法通过解决细微的类间差异这一特定挑战,提高了视觉分类任务的准确性和鲁棒性。|
    • End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering - upenn.github.io/VLMnav/找到。|
    • Towards Low-Resource Harmful Meme Detection with LMM Agents - huang/lorehm)**|在社交媒体时代,网络迷因的泛滥使得有效识别有害迷因成为必要。由于迷因的动态特性,现有的数据驱动模型在只有少量标记样本的低资源场景下可能会遇到困难。本文提出了一个基于代理的低资源有害迷因检测框架,利用少量标注样本进行外向和内向分析。受大型多模态模型 (LMM) 在多模态推理方面强大能力的启发,我们首先检索带有标注的相关迷因,以利用标签信息作为LMM代理的辅助信号。然后,我们引出LMM代理内部的知识修正行为,以获得对迷因有害性的良好泛化洞察。通过结合这些策略,我们的方法能够对复杂和隐含的危害指示模式进行辩证推理。在三个迷因数据集上进行的大量实验表明,我们提出的方法在低资源有害迷因检测任务上取得了优于现有最先进方法的性能。|
    • Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
    • RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models - aimi/ravl)**|微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联,导致零样本测试性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作,而不是直接干预细粒度的图像特征,并且 (ii) 主要为单模态设置而设计。在这项工作中,我们提出了 RaVL,它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联,从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM,RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征,从而发现虚假关联。然后,RaVL 通过一种新颖的区域感知损失函数来减轻已识别的虚假关联,该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明,RaVL 能够准确地发现(比最接近的基线提高 191%)和减轻(最差组图像分类准确率提高 8.2%)虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。||
    • DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model
    • Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction - 2(一种开源视觉语言模型 (VLM))来自动化且高效地提取 GD&T 信息的方法。该模型在包含 400 张工程图的数据集上进行训练,其中真实标注由领域专家提供。为了进行比较,两个最先进的闭源 VLM,GPT-4o 和 Claude-3.5-Sonnet,也在同一数据集上进行了评估。所有模型均使用精确率、召回率、F1 值和幻觉指标进行评估。由于针对特定领域任务微调大型闭源 VLM 的计算成本和不切实际性,GPT-4o 和 Claude-3.5-Sonnet 在零样本设置下进行了评估。相比之下,Florence-2 拥有 2.3 亿个参数,是一个较小的模型,它通过在三个不同的实验中进行全参数微调来进行优化,每个实验都使用了不同程度增强的数据集。结果表明,与性能最佳的闭源模型相比,Florence-2 的精确率提高了 29.95%,召回率提高了 37.75%,F1 值提高了 52.40%,幻觉率降低了 43.15%。这些发现突出了微调较小的开源 VLM(如 Florence-2)的有效性,为自动化 GD&T 提取提供了一种实用且高效的解决方案,以支持下游制造任务。||
    • Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation - gdm-alignment)**|隐性表征对齐已成为构建多模态大型语言模型 (MLLM) 的基础技术,它将不同模态的嵌入映射到共享空间,通常与大型语言模型 (LLM) 的嵌入空间对齐,以实现有效的跨模态理解。虽然初步的蛋白质导向 MLLM 已经出现,但它们主要依赖于启发式方法,缺乏对跨表征的最佳对齐实践的基本理解。在本研究中,我们探索了蛋白质领域中 LLM 和几何深度模型 (GDM) 之间多模态表征的对齐。我们全面评估了三个最先进的 LLM(Gemma2-2B、LLaMa3.1-8B 和 LLaMa3.1-70B)与四个蛋白质特化 GDM(GearNet、GVP、ScanNet、GAT)。我们的工作从模型和蛋白质角度检验对齐因素,确定当前对齐方法中的挑战,并提出改进对齐过程的策略。我们的主要发现表明,结合图和 3D 结构信息的 GDM 可以更好地与 LLM 对齐,更大的 LLM 表现出改进的对齐能力,蛋白质的稀有性会显着影响对齐性能。我们还发现,增加 GDM 嵌入维度、使用双层投影头以及在蛋白质特定数据上微调 LLM 可以显着提高对齐质量。这些策略为增强蛋白质相关多模态模型的性能提供了潜力。我们的代码和数据可在 https://github.com/Tizzzzy/LLM-GDM-alignment 获取。|
    • Real-World Offline Reinforcement Learning from Vision Language Model Feedback - VLM-F,提出了一个新颖的系统,该系统使用来自视觉语言模型的偏好反馈和任务的文本描述,自动为离线数据集生成奖励标签。然后,我们的方法使用带有奖励标签的数据集进行离线强化学习来学习策略。我们展示了该系统在复杂的现实世界机器人辅助穿衣任务中的适用性,我们首先使用视觉语言模型在次优离线数据集上学习奖励函数,然后使用学习到的奖励函数,采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及操纵刚性和可变形物体的仿真任务中也表现良好,并且显著优于行为克隆和逆强化学习等基线方法。总之,我们提出了一个新的系统,能够从未标记的、次优的离线数据集中自动进行奖励标记和策略学习。|
    • On Erroneous Agreements of CLIP Image Embeddings - 1.5-7B 却达到了接近 100% 的准确率。我们发现 CLIP 图像嵌入向量中可提取的信息可能被 CLIP 不充分的视觉语言对齐所掩盖:其通过对比目标学习的匹配分数可能没有捕获所有不同的图像-文本对应关系。我们还研究了 MMVP 基准测试,先前的工作表明 LLaVA-1.5 无法区分具有高余弦相似度的图像对。我们观察到通过替代解码算法更多地关注视觉输入所带来的性能提升。此外,如果模型可以将两个图像都作为输入以强调它们细微的差异,则准确性会显着提高。这两项发现都表明 LLaVA-1.5 没有充分利用提取的视觉信息。总之,我们的研究结果表明,虽然改进图像编码器可能对 VLM 有利,但通过应用更好的提取和利用视觉信息的策略,仍然有提升使用固定图像编码器的模型的空间。|
    • DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
    • Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs
    • Vision Language Models are In-Context Value Learners
    • MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning - Finance,一个面向实际应用的双语开放式视觉问答(VQA)基准。我们的基准的特点是金融性和专业性,包括构建反映用户实际使用需求的图表(例如,电脑截图和手机拍摄)、根据金融领域查询偏好创建问题,以及由具有10年以上金融行业经验的专家进行问题标注。此外,我们还开发了一个定制的金融评估系统,在多模态评估过程中首先引入视觉信息。我们对19个主流MLLM进行了广泛的实验评估,以测试它们的感知、推理和认知能力。结果表明,在通用基准上表现良好的模型在MME-Finance上表现不佳;例如,表现最好的开源和闭源模型分别获得了65.69(Qwen2VL-72B)和63.18(GPT-4o)的分数。它们在与金融最相关的类别中表现尤其差,例如K线图和技术指标图。此外,我们还提出了一个中文版本,有助于比较MLLM在中文语境下的性能。|
    • Inference Optimal VLMs Need Only One Visual Token but Larger Models - token-compression)**|视觉语言模型 (VLM) 在各种视觉理解和推理任务中展现出强大的能力。然而,由于大型语言模型 (LLM) 处理大量输入标记(主要来自图像)所需的计算量巨大,导致推理过程中延迟较高,这常常限制了它们在现实世界的部署。为了降低推理成本,可以缩小 LLM 的规模或减少输入图像标记的数量,后者是最近许多关于标记压缩工作的重点。然而,由于这两个因素都直接影响 VLM 的性能,因此最佳的权衡策略尚不清楚。我们首先通过建立捕捉这两个因素的性能变化的缩放法则来描述视觉标记数量和 LLM 参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势:对于视觉推理任务,VLM 中推理最优的行为,即在任何给定的固定推理计算量下,下游误差最小,是在使用推理预算内最大的 LLM 的同时最小化视觉标记数量(通常减少到单个标记)时实现的。虽然标记减少的文献主要关注于通过适度减少标记数量(例如 5-10 倍)来保持基础模型的性能,但我们的结果表明,计算最优的推理机制需要在更高的标记压缩比下运行。基于这些见解,我们初步尝试构建针对高标记压缩设置的方法。代码可在 https://github.com/locuslab/llava-token-compression 获取。|
    • HumanVLM: Foundation for Human-Scene Vision-Language Model - 10M),数据源自互联网,以促进特定领域的对齐;(2) 开发了一种以人为中心的图像的描述方法,捕捉人脸、身体和背景,并构建了一个高质量的人景图文数据集 (HumanCaptionHQ,约 31.1 万对),其中包含尽可能详细的人物信息;(3) 使用 HumanCaption-10M 和 HumanCaptionHQ,我们训练了一个 HumanVLM。在实验中,我们随后在各种下游任务中评估了我们的 HumanVLM,它在同等规模的多模态模型中展现出优越的整体性能,尤其在与人类相关的任务中表现出色,并显著优于类似模型,包括 Qwen2VL 和 ChatGPT-4o。HumanVLM 以及引入的数据将促进人类相关领域的研究。|
    • Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning
    • DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark
    • INQUIRE: A Natural World Text-to-Image Retrieval Benchmark - benchmark/INQUIRE)**|我们推出了INQUIRE,这是一个文本到图像检索基准测试,旨在挑战多模态视觉语言模型在专家级查询上的能力。INQUIRE包含iNaturalist 2024 (iNat24),这是一个包含五百万张自然世界图像的新数据集,以及250个专家级检索查询。这些查询与iNat24中所有相关的图像进行了全面配对和标注,总共包含33,000个匹配项。查询涵盖物种识别、环境、行为和外观等类别,强调需要细致的图像理解和领域专业知识的任务。我们的基准测试评估了两个核心检索任务:(1) INQUIRE-Fullrank,一个全数据集排序任务,以及 (2) INQUIRE-Rerank,一个用于改进top-100检索结果的重排序任务。对一系列最新多模态模型的详细评估表明,INQUIRE提出了一个重大挑战,即使是最佳模型也未能达到50%以上的mAP@50。此外,我们还展示了使用更强大的多模态模型进行重排序可以提高检索性能,但仍有很大的改进空间。INQUIRE专注于具有科学动机的生态挑战,旨在弥合人工智能能力与现实世界科学探究需求之间的差距,鼓励开发能够协助加速生态和生物多样性研究的检索系统。我们的数据集和代码可在https://inquire-benchmark.github.io获取。|
    • One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering - VQAv2和CLOVE-function基准测试集。GaB 的性能优于所有无数据基线,在跨不断变化的任务中保持 VQA 性能方面有了实质性的改进,同时与可以访问过去数据的方法不相上下。|
    • TableGPT2: A Large Multimodal Model with Tabular Data Integration - 表格-输出元组,其表格相关数据的规模在以往的研究中是前所未有的。这种广泛的训练使TableGPT2能够在以表格为中心的任务中表现出色,同时保持强大的通用语言和编码能力。TableGPT2的关键创新之一是其新颖的表格编码器,专门设计用于捕获模式级和单元格级信息。这种编码器增强了模型处理现实应用中常见的歧义查询、缺失列名和不规则表格的能力。与视觉语言模型类似,这种开创性的方法与解码器集成,形成了一个强大的大型多模态模型。我们相信结果令人信服:在23个基准测试指标中,TableGPT2在7B模型和72B模型上分别比之前的基准中性LLM平均性能提高了35.20%和49.32%,同时保持了强大的通用能力。|
    • Foundations and Recent Trends in Multimodal Mobile Agents: A Survey - mobile-agents 获取。|
    • Bayesian-guided Label Mapping for Visual Reprogramming - group/bayesianlm)**|视觉重编程(VR)利用预训练视觉模型的内在能力,通过调整其输入或输出接口来解决下游任务,这些任务的标签(即下游标签)可能与预训练模型相关的标签(即预训练标签)完全不同。在调整输出接口时,标签映射方法通过在下游标签和预训练标签之间建立一个无梯度的一对一对应关系,将预训练标签转换为下游标签。然而,在本文中,我们揭示了一对一映射可能忽略了预训练标签和下游标签之间的复杂关系。基于这一观察,我们提出了一种贝叶斯引导的标签映射(BLM)方法。BLM构建了一个迭代更新的概率标签映射矩阵,其中每个元素量化了预训练标签和下游标签之间的成对关系。该矩阵值的分配由贝叶斯条件概率引导,考虑了预训练模型对下游样本预测的标签和下游标签的联合分布。在预训练视觉模型(例如ResNeXt)和视觉语言模型(例如CLIP)上进行的实验表明,BLM的性能优于现有的标签映射方法。BLM的成功也提供了一个概率视角,可以用来理解和分析VR的有效性。我们的代码可在https://github.com/tmlr-group/BayesianLM获取。|
    • EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection - hoi)**|在零样本设置下检测人与物体交互 (HOI) 是一个巨大的挑战,模型必须处理未见过的类别。现有方法依赖于将视觉编码器与大型视觉语言模型 (VLM) 对齐以利用 VLM 的广泛知识,这需要大型的、计算成本高的模型,并且会遇到训练困难。使用提示学习调整 VLM 提供了直接对齐的替代方案。然而,由于缺乏未见类别的标签,在特定任务数据集上进行微调通常会导致对已见类别的过拟合以及对未见类别的次优性能。为了应对这些挑战,我们引入了一种新的基于提示学习的框架,用于高效的零样本 HOI 检测 (EZ-HOI)。首先,我们引入了大型语言模型 (LLM) 和 VLM 指导的可学习提示,整合详细的 HOI 描述和视觉语义,以使 VLM 适应 HOI 任务。然而,由于训练数据集仅包含已见类别的标签,因此在此类数据集上微调 VLM 往往会针对已见类别而不是未见类别优化可学习提示。因此,我们利用来自相关已见类别信息的提示学习来处理未见类别,并利用 LLM 突出显示未见类别与相关已见类别之间的差异。在基准数据集上的定量评估表明,我们的 EZ-HOI 在各种零样本设置下均实现了最先进的性能,与现有方法相比,仅使用了 10.35% 到 33.95% 的可训练参数。代码可在 https://github.com/ChelsieLei/EZ-HOI 获取。|
    • Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP
    • SuctionPrompt: Visual-assisted Robotic Picking with a Suction Cup Using Vision-Language Models and Facile Hardware Design
    • EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark - Bench,这是一个多模态基准测试,旨在评估 LMM 解决实际工程任务的能力,使用电气与电子工程 (EEE) 作为测试平台。我们的基准测试包含 2860 个精心策划的问题,涵盖 10 个重要子领域,例如模拟电路、控制系统等。与其他领域的基准测试相比,工程问题的本质是 1) 视觉上更复杂和多样化,2) 解决方案更不确定。成功解决这些问题通常需要比以往更严格地整合视觉和文本信息,因为模型需要理解复杂的图像(如抽象电路和系统图),同时还要考虑专业指令,这使得它们成为 LMM 评估的绝佳候选者。除了 EEE-Bench,我们还提供了对 17 种广泛使用的开源和闭源 LLM 和 LMM 的广泛定量评估和细粒度分析。我们的结果表明,当前基础模型在 EEE 方面存在显著缺陷,平均性能范围为 19.48% 至 46.78%。最后,我们揭示并探讨了 LMM 的一个关键缺点,我们称之为“懒惰”:在对技术图像问题进行推理时,倾向于走捷径,依赖文本而忽略视觉上下文。总之,我们相信 EEE-Bench 不仅揭示了 LMM 的一些值得注意的局限性,而且为推进其在实际工程任务中应用的研究提供了宝贵的资源,推动其处理复杂现实场景的能力的未来改进。|
    • $π_0$ : A Vision-Language-Action Flow Model for General Robot Control
    • Exploring Vision Language Models for Facial Attribute Recognition: Emotion, Race, Gender, and Age - 4o模型,用于在图像中存在多个人时,使用针对具有特定面部和/或身体属性的人设计的提示来识别上述属性。结果强调了FaceScanGPT卓越的多任务处理能力,仅使用提示即可驱动检测和识别任务,检测个体的属性,如发型、服装颜色、姿势等。|
    • Nearest Neighbor Normalization Improves Multimodal Retrieval - interpretability/nnn)**|多模态模型利用大规模预训练在图像描述、视觉问答和跨模态检索等任务上取得了显著但仍不完美的性能。本文提出了一种简单有效的方法,无需额外训练即可纠正已训练的对比图像-文本检索模型中的错误,称为最近邻归一化 (NNN)。我们展示了在我们测试的所有对比模型(CLIP、BLIP、ALBEF、SigLIP、BEiT)以及我们使用的两个数据集(MS-COCO 和 Flickr30k)上,文本检索和图像检索指标均有所改进。NNN 需要一个参考数据库,但不需要对该数据库进行任何训练,甚至可以在模型微调后提高其检索精度。|
    • ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding
    • Active Learning for Vision-Language Models
    • CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP - 100和Flickr30K数据集上,针对四个CLIP下游任务进行的大量实验表明,CLIPErase可以有效地遗忘零样本任务中多模态样本的指定关联,同时在遗忘后保持模型在保留集上的性能。|
    • EMMA: End-to-End Multimodal Model for Autonomous Driving
    • Keypoint Abstraction using Large Models for Object-Relative Imitation Learning - il.github.io/|
    • Natural Language Inference Improves Compositionality in Vision-Language Models - 文本对齐一致性的人类判断基准测试中取得了最先进的结果,并在 Winoground 上实现了 +19.2%(组得分)的性能提升,在 EqBen 上实现了 +12.9%(组得分)的性能提升,超过了之前的最佳工作(使用目标数据进行微调)。||
    • Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving - VLM)和端到端模型(Senna-E2E)的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM用自然语言生成规划决策,而Senna-E2E预测精确的轨迹。Senna-VLM利用多图像编码方法和多视角提示词来实现高效的场景理解。此外,我们引入了面向规划的问答以及三阶段训练策略,这增强了Senna-VLM的规划性能,同时保留了常识。在两个数据集上的大量实验表明,Senna实现了最先进的规划性能。值得注意的是,通过在大型数据集DriveX上进行预训练并在nuScenes上进行微调,Senna相比未经预训练的模型显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们相信Senna的跨场景泛化能力和可迁移性对于实现完全自动驾驶至关重要。代码和模型将在https://github.com/hustvl/Senna发布。||
    • Are VLMs Really Blind - VLMs-Really-Blind)**|视觉语言模型擅长处理各种复杂任务,包括光学字符识别 (OCR)、视觉问答 (VQA) 和高级几何推理。然而,这些模型在人类特别容易掌握的低级基本视觉任务中表现不佳。我们这项工作的目标是确定这些模型是否真的对几何推理“视而不见”,或者是否存在增强其在这方面能力的方法。我们的工作提出了一种新颖的自动流水线,旨在根据特定问题从图像中提取关键信息。我们没有仅仅依赖直接的 VQA,而是使用从问题中提取的关键词来创建一个标题,突出显示图像中与问题相关的重要的细节。然后,语言模型使用此标题来提供对问题的精确答案,而无需外部微调。||
    • Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications - Vision 和 LLaVA)。这些图像处理策略涉及使用多模态嵌入和从图像生成文本摘要。我们使用 LLM 作为评判者的方法来评估我们的实验。我们的结果表明,多模态 RAG 可以胜过单模态 RAG 设置,尽管图像检索比文本检索更具挑战性。此外,利用图像的文本摘要与使用多模态嵌入相比,提供了一种更有希望的方法,为未来的进步提供了更多机会。||
    • Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models - zsr)**|由于预训练视觉语言模型(例如CLIP)令人印象深刻的零样本能力,它们吸引了广泛关注并在各个领域得到应用。然而,CLIP已被观察到容易受到对抗样本的攻击。通过实验分析,我们观察到一个现象:对抗扰动会导致文本引导的注意力发生偏移。基于这一观察,我们提出了一个简单而有效的策略:文本引导注意力零样本鲁棒性(TGA-ZSR)。该框架包含两个组件:注意力细化模块和基于注意力的模型约束模块。我们的目标是保持CLIP模型的泛化能力并增强其对抗鲁棒性:注意力细化模块将通过对抗样本从目标模型获得的文本引导注意力与通过干净样本从原始模型获得的文本引导注意力对齐。这种对齐增强了模型的鲁棒性。此外,基于注意力的模型约束模块使用干净样本从目标模型和原始模型获取文本引导注意力。其目标是保持模型在干净样本上的性能,同时增强整体鲁棒性。实验验证,我们的方法在16个数据集上,将零样本鲁棒精度比当前最先进的技术提高了9.58%。我们的代码可在https://github.com/zhyblue424/TGA-ZSR获取。||
    • AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? - V)**|大型视觉语言模型(LVLMs)已成为推进视觉和语言信息融合的关键,促进了各种复杂应用和任务的发展。然而,LVLMs 的评估面临着重大挑战,因为评估基准的构建总是需要大量的人力成本,并且一旦构建完成就保持静态,缺乏灵活性。尽管在文本模态中已经探索了自动评估,但视觉模态仍然缺乏研究。因此,在这项工作中,我们提出了一个问题:“LVLMs 能否成为自动基准测试的途径?”. 我们引入了 AutoBench-V,这是一个用于按需进行评估的自动化框架,即基于模型能力的特定方面对 LVLMs 进行基准测试。在接收到评估能力后,AutoBench-V 利用文本到图像模型生成相关的图像样本,然后利用 LVLMs 来编排视觉问答(VQA)任务,从而高效灵活地完成评估过程。通过对七个流行的 LVLMs 在五个用户输入(即评估能力)上的广泛评估,该框架展现了有效性和可靠性。我们观察到以下几点:(1)我们构建的基准准确地反映了不同的任务难度;(2)随着任务难度的增加,模型之间的性能差距会扩大;(3)虽然模型在抽象层面的理解上表现出很强的性能,但在细节推理任务中表现不佳;(4)构建具有不同难度级别的 datasets 对于全面彻底的评估至关重要。总的来说,AutoBench-V 不仅成功地利用 LVLMs 进行自动基准测试,还揭示了 LVLMs 作为评估者的巨大潜力。||
Categories
Sub Categories