{"id":24360179,"url":"https://github.com/drive-bench/toolkit","last_synced_at":"2025-04-15T15:22:16.509Z","repository":{"id":270577207,"uuid":"910801731","full_name":"drive-bench/toolkit","owner":"drive-bench","description":"Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives","archived":false,"fork":false,"pushed_at":"2025-02-22T00:47:25.000Z","size":15119,"stargazers_count":59,"open_issues_count":1,"forks_count":0,"subscribers_count":7,"default_branch":"main","last_synced_at":"2025-03-28T21:51:08.147Z","etag":null,"topics":["autonomous-driving","chatgpt","driving-with-language","internvl","phi-3","qwen2-vl","vision-language-models"],"latest_commit_sha":null,"homepage":"https://drive-bench.github.io","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/drive-bench.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2025-01-01T13:26:09.000Z","updated_at":"2025-03-28T07:29:32.000Z","dependencies_parsed_at":"2025-02-20T00:39:48.561Z","dependency_job_id":null,"html_url":"https://github.com/drive-bench/toolkit","commit_stats":null,"previous_names":["drive-bench/toolkit"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/drive-bench%2Ftoolkit","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/drive-bench%2Ftoolkit/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/drive-bench%2Ftoolkit/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/drive-bench%2Ftoolkit/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/drive-bench","download_url":"https://codeload.github.com/drive-bench/toolkit/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":249095210,"owners_count":21211884,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["autonomous-driving","chatgpt","driving-with-language","internvl","phi-3","qwen2-vl","vision-language-models"],"created_at":"2025-01-18T21:03:15.257Z","updated_at":"2025-04-15T15:22:16.483Z","avatar_url":"https://github.com/drive-bench.png","language":"Python","funding_links":[],"categories":["Papers","Special-Attacks-For-LVLM-Applications"],"sub_categories":[],"readme":"\u003cp align=\"right\"\u003eEnglish | \u003ca href=\"./README_CN.md\"\u003e简体中文\u003c/a\u003e\u003c/div\u003e \n\n\n\u003cp align=\"center\"\u003e\n  \u003ch3 align=\"center\"\u003e  \n    \u003cimg src=\"docs/figs/icons/human.png\" align=\"center\" width=\"5%\"\u003e\n    \u003cstrong\u003eAre VLMs Ready for Autonomous Driving?\u003cbr\u003eAn Empirical Study from the Reliability, Data, and Metric Perspectives\u003c/strong\u003e\n  \u003c/h3\u003e\n\n  \u003cp align=\"center\"\u003e\n      \u003ca href=\"https://daniel-xsy.github.io/\" target='_blank'\u003eShaoyuan Xie\u003c/a\u003e\u003csup\u003e1\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://ldkong.com/\" target='_blank'\u003eLingdong Kong\u003c/a\u003e\u003csup\u003e2,3\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://scholar.google.com/citations?user=kMui170AAAAJJ\u0026hl=en\" target='_blank'\u003eYuhao Dong\u003c/a\u003e\u003csup\u003e2,4\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://scholar.google.com/citations?user=dgYJ6esAAAAJJ\u0026hl=en\" target='_blank'\u003eChonghao Sima\u003c/a\u003e\u003csup\u003e2,6\u003c/sup\u003e\u003cbr\u003e\n      \u003ca href=\"https://scholar.google.com/citations?user=QDXADSEAAAAJJ\u0026hl=en\" target='_blank'\u003eWenwei Zhang\u003c/a\u003e\u003csup\u003e2\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://ics.uci.edu/~alfchen/\" target='_blank'\u003eQi Alfred Chen\u003c/a\u003e\u003csup\u003e1\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://liuziwei7.github.io/\" target='_blank'\u003eZiwei Liu\u003c/a\u003e\u003csup\u003e4\u003c/sup\u003e\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n      \u003ca href=\"https://scholar.google.com/citations?user=lSDISOcAAAAJJ\u0026hl=en\" target='_blank'\u003eLiang Pan\u003c/a\u003e\u003csup\u003e2\u003c/sup\u003e\n    \u003c/br\u003e\u003c/br\u003e\n  \u003csup\u003e1\u003c/sup\u003eUniversity of California, Irvine\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n  \u003csup\u003e2\u003c/sup\u003eShanghai AI Laboratory\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n  \u003csup\u003e3\u003c/sup\u003eNational University of Singapore\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n  \u003csup\u003e4\u003c/sup\u003eS-Lab, Nanyang Technological University\u0026nbsp;\u0026nbsp;\u0026nbsp;\u0026nbsp;\n  \u003csup\u003e5\u003c/sup\u003eThe University of Hong Kong\n  \u003c/p\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"https://arxiv.org/abs/2501.04003\" target='_blank'\u003e\n    \u003cimg src=\"https://img.shields.io/badge/Paper-%F0%9F%93%83-lightblue\"\u003e\n  \u003c/a\u003e\u0026nbsp;\n  \u003ca href=\"https://drive-bench.github.io/\" target='_blank'\u003e\n    \u003cimg src=\"https://img.shields.io/badge/Project-%F0%9F%94%97-blue\"\u003e\n  \u003c/a\u003e\u0026nbsp;\n  \u003ca href=\"https://huggingface.co/datasets/drive-bench/arena\" target='_blank'\u003e\n    \u003cimg src=\"https://img.shields.io/badge/Dataset-%F0%9F%8E%AC-pink\"\u003e\n  \u003c/a\u003e\u0026nbsp;\n  \u003ca \u003e\n    \u003cimg src=\"https://img.shields.io/badge/%E4%B8%AD%E8%AF%91%E7%89%88-%F0%9F%90%BC-red\"\u003e\n  \u003c/a\u003e\u0026nbsp;\n  \u003ca href=\"https://hits.seeyoufarm.com\"\u003e\n    \u003cimg src=\"https://hits.seeyoufarm.com/api/count/incr/badge.svg?url=https%3A%2F%2Fgithub.com%2Fdrive-bench%2Ftoolkit\u0026count_bg=%2300B48B\u0026title_bg=%23555555\u0026icon=\u0026icon_color=%23E7E7E7\u0026title=Visitors\u0026edge_flat=false\"/\u003e\n  \u003c/a\u003e\n\u003c/p\u003e\n\n\n## About\n\n| ![drivebench](./docs/figs/bench.png) |\n|:-:|\n| We introduce :blue_car: **DriveBench**, a benchmark dataset designed to evaluate VLM reliability across **17 settings** (clean, corrupted, and text-only inputs), encompassing **19,200 frames**, **20,498 question-answer pairs**, **three question types**, **four mainstream driving tasks**, and **a total of 12 popular VLMs**. \n| Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. \n\n\n## :memo: Updates\n- \\[2025.01\\] - The evaluation data can be accessible at our [HuggingFace Dataset Card](https://huggingface.co/datasets/drive-bench/arena). :hugs:\n- \\[2025.01\\] - Introducing the :blue_car: **DriveBench** project! For more details, kindly refer to our [Project Page](https://drive-bench.github.io/) and [Preprint](https://arxiv.org/abs/2501.04003). :rocket:\n\n\n# Table of Content\n- [Benchmark Comparison](#bar_chart-benchmark-comparison)\n- [Installation](#gear-installation)\n- [Data Preparation](#hotsprings-data-preparation)\n- [Getting Started](#rocket-getting-started)\n- [Benchmark Results](#aerial_tramway-benchmark-results)\n  - [Benchmark Configuration](#benchmark-configuration)\n  - [Benchmark Study](#benchmark-study)\n  - [Robustness Analysis](#robustness-analysis)\n- [Citation](#citation)\n- [License](#license)\n- [Acknowledgments](#acknowledgments)\n\n\n# :bar_chart: Benchmark Comparison\n\n\u003ctable\u003e\n\u003cthead\u003e\n\u003ctr\u003e\n\u003cth rowspan=\"2\"\u003eBenchmark\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003e\u003cimg src=\"./docs/figs/icons/perception.png\" style=\"width: 40px; height: 40px; vertical-align: top;\"\u003e\u003cspan\u003ePerception\u003c/span\u003e\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003e\u003cimg src=\"./docs/figs/icons/prediction.png\" style=\"width: 40px; height: 40px; vertical-align: top;\"\u003e\u003cspan\u003ePrediction\u003c/span\u003e\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003e\u003cimg src=\"./docs/figs/icons/behavior.png\" style=\"width: 40px; height: 40px; vertical-align: top;\"\u003e\u003cspan\u003eBehavior\u003c/span\u003e\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003e\u003cimg src=\"./docs/figs/icons/planning.png\" style=\"width: 40px; height: 40px; vertical-align: top;\"\u003e\u003cspan\u003ePlanning\u003c/span\u003e\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003e\u003cimg src=\"./docs/figs/icons/robustness.png\" style=\"width: 40px; height: 40px; vertical-align: top;\"\u003e\u003cspan\u003eRobustness\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003eFrames\u003c/th\u003e\n\u003cth\u003eQA\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003eLogic\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003eEvaluation Metrics\u003c/th\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003cth\u003e(Test)\u003c/th\u003e\n\u003cth\u003e(Test)\u003c/th\u003e\n\u003c/tr\u003e\n\u003c/thead\u003e\n\u003ctbody\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eBDD-X\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eLanguage\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eBDD-OIA\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eF1 Score\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003enuScenes-QA\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e36,114\u003c/td\u003e\n\u003ctd\u003e83,337\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eAcc\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eTalk2Car\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e~1.8k\u003c/td\u003e\n\u003ctd\u003e2,447\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003enuPrompt\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e~36k\u003c/td\u003e\n\u003ctd\u003e~6k\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eAMOTA\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eDRAMA\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e~14k\u003c/td\u003e\n\u003ctd\u003eChain\u003c/td\u003e\n\u003ctd\u003eLanguage\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eRank2Tel\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eChain\u003c/td\u003e\n\u003ctd\u003eAccuracy, Language\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eDirveMLLM\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e880\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eAcc\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eDriveVLM\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eNone\u003c/td\u003e\n\u003ctd\u003eGPT\u003csub\u003ectx\u003c/sub\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003eDriveLM\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003e✘\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e4,794\u003c/td\u003e\n\u003ctd\u003e15,480\u003c/td\u003e\n\u003ctd\u003eGraph\u003c/td\u003e\n\u003ctd\u003eLanguage, GPT\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003cstrong\u003e\u003cspan style=\"font-family: 'Nunito', sans-serif; color: rgb(66, 133, 244);\"\u003eDrive\u003c/span\u003e\u003cspan style=\"font-family: 'Nunito', sans-serif; color: rgb(192, 0, 0);\"\u003eBench\u003c/span\u003e (Ours)\u003c/strong\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e✔\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cb\u003e19,200\u003c/b\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cb\u003e20,498\u003c/b\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cb\u003eGraph\u003c/b\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cb\u003eAcc, Language, GPT, GPT\u003csub\u003ectx\u003c/sub\u003e\u003c/b\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/tbody\u003e     \n\u003c/table\u003e\n\n\n\n# :gear: Installation\n\nFor details related to installation and environment setups, kindly refer to [INSTALL.md](./docs/INSTALL.md).\n\n\n\n# :hotsprings: Data Preparation\n\nKindly refer to [DATA_PREPAER.md](./docs/DATA_PREPAER.md) for the details to prepare the datasets.\n\n\n\n# :rocket: Getting Started\n\nTo learn more usage about this codebase, kindly refer to [GET_STARTED.md](./docs/GET_STARTED.md).\n\n\n\n# :aerial_tramway: Benchmark Results\n\n## Benchmark Configuration\n\n\u003cdetails open\u003e\n\u003csummary\u003e\u0026nbsp\u003cb\u003eCommercial VLMs\u003c/b\u003e\u003c/summary\u003e\n  \n\u003e - [x] **[GPT4-o]()**\n\n\u003c/details\u003e\n\n\u003cdetails open\u003e\n\u003csummary\u003e\u0026nbsp\u003cb\u003eOpen-Source VLMs\u003c/b\u003e\u003c/summary\u003e\n  \n\u003e - [x] **[LLaVA-1.5]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[LLaVA-NeXT]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[InternVL2]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[Phi-3]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[Phi-3.5]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[Oryx]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[Qwen2-VL]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\n\u003c/details\u003e\n\n\u003cdetails open\u003e\n\u003csummary\u003e\u0026nbsp\u003cb\u003eSpecialist VLMs\u003c/b\u003e\u003c/summary\u003e\n  \n\u003e - [x] **[DriveLM-Agent]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\u003e - [x] **[Dolphins]()** \u003csup\u003e[**`[Code]`**]()\u003c/sup\u003e\n\n\u003c/details\u003e\n\n\n## Benchmark Study\n\n\u003ctable\u003e\n\u003cthead\u003e\n\u003ctr\u003e\n\u003cth\u003eModel\u003c/th\u003e\n\u003cth\u003eSize\u003c/th\u003e\n\u003cth\u003eType\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/perception.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePerception\u003c/span\u003e (\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eClean\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/perception.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePerception\u003c/span\u003e (\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eCorr.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/perception.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePerception\u003c/span\u003e (\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eT.O.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/prediction.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePrediction\u003c/span\u003e (\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eClean\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/prediction.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePrediction\u003c/span\u003e (\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eCorr.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/prediction.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePrediction\u003c/span\u003e (\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eT.O.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/planning.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePlanning\u003c/span\u003e (\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eClean\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/planning.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePlanning\u003c/span\u003e (\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eCorr.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/planning.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003ePlanning\u003c/span\u003e (\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eT.O.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/behavior.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003eBehavior\u003c/span\u003e (\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eClean\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/behavior.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003eBehavior\u003c/span\u003e (\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eCorr.\u003c/span\u003e)\u003c/th\u003e\n\u003cth\u003e\u003cimg src=\"./docs/figs/icons/behavior.png\" style=\"width: 37px; height: 37px; vertical-align: top;\"\u003e\u003cspan\u003eBehavior\u003c/span\u003e (\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eT.O.\u003c/span\u003e)\u003c/th\u003e\n\u003c/tr\u003e\n\u003c/thead\u003e\n\u003ctbody\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e\u003cb\u003eHuman\u003c/b\u003e\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e47.67\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e38.32\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e69.51\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003e54.09\u003c/span\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eGPT-4o\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eCommercial\u003c/td\u003e\n\u003ctd\u003e35.37\u003c/td\u003e\n\u003ctd\u003e35.25\u003c/td\u003e\n\u003ctd\u003e36.48\u003c/td\u003e\n\u003ctd\u003e51.30\u003c/td\u003e\n\u003ctd\u003e49.94\u003c/td\u003e\n\u003ctd\u003e49.05\u003c/td\u003e\n\u003ctd\u003e75.75\u003c/td\u003e\n\u003ctd\u003e75.36\u003c/td\u003e\n\u003ctd\u003e73.21\u003c/td\u003e\n\u003ctd\u003e45.40\u003c/td\u003e\n\u003ctd\u003e44.33\u003c/td\u003e\n\u003ctd\u003e50.03\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-1.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e23.22\u003c/td\u003e\n\u003ctd\u003e22.95\u003c/td\u003e\n\u003ctd\u003e22.31\u003c/td\u003e\n\u003ctd\u003e22.02\u003c/td\u003e\n\u003ctd\u003e17.54\u003c/td\u003e\n\u003ctd\u003e14.64\u003c/td\u003e\n\u003ctd\u003e29.15\u003c/td\u003e\n\u003ctd\u003e31.51\u003c/td\u003e\n\u003ctd\u003e32.45\u003c/td\u003e\n\u003ctd\u003e13.60\u003c/td\u003e\n\u003ctd\u003e13.62\u003c/td\u003e\n\u003ctd\u003e14.91\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-1.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e13B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e23.35\u003c/td\u003e\n\u003ctd\u003e23.37\u003c/td\u003e\n\u003ctd\u003e22.37\u003c/td\u003e\n\u003ctd\u003e36.98\u003c/td\u003e\n\u003ctd\u003e37.78\u003c/td\u003e\n\u003ctd\u003e23.98\u003c/td\u003e\n\u003ctd\u003e34.26\u003c/td\u003e\n\u003ctd\u003e34.99\u003c/td\u003e\n\u003ctd\u003e38.85\u003c/td\u003e\n\u003ctd\u003e32.99\u003c/td\u003e\n\u003ctd\u003e32.43\u003c/td\u003e\n\u003ctd\u003e32.79\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-NeXT\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e24.15\u003c/td\u003e\n\u003ctd\u003e19.62\u003c/td\u003e\n\u003ctd\u003e13.86\u003c/td\u003e\n\u003ctd\u003e35.07\u003c/td\u003e\n\u003ctd\u003e35.89\u003c/td\u003e\n\u003ctd\u003e28.36\u003c/td\u003e\n\u003ctd\u003e45.27\u003c/td\u003e\n\u003ctd\u003e44.36\u003c/td\u003e\n\u003ctd\u003e27.58\u003c/td\u003e\n\u003ctd\u003e48.16\u003c/td\u003e\n\u003ctd\u003e39.44\u003c/td\u003e\n\u003ctd\u003e11.92\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eInternVL2\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e8B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e32.36\u003c/td\u003e\n\u003ctd\u003e32.68\u003c/td\u003e\n\u003ctd\u003e33.60\u003c/td\u003e\n\u003ctd\u003e45.52\u003c/td\u003e\n\u003ctd\u003e37.93\u003c/td\u003e\n\u003ctd\u003e48.89\u003c/td\u003e\n\u003ctd\u003e53.27\u003c/td\u003e\n\u003ctd\u003e55.25\u003c/td\u003e\n\u003ctd\u003e34.56\u003c/td\u003e\n\u003ctd\u003e54.58\u003c/td\u003e\n\u003ctd\u003e40.78\u003c/td\u003e\n\u003ctd\u003e20.14\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003ePhi-3\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e4.2B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e22.88\u003c/td\u003e\n\u003ctd\u003e23.93\u003c/td\u003e\n\u003ctd\u003e28.26\u003c/td\u003e\n\u003ctd\u003e40.11\u003c/td\u003e\n\u003ctd\u003e37.27\u003c/td\u003e\n\u003ctd\u003e22.61\u003c/td\u003e\n\u003ctd\u003e60.03\u003c/td\u003e\n\u003ctd\u003e61.31\u003c/td\u003e\n\u003ctd\u003e46.88\u003c/td\u003e\n\u003ctd\u003e45.20\u003c/td\u003e\n\u003ctd\u003e44.57\u003c/td\u003e\n\u003ctd\u003e28.22\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003ePhi-3.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e4.2B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e27.52\u003c/td\u003e\n\u003ctd\u003e27.51\u003c/td\u003e\n\u003ctd\u003e28.26\u003c/td\u003e\n\u003ctd\u003e45.13\u003c/td\u003e\n\u003ctd\u003e38.21\u003c/td\u003e\n\u003ctd\u003e4.92\u003c/td\u003e\n\u003ctd\u003e31.91\u003c/td\u003e\n\u003ctd\u003e28.36\u003c/td\u003e\n\u003ctd\u003e46.30\u003c/td\u003e\n\u003ctd\u003e37.89\u003c/td\u003e\n\u003ctd\u003e49.13\u003c/td\u003e\n\u003ctd\u003e39.16\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eOryx\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e17.02\u003c/td\u003e\n\u003ctd\u003e15.97\u003c/td\u003e\n\u003ctd\u003e18.47\u003c/td\u003e\n\u003ctd\u003e48.13\u003c/td\u003e\n\u003ctd\u003e46.63\u003c/td\u003e\n\u003ctd\u003e12.77\u003c/td\u003e\n\u003ctd\u003e53.57\u003c/td\u003e\n\u003ctd\u003e55.76\u003c/td\u003e\n\u003ctd\u003e48.26\u003c/td\u003e\n\u003ctd\u003e33.92\u003c/td\u003e\n\u003ctd\u003e33.81\u003c/td\u003e\n\u003ctd\u003e23.94\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eQwen2-VL\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e28.99\u003c/td\u003e\n\u003ctd\u003e27.85\u003c/td\u003e\n\u003ctd\u003e35.16\u003c/td\u003e\n\u003ctd\u003e37.89\u003c/td\u003e\n\u003ctd\u003e39.55\u003c/td\u003e\n\u003ctd\u003e37.77\u003c/td\u003e\n\u003ctd\u003e57.04\u003c/td\u003e\n\u003ctd\u003e54.78\u003c/td\u003e\n\u003ctd\u003e41.66\u003c/td\u003e\n\u003ctd\u003e49.07\u003c/td\u003e\n\u003ctd\u003e47.68\u003c/td\u003e\n\u003ctd\u003e54.48\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eQwen2-VL\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e72B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e30.13\u003c/td\u003e\n\u003ctd\u003e26.92\u003c/td\u003e\n\u003ctd\u003e17.70\u003c/td\u003e\n\u003ctd\u003e49.35\u003c/td\u003e\n\u003ctd\u003e43.49\u003c/td\u003e\n\u003ctd\u003e5.57\u003c/td\u003e\n\u003ctd\u003e61.30\u003c/td\u003e\n\u003ctd\u003e63.07\u003c/td\u003e\n\u003ctd\u003e53.35\u003c/td\u003e\n\u003ctd\u003e51.26\u003c/td\u003e\n\u003ctd\u003e49.78\u003c/td\u003e\n\u003ctd\u003e39.46\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eDriveLM\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eSpecialist\u003c/td\u003e\n\u003ctd\u003e16.85\u003c/td\u003e\n\u003ctd\u003e16.00\u003c/td\u003e\n\u003ctd\u003e8.75\u003c/td\u003e\n\u003ctd\u003e44.33\u003c/td\u003e\n\u003ctd\u003e39.71\u003c/td\u003e\n\u003ctd\u003e4.70\u003c/td\u003e\n\u003ctd\u003e68.71\u003c/td\u003e\n\u003ctd\u003e67.60\u003c/td\u003e\n\u003ctd\u003e65.24\u003c/td\u003e\n\u003ctd\u003e42.78\u003c/td\u003e\n\u003ctd\u003e40.37\u003c/td\u003e\n\u003ctd\u003e27.83\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eDolphins\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eSpecialist\u003c/td\u003e\n\u003ctd\u003e9.59\u003c/td\u003e\n\u003ctd\u003e10.84\u003c/td\u003e\n\u003ctd\u003e11.01\u003c/td\u003e\n\u003ctd\u003e32.66\u003c/td\u003e\n\u003ctd\u003e29.88\u003c/td\u003e\n\u003ctd\u003e39.98\u003c/td\u003e\n\u003ctd\u003e52.91\u003c/td\u003e\n\u003ctd\u003e53.77\u003c/td\u003e\n\u003ctd\u003e60.98\u003c/td\u003e\n\u003ctd\u003e8.81\u003c/td\u003e\n\u003ctd\u003e8.25\u003c/td\u003e\n\u003ctd\u003e11.92\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/tbody\u003e\n\u003c/table\u003e\n          \n\n## Robustness Analysis\n\u003ctable\u003e\n\u003cthead\u003e\n\u003ctr\u003e\n\u003cth rowspan=\"2\"\u003eModel\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003eSize\u003c/th\u003e\n\u003cth rowspan=\"2\"\u003eType\u003c/th\u003e\n\u003cth colspan=\"3\"\u003e\u003cimg src=\"./docs/figs/icons/weather.png\" style=\"width: 45px; height: 45px; vertical-align: top;\"\u003e\u003cspan\u003e\u003cbr/\u003e\u003c/span\u003eWeather\u003c/th\u003e\n\u003cth colspan=\"3\"\u003e\u003cimg src=\"./docs/figs/icons/external.png\" style=\"width: 45px; height: 45px; vertical-align: top;\"\u003e\u003cspan\u003e\u003cbr/\u003eExternal\u003c/th\u003e\n\u003cth colspan=\"3\"\u003e\u003cimg src=\"./docs/figs/icons/sensor.png\" style=\"width: 45px; height: 45px; vertical-align: top;\"\u003e\u003cspan\u003e\u003cbr/\u003eSensor\u003c/th\u003e\n\u003cth colspan=\"3\"\u003e\u003cimg src=\"./docs/figs/icons/motion.png\" style=\"width: 45px; height: 45px; vertical-align: top;\"\u003e\u003cspan\u003e\u003cbr/\u003eMotion\u003c/th\u003e\n\u003cth colspan=\"3\"\u003e\u003cimg src=\"./docs/figs/icons/transmission.png\" style=\"width: 45px; height: 45px; vertical-align: top;\"\u003e\u003cspan\u003e\u003cbr/\u003eTransmission\u003c/th\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eMCQ\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eVQA\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eCAP\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eMCQ\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eVQA\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eCAP\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eMCQ\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eVQA\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eCAP\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eMCQ\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eVQA\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eCAP\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(66, 133, 244);\"\u003eMCQ\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(192, 0, 0);\"\u003eVQA\u003c/span\u003e\u003c/th\u003e\n\u003cth\u003e\u003cspan style=\"color: rgb(0, 176, 80);\"\u003eCAP\u003c/span\u003e\u003c/th\u003e\n\u003c/tr\u003e\n\u003c/thead\u003e\n\u003ctbody\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eGPT-4o\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e-\u003c/td\u003e\n\u003ctd\u003eCommercial\u003c/td\u003e\n\u003ctd\u003e57.20\u003c/td\u003e\n\u003ctd\u003e57.28\u003c/td\u003e\n\u003ctd\u003e54.90\u003c/td\u003e\n\u003ctd\u003e29.25\u003c/td\u003e\n\u003ctd\u003e56.60\u003c/td\u003e\n\u003ctd\u003e61.98\u003c/td\u003e\n\u003ctd\u003e44.25\u003c/td\u003e\n\u003ctd\u003e54.95\u003c/td\u003e\n\u003ctd\u003e56.53\u003c/td\u003e\n\u003ctd\u003e34.25\u003c/td\u003e\n\u003ctd\u003e59.20\u003c/td\u003e\n\u003ctd\u003e56.25\u003c/td\u003e\n\u003ctd\u003e36.83\u003c/td\u003e\n\u003ctd\u003e53.95\u003c/td\u003e\n\u003ctd\u003e57.57\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-1.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e69.70\u003c/td\u003e\n\u003ctd\u003e35.49\u003c/td\u003e\n\u003ctd\u003e35.91\u003c/td\u003e\n\u003ctd\u003e26.50\u003c/td\u003e\n\u003ctd\u003e29.17\u003c/td\u003e\n\u003ctd\u003e34.95\u003c/td\u003e\n\u003ctd\u003e18.83\u003c/td\u003e\n\u003ctd\u003e30.64\u003c/td\u003e\n\u003ctd\u003e33.15\u003c/td\u003e\n\u003ctd\u003e71.25\u003c/td\u003e\n\u003ctd\u003e33.43\u003c/td\u003e\n\u003ctd\u003e35.18\u003c/td\u003e\n\u003ctd\u003e10.17\u003c/td\u003e\n\u003ctd\u003e27.28\u003c/td\u003e\n\u003ctd\u003e34.38\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-1.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e13B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e61.60\u003c/td\u003e\n\u003ctd\u003e39.76\u003c/td\u003e\n\u003ctd\u003e37.76\u003c/td\u003e\n\u003ctd\u003e15.50\u003c/td\u003e\n\u003ctd\u003e34.55\u003c/td\u003e\n\u003ctd\u003e37.83\u003c/td\u003e\n\u003ctd\u003e24.08\u003c/td\u003e\n\u003ctd\u003e35.48\u003c/td\u003e\n\u003ctd\u003e36.08\u003c/td\u003e\n\u003ctd\u003e79.75\u003c/td\u003e\n\u003ctd\u003e36.46\u003c/td\u003e\n\u003ctd\u003e36.42\u003c/td\u003e\n\u003ctd\u003e15.50\u003c/td\u003e\n\u003ctd\u003e32.53\u003c/td\u003e\n\u003ctd\u003e34.33\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eLLaVA-NeXT\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e69.70\u003c/td\u003e\n\u003ctd\u003e36.96\u003c/td\u003e\n\u003ctd\u003e48.52\u003c/td\u003e\n\u003ctd\u003e48.50\u003c/td\u003e\n\u003ctd\u003e30.32\u003c/td\u003e\n\u003ctd\u003e57.18\u003c/td\u003e\n\u003ctd\u003e21.83\u003c/td\u003e\n\u003ctd\u003e30.40\u003c/td\u003e\n\u003ctd\u003e44.37\u003c/td\u003e\n\u003ctd\u003e66.00\u003c/td\u003e\n\u003ctd\u003e34.20\u003c/td\u003e\n\u003ctd\u003e50.44\u003c/td\u003e\n\u003ctd\u003e11.83\u003c/td\u003e\n\u003ctd\u003e29.43\u003c/td\u003e\n\u003ctd\u003e53.50\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eInternVL2\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e8B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e59.90\u003c/td\u003e\n\u003ctd\u003e48.72\u003c/td\u003e\n\u003ctd\u003e48.60\u003c/td\u003e\n\u003ctd\u003e50.75\u003c/td\u003e\n\u003ctd\u003e47.74\u003c/td\u003e\n\u003ctd\u003e57.82\u003c/td\u003e\n\u003ctd\u003e29.92\u003c/td\u003e\n\u003ctd\u003e45.06\u003c/td\u003e\n\u003ctd\u003e51.14\u003c/td\u003e\n\u003ctd\u003e68.25\u003c/td\u003e\n\u003ctd\u003e49.51\u003c/td\u003e\n\u003ctd\u003e49.67\u003c/td\u003e\n\u003ctd\u003e30.00\u003c/td\u003e\n\u003ctd\u003e43.42\u003c/td\u003e\n\u003ctd\u003e54.24\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003ePhi-3\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e4.2B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e40.00\u003c/td\u003e\n\u003ctd\u003e40.59\u003c/td\u003e\n\u003ctd\u003e45.61\u003c/td\u003e\n\u003ctd\u003e25.00\u003c/td\u003e\n\u003ctd\u003e31.44\u003c/td\u003e\n\u003ctd\u003e45.99\u003c/td\u003e\n\u003ctd\u003e16.83\u003c/td\u003e\n\u003ctd\u003e35.58\u003c/td\u003e\n\u003ctd\u003e43.71\u003c/td\u003e\n\u003ctd\u003e31.25\u003c/td\u003e\n\u003ctd\u003e42.92\u003c/td\u003e\n\u003ctd\u003e48.43\u003c/td\u003e\n\u003ctd\u003e27.67\u003c/td\u003e\n\u003ctd\u003e33.04\u003c/td\u003e\n\u003ctd\u003e41.35\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003ePhi-3.5\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e4.2B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e60.60\u003c/td\u003e\n\u003ctd\u003e41.82\u003c/td\u003e\n\u003ctd\u003e45.97\u003c/td\u003e\n\u003ctd\u003e21.25\u003c/td\u003e\n\u003ctd\u003e36.89\u003c/td\u003e\n\u003ctd\u003e30.95\u003c/td\u003e\n\u003ctd\u003e25.58\u003c/td\u003e\n\u003ctd\u003e34.66\u003c/td\u003e\n\u003ctd\u003e39.30\u003c/td\u003e\n\u003ctd\u003e33.00\u003c/td\u003e\n\u003ctd\u003e46.03\u003c/td\u003e\n\u003ctd\u003e49.33\u003c/td\u003e\n\u003ctd\u003e39.67\u003c/td\u003e\n\u003ctd\u003e33.47\u003c/td\u003e\n\u003ctd\u003e39.67\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eOryx\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e53.20\u003c/td\u003e\n\u003ctd\u003e40.43\u003c/td\u003e\n\u003ctd\u003e48.95\u003c/td\u003e\n\u003ctd\u003e45.00\u003c/td\u003e\n\u003ctd\u003e40.68\u003c/td\u003e\n\u003ctd\u003e56.06\u003c/td\u003e\n\u003ctd\u003e50.50\u003c/td\u003e\n\u003ctd\u003e36.71\u003c/td\u003e\n\u003ctd\u003e48.55\u003c/td\u003e\n\u003ctd\u003e72.50\u003c/td\u003e\n\u003ctd\u003e40.01\u003c/td\u003e\n\u003ctd\u003e48.33\u003c/td\u003e\n\u003ctd\u003e39.67\u003c/td\u003e\n\u003ctd\u003e36.98\u003c/td\u003e\n\u003ctd\u003e49.87\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eQwen2-VL\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e76.70\u003c/td\u003e\n\u003ctd\u003e49.33\u003c/td\u003e\n\u003ctd\u003e45.12\u003c/td\u003e\n\u003ctd\u003e37.50\u003c/td\u003e\n\u003ctd\u003e47.62\u003c/td\u003e\n\u003ctd\u003e51.24\u003c/td\u003e\n\u003ctd\u003e22.83\u003c/td\u003e\n\u003ctd\u003e39.45\u003c/td\u003e\n\u003ctd\u003e47.23\u003c/td\u003e\n\u003ctd\u003e57.00\u003c/td\u003e\n\u003ctd\u003e47.40\u003c/td\u003e\n\u003ctd\u003e47.74\u003c/td\u003e\n\u003ctd\u003e35.83\u003c/td\u003e\n\u003ctd\u003e42.31\u003c/td\u003e\n\u003ctd\u003e48.60\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eQwen2-VL\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e72B\u003c/td\u003e\n\u003ctd\u003eOpen\u003c/td\u003e\n\u003ctd\u003e59.80\u003c/td\u003e\n\u003ctd\u003e51.05\u003c/td\u003e\n\u003ctd\u003e48.55\u003c/td\u003e\n\u003ctd\u003e45.50\u003c/td\u003e\n\u003ctd\u003e50.57\u003c/td\u003e\n\u003ctd\u003e57.25\u003c/td\u003e\n\u003ctd\u003e52.25\u003c/td\u003e\n\u003ctd\u003e45.89\u003c/td\u003e\n\u003ctd\u003e48.59\u003c/td\u003e\n\u003ctd\u003e58.25\u003c/td\u003e\n\u003ctd\u003e50.85\u003c/td\u003e\n\u003ctd\u003e47.88\u003c/td\u003e\n\u003ctd\u003e44.83\u003c/td\u003e\n\u003ctd\u003e46.23\u003c/td\u003e\n\u003ctd\u003e50.50\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\u003ctd\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eDriveLM\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eSpecialist\u003c/td\u003e\n\u003ctd\u003e21.20\u003c/td\u003e\n\u003ctd\u003e42.86\u003c/td\u003e\n\u003ctd\u003e20.04\u003c/td\u003e\n\u003ctd\u003e21.25\u003c/td\u003e\n\u003ctd\u003e37.49\u003c/td\u003e\n\u003ctd\u003e21.92\u003c/td\u003e\n\u003ctd\u003e9.00\u003c/td\u003e\n\u003ctd\u003e36.68\u003c/td\u003e\n\u003ctd\u003e15.56\u003c/td\u003e\n\u003ctd\u003e22.25\u003c/td\u003e\n\u003ctd\u003e42.05\u003c/td\u003e\n\u003ctd\u003e17.07\u003c/td\u003e\n\u003ctd\u003e17.50\u003c/td\u003e\n\u003ctd\u003e39.56\u003c/td\u003e\n\u003ctd\u003e10.37\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\u003ca\u003eDolphins\u003c/a\u003e\u003c/td\u003e\n\u003ctd\u003e7B\u003c/td\u003e\n\u003ctd\u003eSpecialist\u003c/td\u003e\n\u003ctd\u003e54.30\u003c/td\u003e\n\u003ctd\u003e30.21\u003c/td\u003e\n\u003ctd\u003e31.08\u003c/td\u003e\n\u003ctd\u003e3.00\u003c/td\u003e\n\u003ctd\u003e30.42\u003c/td\u003e\n\u003ctd\u003e29.38\u003c/td\u003e\n\u003ctd\u003e9.42\u003c/td\u003e\n\u003ctd\u003e26.83\u003c/td\u003e\n\u003ctd\u003e26.30\u003c/td\u003e\n\u003ctd\u003e9.25\u003c/td\u003e\n\u003ctd\u003e29.82\u003c/td\u003e\n\u003ctd\u003e28.05\u003c/td\u003e\n\u003ctd\u003e21.50\u003c/td\u003e\n\u003ctd\u003e28.86\u003c/td\u003e\n\u003ctd\u003e27.65\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/tbody\u003e\n\u003c/table\u003e\n\n\n## Qualitative Comparisons\n\n| ![example](./docs/figs/examples_benchmark_3.png) |\n|:-:|\n| Examples of different VLM responses under the Frame Lost condition. We observe that GPT-4o responses with visible objects while LLaVA-NeXT and DriveLM tend to hallucinate objects that cannot be seen from the provided images.\n\n\n| ![example](./docs/figs/examples_benchmark_4.png) |\n|:-:|\n| Examples of different VLM responses under the Water Splash condition. We observe that, under severe visual corruptions, VLMs respond with ambiguous and general answers based on their learned knowledge, without referring to the visual information. Most responses include traffic signals and pedestrians, even though they are not visible in the provided images.\n\n\n\n# Citation\nIf you find this work helpful, please kindly consider citing our paper:\n```bibtex\n@article{xie2025drivebench,\n  author  = {Xie, Shaoyuan and Kong, Lingdong and Dong, Yuhao and Sima, Chonghao and Zhang, Wenwei and Chen, Qi Alfred and Liu, Ziwei and Pan, Liang},\n  title   = {Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives},\n  journal = {arXiv preprint arXiv:2501.04003},\n  year    = {2025},\n}\n```\n\n\n# License\n\nThis work is under the [Apache License Version 2.0](https://www.apache.org/licenses/LICENSE-2.0), while some specific implementations in this codebase might be with other licenses. Kindly refer to [LICENSE.md]() for a more careful check, if you are using our code for commercial matters.\n\n\n# Acknowledgments\n\nTo be updated.\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fdrive-bench%2Ftoolkit","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fdrive-bench%2Ftoolkit","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fdrive-bench%2Ftoolkit/lists"}