https://github.com/52cv/cv-surveys

计算机视觉相关综述。包括目标检测、跟踪........
https://github.com/52cv/cv-surveys
Last synced: 5 months ago
JSON representation
计算机视觉相关综述。包括目标检测、跟踪........
Host: GitHub
URL: https://github.com/52cv/cv-surveys
Owner: 52CV
Created: 2021-01-05T02:58:20.000Z (over 5 years ago)
Default Branch: main
Last Pushed: 2024-10-30T02:17:41.000Z (over 1 year ago)
Last Synced: 2024-10-30T04:59:15.037Z (over 1 year ago)
Homepage:
Size: 907 KB
Stars: 1,877
Watchers: 38
Forks: 242
Open Issues: 0
Metadata Files:
- Readme: README.md
Awesome Lists containing this project

README

          


  



## 查看2025年综述文献点这里↘️[2025-CV-Surveys](https://github.com/52CV/CV-Surveys)

## 2025 年论文分类汇总戳这里

↘️[WACV-2025-Papers](https://github.com/52CV/WACV-2025-Papers)

↘️[CVPR-2025-Papers](https://github.com/52CV/CVPR-2025-Papers)

## 2024 年论文分类汇总戳这里

↘️[WACV-2024-Papers](https://github.com/52CV/WACV-2024-Papers)

↘️[CVPR-2024-Papers](https://github.com/52CV/CVPR-2024-Papers)

↘️[ECCV-2024-Papers](https://github.com/52CV/ECCV-2024-Papers)

## [2023 年论文分类汇总戳这里](#00000)

## [2022 年论文分类汇总戳这里](#0000)

## [2021 年论文分类汇总戳这里](#000)

## [2020 年论文分类汇总戳这里](#00)

# 2025-CV-Surveys

2025 年，计算机视觉相关综述。包括目标检测、跟踪........

### :green_book::green_book::green_book:在[【我爱计算机视觉】微信公众号](https://user-images.githubusercontent.com/62801906/163739684-175f0b8a-871e-4a41-b310-b549625fdcb1.png)后台回复“CV综述”，即可收到本文列出的全部论文的打包下载。至7月29日已公开 307+4 篇。

1月36篇。


2月50篇。


3月45篇。


4月41篇。


5月56篇。


6月39篇。

## 目录

|:cat:|:dog:|:tiger:|:wolf:|

|------|------|------|------|

|[1.Unkown(未分)](#1)|

## OOD

* [Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey](http://arxiv.org/abs/2505.02448v1)
[2025-05-06]

## 4D

* [Reconstructing 4D Spatial Intelligence: A Survey](https://arxiv.org/abs/2507.21045)
:star:[code](https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence)
[2025-07-29]

## Machine Learning(机器学习)

* [Machine Learning Applications to Diffuse Reflectance Spectroscopy in Optical Diagnosis; A Systematic Review](https://arxiv.org/abs/2503.02905)
[2025-03-06]

* [Prompt Mechanisms in Medical Imaging: A Comprehensive Survey](https://arxiv.org/abs/2507.01055)
[2025-07-03]

* 强化学习

  * [Exploring Mutual Empowerment Between Wireless Networks and RL-based LLMs: A Survey](https://arxiv.org/abs/2503.09956)
[2025-03-14]

  * [Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey](https://arxiv.org/abs/2505.17352)
[2025-05-26]

* 对比学习

  * [A Survey on Data Curation for Visual Contrastive Learning: Why Crafting Effective Positive and Negative Pairs Matters](https://arxiv.org/abs/2502.08134)
[2025-02-13]

* 持续学习

  * [A Comprehensive Survey on Continual Learning in Generative Models](https://arxiv.org/abs/2506.13045)
:star:[code](https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models)
[2025-06-17]

* 类增量学习

  * [Latest Advancements Towards Catastrophic Forgetting under Data Scarcity: A Comprehensive Survey on Few-Shot Class Incremental Learning](https://arxiv.org/abs/2502.08181)
[2025-02-13]

* 对抗

  * [A Survey of Adversarial Defenses in Vision-based Systems: Categorization, Methods and Challenges](https://arxiv.org/abs/2503.00384)
[2025-03-04]

## agriculture(农业)

* [A survey of datasets for computer vision in agriculture](https://arxiv.org/abs/2502.16950)
:star:[code](https://smartfarminglab.github.io/field_dataset_survey/)
[2025-02-25]

* [Advancing Wheat Crop Analysis: A Survey of Deep Learning Approaches Using Hyperspectral Imaging](https://arxiv.org/abs/2505.00805)
:star:[code](https://github.com/fadi-07/Awesome-Wheat-HSI-DeepLearning)
[2025-05-05]

* [Vision Transformers in Precision Agriculture: A Comprehensive Survey](https://arxiv.org/abs/2504.21706)
[2025-05-01]

## Biomedical(生物特征识别)

* 掌纹识别

  * [Deep Learning in Palmprint Recognition-A Comprehensive Survey](https://arxiv.org/abs/2501.01166)
[2025-01-03]

## Neural Radiance Fields

* [Neural Radiance Fields for the Real World: A Survey](https://arxiv.org/abs/2501.13104)
[2025-01-23]

## Motion Generation(动作生成)

* [Text-driven Motion Generation: Overview, Challenges and Directions](https://arxiv.org/abs/2505.09379)
[2025-05-15]

* [Motion Generation: A Survey of Generative Approaches and Benchmarks](https://arxiv.org/abs/2507.05419)
[2025-07-09]

## Robots(机器人)

* [Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions](https://arxiv.org/abs/2501.05750)
[2025-01-13]

* [OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation](https://arxiv.org/abs/2505.03912)
:star:[code](https://openhelix-robot.github.io/)
[2025-05-08]

* [Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review](https://arxiv.org/abs/2505.20503)
[2025-05-28]

* 位置识别

  * [Place Recognition: A Comprehensive Review, Current Challenges and Future Directions](https://arxiv.org/abs/2505.14068)
:star:[code](https://github.com/CV4RA/SOTA-Place-Recognitioner)
[2025-05-21]

* 导航

  * [A Review of Vision-Based Assistive Systems for Visually Impaired People: Technologies, Applications, and Future Directions](https://arxiv.org/abs/2505.14298)
[2025-05-21]

## Industrial Defect Detection(工业缺陷检测)

* [Anomaly Detection for Industrial Applications, Its Challenges, Solutions, and Future Directions: A Review](https://arxiv.org/abs/2501.11310)
[2025-01-22]

* [A Survey on Industrial Anomalies Synthesis](https://arxiv.org/abs/2502.16412)
:star:[code](https://github.com/M-3LAB/awesome-anomaly-synthesis.)
[2025-02-25]

* [A Survey on Foundation-Model-Based Industrial Defect Detection](https://arxiv.org/abs/2502.19106)
[2025-02-27]

* [A Comprehensive Survey for Real-World Industrial Defect Detection: Challenges, Approaches, and Prospects](https://arxiv.org/abs/2507.13378)
[2025-07-21]

* 异常检测

  * [Hyperspectral Anomaly Detection Methods: A Survey and Comparative Study](https://arxiv.org/abs/2507.05730)
[2025-07-09]

## Video

* [A Survey on Video Analytics in Cloud-Edge-Terminal Collaborative Systems](https://arxiv.org/abs/2502.06581)
[2025-02-11]

* [Survey of Video Diffusion Models: Foundations, Implementations, and Applications](https://arxiv.org/abs/2504.16081)
:star:[code](https://github.com/Eyeline-Research/Survey-Video-Diffusion)
[2025-04-23]

* 视频分析

  * [A Survey on Efficiency Optimization Techniques for DNN-based Video Analytics: Process Systems, Algorithms, and Applications](https://arxiv.org/abs/2507.15628)
[2025-07-22]

* 视频理解

  * [VideoLLM Benchmarks and Evaluation: A Survey](https://arxiv.org/abs/2505.03829)
[2025-05-08]

  * [Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision](https://arxiv.org/abs/2506.06253)
:star:[code](https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision)
[2025-06-09]

* 视频监控

  * [Video Forgery Detection for Surveillance Cameras: A Review](https://arxiv.org/abs/2505.03832)
[2025-05-08]

  * [Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges](https://arxiv.org/abs/2507.02074)
[2025-07-04]

* 视频帧插值

  * [AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation](https://arxiv.org/abs/2506.01061)
:star:[code](https://github.com/CMLab-Korea/Awesome-Video-Frame-Interpolation)
[2025-06-03]

* 长视频叙事生成

  * [A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality](https://arxiv.org/abs/2507.07202)
[2025-07-11]

## Agricultural(农业)

* [Domain Adaptation in Agricultural Image Analysis: A Comprehensive Review from Shallow Models to Deep Learning](https://arxiv.org/abs/2506.05972)
[2025-06-09]

## Animal(动物)

* [A Review on Coarse to Fine-Grained Animal Action Recognition](https://arxiv.org/abs/2506.01214)
[2025-06-03]

## Action Detection(动作检测)

* [Action Valuation in Sports: A Survey](https://arxiv.org/abs/2504.06163)
[2025-04-09]

* [Action Spotting and Precise Event Detection in Sports: Datasets, Methods, and Challenges](https://arxiv.org/abs/2505.03991)
[2025-05-08]

* [3D Skeleton-Based Action Recognition: A Review](https://arxiv.org/abs/2506.00915)
[2025-06-03]

## Person Re-ID(重识别)

* [Recent Deep Learning in Crowd Behaviour Analysis: A Brief Review](https://arxiv.org/abs/2505.18401)
[2025-05-27]

* [Causality and "In-the-Wild" Video-Based Person Re-ID: A Survey](https://arxiv.org/abs/2505.20540)
[2025-05-28]

* [Domain Generalization for Person Re-identification: A Survey Towards Domain-Agnostic Person Matching](https://arxiv.org/abs/2506.12413)
:star:[code](https://github.com/PerceptualAI-Lab/Awesome-Domain-Generalizable-Person-Re-ID)
[2025-06-17]

## Autonomous Driving(自动驾驶)

* [A Survey of World Models for Autonomous Driving](https://arxiv.org/abs/2501.11260)
[2025-01-22]

* [The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey](https://arxiv.org/abs/2502.10498)
:star:[code](https://github.com/LMD0311/Awesome-World-Model)
[2025-02-18]

* [4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey](https://arxiv.org/abs/2503.24091)
[2025-04-01]

* [Systematic Literature Review on Vehicular Collaborative Perception -- A Computer Vision Perspective](https://arxiv.org/abs/2504.04631)
[2025-04-08]

* [Adversarial Examples in Environment Perception for Automated Driving (Review)](https://arxiv.org/abs/2504.08414)
[2025-04-14]

* [Collaborative Perception Datasets for Autonomous Driving: A Review](https://arxiv.org/abs/2504.12696)
:star:[code](https://github.com/frankwnb/Collaborative-Perception-Datasets-for-Autonomous-Driving)
[2025-04-18]

* [Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends](https://arxiv.org/abs/2504.16134)
[2025-04-24]

* [Wireless Communication as an Information Sensor for Multi-agent Cooperative Perception: A Survey](https://arxiv.org/abs/2505.00747)
[2025-05-05]

* [Generative AI for Autonomous Driving: A Review](https://arxiv.org/abs/2505.15863)
[2025-05-23]

* [A Survey on Vision-Language-Action Models for Autonomous Driving](https://arxiv.org/abs/2506.24044)
:star:[code](https://github.com/JohnsonJiang1996/Awesome-VLA4AD)
[2025-07-01]

* [Towards Autonomous Riding: A Review of Perception, Planning, and Control in Intelligent Two-Wheelers](https://arxiv.org/abs/2507.11852)
[2025-07-17]

* 车道线检测

  * [Datasets for Lane Detection in Autonomous Driving: A Comprehensive Review](https://arxiv.org/abs/2504.08540)
[2025-04-14]

* 分心驾驶检测

  * [A Review Paper of the Effects of Distinct Modalities and ML Techniques to Distracted Driving Detection](https://arxiv.org/abs/2501.11758)
[2025-01-22]

  * [Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques](http://arxiv.org/abs/2505.01973v1)
[2025-05-06]

* 交通事故预测

  * [Deep Learning Advances in Vision-Based Traffic Accident Anticipation: A Comprehensive Review of Methods,Datasets,and Future Directions](https://arxiv.org/abs/2505.07611)
[2025-05-13]

## Machine Learning

* [A Systematic Review of Machine Learning Methods for Multimodal EEG Data in Clinical Application](https://arxiv.org/abs/2501.08585)
[2025-01-16]

## Few/Zero-Shot Learning/DG/A(小/零样本/域泛化/域适应)

* 域泛化

  * [CLIP-Powered Domain Generalization and Domain Adaptation: A Comprehensive Survey](https://arxiv.org/abs/2504.14280)
:star:[code](https://github.com/jindongli-Ai/Survey_on_CLIP-Powered_Domain_Generalization_and_Adaptation)
[2025-04-22]

* Non-Transferable Learning(反迁移学习)

  * [Toward Robust Non-Transferable Learning: A Survey and Benchmark](https://arxiv.org/abs/2502.13593)
[2025-02-20]

## Retrieval-Augmented Generation(检索增强生成)

* [Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook](https://arxiv.org/abs/2503.18016)
:star:[code](https://github.com/zhengxuJosh/Awesome-RAG-Vision)
[2025-03-25]

## Vision-Language(视觉语言)

* [Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability](https://arxiv.org/abs/2501.01346)
[2025-01-03]

* [Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey](https://arxiv.org/abs/2501.02189)
:star:[code](https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git)
[2025-01-07]

* [Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches](https://arxiv.org/abs/2501.03151)
[2025-01-07]

* [Visual Large Language Models for Generalized and Specialized Applications](https://arxiv.org/abs/2501.02765)
:star:[code](https://github.com/JackYFL/awesome-VLLMs)
[2025-01-07]

* [When Data Manipulation Meets Attack Goals: An In-depth Survey of Attacks for VLMs](https://arxiv.org/abs/2502.06390)
:star:[code](https://github.com/AobtDai/VLM_Attack_Paper_List)
[2025-02-11]

* [Survey on Vision-Language-Action Models](https://arxiv.org/abs/2502.06851)
[2025-02-12]

* [Vision-Language Models for Edge Networks: A Comprehensive Survey](https://arxiv.org/abs/2502.07855)
[2025-02-13]

* [Harnessing Vision Models for Time Series Analysis: A Survey](https://arxiv.org/abs/2502.08869)
[2025-02-14]

* [A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations](https://arxiv.org/abs/2502.14881)
:star:[code](https://github.com/XuankunRong/Awesome-LVLM-Safety)
[2025-02-24]

* [Multi-Modal Foundation Models for Computational Pathology: A Survey](https://arxiv.org/abs/2503.09091)
[2025-03-13]

* [Small Vision-Language Models: A Survey on Compact Architectures and Techniques](https://arxiv.org/abs/2503.10665)
[2025-03-17]

* [A Survey on Efficient Vision-Language Models](https://arxiv.org/abs/2504.09724)
:star:[code](https://github.com/MPSC-UMBC/Efficient-Vision-Language-Models-A-Survey)
[2025-04-15]

* [Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models](https://arxiv.org/abs/2505.04921)
:star:[code](https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models)
[2025-05-09]

* [Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey](https://arxiv.org/abs/2506.18504)
[2025-06-24]

* LLM

  * [Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review](https://arxiv.org/abs/2503.04983)
[2025-03-10]

  * [A Review on Large Language Models for Visual Analytics](https://arxiv.org/abs/2503.15176)
[2025-03-20]

  * [Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions](https://arxiv.org/abs/2503.16585)
[2025-03-24]

  * [How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM](https://arxiv.org/abs/2504.05786)
[2025-04-09]

  * [PEFT A2Z: Parameter-Efficient Fine-Tuning Survey for Large Language and Vision Models](https://arxiv.org/abs/2504.14117)
:star:[code](https://github.com/Nusrat-Prottasha/PEFT-A2Z)
[2025-04-22]

  * [A Survey on (M)LLM-Based GUI Agents](https://arxiv.org/abs/2504.13865)
[2025-04-22]

  * [Towards Transparent AI: A Survey on Explainable Large Language Models](https://arxiv.org/abs/2506.21812)
[2025-06-30]

* MLLM

  * [Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review](https://arxiv.org/abs/2502.16586)
[2025-02-25]

  * [Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey](https://arxiv.org/abs/2503.12605)
:star:[code](https://github.com/yaotingwangofficial/Awesome-MCoT)
[2025-03-18]

  * [Aligning Multimodal LLM with Human Preference: A Survey](https://arxiv.org/abs/2503.14504)
:star:[code](https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment)
[2025-03-19]

  * [Survey of Adversarial Robustness in Multimodal Large Language Models](https://arxiv.org/abs/2503.13962)
[2025-03-19]

  * [A Survey of Multimodal Hallucination Evaluation and Detection](https://arxiv.org/abs/2507.19024)
[2025-07-28]

  * [When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios](https://arxiv.org/abs/2507.20198)
:star:[code](https://github.com/cokeshao/Awesome-Multimodal-Token-Compression)
[2025-07-29]

* 基础模型

  * [Vision Generalist Model: A Survey](https://arxiv.org/abs/2506.09954)
[2025-06-12]

* 多模态推理

  * [Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers](https://arxiv.org/abs/2506.23918)
:star:[code](https://github.com/zhaochen0110/Awesome_Think_With_Images)
[2025-07-01]

## GAN/Image Synthesis(图像生成)

* [Generative AI for Cel-Animation: A Survey](https://arxiv.org/abs/2501.06250)
:star:[code](https://github.com/yunlong10/Awesome-AI4Animation)
[2025-01-14]

* [Generative Physical AI in Vision: A Survey](https://arxiv.org/abs/2501.10928)
:star:[code](https://github.com/BestJunYu/Awesome-Physics-aware-Generation)
[2025-01-22]

* [Survey on AI-Generated Media Detection: From Non-MLLM to MLLM](https://arxiv.org/abs/2502.05240)
[2025-02-11]

* [A Survey on Text-Driven 360-Degree Panorama Generation](https://arxiv.org/abs/2502.14799)
:star:[code](https://littlewhitesea.github.io/Text-Driven-Pano-Gen/)
[2025-02-21]

* [Methods and Trends in Detecting Generated Images: A Comprehensive Review](https://arxiv.org/abs/2502.15176)
[2025-02-24]

* [Simulating the Real World: A Unified Survey of Multimodal Generative Models](https://arxiv.org/abs/2503.04641)
[2025-03-07]

* [Generative AI for Film Creation: A Survey of Recent Advances](https://arxiv.org/abs/2504.08296)
[2025-04-14]

* [Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression](https://arxiv.org/abs/2505.19398)
[2025-05-27]

* [A Survey of Automatic Evaluation Methods on Text, Visual and Speech Generations](https://arxiv.org/abs/2506.10019)
[2025-06-13]

* GAN 

  * [Image Inversion: A Survey from GANs to Diffusion and Beyond](https://arxiv.org/abs/2502.11974)
:star:[code](https://github.com/RyanChenYN/ImageInversion)
[2025-02-18]

  * [Generative Adversarial Networks with Limited Data: A Survey and Benchmarking](https://arxiv.org/abs/2504.05456)
[2025-04-09]

* 图像生成

  * [Preference Alignment on Diffusion Model: A Comprehensive Survey for Image Generation and Editing](https://arxiv.org/abs/2502.07829)
[2025-02-13]

  * [Personalized Image Generation with Deep Generative Models: A Decade Survey](https://arxiv.org/abs/2502.13081)
:star:[code](https://github.com/csyxwei/Awesome-Personalized-Image-Generation)
[2025-02-19]

  * [SoK: Can Synthetic Images Replace Real Data? A Survey of Utility and Privacy of Synthetic Image Generation](https://arxiv.org/abs/2506.19360)
[2025-06-25]

* AIGC

  * [Grounding Creativity in Physics: A Brief Survey of Physical Priors in AIGC](https://arxiv.org/abs/2502.07007)
[2025-02-12]

  * [Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions](https://arxiv.org/abs/2504.19056)
:star:[code](https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey)
[2025-04-29]

* 图像到图像翻译

  * [Unpaired Image-to-Image Translation with Content Preserving Perspective: A Review](https://arxiv.org/abs/2502.08667)
[2025-02-14]

* 文本-图像

  * [A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models](https://arxiv.org/abs/2502.14896)
[2025-02-24]

  * [A Review on Generative AI For Text-To-Image and Image-To-Image Generation and Implications To Scientific Images](https://arxiv.org/abs/2502.21151)
[2025-03-03]

  * [A Systematic Review of Open Datasets Used in Text-to-Image (T2I) Gen AI Model Safety](https://arxiv.org/abs/2503.00020)
[2025-03-04]

  * [A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis](https://arxiv.org/abs/2503.11101)
[2025-03-17]

  * [A Comprehensive Survey on Visual Concept Mining in Text-to-image Diffusion Models](https://arxiv.org/abs/2503.13576)
[2025-03-19]

  * [Text to Image Generation and Editing: A Survey](http://arxiv.org/abs/2505.02527v1)
[2025-05-06]

* 视频生成

  * [A Survey: Spatiotemporal Consistency in Video Generation](https://arxiv.org/abs/2502.17863)
[2025-02-26]

  * [Exploring the Evolution of Physics Cognition in Video Generation: A Survey](https://arxiv.org/abs/2503.21765)
:star:[code](https://github.com/minnie-lin/Awesome-Physics-Cognition-based-Video-Generation)
[2025-03-28]

  * [A Survey of Interactive Generative Video](https://arxiv.org/abs/2504.21853)
[2025-05-01]

  * [Controllable Video Generation: A Survey](https://arxiv.org/abs/2507.16869)
:star:[code](https://github.com/mayuelala/Awesome-Controllable-Video-Generation)
[2025-07-24]

* 4D生成

  * [Advances in 4D Generation: A Survey](https://arxiv.org/abs/2503.14501)
:star:[code](https://github.com/MiaoQiaowei/Awesome-4D)
[2025-03-19]

* 3D生成

  * [Recent Advance in 3D Object and Scene Generation: A Survey](https://arxiv.org/abs/2504.11734)
[2025-04-17]

  * [AI-powered Contextual 3D Environment Generation: A Systematic Review](https://arxiv.org/abs/2506.05449)
[2025-06-09]

* 视觉-音乐生成

  * [Vision-to-Music Generation: A Survey](https://arxiv.org/abs/2503.21254)
:star:[code](https://github.com/wzk1015/Awesome-Vision-to-Music-Generation.)
[2025-03-28]

* 场景生成

  * [3D Scene Generation: A Survey](https://arxiv.org/abs/2505.05474)
:star:[code](https://github.com/hzxie/Awesome-3D-Scene-Generation)
[2025-05-09]

## MC/KD/Pruning(模型压缩/知识蒸馏/剪枝)

* [A Survey on Dynamic Neural Networks: from Computer Vision to Multi-modal Sensor Fusion](https://arxiv.org/abs/2501.07451)
[2025-01-14]

* [Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies](https://arxiv.org/abs/2503.02891)
[2025-03-06]

* [Image Recognition with Online Lightweight Vision Transformer: A Survey](https://arxiv.org/abs/2505.03113)
:star:[code](https://github.com/ajxklo/Lightweight-VIT)
[2025-05-07]

* [Token Compression Meets Compact Vision Transformers: A Survey and Comparative Evaluation for Edge AI](https://arxiv.org/abs/2507.09702)
[2025-07-15]

* 量化

  * [Zero-shot Quantization: A Comprehensive Survey](https://arxiv.org/abs/2505.09188)
[2025-05-15]

* KD

  * [A Comprehensive Survey on Knowledge Distillation](https://arxiv.org/abs/2503.12067)
:star:[code](https://github.com/IPL-Sharif/KD_Survey)
[2025-03-18]

## Visual Question Answering (视觉问答)

* [Visual question answering: from early developments to recent advances -- a survey](https://arxiv.org/abs/2501.03939)
[2025-01-08]

* [The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering](https://arxiv.org/abs/2501.07109)
[2025-01-14]

* [A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task](https://arxiv.org/abs/2504.17547)
[2025-04-25]

## Medical Image Progress(医学图像处理)

* [In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review](https://arxiv.org/abs/2501.10727)
[2025-01-22]

* [Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact](https://arxiv.org/abs/2502.08333)
[2025-02-13]

* [A Survey of LLM-based Agents in Medicine: How far are we from Baymax?](https://arxiv.org/abs/2502.11211)
[2025-02-18]

* [Denoising, segmentation and volumetric rendering of optical coherence tomography angiography (OCTA) image using deep learning techniques: a review](https://arxiv.org/abs/2502.14935)
[2025-02-24]

* [The Impact of Artificial Intelligence on Emergency Medicine: A Review of Recent Advances](https://arxiv.org/abs/2503.14546)
[2025-03-20]

* [Comprehensive Review of Reinforcement Learning for Medical Ultrasound Imaging](https://arxiv.org/abs/2503.16543)
[2025-03-24]

* [Deep Learning Approaches for Medical Imaging Under Varying Degrees of Label Availability: A Comprehensive Survey](https://arxiv.org/abs/2504.11588)
[2025-04-17]

* [A Comprehensive Review on RNA Subcellular Localization Prediction](https://arxiv.org/abs/2504.17162)
[2025-04-25]

* [A Methodological and Structural Review of Parkinsons Disease Detection Across Diverse Data Modalities](https://arxiv.org/abs/2505.00525)
[2025-05-02]

* [From Pixels to Polygons: A Survey of Deep Learning Approaches for Medical Image-to-Mesh Reconstruction](https://arxiv.org/abs/2505.03599)
[2025-05-07]

* [Physical foundations for trustworthy medical imaging: a review for artificial intelligence researchers](https://arxiv.org/abs/2505.02843)
[2025-05-07]

* [The Eye as a Window to Systemic Health: A Survey of Retinal Imaging from Classical Techniques to Oculomics](https://arxiv.org/abs/2505.04006)
[2025-05-08]

* [The Application of Deep Learning for Lymph Node Segmentation: A Systematic Review](https://arxiv.org/abs/2505.06118)
[2025-05-12]

* [Computationally Efficient Diffusion Models in Medical Imaging: A Comprehensive Review](https://arxiv.org/abs/2505.07866)
[2025-05-14]

* [Generative Models in Computational Pathology: A Comprehensive Survey on Methods, Applications, and Challenges](https://arxiv.org/abs/2505.10993)
[2025-05-19]

* [A Narrative Review on Large AI Models in Lung Cancer Screening, Diagnosis, and Treatment Planning](https://arxiv.org/abs/2506.07236)
[2025-06-10]

* [Foundation Models in Medical Imaging -- A Review and Outlook](https://arxiv.org/abs/2506.09095)
[2025-06-12]

* [Brain Imaging Foundation Models, Are We There Yet? A Systematic Review of Foundation Models for Brain Imaging and Biomedical Research](https://arxiv.org/abs/2506.13306)
[2025-06-17]

* [Taming Vision-Language Models for Medical Image Analysis: A Comprehensive Review](https://arxiv.org/abs/2506.18378)
[2025-06-24]

* [Systematic Review of Pituitary Gland and Pituitary Adenoma Automatic Segmentation Techniques in Magnetic Resonance Imaging](https://arxiv.org/abs/2506.19797)
[2025-06-25]

* [Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging](https://arxiv.org/abs/2507.16065)
[2025-07-23]

* [Harmonization in Magnetic Resonance Imaging: A Survey of Acquisition, Image-level, and Feature-level Methods](https://arxiv.org/abs/2507.16962)
[2025-07-24]

* [Review of Deep Learning Applications to Structural Proteomics Enabled by Cryogenic Electron Microscopy and Tomography](https://arxiv.org/abs/2507.19565)
[2025-07-29]

* 医学图像分割

  * [A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation](https://arxiv.org/abs/2502.06895)
[2025-02-12]

  * [Recent Advances in Medical Imaging Segmentation: A Survey](https://arxiv.org/abs/2505.09274)
:star:[code](https://github.com/faresbougourzi/Awesome-DL-for-Medical-Imaging-Segmentation)
[2025-05-15]

  * [Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches](https://arxiv.org/abs/2506.10825)
[2025-06-13]

* 医学图像融合

  * [A Comprehensive Review of Techniques, Algorithms, Advancements, Challenges, and Clinical Applications of Multi-modal Medical Image Fusion for Improved Diagnosis](https://arxiv.org/abs/2505.14715)
[2025-05-22]

* 医学图像分类

  * [Recent Advances in Medical Image Classification](https://arxiv.org/abs/2506.04129)
[2025-06-05]

* 医学图像分析

  * [Explainable Artificial Intelligence in Biomedical Image Analysis: A Comprehensive Survey](https://arxiv.org/abs/2507.07148)
[2025-07-11]

* 手术场景理解

  * [Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review](https://arxiv.org/abs/2502.14886)
[2025-02-24]

* 手术视频分割

  * [Deep learning approaches to surgical video segmentation and object detection: A Scoping Review](https://arxiv.org/abs/2502.16459)
[2025-02-25]

* 图像配准

  * [From Traditional to Deep Learning Approaches in Whole Slide Image Registration: A Methodological Review](https://arxiv.org/abs/2502.19123)
[2025-02-27]

* MRI重建

  * [A Survey of fMRI to Image Reconstruction](https://arxiv.org/abs/2502.16861)
[2025-02-25]

  * [A Comprehensive Survey on Magnetic Resonance Image Reconstruction](https://arxiv.org/abs/2503.07097)
[2025-03-11]

  * [A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli](https://arxiv.org/abs/2503.15978)
:star:[code](https://github.com/LpyNow/BrainDecodingImage)
[2025-03-21]

* VQA

  * [Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights](https://arxiv.org/abs/2507.08036)
[2025-07-14]

## OCR

* [Handwritten Text Recognition: A Survey](https://arxiv.org/abs/2502.08417)
[2025-02-13]

* [Visual Text Processing: A Comprehensive Review and Unified Evaluation](https://arxiv.org/abs/2504.21682)
:star:[code](https://github.com/shuyansy/Visual-Text-Processing-survey)
[2025-05-01]

* [A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions](https://arxiv.org/abs/2506.05061)
[2025-06-06]

* [Advancing Offline Handwritten Text Recognition: A Systematic Review of Data Augmentation and Generation Techniques](https://arxiv.org/abs/2507.06275)
[2025-07-10]

* [Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis](https://arxiv.org/abs/2507.11730)
[2025-07-17]

* 古文字图像识别

  * [Ancient Script Image Recognition and Processing: A Review](https://arxiv.org/abs/2506.19208)
[2025-06-25]

* 文档理解

  * [A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends](https://arxiv.org/abs/2507.09861)
[2025-07-15]

## UAV/Remote Sensing/Satellite Image(无人机/遥感/卫星图像)

* [Advancing Earth Observation: A Survey on AI-Powered Image Processing in Satellites](https://arxiv.org/abs/2501.12030)
[2025-01-22]

* [Plantation Monitoring Using Drone Images: A Dataset and Performance Review](https://arxiv.org/abs/2502.08233)
[2025-02-13]

* [A Survey on Remote Sensing Foundation Models: From Vision to Multimodality](https://arxiv.org/abs/2503.22081)
[2025-03-31]

* [A Decade of Deep Learning for Remote Sensing Spatiotemporal Fusion: Advances, Challenges, and Opportunities](https://arxiv.org/abs/2504.00901)
:star:[code](https://github.com/yc-cui/Deep-Learning-Spatiotemporal-Fusion-Survey)
[2025-04-02]

* [MIMRS: A Survey on Masked Image Modeling in Remote Sensing](https://arxiv.org/abs/2504.03181)
[2025-04-07]

* [A comprehensive review of remote sensing in wetland classification and mapping](https://arxiv.org/abs/2504.10842)
[2025-04-16]

* [Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook](https://arxiv.org/abs/2505.00630)
:star:[code](https://github.com/BaoBao0926/Awesome-Mamba-in-Remote-Sensing)
[2025-05-02]

* [Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives](https://arxiv.org/abs/2505.14361)
[2025-05-21]

* [A Compendium of Autonomous Navigation using Object Detection and Tracking in Unmanned Aerial Vehicles](https://arxiv.org/abs/2506.05378)
[2025-06-09]

* [Advancements in Weed Mapping: A Systematic Review](https://arxiv.org/abs/2507.01269)
[2025-07-03]

* [From Physics to Foundation Models: A Review of AI-Driven Quantitative Remote Sensing Inversion](https://arxiv.org/abs/2507.09081)
[2025-07-15]

* [Hyper-spectral Unmixing algorithms for remote compositional surface mapping: a review of the state of the art](https://arxiv.org/abs/2507.14260)
[2025-07-22]

* 目标检测

  * [Open-Vocabulary Object Detection in UAV Imagery: A Review and Future Perspectives](https://arxiv.org/abs/2507.13359)
:star:[code](https://github.com/zhouyang2002/OVOD-in-UVA-imagery)
[2025-07-21]

* Anti-UAV

  * [Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions](https://arxiv.org/abs/2504.11967)
[2025-04-17]

* 变化检测

  * [Operational Change Detection for Geographical Information: Overview and Challenges](https://arxiv.org/abs/2503.14109)
[2025-03-19]

* 船舶分类

  * [A Survey on SAR ship classification using Deep Learning](https://arxiv.org/abs/2503.11906)
[2025-03-18]

* 火灾烟雾

   [Fire and Smoke Datasets in 20 Years: An In-depth Review](https://arxiv.org/abs/2503.14552)
[2025-03-20]

* 野生动物监测

  * [Automated Detection of Salvin's Albatrosses: Improving Deep Learning Tools for Aerial Wildlife Surveys](https://arxiv.org/abs/2505.10737)
[2025-05-19]

* 遥感图像分割

  * [From Pixels to Images: Deep Learning Advances in Remote Sensing Image Semantic Segmentation](https://arxiv.org/abs/2505.15147)
[2025-05-22]

* 遥感超分辨率

  * [Advancing Image Super-resolution Techniques in Remote Sensing: A Comprehensive Survey](https://arxiv.org/abs/2505.23248)
[2025-05-30]

## Object Tracking(目标跟踪)

* [Deep Learning-Based Multi-Object Tracking: A Comprehensive Survey from Foundations to State-of-the-Art](https://arxiv.org/abs/2506.13457)
[2025-06-17]

## Object Detection(目标检测)

* [YOLOv8 to YOLO11: A Comprehensive Architecture In-depth Comparative Review](https://arxiv.org/abs/2501.13400)
[2025-01-24]

* [Context in object detection: a systematic literature review](https://arxiv.org/abs/2503.23249)
[2025-04-01]

* [Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation](https://arxiv.org/abs/2504.09480)
:star:[code](https://github.com/better-chao/perceptual_abilities_evaluation)
[2025-04-15]

* [A Review of YOLOv12: Attention-Based Enhancements vs. Previous Versions](https://arxiv.org/abs/2504.11995)
[2025-04-17]

* [A Decade of You Only Look Once (YOLO) for Object Detection](https://arxiv.org/abs/2504.18586)
[2025-04-29]

* 线路检测

  * [Deep Learning in Automated Power Line Inspection: A Review](https://arxiv.org/abs/2502.07826)
[2025-02-13]

* 小目标检测

  * [Small Object Detection: A Comprehensive Survey on Challenges, Techniques and Real-World Applications](https://arxiv.org/abs/2503.20516)
[2025-03-27]

* 3D目标检测

  * [A Review of 3D Object Detection with Vision-Language Models](https://arxiv.org/abs/2504.18738)
[2025-04-29]

  * [Few-Shot Learning in Video and 3D Object Detection: A Survey](https://arxiv.org/abs/2507.17079)
[2025-07-24]

## HOI

* [3D Human Interaction Generation: A Survey](https://arxiv.org/abs/2503.13120)
[2025-03-18]

* [A Survey on Human Interaction Motion Generation](https://arxiv.org/abs/2503.12763)
:star:[code](https://github.com/soraproducer/Awesome-Human-Interaction-Motion-Generation)
[2025-03-18]

## Trajectory Prediction(轨迹预测)

* [Trajectory Prediction Meets Large Language Models: A Survey](https://arxiv.org/abs/2506.03408)
:star:[code](https://github.com/colorfulfuture/Awesome-Trajectory-Motion-Prediction-Papers)
[2025-06-05]

* [Recent Advances in Multi-Agent Human Trajectory Prediction: A Comprehensive Review](https://arxiv.org/abs/2506.14831)
[2025-06-19]

## Action Recognition

* [SMART-Vision: Survey of Modern Action Recognition Techniques in Vision](https://arxiv.org/abs/2501.13066)
[2025-01-23]

## Pose(姿态估计)

* [Survey on Hand Gesture Recognition from Visual Input](https://arxiv.org/abs/2501.11992)
[2025-01-22]

* [Emotion Recognition from Skeleton Data: A Comprehensive Survey](https://arxiv.org/abs/2507.18026)
[2025-07-25]

* 手势识别

  * [Visual Hand Gesture Recognition with Deep Learning: A Comprehensive Review of Methods, Datasets, Challenges and Future Research Directions](https://arxiv.org/abs/2507.04465)
[2025-07-08]

## Points Cloud(点云)

* [Implicit Guidance and Explicit Representation of Semantic Information in Points Cloud: A Survey](https://arxiv.org/abs/2501.05473)
[2025-01-13]

* [Point Cloud Based Scene Segmentation: A Survey](https://arxiv.org/abs/2503.12595)
[2025-03-18]

* [Point Cloud Compression and Objective Quality Assessment: A Survey](https://arxiv.org/abs/2506.22902)
[2025-07-01]

## 3D Visual

* [Deep Learning Reforms Image Matching: A Survey and Outlook](https://arxiv.org/abs/2506.04619)
[2025-06-06]

* [R3eVision: A Survey on Robust Rendering, Restoration, and Enhancement for 3D Low-Level Vision](https://arxiv.org/abs/2506.16262)
:star:[code](https://github.com/CMLab-Korea/Awesome-3D-Low-Level-Vision)
[2025-06-23]

* [From 2D to 3D Cognition: A Brief Survey of General World Models](https://arxiv.org/abs/2506.20134)
[2025-06-26]

* [Out-of-distribution detection in 3D applications: a review](https://arxiv.org/abs/2507.00570)
[2025-07-02]

* 三维重建

  * [Cutting-edge 3D reconstruction solutions for underwater coral reef images: A review and comparison](https://arxiv.org/abs/2502.20154)
[2025-02-28]

  * [Learning-based 3D Reconstruction in Autonomous Driving: A Comprehensive Survey](https://arxiv.org/abs/2503.14537)
[2025-03-20]

  * [A Survey on Event-driven 3D Reconstruction: Development under Different Categories](https://arxiv.org/abs/2503.19753)
[2025-03-26]

  * [Explicit and Implicit Representations in AI-based 3D Reconstruction for Radiology: A systematic literature review](https://arxiv.org/abs/2504.11349)
:star:[code](https://github.com/Bean-Young/AI4Med)
[2025-04-16]

  * [A Survey on 3D Reconstruction Techniques in Plant Phenotyping: From Classical Methods to Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS), and Beyond](https://arxiv.org/abs/2505.00737)
[2025-05-05]

  * [A Survey of 3D Reconstruction with Event Cameras: From Event-based Geometry to Neural 3D Rendering](https://arxiv.org/abs/2505.08438)
[2025-05-14]

  * [Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT](https://arxiv.org/abs/2507.08448)
[2025-07-14]

  * [Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey](https://arxiv.org/abs/2507.14501)
:star:[code](https://fnzhan.com/projects/Feed-Forward-3D)
[2025-07-22]

* 深度估计

  * [A Systematic Literature Review on Deep Learning-based Depth Estimation in Computer Vision](https://arxiv.org/abs/2501.05147)
[2025-01-10]

  * [Survey on Monocular Metric Depth Estimation](https://arxiv.org/abs/2501.11841)
[2025-01-22]

  * [Endoscopic Depth Estimation Based on Deep Learning: A Survey](https://arxiv.org/abs/2507.20881)
[2025-07-29]

* 三维形状生成

  * [3D Shape Generation: A Survey](https://arxiv.org/abs/2506.22678)
[2025-07-01]

## Face(人脸)

* [A Survey on Facial Image Privacy Preservation in Cloud-Based Services](https://arxiv.org/abs/2501.08665)
[2025-01-16]

* [Emotion Recognition and Generation: A Comprehensive Review of Face, Speech, and Text Modalities](https://arxiv.org/abs/2502.06803)
[2025-02-12]

* [Face Deepfakes - A Comprehensive Review](https://arxiv.org/abs/2502.09812)
[2025-02-17]

* [Generative Models at the Frontier of Compression: A Survey on Generative Face Video Coding](https://arxiv.org/abs/2506.07369)
[2025-06-10]

* 情绪分析

  * [Enhanced Sentiment Analysis of Iranian Restaurant Reviews Utilizing Sentiment Intensity Analyzer & Fuzzy Logic](https://arxiv.org/abs/2503.12141)
[2025-03-18]

* 情感识别

  * [Evaluation in EEG Emotion Recognition: State-of-the-Art Review and Unified Framework](https://arxiv.org/abs/2505.18175)
[2025-05-27]

* 说话头

  * [Advancing Talking Head Generation: A Comprehensive Survey of Multi-Modal Methodologies, Datasets, Evaluation Metrics, and Loss Functions](https://arxiv.org/abs/2507.02900)
:star:[code](https://github.com/VineetKumarRakesh/thg)
[2025-07-08]

## Image Captioning(图像字幕)

* [Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation](https://arxiv.org/abs/2506.05399)
[2025-06-09]

## Image Segmentation(图像分割)

* [A Comparative Review of the Histogram-based Image Segmentation Methods](https://arxiv.org/abs/2502.18550)
[2025-02-27]

* [SAM2 for Image and Video Segmentation: A Comprehensive Survey](https://arxiv.org/abs/2503.12781)
[2025-03-18]

* [Self-Supervised Learning for Image Segmentation: A Comprehensive Survey](https://arxiv.org/abs/2505.13584)
[2025-05-21]

* [Reasoning Segmentation for Images and Videos: A Survey](https://arxiv.org/abs/2505.18816)
[2025-05-27]

* [Image Segmentation with Large Language Models: A Survey with Perspectives for Intelligent Transportation Systems](https://arxiv.org/abs/2506.14096)
[2025-06-18]

* 语义分割

  * [A Survey on Training-free Open-Vocabulary Semantic Segmentation](https://arxiv.org/abs/2505.22209)
[2025-05-29]

* 场景解析

  * [A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects](https://arxiv.org/abs/2506.13552)
[2025-06-17]

* 场景理解

  * [What Demands Attention in Urban Street Scenes? From Scene Understanding towards Road Safety: A Survey of Vision-driven Datasets and Studies](https://arxiv.org/abs/2507.06513)
[2025-07-10]

## Image Retrieval(图像检索)

* [A Comprehensive Survey on Composed Image Retrieval](https://arxiv.org/abs/2502.18495)
[2025-02-27]

* [Composed Multi-modal Retrieval: A Survey of Approaches and Applications](https://arxiv.org/abs/2503.01334)
[2025-03-04]

## Image Classification(图像分类)

* [Plant Leaf Disease Detection and Classification Using Deep Learning: A Review and A Proposed System on Bangladesh's Perspective](https://arxiv.org/abs/2501.03305)
[2025-01-08]基于深度学习的植物叶片病害检测与分类

* 作物害虫分类

  * [Crop Pest Classification Using Deep Learning Techniques: A Review](https://arxiv.org/abs/2507.01494)
[2025-07-03]

## Image Super-Resolution(超分辨率)

* [State-of-the-Art Transformer Models for Image Super-Resolution: Techniques, Challenges, and Applications](https://arxiv.org/abs/2501.07855)
[2025-01-15]

* VSR 

  * [A Survey of Deep Learning Video Super-Resolution](https://arxiv.org/abs/2506.03216)
[2025-06-05]

## Image Progress(图像/视频处理)

* [Fuzzy Theory in Computer Vision: A Review](https://arxiv.org/abs/2507.18660)
[2025-07-28]

* 图像恢复

  * [Deep Learning-Driven Ultra-High-Definition Image Restoration: A Survey](https://arxiv.org/abs/2505.16161)
:star:[code](https://github.com/wlydlut/UHD-Image-Restoration-Survey)
[2025-05-23]

* 水下图像增强

  * [Underwater Image Enhancement using Generative Adversarial Networks: A Survey](https://arxiv.org/abs/2501.06273)
[2025-01-14]

  * [Visual enhancement and 3D representation for underwater scenes: a review](http://arxiv.org/abs/2505.01869v1)
[2025-05-06]

* 图像质量评估/增强  

  * [Fundus Image Quality Assessment and Enhancement: a Systematic Review](https://arxiv.org/abs/2501.11520)
[2025-01-22]

  * [A Comprehensive Survey on Image Signal Processing Approaches for Low-Illumination Image Enhancement](https://arxiv.org/abs/2502.05995)
[2025-02-11]

  * [A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook](https://arxiv.org/abs/2502.08540)
[2025-02-13]

  * [A review of advancements in low-light image enhancement using deep learning](https://arxiv.org/abs/2505.05759)
[2025-05-12]

* 去反射

  * [Survey on Single-Image Reflection Removal using Deep Learning Techniques](https://arxiv.org/abs/2502.08836)
[2025-02-14]

* 视频恢复

  * [Unsupervised Methods for Video Quality Improvement: A Survey of Restoration and Enhancement Techniques](https://arxiv.org/abs/2507.08375)
[2025-07-14]

## Unknown(未分)

* [Visualizing Uncertainty in Image Guided Surgery a Review](https://arxiv.org/abs/2501.06280)
[2025-01-14]

* [A Preliminary Survey of Semantic Descriptive Model for Images](https://arxiv.org/abs/2501.08352)
[2025-01-16]

* [New Fashion Products Performance Forecasting: A Survey on Evolutions, Models and Emerging Trends](https://arxiv.org/abs/2501.10324)
[2025-01-20]

* [Explainable artificial intelligence (XAI): from inherent explainability to large language models](https://arxiv.org/abs/2501.09967)
[2025-01-20]

* [Explainability for Vision Foundation Models: A Survey](https://arxiv.org/abs/2501.12203)
[2025-01-22]

* [Advanced technology in railway track monitoring using the GPR Technique: A Review](https://arxiv.org/abs/2501.11132)
[2025-01-22]

* [Reproducibility review of "Why Not Other Classes": Towards Class-Contrastive Back-Propagation Explanations](https://arxiv.org/abs/2501.11096)
[2025-01-22]

* [Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation](https://arxiv.org/abs/2502.05151)
[2025-02-10]

* [Diffusion Models for Computational Neuroimaging: A Survey](https://arxiv.org/abs/2502.06552)
:star:[code](https://github.com/JoeZhao527/dm4neuro)
[2025-02-11]

* [Safety at Scale: A Comprehensive Survey of Large Model Safety](https://arxiv.org/abs/2502.05206)
[2025-02-11]

* [Event Vision Sensor: A Review](https://arxiv.org/abs/2502.06116)
[2025-02-11]

* [A Survey on Mamba Architecture for Vision Applications](https://arxiv.org/abs/2502.07161)
[2025-02-12]

* [A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision](https://arxiv.org/abs/2502.10444)
:star:[code](https://github.com/52CV/CV-Surveys/)
[2025-02-18]

* [Event-based Solutions for Human-centered Applications: A Comprehensive Review](https://arxiv.org/abs/2502.18490)
:star:[code](https://github.com/nmirabeth/event_human)
[2025-02-27]

* [A Survey on Ordinal Regression: Applications, Advances and Prospects](https://arxiv.org/abs/2503.00952)
[2025-03-04]

* [Lossy Neural Compression for Geospatial Analytics: A Review](https://arxiv.org/abs/2503.01505)
[2025-03-04]

* [A Review on Geometry and Surface Inspection in 3D Concrete Printing](https://arxiv.org/abs/2503.07472)
[2025-03-11]

* [A Systematic Review of ECG Arrhythmia Classification: Adherence to Standards, Fair Evaluation, and Embedded Feasibility](https://arxiv.org/abs/2503.07276)
[2025-03-11]

* [A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects](https://arxiv.org/abs/2503.08008)
[2025-03-12]

* [Challenges and Trends in Egocentric Vision: A Survey](https://arxiv.org/abs/2503.15275)
[2025-03-20]

* [A Comprehensive Survey on Architectural Advances in Deep CNNs: Challenges, Applications, and Emerging Research Directions](https://arxiv.org/abs/2503.16546)
[2025-03-24]

* [Hybrid Multi-Stage Learning Framework for Edge Detection: A Survey](https://arxiv.org/abs/2503.21827)
[2025-03-31]

* [Towards Mobile Sensing with Event Cameras on High-mobility Resource-constrained Devices: A Survey](https://arxiv.org/abs/2503.22943)
[2025-04-01]

* [Foundation Models For Seismic Data Processing: An Extensive Review](https://arxiv.org/abs/2503.24166)
[2025-04-01]

* [A Survey of Pathology Foundation Model: Progress and Future Directions](https://arxiv.org/abs/2504.04045)
:star:[code](https://github.com/BearCleverProud/AwesomeWSI)
[2025-04-08]

* [Attention in Diffusion Model: A Survey](https://arxiv.org/abs/2504.03738)
[2025-04-08]

* [Loss Functions in Deep Learning: A Comprehensive Review](https://arxiv.org/abs/2504.04242)
[2025-04-08]

* [Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review](https://arxiv.org/abs/2504.08588)
[2025-04-14]

* [Computer-Aided Layout Generation for Building Design: A Review](https://arxiv.org/abs/2504.09694)
:star:[code](https://github.com/jcliu0428/awesome-building-layout-generation)
[2025-04-15]

* [Digital Twin Generation from Visual Data: A Survey](https://arxiv.org/abs/2504.13159)
:star:[code](https://github.com/ndrwmlnk/awesome-digital-twins)
[2025-04-18]

* [A Survey on Small Sample Imbalance Problem: Metrics, Feature Analysis, and Solutions](https://arxiv.org/abs/2504.14800)
[2025-04-22]

* [Unsupervised Time-Series Signal Analysis with Autoencoders and Vision Transformers: A Review of Architectures and Applications](https://arxiv.org/abs/2504.16972)
[2025-04-25]

* [A Survey on Event-based Optical Marker Systems](https://arxiv.org/abs/2504.20736)
[2025-04-30]

* [Diffusion Model Quantization: A Review](https://arxiv.org/abs/2505.05215)
:star:[code](https://github.com/TaylorJocelyn/Diffusion-Model-Quantization)
[2025-05-09]

* [From Events to Enhancement: A Survey on Event-Based Imaging Technologies](https://arxiv.org/abs/2505.05488)
:star:[code](https://github.com/yunfanLu/Awesome-Event-Imaging)
[2025-05-12]

* [Towards Artificial General or Personalized Intelligence? A Survey on Foundation Models for Personalized Federated Intelligence](https://arxiv.org/abs/2505.06907)
[2025-05-13]

* [A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron?](https://arxiv.org/abs/2505.10924)
[2025-05-19]

* [Diffusion Model in Hyperspectral Image Processing and Analysis: A Review](https://arxiv.org/abs/2505.11158)
[2025-05-19]

* [Plane Geometry Problem Solving with Multi-modal Reasoning: A Survey](https://arxiv.org/abs/2505.14340)
[2025-05-21]

* [Semantic Correspondence: Unified Benchmarking and a Strong Baseline](https://arxiv.org/abs/2505.18060)
:star:[code](https://github.com/Visual-AI/Semantic-Correspondence)
[2025-05-26]

* [Camera Trajectory Generation: A Comprehensive Survey of Methods, Metrics, and Future Directions](https://arxiv.org/abs/2506.00974)
[2025-06-03]

* [Towards Geometry Problem Solving in the Large Model Era: A Survey](https://arxiv.org/abs/2506.02690)
[2025-06-04]

* [A Comprehensive Survey on Deep Learning Solutions for 3D Flood Mapping](https://arxiv.org/abs/2506.13201)
[2025-06-17]

* [Style-based Composer Identification and Attribution of Symbolic Music Scores: a Systematic Survey](https://arxiv.org/abs/2506.12440)
[2025-06-17]

* [Integrating Multi-Modal Sensors: A Review of Fusion Techniques for Intelligent Vehicles](https://arxiv.org/abs/2506.21885)
[2025-06-30]

* [A Survey on Interpretability in Visual Recognition](https://arxiv.org/abs/2507.11099)
[2025-07-16]

* [A Survey of Deep Learning for Geometry Problem Solving](https://arxiv.org/abs/2507.11936)
:star:[code](https://github.com/majianz/dl4gps)
[2025-07-17]

* [Transformer-based Spatial Grounding: A Comprehensive Survey](https://arxiv.org/abs/2507.12739)
[2025-07-18]



## 2023 年论文分类汇总戳这里

↘️[CVPR-2023-Papers](https://github.com/52CV/CVPR-2023-Papers)

↘️[WACV-2023-Papers](https://github.com/52CV/WACV-2023-Papers)

↘️[ICCV-2023-Papers](https://github.com/52CV/ICCV-2023-Papers)

↘️[2023-CV-Surveys](https://github.com/52CV/CV-Surveys/blob/main/2023-CV-Surveys.md)



## 2022 年论文分类汇总戳这里

↘️[CVPR-2022-Papers](https://github.com/52CV/CVPR-2022-Papers/blob/main/README.md)

↘️[WACV-2022-Papers](https://github.com/52CV/WACV-2022-Papers)

↘️[ECCV-2022-Papers](https://github.com/52CV/ECCV-2022-Papers/blob/main/README.md)



## 2021 年论文分类汇总戳这里

↘️[ICCV-2021-Papers](https://github.com/52CV/ICCV-2021-Papers)

↘️[CVPR-2021-Papers](https://github.com/52CV/CVPR-2021-Papers)



## 2020 年论文分类汇总戳这里

↘️[CVPR-2020-Papers](https://github.com/52CV/CVPR-2020-Papers) 

↘️[ECCV-2020-Papers](https://github.com/52CV/ECCV-2020-Papers)

## 扫码CV君微信（注明：CV）入微信交流群：

![image](https://user-images.githubusercontent.com/62801906/112356924-051e6700-8d0a-11eb-96dd-5c9890832fbf.png)
ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/52cv/cv-surveys

Awesome Lists containing this project

README