{"id":19320147,"url":"https://github.com/52cv/eccv-2024-papers","last_synced_at":"2026-02-26T05:52:43.734Z","repository":{"id":247316350,"uuid":"774254960","full_name":"52CV/ECCV-2024-Papers","owner":"52CV","description":null,"archived":false,"fork":false,"pushed_at":"2024-12-09T02:33:30.000Z","size":592,"stargazers_count":101,"open_issues_count":0,"forks_count":1,"subscribers_count":4,"default_branch":"main","last_synced_at":"2025-06-30T11:02:01.858Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/52CV.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-03-19T08:15:40.000Z","updated_at":"2025-06-10T14:46:31.000Z","dependencies_parsed_at":"2024-07-29T03:39:58.924Z","dependency_job_id":"8d93e508-f965-4226-9e56-72c16fcca849","html_url":"https://github.com/52CV/ECCV-2024-Papers","commit_stats":null,"previous_names":["52cv/eccv-2024-papers"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/52CV/ECCV-2024-Papers","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/52CV%2FECCV-2024-Papers","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/52CV%2FECCV-2024-Papers/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/52CV%2FECCV-2024-Papers/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/52CV%2FECCV-2024-Papers/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/52CV","download_url":"https://codeload.github.com/52CV/ECCV-2024-Papers/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/52CV%2FECCV-2024-Papers/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":274879257,"owners_count":25367095,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","status":"online","status_checked_at":"2025-09-12T02:00:09.324Z","response_time":60,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-10T01:27:16.387Z","updated_at":"2025-10-29T23:11:56.888Z","avatar_url":"https://github.com/52CV.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# ECCV-2024-Papers\n![Alt text](%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20240319161853.png)\n## 官网链接：https://eccv.ecva.net/\n\n### 主会 :bell:：9 月 29 日（周日）至 10 月 4 日\n\n## 历年综述论文分类汇总戳这里↘️[CV-Surveys](https://github.com/52CV/CV-Surveys)施工中~~~~~~~~~~\n\n## 2025 年论文分类汇总戳这里\n↘️[WACV-2025-Papers](https://github.com/52CV/WACV-2025-Papers)\n↘️[CVPR-2025-Papers](https://github.com/52CV/CVPR-2025-Papers)\n\n## 2024 年论文分类汇总戳这里\n↘️[WACV-2024-Papers](https://github.com/52CV/WACV-2024-Papers)\n↘️[CVPR-2024-Papers](https://github.com/52CV/CVPR-2024-Papers)\n↘️[ECCV-2024-Papers](https://github.com/52CV/ECCV-2024-Papers)\n\n## [2022 年论文分类汇总戳这里](#0000)\n## [2022 年论文分类汇总戳这里](#000)\n## [2021 年论文分类汇总戳这里](#00)\n## [2020 年论文分类汇总戳这里](#0)\n\n## 💥💥💥全部论文已分类完毕\n\u003cbr\u003e:thumbsup:[ECCV 2024奖项公布，哥大摘得最佳论文奖桂冠](https://mp.weixin.qq.com/s/2uFlMQUW1TVrNOIC01U8Pg)\n\n## 🏆Best Paper Award(最佳论文奖)\n* [Minimalist Vision with Freeform Pixels](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08113.pdf)\u003cbr\u003e:house:[project](https://cave.cs.columbia.edu/projects/categories/project?cid=Computational+Imaging\u0026pid=Minimalist+Vision+with+Freeform+Pixels)\n\n## 🏅Best Paper Honorable Mention(最佳论文荣誉提名奖)\n* [Rasterized Edge Gradients: Handling Discontinuities Differentiably](https://arxiv.org/abs/2405.02508)\n* [Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models](https://arxiv.org/abs/2404.13706)\u003cbr\u003e:house:[project](https://cs-people.bu.edu/vpetsiuk/arc/)\n\n## 目录\n|:cat:|:dog:|:tiger:|:wolf:|\n|------|------|------|------|\n|[1.Other(其它)](#1)|[2.3D Visual](#2)|[3.Face(人脸)](#3)|[4.Pose(姿态估计)](#4)|\n|[5.OCR](#5)|[6.Object Tracking(目标跟踪)](#6)|[7.Object Detection(目标检测)](#7)|[8.Super-Resolution(超分辨率)](#8)|\n|[9.Image Progress(图像/视频处理)](#9)|[10.Image Classification(图像分类)](#10)|[11.Image Segmentation(图像分割)](#11)|[12.Image Retrieval(图像检索)](#12)|\n|[13.Image/video Compression(图像/视频压缩)](#13)|[14.Image Captioning(图像/视频字幕)](#14)|[15.GAN/Image Synthesis(图像生成)](#15)|[16.Medical Image Progress(医学影响处理)](#16)|\n|[17.Video](#17)|[18.Automated Driving(自动驾驶)](#18)|[19.UAV/Remote Sensing/Satellite Image(无人机/遥感/卫星图像)](#19)|[20.Scene ](#20)|\n|[21.Vision-Language(视觉语言)](#21)|[22.Few/Zero-Shot Learning/DG/A(小/零样本/域泛化/域适应)](#22)|[23.Machine Learning(机器学习)](#23)|[24.Vision Transformer](#24)|\n|[25.MC/KD/Pruning(模型压缩/知识蒸馏/剪枝)](#25)|[26.NAS](#26)|[27.GNN/GCN](#27)|[28.Novel Class Discovery(新类发现)](#28)|\n|[29.Semi/self-supervised learning(半/自监督)](#29)|[30.Anomaly Detection(异常检测)](#30)|[31.Point Clouds(点云)](#31)|[32.Person Re-Identification(人员重识别)](#32)|\n|[33.Motion Generation(人体运动生成)](#33)|[34.Visual Question Answering(视觉问答)](#34)|[35.Action Detection(动作检测)](#35)|[36.Gaze Estimation](#36)|\n|[37.Style Transfer(风格迁移)](#37)|[38.Human-Object Interaction(人机交互)](#38)|[39.Robots(机器人)](#39)|[40.Object Pose Estimation(物体姿态估计)](#40)|\n|[41.Biomedical(生物特征识别)](#41)|[42.Optical Flow Estimation(光流估计)](#42)|[43.Sound](#43)|[44.Dataset/Benchmark(数据集/基准)](#44)|\n|[45.Neural Radiance Fields](#45)|[46.Rendering(渲染)](#46)|[47.Animal](#47)|[48.Computer Graphics(计算机图形学)](#48)|\n|[49.Light-Field(光场)](#49)|[50.Sketches(草图)](#50)|[51.Feature Matching ](#51)|[52.Visual Entity Recognition(视觉实体识别)](#52)|\n|[53.Keypoint Detection(关键点检测)](#53)|[54.Deepfake Detection](#54)|[55.Information Security(信息安全)](#55)|[56.Dense Prediction(密集预测)](#56)|\n|[57.Visual Relationship Detection(视觉关系检测)](#57)|[58.全家桶](#58)|\n\n\u003ca name=\"58\"/\u003e\n\n## 58.全家桶\n* [X-InstructBLIP: A Framework for Aligning Image, 3D, Audio, Video to LLMs and its Emergent Cross-modal Reasoning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06140.pdf)\u003cbr\u003e:star:[code](https://github.com/salesforce/LAVIS/tree/main/projects/xinstructbl)\n\n\u003ca name=\"57\"/\u003e\n\n## 57.Visual Relationship Detection(视觉关系检测)\n* [Visual Relationship Transformation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08217.pdf)\n* [Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection](https://arxiv.org/abs/2403.14270)\n\n\u003ca name=\"56\"/\u003e\n\n## 56.Dense Prediction(密集预测)\n* [Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild](https://arxiv.org/abs/2404.18459)(https://github.com/GitGyun/chameleon)密集视觉预测\n* [Unsupervised Dense Prediction using Differentiable Normalized Cuts](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05675.pdf)\n* [Three Things We Need to Know About Transferring Stable Diffusion to Visual Dense Prediciton Tasks](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05837.pdf)\n* [Removing Rows and Columns of Tokens in Vision Transformer enables Faster Dense Prediction without Retraining](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09133.pdf)\u003cbr\u003e:star:[code](https://github.com/MilknoCandy/Token-Adapter)\n\n\u003ca name=\"55\"/\u003e\n\n## 55.Information Security(信息安全)\n* 版权保护\n  * [Rethinking Data Bias: Dataset Copyright Protection via Embedding Class-wise Hidden Bias](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03084.pdf)\u003cbr\u003e:star:[code](https://github.com/jjh6297/UndercoverBias)保护数据集版权\n* 图像水印\n  * [Certifiably Robust Image Watermark](http://arxiv.org/abs/2407.04086v1)\u003cbr\u003e:star:[code](https://github.com/zhengyuan-jiang/Watermark-Library)\n  * [A Secure Image Watermarking Framework with Statistical Guarantees via Adversarial Attacks on Secret Key Networks](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05695.pdf)图像水印\n  * [Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data](https://arxiv.org/abs/2403.10663)\u003cbr\u003e:star:[code](https://github.com/liyuxuan-github/MAT)\n  * [A Watermark-Conditioned Diffusion Model for IP Protection](https://arxiv.org/abs/2403.10893)\u003cbr\u003e:star:[code](https://github.com/rmin2000/WaDiff)\n  * [A Geometric Distortion Immunized Deep Watermarking Framework with Robustness Generalizability](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08419.pdf)\n  * [LaWa: Using Latent Space for In-Generation Image Watermarking](https://arxiv.org/abs/2408.05868)\n\n\u003ca name=\"54\"/\u003e\n\n## 54.Deepfake Detection\n* [Real Appearance Modeling for More General Deepfake Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06913.pdf)\n* [Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities](http://arxiv.org/abs/2407.20337v1)\u003cbr\u003e:star:[code](https://github.com/aimagelab/CoDE)\n* [Fake It till You Make It: Curricular Dynamic Forgery Augmentations towards General Deepfake Detection](http://arxiv.org/abs/2409.14444v1)\n* [Common Sense Reasoning for Deep Fake Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/12295.pdf)\u003cbr\u003e:star:[code](https://github.com/Reality-Defender/Research-DD-VQA)\n* 图像伪造检测和定位\n  * [Noise-assisted Prompt Learning for Image Forgery Detection and Localization](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01688.pdf)\n  * [AdaIFL: Adaptive Image Forgery Localization via a Dynamic and Importance-aware Transformer Network](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06023.pdf)\u003cbr\u003e:star:[code](https://github.com/LMIAPC/AdaIFL)\n* 文档图像篡改检测 \n  * [Enhancing Tampered Text Detection through Frequency Feature Fusion and Decomposition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04834.pdf)\u003cbr\u003e:thumbsup:[文档图像篡改检测 (DITD) 方法——特征融合与分解网络 (FFDN)](https://std.xmu.edu.cn/2024/0710/c4739a488273/page.htm)\n* 合成图像检测\n  * [Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection](https://arxiv.org/abs/2402.19091)\u003cbr\u003e:star:[code](https://github.com/mever-team/rine)\n\n\u003ca name=\"53\"/\u003e\n\n## 53.Keypoint Detection(关键点检测)\n* [OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection](https://arxiv.org/abs/2409.19899)\u003cbr\u003e:star:[code](https://github.com/AlanLuSun/OpenKD)\n* [KeypointDETR: An End-to-End 3D Keypoint Detector](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09481.pdf)\u003cbr\u003e:star:[code](github.com/bibi547/KeypointDETR)\n\n\u003ca name=\"52\"/\u003e\n\n## 52.Visual Entity Recognition(视觉实体识别)\n* [Grounding Language Models for Visual Entity Recognition](https://arxiv.org/abs/2402.18695)视觉实体识别\n\n\u003ca name=\"51\"/\u003e\n\n## 51.Feature Matching \n* [Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching](http://arxiv.org/abs/2407.07789v1)\n* 图像匹配\n  * [CriSp: Leveraging Tread Depth Maps for Enhanced Crime-Scene Shoeprint Matching](https://arxiv.org/abs/2404.16972)\u003cbr\u003e:star:[code](https://github.com/Samia067/CriSp)\n\n\u003ca name=\"50\"/\u003e\n\n## 50.Sketches(草图)\n* [Do Generalised Classifiers really work on Human Drawn Sketches?](http://arxiv.org/abs/2407.03893v1)\n\n\u003ca name=\"49\"/\u003e\n\n## 49.Light-Field(光场)\n* [Deep Polarization Cues for Single-shot Shape and Subsurface Scattering Estimation](http://arxiv.org/abs/2407.08149v1)\n* 相机重定位\n  * [Differentiable Product Quantization for Memory Efficient Camera Relocalization](http://arxiv.org/abs/2407.15540v1)\n\n\u003ca name=\"48\"/\u003e\n\n## 48.Computer Graphics(计算机图形学)\n* 高动态范围成像\n  * [SAFNet: Selective Alignment Fusion Network for Efficient HDR Imaging](http://arxiv.org/abs/2407.16308v1)\u003cbr\u003e:star:[code](https://github.com/ltkong218/SAFNet)\n\n\u003ca name=\"47\"/\u003e\n\n## 47.Animal\n* [Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos](https://arxiv.org/abs/2403.17103)\u003cbr\u003e:house:[project](https://remysabathier.github.io/animalavatar.github.io)\n* [Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos](https://arxiv.org/abs/2312.13604)\u003cbr\u003e:house:[project](https://keqiangsun.github.io/projects/ponymation)3D动物运动\n* [Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification](https://arxiv.org/abs/2410.06977)\u003cbr\u003e:star:[code](https://github.com/JigglypuffStitch/AdaFreq.git)\n\n\u003ca name=\"46\"/\u003e\n\n## 46.Rendering(渲染)\n* [City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web](https://arxiv.org/abs/2312.16457)\u003cbr\u003e:star:[code](https://github.com/USTC3DV/MERFStudio)\u003cbr\u003e:house:[project](https://ustc3dv.github.io/City-on-Web/)\n* [A Probability-guided Sampler for Neural Implicit Surface Rendering](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05407.pdf)\u003cbr\u003e:house:[project](https://merl.com/research/highlights/ps-neus)渲染\n* [TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering](https://arxiv.org/abs/2311.16465)\u003cbr\u003e:house:[project](https://aka.ms/textdiffuser-2)\n* [AnyLens: A Generative Diffusion Model with Any Rendering Lens](https://arxiv.org/abs/2311.17609)(https://anylens-diffusion.github.io/)\n* [CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians](http://arxiv.org/abs/2404.01133)\u003cbr\u003e:star:[code](https://github.com/DekuLiuTesla/CityGaussian)\u003cbr\u003e:house:[project](https://dekuliutesla.github.io/citygs/)\n* [METACAP: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering](https://arxiv.org/pdf/2403.18820.pdf)\u003cbr\u003e:house:[project](https://vcai.mpi-inf.mpg.de/projects/MetaCap/)\n* [GAURA: Generalizable Approach for Unified Restoration and Rendering of Arbitrary Views](http://arxiv.org/abs/2407.08221v1)\n* [MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References](http://arxiv.org/abs/2407.13745v1)\u003cbr\u003e:star:[code](https://boelukas.github.io/mariner/)\n* [Learning Unsigned Distance Functions from Multi-view Images with Volume Rendering Priors](http://arxiv.org/abs/2407.16396v1)\u003cbr\u003e:star:[code](https://wen-yuan-zhang.github.io/VolumeRenderingPriors/)\n* [CaesarNeRF: Calibrated Semantic Representation for Few-Shot Generalizable Neural Rendering](https://arxiv.org/abs/2311.15510)\u003cbr\u003e:house:[project](https://haidongz-usc.github.io/project/caesarnerf)\n* [IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination](https://arxiv.org/abs/2404.11593)\u003cbr\u003e:star:[code](https://github.com/zju3dv/IntrinsicAnything)渲染\n* [Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering](https://arxiv.org/abs/2408.09702)\u003cbr\u003e:house:[project](https://research.nvidia.com/labs/toronto-ai/DiPIR/)\n* [VersatileGaussian: Real-time Neural Rendering for Versatile Tasks using Gaussian Splatting](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03032.pdf)神经渲染\n* [UniVoxel: Fast Inverse Rendering by Unified Voxelization of Scene Representation](http://arxiv.org/abs/2407.19542v1)\u003cbr\u003e:star:[code](https://github.com/freemantom/UniVoxel)\n* [Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering](http://arxiv.org/abs/2408.09702v1)\u003cbr\u003e:house:[project](https://research.nvidia.com/labs/toronto-ai/DiPIR/)\n* [GeoGaussian: Geometry-aware Gaussian Splatting for Scene Rendering](https://arxiv.org/abs/2403.11324)\u003cbr\u003e:star:[code](https://github.com/yanyan-li/GeoGaussian)场景渲染\n* [GMT: Enhancing Generalizable Neural Rendering via Geometry-Driven Multi-Reference Texture Transfer](https://arxiv.org/abs/2410.00672)\u003cbr\u003e:star:[code](https://github.com/yh-yoon/GMT)\n* [Boost Your NeRF: A Model-Agnostic Mixture of Experts Framework for High Quality and Efficient Rendering](https://arxiv.org/abs/2407.10389)\n\n\u003ca name=\"45\"/\u003e\n\n## 45.Neural Radiance Fields\n* [Invertible Neural Warp for NeRF](http://arxiv.org/abs/2407.12354v1)\u003cbr\u003e:star:[code](https://sfchng.github.io/ineurowarping-github.io/)\n* [VF-NeRF: Viewshed Fields for Rigid NeRF Registration](https://arxiv.org/abs/2404.03349)\n* [NeRF-XL: NeRF at Any Scale with Multi-GPU](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06424.pdf)\u003cbr\u003e:house:[project](https://research.nvidia.com/labs/toronto-ai/nerfxl/)\n* [Regularizing Dynamic Radiance Fields with Kinematic Fields](http://arxiv.org/abs/2407.14059v1)\n* [KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter](http://arxiv.org/abs/2407.13185v1)\u003cbr\u003e:star:[code](https://github.com/Yifever20002/KFD-NeRF)\n* [Dynamic Neural Radiance Field From Defocused Monocular Video](http://arxiv.org/abs/2407.05586v1)\n* [Flash Cache: Reducing Bias in Radiance Cache Based Inverse Rendering](https://arxiv.org/abs/2409.05867)\u003cbr\u003e:house:[project](https://benattal.github.io/flash-cache/)\n* [Protecting NeRFs' Copyright via Plug-And-Play Watermarking Base Model](http://arxiv.org/abs/2407.07735v1)\u003cbr\u003e:house:[project](https://qsong2001.github.io/NeRFProtector)\n* [GeometrySticker: Enabling Ownership Claim of Recolorized Neural Radiance Fields](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01453.pdf)\u003cbr\u003e:star:[code](https://github.com/kevinhuangxf/GeometrySticker)\u003cbr\u003e:house:[project](https://kevinhuangxf.github.io/GeometrySticker/)\n* [Efficient NeRF Optimization - Not All Samples Remain Equally Hard](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05300.pdf)\n* [MeshFeat: Multi-Resolution Features for Neural Fields on Meshes](http://arxiv.org/abs/2407.13592v1)\u003cbr\u003e:house:[project](https://maharajamihir.github.io/MeshFeat/)\n* [DecentNeRFs: Decentralized Neural Radiance Fields from Crowdsourced Images](https://arxiv.org/abs/2403.13199)\u003cbr\u003e:house:[project](https://zaidtas.github.io/decentnerfs/index.html)\n* [TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks](http://arxiv.org/abs/2408.10739v1)\u003cbr\u003e:star:[code](https://tracknerf.github.io/)\n* [BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream](http://arxiv.org/abs/2407.02174v1)\u003cbr\u003e:star:[code](https://github.com/WU-CVGL/BeNeRF)\n* [TriNeRFLet: A Wavelet Based Multiscale Triplane NeRF Representation](https://arxiv.org/abs/2401.06191)\u003cbr\u003e:house:[project](https://rajaeekh.github.io/trinerflet-web)\n* [RS-NeRF: Neural Radiance Fields from Rolling Shutter Images](http://arxiv.org/abs/2407.10267v1)\u003cbr\u003e:star:[code](https://github.com/MyNiuuu/RS-NeRF)\n* [Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling](http://arxiv.org/abs/2407.11962v1)\u003cbr\u003e:star:[code](https://github.com/stevejaehyeok/MoCo-NeRF)\u003cbr\u003e:house:[project](https://stevejaehyeok.github.io/publications/moco-nerf)\n* [RaFE: Generative Radiance Fields Restoration](https://arxiv.org/abs/2404.03654)\u003cbr\u003e:house:[project](https://zkaiwu.github.io/RaFE-Project/)\n* [Few-shot NeRF by Adaptive Rendering Loss Regularization](https://arxiv.org/abs/2410.17839)\u003cbr\u003e:star:[code](https://github.com/GhiXu/AR-NeRF)\n* [Depth-guided NeRF Training via Earth Mover’s Distance](https://arxiv.org/abs/2403.13206)\n* [DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields](https://arxiv.org/abs/2311.12063)\u003cbr\u003e:star:[code](https://ychgoaround.github.io/projects/DatasetNeRF/)\n* [Flowed Time of Flight Radiance Fields](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07941.pdf)\n* [Volumetric Rendering with Baked Quadrature Fields](https://arxiv.org/abs/2312.02202)\n* [BeNeRF:Neural Radiance Fields from a Single Blurry Image and Event Stream](https://arxiv.org/abs/2407.02174)\u003cbr\u003e:star:[code](https://github.com/wu-cvgl/BeNeRF)\n* [Taming Latent Diffusion Model for Neural Radiance Field Inpainting](https://arxiv.org/abs/2404.09995)\u003cbr\u003e:house:[project](https://hubert0527.github.io/MALD-NeRF)\n* [Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation](https://arxiv.org/abs/2403.19319)\u003cbr\u003e:house:[project](https://terencecyj.github.io/projects/Mesh2NeRF/)\u003cbr\u003e🤗[huggingface](https://huggingface.co/papers/2403.19319)\n* [SlotLifter: Slot-guided Feature Lifting for Learning Object-Centric Radiance Fields](https://www.arxiv.org/abs/2408.06697)\u003cbr\u003e:house:[project](https://slotlifter.github.io/)\n* [FisherRF: Active View Selection and Mapping with Radiance Fields using Fisher Information](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02130.pdf)\u003cbr\u003e:star:[code](https://github.com/JiangWenPL/FisherRF)\n* [DMiT: Deformable Mipmapped Tri-Plane Representation for Dynamic Scenes](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07243.pdf)NeRF\n* [Single-Mask Inpainting for Voxel-based Neural Radiance Fields](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07404.pdf)\n* [Content-Aware Radiance Fields: Aligning Model Complexity with Scene Intricacy Through Learned Bitwidth Quantization](https://arxiv.org/abs/2410.19483)\u003cbr\u003e:star:[code](https://github.com/WeihangLiu2024/Content_Aware_NeRF)\n* [Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering](https://arxiv.org/abs/2403.14554)\u003cbr\u003e:house:[project](https://anttwo.github.io/frosting/)\n* [Physically Plausible Color Correction for Neural Radiance Fields](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06042.pdf)\n* [Leveraging Thermal Modality to Enhance Reconstruction in Low-Light Conditions](https://arxiv.org/abs/2403.14053)NeRF\n* [PointNeRF++: A multi-scale, point-based Neural Radiance Field](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05521.pdf)\u003cbr\u003e:house:[project](https://pointnerfpp.github.io/)\n* [Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields](https://arxiv.org/abs/2403.11131)\n* [High-Fidelity and Transferable NeRF Editing by Frequency Decomposition](https://arxiv.org/abs/2404.02514)\u003cbr\u003e:house:[project](https://aigc3d.github.io/freditor)\n* [TriNeRFLet: A Wavelet Based Triplane NeRF Representation](https://arxiv.org/abs/2401.06191)\u003cbr\u003e:house:[project](https://rajaeekh.github.io/trinerflet-web)\n* [Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction](https://arxiv.org/abs/2305.15171)\u003cbr\u003e:house:[project](https://xinhangliu.com/deceptive-nerf-3dgs)\n* [G2fR: Frequency Regularization in Grid-based Feature Encoding Neural Radiance Fields](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03259.pdf)\n* [NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields](https://arxiv.org/abs/2404.01300)\u003cbr\u003e:house:[project](https://nerf-mae.github.io/)\n* 新视图合成\n  * [Fast View Synthesis of Casual Videos](https://arxiv.org/abs/2312.02135)\u003cbr\u003e:house:[project](https://casual-fvs.github.io/)\n  * [PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis](https://arxiv.org/abs/2402.17986)\u003cbr\u003e:house:[project](https://yorkucvil.github.io/PolyOculus-NVS/)\n  * [RING-NeRF : Rethinking Inductive Biases for Versatile and Efficient Neural Fields](https://arxiv.org/abs/2312.03357)\n  * [Structured-NeRF: Hierarchical Scene Graph with Neural Representation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05154.pdf)\n  * [URS-NeRF: Unordered Rolling Shutter Bundle Adjustment for Neural Radiance Fields](https://arxiv.org/abs/2403.10119)\n  * [A Compact Dynamic 3D Gaussian Representation for Real-Time Dynamic View Synthesis](https://arxiv.org/abs/2311.12897)\u003cbr\u003e:star:[code](https://github.com/raven38/EfficientDynamic3DGaussian/)\u003cbr\u003e:house:[project](https://compactdynamic3dgaussian.github.io/)\n  * [High-Resolution and Few-shot View Synthesis from Asymmetric Dual-lens Inputs](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00368.pdf)\u003cbr\u003e:star:[code](https://github.com/XrKang/DL-GS)\n  * [Distractor-Free Novel View Synthesis via Exploiting Memorization Effect in Optimization](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07158.pdf)\u003cbr\u003e:star:[code](https://github.com/Yukun66/MemE)\n  * [NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image](https://arxiv.org/abs/2312.07315)\u003cbr\u003e:star:[code](https://github.com/kakaobrain/nvs-adapter)\n  * [FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting](https://arxiv.org/abs/2312.00451)\u003cbr\u003e:star:[code](https://github.com/VITA-Group/FSGS)\n  * [Fast View Synthesis of Casual Videos with Soup-of-Planes](https://arxiv.org/abs/2312.02135)\u003cbr\u003e:house:[project](https://casual-fvs.github.io/)\n  * [CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians](https://arxiv.org/abs/2403.19495)\u003cbr\u003e:house:[project](https://people.engr.tamu.edu/nimak/Papers/CoherentGS)\n  * [MegaScenes: Scene-Level View Synthesis at Scale](https://arxiv.org/abs/2406.11819)\u003cbr\u003e:star:[code](https://github.com/MegaScenes/nvs)\n  * [Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis](https://arxiv.org/abs/2403.04116)\u003cbr\u003e:star:[code](https://github.com/caiyuanhao1998/X-Gaussian)视图合成\n  * [NGP-RT: Fusing Multi-Level Hash Features with Lightweight Attention for Real-Time Novel View Synthesis](http://arxiv.org/abs/2407.10482v1)\n  * [Efficient Depth-Guided Urban View Synthesis](http://arxiv.org/abs/2407.12395v1)\u003cbr\u003e:star:[code](https://xdimlab.github.io/EDUS/)\n  * [Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis](https://arxiv.org/abs/2405.14868)\u003cbr\u003e:star:[code](https://github.com/basilevh/gcd)\n  * [Generalizable Human Gaussians for Sparse View Synthesis](https://arxiv.org/abs/2407.12777)\u003cbr\u003e:house:[project](https://humansensinglab.github.io/Generalizable-Human-Gaussians/)\n  * [Thermal3D-GS: Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis](http://arxiv.org/abs/2409.08042v1)\u003cbr\u003e:star:[code](https://github.com/mzzcdf/Thermal3DGS)\n\n\u003ca name=\"44\"/\u003e\n\n## 44.Dataset/Benchmark(数据集/基准)\n* [FYI: Flip Your Images for Dataset Distillation](http://arxiv.org/abs/2407.08113v1)\n* [Neural Spectral Decomposition for Dataset Distillation](http://arxiv.org/abs/2408.16236v1)\u003cbr\u003e:star:[code](https://github.com/slyang2021/NSD)\n* [Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching](https://arxiv.org/abs/2410.07579)\u003cbr\u003e:star:[code](https://github.com/Lexie-YU/Teddy)\n* [Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation](https://arxiv.org/abs/2305.18381)\u003cbr\u003e:star:[code](https://github.com/silicx/GoldFromOres-BiLP)\n* [COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark](https://arxiv.org/abs/2408.02272)\n* 基准\n  * [MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models](https://arxiv.org/abs/2311.17600)\u003cbr\u003e:star:[code](https://github.com/isXinLiu/MM-SafetyBench)\n  * [DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition](http://arxiv.org/abs/2407.05106v1)\u003cbr\u003e:star:[code](https://github.com/QiWang233/DailyDVS-200)\n  * [Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter](http://arxiv.org/abs/2407.08109v1)\u003cbr\u003e:star:[code](https://github.com/zhang-chenxu/LSM-Adapter)\n  * [MSD: A Benchmark Dataset for Floor Plan Generation of Building Complexes](http://arxiv.org/abs/2407.10121v1)\n  * [BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events](https://arxiv.org/abs/2410.20451)br\u003e:house:[project](https://www.blinkvision.net/)\n  * [SIMBA: Split Inference - Mechanisms, Benchmarks and Attacks](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09762.pdf)\u003cbr\u003e:star:[code](https://github.com/aidecentralized/InferenceBenchmark)\n  * [A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11606.pdf)\u003cbr\u003e:star:[code](https://github.com/UnicomAI/UnicomBenchmark/tree/main/CDDMBench)\n  * [BAFFLE: A Baseline of Backpropagation-Free Federated Learning](https://arxiv.org/abs/2301.12195)\u003cbr\u003e:star:[code](https://github.com/FengHZ/BAFFLE)\n  * [Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking](https://arxiv.org/abs/2406.04316)\n  * [Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations](https://arxiv.org/abs/2308.16349)\u003cbr\u003e:house:[project](https://affective-visual-dialog.github.io/)\n  * [UniIR: Training and Benchmarking Universal Multimodal Information Retrievers](https://arxiv.org/abs/2311.17136)\u003cbr\u003e:house:[project](https://tiger-ai-lab.github.io/UniIR/)\n  * [HyTAS: A Hyperspectral Image Transformer Architecture Search Benchmark and Analysis](http://arxiv.org/abs/2407.16269v1)\n  * [OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding](https://arxiv.org/abs/2406.07471)\u003cbr\u003e:house:[project](https://minghu0830.github.io/OphNet-benchmark/)\n  * [PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines](https://arxiv.org/abs/2407.08418)\u003cbr\u003e:star:[code](https://github.com/OpenEarthLab/PredBench)\n  * [Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach](https://arxiv.org/abs/2408.07500)\u003cbr\u003e:star:[code](https://github.com/FHR-L/VSLA-CLIP)\n  * [R^2-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations](https://arxiv.org/abs/2403.04924)\u003cbr\u003e:star:[code](https://github.com/lxa9867/r2bench)\n  * [m\u0026m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01486.pdf)\u003cbr\u003e:star:[code](https://github.com/RAIVNLab/mms)\u003cbr\u003e🤗[huggingface](https://huggingface.co/datasets/zixianma/mms)\n  * [PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology](https://arxiv.org/abs/2401.16355)\u003cbr\u003e🤗[huggingface](https://huggingface.co/papers/2401.16355)\n  * [LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow](http://arxiv.org/abs/2409.05688v1)\u003cbr\u003e:house:[project](https://layeredflow.cs.princeton.edu)\n  * [HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects](http://arxiv.org/abs/2407.12371v1)\u003cbr\u003e:star:[code](https://lvxintao.github.io/himo)\n  * [When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset](http://arxiv.org/abs/2407.10125v1)\u003cbr\u003e:star:[code](https://github.com/BubblyYi/MMPedestron)\n* 数据集\n  * [VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models](https://arxiv.org/abs/2311.17404)\u003cbr\u003e:star:[code](https://github.com/lscpku/VITATECS)\n  * [HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning](http://arxiv.org/abs/2407.15680v1)\u003cbr\u003e:star:[code](https://github.com/google/haloquest)\n  * [OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web](https://arxiv.org/abs/2402.17553)\n  * [COM Kitchens: An Unedited Overhead-view Procedural Videos Dataset a Vision-Language Benchmark](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08183.pdf)\u003cbr\u003e:sunflower:[dataset](https://github.com/omron-sinicx/com_kitchens)\n  * [Seeing Faces in Things: A Model and Dataset for Pareidolia](https://arxiv.org/abs/2409.16143)\u003cbr\u003e:sunflower:[dataset](https://aka.ms/faces-in-things)\n  * [Towards Dual Transparent Liquid Level Estimation in Biomedical Lab: Dataset, Methods and Practice](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08206.pdf)\u003cbr\u003e:sunflower:[dataset](https://github.com/dualtransparency/TCLD)\n  * [GarmentCodeData: A Dataset of 3D Made-to-Measure Garments With Sewing Patterns](https://arxiv.org/abs/2405.17609)\u003cbr\u003e:house:[project](https://igl.ethz.ch/projects/GarmentCodeData/)\n  * [SemTrack: A Large-scale Dataset for Semantic Tracking in the Wild](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03555.pdf)\u003cbr\u003e:sunflower:[dataset](https://github.com/sutdcv/SemTrack)\n  * [WiMANS: A Benchmark Dataset for WiFi-based Multi-user Activity Sensing](https://arxiv.org/abs/2402.09430)\u003cbr\u003e:star:[code](https://github.com/huangshk/WiMANS)\n  * [BugNIST - a Large Volumetric Dataset for Detection under Domain Shift](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04613.pdf)\n  * [Defect Spectrum: A Granular Look of Large-scale Defect Datasets with Rich Semantics](https://arxiv.org/abs/2310.17316)\u003cbr\u003e:star:[code](https://github.com/EnVision-Research/Defect_Spectrum)\u003cbr\u003e:house:[project](https://envision-research.github.io/Defect_Spectrum/)大规模缺陷数据集\n  * [Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal](http://arxiv.org/abs/2407.16957v1)\u003cbr\u003e:star:[code](https://github.com/jinyeying/RaindropClarity)\n  * [PartImageNet++ Dataset: Scaling up Part-based Models for Robust Recognition](http://arxiv.org/abs/2407.10918v1)\u003cbr\u003e:star:[code](https://github.com/LixiaoTHU/PartImageNetPP)\n  * [WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding](http://arxiv.org/abs/2407.15350v1)\u003cbr\u003e:star:[code](https://woven-visionai.github.io/wts-dataset-homepage/)\n  * [MMVR: Millimeter-wave Multi-View Radar Dataset and Benchmark for Indoor Perception](https://arxiv.org/abs/2406.10708)\n  * [SkyScenes: A Synthetic Dataset for Aerial Scene Understanding](https://arxiv.org/abs/2312.06719)\u003cbr\u003e:house:[project](https://hoffman-group.github.io/SkyScenes/)\n  * [Caltech Aerial RGB-Thermal Dataset in the Wild](https://arxiv.org/abs/2403.08997)\u003cbr\u003e:star:[code](https://github.com/aerorobotics/caltech-aerial-rgbt-dataset)\n  * [V2X-Real: a Largs-Scale Dataset for Vehicle-to-Everything Cooperative Perception](https://arxiv.org/abs/2403.16034)\n  * [H-V2X: A Large Scale Highway Dataset for BEV Perception](https://eccv.ecva.net/virtual/2024/poster/126)\n  * [PetFace: A Large-Scale Dataset and Benchmark for Animal Identification](http://arxiv.org/abs/2407.13555v1)\u003cbr\u003e:star:[code](https://dahlian00.github.io/PetFacePage/)\n  * [Long-range Turbulence Mitigation: A Large-scale Dataset and A Coarse-to-fine Framework](http://arxiv.org/abs/2407.08377v1)\n  * [OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects](http://arxiv.org/abs/2407.08711v1)\u003cbr\u003e:star:[code](https://omninocs.github.io)\n  * [SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark](https://arxiv.org/abs/2310.20436)\u003cbr\u003e:star:[code](https://github.com/ZhengdiYu/SignAvatars)\u003cbr\u003e:house:[project](https://signavatars.github.io/)\n  * [Insect Identification in the Wild: The AMI Dataset](https://arxiv.org/abs/2406.12452)\u003cbr\u003e:star:[code](https://github.com/RolnickLab/ami-dataset)野外昆虫识别：AMI 数据集\n  * [RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception](https://arxiv.org/abs/2405.09883)\u003cbr\u003e:sunflower:[dataset](https://github.com/xiaosu-zhu/RoScenes)\n* 数据增强\n  * [SUMix: Mixup with Semantic and Uncertain Information](http://arxiv.org/abs/2407.07805v1)\u003cbr\u003e:star:[code](https://github.com/JinXins/SUMix)\n  * [Data Augmentation via Latent Diffusion for Saliency Prediction](http://arxiv.org/abs/2409.07307v1)\n  * [FreeAugment: Data Augmentation Search Across All Degrees of Freedom](http://arxiv.org/abs/2409.04820v1)\u003cbr\u003e:star:[code](https://tombekor.github.io/FreeAugment-web)\n  * [Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective](https://arxiv.org/abs/2312.04763)\u003cbr\u003e:star:[code](https://github.com/Noah888/DAR)\n\n\u003ca name=\"43\"/\u003e\n\n## 43.Sound\n* [Audio-Synchronized Visual Animation](https://arxiv.org/abs/2403.05659)\u003cbr\u003e:star:[code](https://github.com/lzhangbj/ASVA)\u003cbr\u003e:house:[project](https://lzhangbj.github.io/projects/asva/asva.html)\n* [Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation](https://arxiv.org/pdf/2305.03907.pdf)\u003cbr\u003e:house:[project](https://bolinlai.github.io/CSTS-EgoGazeAnticipation/)\n* [Label-anticipated Event Disentanglement for Audio-Visual Video Parsing](http://arxiv.org/abs/2407.08126v1)\n* [Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity](http://arxiv.org/abs/2407.10387v1)\u003cbr\u003e:star:[code](https://maskvat.github.io)\n* [Spherical World-Locking for Audio-Visual Localization in Egocentric Videos](https://arxiv.org/abs/2408.05364)\n* [Self-Supervised Audio-Visual Soundscape Stylization](http://arxiv.org/abs/2409.14340v1)\u003cbr\u003e:house:[project](https://tinglok.netlify.app/files/avsoundscape/)\n* [CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios](https://arxiv.org/abs/2403.04640)\u003cbr\u003e:star:[code](https://github.com/rikeilong/Bay-CAT)视听场景\n* [Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers’ Opinion Scores](https://arxiv.org/abs/2404.07336)\n* [Siamese Vision Transformers are Scalable Audio-visual Learners](https://arxiv.org/abs/2403.19638)\u003cbr\u003e:star:[code](https://github.com/GenjiB/AVSiam)视听学习器\n* [Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos](https://arxiv.org/abs/2406.09272)\u003cbr\u003e:house:[project](https://vision.cs.utexas.edu/projects/action2sound)生成环境感知的动作声音\n* [Audio-visual Generalized Zero-shot Learning the Easy Way](https://arxiv.org/abs/2407.13095)\n* 视听分割\n  * [Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes](http://arxiv.org/abs/2407.10957v1)\u003cbr\u003e:star:[code](https://gewu-lab.github.io/Ref-AVS)\n  * [Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation](http://arxiv.org/abs/2407.11820v1)\u003cbr\u003e:star:[code](https://gewu-lab.github.io/stepping_stones)\u003cbr\u003e:star:[code](https://gewu-lab.github.io/stepping_stones/)\n  * [CPM: Class-conditional Prompting Machine for Audio-visual Segmentation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01634.pdf)视听分割\n\n\u003ca name=\"42\"/\u003e\n\n## 42.Optical Flow Estimation(光流估计)\n* [SEA-RAFT: Simple, Efficient, Accurate RAFT for Optical Flow](https://arxiv.org/abs/2405.14793)\u003cbr\u003e:star:[code](https://github.com/princeton-vl/SEA-RAFT)\n\n\u003ca name=\"41\"/\u003e\n\n## 41.Biomedical(生物特征识别)\n* [Open-Set Biometrics: Beyond Good Closed-Set Models](http://arxiv.org/abs/2407.16133v1)\u003cbr\u003e:star:[code](https://github.com/prevso1088/open-set-biometrics)\n\n\u003ca name=\"40\"/\u003e\n\n## 40.Object Pose Estimation(物体姿态估计)\n* [SCAPE: A Simple and Strong Category-Agnostic Pose Estimator](http://arxiv.org/abs/2407.13483v1)\u003cbr\u003e:star:[code](https://github.com/tiny-smart/SCAPE)\n* [SRPose: Two-view Relative Pose Estimation with Sparse Keypoints](http://arxiv.org/abs/2407.08199v1)\u003cbr\u003e:house:[project](https://frickyinn.github.io/srpose)\n* [FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation](http://arxiv.org/abs/2409.16600v1)\u003cbr\u003e:star:[code](github.com/tjy0703/FAFA)\n* [A Graph-Based Approach for Category-Agnostic Pose Estimation](https://arxiv.org/abs/2311.17891)\u003cbr\u003e:house:[project](https://orhir.github.io/pose-anything/)\n* [GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence](https://arxiv.org/abs/2311.13777)\n* [OP-Align: Object-level and Part-level Alignment for Self-supervised Category-level Articulated Object Pose Estimation](http://arxiv.org/abs/2408.16547v1)\u003cbr\u003e:star:[code](https://github.com/YC-Che/OP-Align)\n* [FoundPose: Unseen Object Pose Estimation with Foundation Features](https://arxiv.org/abs/2311.18809)\u003cbr\u003e:house:[project](http://evinpinar.github.io/foundpose)\n* [LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation](http://arxiv.org/abs/2409.15727v1)\u003cbr\u003e:star:[code](https://github.com/lolrudy/LaPose)\n* [U-COPE: Taking a Further Step to Universal 9D Category-level Object Pose Estimation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01566.pdf)\n* [PACE: Pose Annotations in Cluttered Environments](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06837.pdf)\u003cbr\u003e:star:[code](https://github.com/qq456cvb/PACE)\n* 6-DoF\n  * [An Economic Framework for 6-DoF Grasp Detection](http://arxiv.org/abs/2407.08366v1)\u003cbr\u003e:star:[code](https://github.com/iSEE-Laboratory/EconomicGrasp)\n  * [Pseudo-keypoint RKHS Learning for Self-supervised 6DoF Pose Estimation](https://arxiv.org/abs/2311.09500)\n  * [Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance](http://arxiv.org/abs/2407.13842v1)\u003cbr\u003e:star:[code](https://airvlab.github.io/grasp-anything)\n  * [Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation](https://arxiv.org/abs/2409.18261)\u003cbr\u003e:star:[code](https://github.com/3dtopia/omni6d)\n  * [6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model](http://arxiv.org/abs/2407.15484v1)\u003cbr\u003e:star:[code](https://mbortolon97.github.io/6dgs/)\n  * [FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models](https://arxiv.org/abs/2312.00947)\u003cbr\u003e:house:[project](https://andreacaraffa.github.io/freeze/)\n* 相机姿态估计\n  * [ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation](http://arxiv.org/abs/2408.09042v1)\n  * [Correspondences of the Third Kind: Camera Pose Estimation from Object Reflection](https://arxiv.org/abs/2312.04527)\n* 计数\n  * [AFreeCA: Annotation-Free Counting for All](https://arxiv.org/abs/2403.04943)计数\n  * [Zero-shot Object Counting with Good Exemplars](https://arxiv.org/abs/2407.04948)\n  * [ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-agnostic Counting](https://arxiv.org/abs/2309.04820)\u003cbr\u003e:star:[code](https://github.com/ActiveVisionLab/ABC123)\u003cbr\u003e:house:[project](https://abc123.active.vision/)计数\n  * [Class-Agnostic Object Counting with Text-to-Image Diffusion Model](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08663.pdf)\n  * [Shifted Autoencoders for Point Annotation Restoration in Object Counting](https://arxiv.org/abs/2312.07190)\n\n\u003ca name=\"39\"/\u003e\n\n## 39.Robots(机器人)\n* [See and Think: Embodied Agent in Virtual Environment](https://arxiv.org/abs/2311.15209)\u003cbr\u003e:house:[project](https://rese1f.github.io/STEVE/)\n* [SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs](https://arxiv.org/abs/2404.00469)\n* [V-IRL: Grounding Virtual Intelligence in Real Life](https://arxiv.org/abs/2402.03310)\u003cbr\u003e:star:[code](https://github.com/VIRL-Platform/VIRL)\n* 机器人\n  * [Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation](https://arxiv.org/abs/2401.07487)\u003cbr\u003e:house:[project](https://tea-lab.github.io/Robo-ABC/)\n  * [Learning Cross-hand Policies of High-DOF Reaching and Grasping](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04377.pdf)机器人\n  * [DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control](http://arxiv.org/abs/2407.14758v1)\u003cbr\u003e:star:[code](https://github.com/AllenXuuu/DISCO)\n  * [Real-time Holistic Robot Pose Estimation with Unknown States](https://arxiv.org/abs/2402.05655)\u003cbr\u003e:star:[code](https://github.com/Oliverbansk/Holistic-Robot-Pose-Estimation)\n  * [ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation](https://arxiv.org/abs/2403.08321)\u003cbr\u003e:star:[code](https://github.com/GuanxingLu/ManiGaussian)\u003cbr\u003e:house:[project](https://guanxinglu.github.io/ManiGaussian/)\n  * [Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts](http://arxiv.org/abs/2407.14872v1)\n  * [GraspXL: Generating Grasping Motions for Diverse Objects at Scale](https://arxiv.org/pdf/2403.19649.pdf)\u003cbr\u003e:star:[code](https://github.com/zdchan/graspxl)\u003cbr\u003e:house:[project](https://eth-ait.github.io/graspxl/)\n  * [UGG: Unified Generative Grasping](https://arxiv.org/abs/2311.16917)\u003cbr\u003e:house:[project](https://jiaxin-lu.github.io/ugg/)机器人\n  * [Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation](http://arxiv.org/abs/2407.14062v1)\u003cbr\u003e:star:[code](https://github.com/florasion/D-VQVAE)\n  * [Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation](https://arxiv.org/abs/2405.01527)\u003cbr\u003e:house:[project](https://homangab.github.io/track2act/)机器人\n* 导航\n  * [NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models](http://arxiv.org/abs/2407.12366v1)\u003cbr\u003e:star:[code](https://github.com/GengzeZhou/NavGPT-2) \n  * [Prioritized Semantic Learning for Zero-shot Instance Navigation](https://arxiv.org/abs/2403.11650)\u003cbr\u003e:star:[code](https://github.com/XinyuSun/PSL-InstanceNav)导航 \n* VPR\n  * [Close, But Not There: Boosting Geographic Distance Sensitivity in Visual Place Recognition](https://arxiv.org/abs/2407.02422)\u003cbr\u003e:star:[code](https://github.com/serizba/cliquemining)\n  * [Navigation Instruction Generation with BEV Perception and Large Language Models](http://arxiv.org/abs/2407.15087v1)\u003cbr\u003e:star:[code](https://github.com/FanScy/BEVInstructor)\n  * [Revisit Anything: Visual Place Recognition via Image Segment Retrieval](http://arxiv.org/abs/2409.18049v1)\u003cbr\u003e:star:[code](https://github.com/AnyLoc/Revisit-Anything)\n  * [VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition](https://arxiv.org/abs/2409.19293)\u003cbr\u003e:star:[code](https://github.com/Ahmedest61/VLAD-BuFF/)\n  * [MeshVPR: Citywide Visual Place Recognition Using 3D Meshes](https://arxiv.org/abs/2406.02776)\u003cbr\u003e:star:[code](https://github.com/gmberton/MeshVPR)\n* SLAM\n  * [Deep Patch Visual SLAM](https://arxiv.org/abs/2408.01654)\u003cbr\u003e:star:[code](https://github.com/princeton-vl/DPVO)\n  * [RGBD GS-ICP SLAM](https://arxiv.org/abs/2403.12550)\u003cbr\u003e:star:[code](https://github.com/Lab-of-AI-and-Robotics/GS_ICP_SLAM)\n  * [I2-SLAM: Inverting Imaging Process for Robust Photorealistic Dense SLAM](https://arxiv.org/abs/2407.11347)\n  * [Hyperion - A fast, versatile symbolic Gaussian Belief Propagation framework for Continuous-Time SLAM](http://arxiv.org/abs/2407.07074v1)\u003cbr\u003e:star:[code](https://github.com/VIS4ROB-lab/hyperion)\n  * [SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM](https://arxiv.org/abs/2402.03246)\n  * [LRSLAM: Low-rank Representation of Signed Distance Fields in Dense Visual SLAM System](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10364.pdf)\n  * [I$^2$-SLAM: Inverting Imaging Process for Robust Photorealistic Dense SLAM](http://arxiv.org/abs/2407.11347v1)\n  * [Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM](https://arxiv.org/abs/2407.13338)\n  * [Self-Supervised Underwater Caustics Removal and Descattering via Deep Monocular SLAM](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11219.pdf)\n  * [CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-aware 3D Gaussian Field](https://arxiv.org/abs/2403.16095)\u003cbr\u003e:star:[code](https://github.com/hjr37/CG-SLAM)\n* Try-On\n  * [Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models](https://arxiv.org/abs/2403.07371)\n  * [Improving Virtual Try-On with Garment-focused Diffusion Models](http://arxiv.org/abs/2409.08258v1)\u003cbr\u003e:star:[code](https://github.com/siqi0905/GarDiff/tree/master)\n  * [Wear-Any-Way: Manipulable Virtual Try-on via Sparse Correspondence Alignment](https://arxiv.org/abs/2403.12965)\u003cbr\u003e:star:[code](https://github.com/mengtingchen/wear-any-way-page)\u003cbr\u003e:house:[project](https://mengtingchen.github.io/wear-any-way-page/)\n  * [Improving Diffusion Models for Authentic Virtual Try-on in the Wild](https://arxiv.org/abs/2403.05139)\u003cbr\u003e:star:[code](https://github.com/yisol/IDM-VTON)\n  * [D4-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On](https://arxiv.org/abs/2407.15111)\u003cbr\u003e:star:[code](https://github.com/Jerome-Young/D4-VTON)\n  * [WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models](https://arxiv.org/abs/2407.10625)\u003cbr\u003e:star:[code](https://github.com/scnuhealthy/video_try_on)\n* 交叉地理定位\n  * [GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers](http://arxiv.org/abs/2408.02840v1)\u003cbr\u003e:star:[code](https://github.com/manupillai308/GAReT)\n  * [Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network](https://arxiv.org/abs/2408.05475)\u003cbr\u003e:star:[code](https://github.com/yejy53/EP-BEV)\n  * [ConGeo: Robust Cross-view Geo-localization across Ground View Variations](https://arxiv.org/abs/2403.13965)\u003cbr\u003e:star:[code](https://github.com/eceo-epfl/ConGeo)\u003cbr\u003e:house:[project](https://eceo-epfl.github.io/ConGeo/)交叉视角地理定位 \n  * [Benchmarking the Robustness of Cross-view Geo-localization Models](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11762.pdf)\n  * [CityGuessr: City-Level Video Geo-Localization on a Global Scale](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08031.pdf)\n* 地理定位\n  * [Statewide Visual Geolocalization in the Wild](https://arxiv.org/abs/2409.16763)\u003cbr\u003e:star:[code](https://github.com/fferflo/statewide-visual-geolocalization)\n* Avatars(虚拟人)\n  * [CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images](http://arxiv.org/abs/2407.04345v1)\u003cbr\u003e:star:[code](https://github.com/jsshin98/CanonicalFusion)\n  * [RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models](http://arxiv.org/abs/2407.06938v1)\u003cbr\u003e:star:[code](https://rodinhd.github.io/)\n  * [MeshAvatar: Learning High-quality Triangular Human Avatars from Multi-view Videos](https://arxiv.org/abs/2407.08414)\u003cbr\u003e:star:[code](https://github.com/shad0wta9/meshavatar)\n  * [PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations](https://arxiv.org/abs/2404.04421)\u003cbr\u003e:house:[project](https://qingqing-zhao.github.io/PhysAvatar)\n  * [iHuman: Instant Animatable Digital Humans From Monocular Videos](http://arxiv.org/abs/2407.11174v1)\n  * [PAV: Personalized Head Avatar from Unstructured Video Collection](https://arxiv.org/abs/2407.21047)\u003cbr\u003e:house:[project](https://akincaliskan3d.github.io/PAV)\n  * [Disentangled Clothed Avatar Generation from Text Descriptions](https://arxiv.org/abs/2312.05295)\u003cbr\u003e:house:[project](https://shanemankiw.github.io/SO-SMPL/)服装头像生成\n  * [MagicMirror: Fast and High-Quality Avatar Generation with Constrained Search Space](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08299.pdf)\u003cbr\u003e:house:[project](https://syntec-research.github.io/MagicMirror/)\n  * [3DFG-PIFu: 3D Feature Grids for Human Digitization from Sparse Views](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03433.pdf)\n  * [FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10720.pdf)\u003cbr\u003e:star:[code](https://github.com/humansensinglab/FAMOUS)3D 人体数字化  \n  * [Instant 3D Human Avatar Generation using Image Diffusion Models](https://arxiv.org/abs/2406.07516)\u003cbr\u003e:house:[project](https://www.nikoskolot.com/avatarpopup/)\n  * [Let the Avatar Talk using Texts without Paired Training Data](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/12305.pdf)\n* VR\n  * [EgoBody3M: Egocentric Body Tracking on a VR Headset using a Diverse Dataset](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10261.pdf)\n\n\u003ca name=\"38\"/\u003e\n\n## 38.Human-Object Interaction(人机交互)\n* [Controllable Human-Object Interaction Synthesis](https://arxiv.org/pdf/2312.03913.pdf)\u003cbr\u003e:house:[project](https://lijiaman.github.io/projects/chois/)\n* [F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions](http://arxiv.org/abs/2407.12435v1)\n* [Interaction-centric Spatio-Temporal Context Reasoning for Multi-Person Video HOI Recognition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04769.pdf)\u003cbr\u003e:star:[code](https://github.com/southnx/IcH-Vid-HOI)\n* [Look Hear: Gaze Prediction for Speech-directed Human Attention](http://arxiv.org/abs/2407.19605v1)\u003cbr\u003e:star:[code](https://github.com/cvlab-stonybrook/ART)\n* [Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model](http://arxiv.org/abs/2408.01044v1)\u003cbr\u003e:star:[code](https://github.com/jinyang06/SamGOP)\n* [Revisit Human-Scene Interaction via Space Occupancy](https://arxiv.org/abs/2312.02700)\u003cbr\u003e:house:[project](https://foruck.github.io/occu-page/)人机交互\n* [Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection](https://arxiv.org/abs/2408.02484)\u003cbr\u003e:star:[code](https://github.com/ltttpku/CMMP)\n* [AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation](https://arxiv.org/abs/2406.01194)\n* 手-物\n  * [NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model](http://arxiv.org/abs/2407.12727v1)\n  * [Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics](http://arxiv.org/abs/2409.04033v1)\u003cbr\u003e:star:[code](https://hograspnet2024.github.io/)\n  * [Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection?](https://arxiv.org/abs/2312.02672)\u003cbr\u003e:star:[code](https://github.com/fpv-iplab/HOI-Synth)\n  * [Coarse-to-Fine Implicit Representation Learning for 3D Hand-Object Reconstruction from a Single RGB-D Image](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06748.pdf) \n\n\u003ca name=\"37\"/\u003e\n\n## 37.Style Transfer(风格迁移)\n* [Towards compact reversible image representations for neural style transfer](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08321.pdf)\n* 运动迁移\n  * [Towards High-Quality 3D Motion Transfer with Realistic Apparel Animation](http://arxiv.org/abs/2407.11266v1)\u003cbr\u003e:star:[code](https://github.com/rongakowang/MMDMC)\n\n\u003ca name=\"36\"/\u003e\n\n## 36.Gaze Estimation\n* [De-confounded Gaze Estimation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03367.pdf)\n* [3DGazeNet: Generalizing Gaze Estimation with Weak Supervision from Synthetic Views](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03191.pdf)\u003cbr\u003e:star:[code](https://github.com/eververas/3DGazeNet)\n* [LG-Gaze: Learning Geometry-aware Continuous Prompts for Language-Guided Gaze Estimation](https://arxiv.org/abs/2411.08606)\n* [Gaze Target Detection Based on Head-Local-Global Coordination](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03933.pdf)\n\n\u003ca name=\"35\"/\u003e\n\n## 35.Action Detection(动作检测)\n* [LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning](https://arxiv.org/pdf/2312.03849.pdf)\u003cbr\u003e:star:[code](https://github.com/BolinLai/LEGO)\u003cbr\u003e:house:[project](https://bolinlai.github.io/Lego_EgoActGen/)\n* [ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos](http://arxiv.org/abs/2407.12987v1)\n* [Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition](https://arxiv.org/abs/2403.14113)\n* [Motion Keyframe Interpolation for Any Human Skeleton using Point Cloud-based Human Motion Data Homogenisation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10749.pdf)运动关键帧插值\n* 基于骨架的动作识别\n  * [SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders](http://arxiv.org/abs/2407.13460v1)\u003cbr\u003e:star:[code](https://github.com/pha123661/SA-DVAE)\n  * [Towards Physical World Backdoor Attacks against Skeleton Action Recognition](https://arxiv.org/abs/2408.08671)\u003cbr\u003e:house:[project](https://qichenzheng.github.io/psba-website/)\n  * [S-JEPA: A Joint Embedding Predictive Architecture for Skeletal Action Recognition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04755.pdf)\u003cbr\u003e:house:[project](https://sjepa.github.io)\n  * [Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03717.pdf)\u003cbr\u003e:star:[code](https://github.com/LanglandsLin/IGM)\n  * [CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner](https://arxiv.org/abs/2403.10082)\n* 小样本动作识别\n  * [Trajectory-aligned Space-time Tokens for Few-shot Action Recognition](http://arxiv.org/abs/2407.18249v1)\u003cbr\u003e:house:[project](https://www.cs.umd.edu/~pulkit/tats)\n  * [Efficient Few-Shot Action Recognition via Multi-Level Post-Reasoning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00305.pdf)\u003cbr\u003e:star:[code](https://github.com/cong-wu/EMP-Net)\n* 时序动作检测\n  * [DyFADet: Dynamic Feature Aggregation for Temporal Action Detection](http://arxiv.org/abs/2407.03197v1)\u003cbr\u003e:star:[code](https://github.com/yangle15/DyFADet-pytorch)\n  * [UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection](https://arxiv.org/abs/2404.04933)\u003cbr\u003e:star:[code](https://github.com/yingsen1/UniMD)\n* 时序动作定位\n  * [HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization](https://arxiv.org/abs/2408.06437)\u003cbr\u003e:star:[code](https://github.com/sakibreza/ECCV24-HAT)\n  * [Towards Adaptive Pseudo-label Learning for Semi-Supervised Temporal Action Localization](http://arxiv.org/abs/2407.07673v1)\n  * [Online Temporal Action Localization with Memory-Augmented Transformer](http://arxiv.org/abs/2408.02957v1)\u003cbr\u003e:house:[project](https://cvlab.postech.ac.kr/research/MATR/)\n  * [Stepwise Multi-grained Boundary Detector for Point-supervised Temporal Action Localization](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01159.pdf)\n* 时序动作分割\n  * [Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment](http://arxiv.org/abs/2408.09919v1)\u003cbr\u003e:star:[code](https://github.com/pangzhan27/GTLA)\n  * [Two-Stage Active Learning for Efficient Temporal Action Segmentation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06348.pdf)\n  * [Language-Assisted Skeleton Action Understanding for Skeleton-Based Temporal Action Segmentation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07145.pdf)\u003cbr\u003e:star:[code](https://github.com/HaoyuJi/LaSA)\n  * [Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs](https://arxiv.org/abs/2312.02638)\u003cbr\u003e:star:[code](https://github.com/fpv-iplab/synchronization-is-all-you-need)\n* 动作质量评估\n  * [Semi-Supervised Teacher-Reference-Student Architecture for Action Quality Assessment](http://arxiv.org/abs/2407.19675v1)\u003cbr\u003e:star:[code](https://github.com/wuli55555/TRS)\n  * [RICA^2: Rubric-Informed, Calibrated Assessment of Actions](https://arxiv.org/abs/2408.02138)\u003cbr\u003e:house:[project](https://abrarmajeedi.github.io/rica2_aqa/)\n  * [Vision-Language Action Knowledge Learning for Semantic-Aware Action Quality Assessment](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05909.pdf)动作质量评估\n  * [MAGR: Manifold-Aligned Graph Regularization for Continual Action Quality Assessment](https://arxiv.org/abs/2403.04398)\u003cbr\u003e:star:[code](https://github.com/ZhouKanglei/MAGR_CAQA)\n* 动作预测 \n  * [Semantically Guided Representation Learning For Action Anticipation](http://arxiv.org/abs/2407.02309v1)\u003cbr\u003e:star:[code](https://github.com/ADiko1997/S-GEAR)\n  * [PALM: Predicting Actions through Language Models](https://arxiv.org/abs/2311.17944)预测动作\n* 动作识别\n  * [Referring Atomic Video Action Recognition](https://arxiv.org/abs/2407.01872)\u003cbr\u003e:star:[code](https://github.com/KPeng9510/RAVAR)\n  * [DEAR: Depth-Enhanced Action Recognition](https://arxiv.org/abs/2408.15679)\n  * [Bayesian Evidential Deep Learning for Online Action Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02475.pdf)\n  * [C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition](http://arxiv.org/abs/2407.06113v1)\u003cbr\u003e:star:[code](https://github.com/RongchangLi/ZSCAR_C2C)\n  * [Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition](http://arxiv.org/abs/2407.06628v1)\n  * [Classification Matters: Improving Video Action Detection with Class-Specific Attention](http://arxiv.org/abs/2407.19698v1)\n  * [FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition](http://arxiv.org/abs/2409.01448v1)\u003cbr\u003e:house:[project](https://daveishan.github.io/finepsuedo-webpage/)\n  * [Context-Aware Action Recognition: Introducing a Comprehensive Dataset for Behavior Contrast](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10056.pdf)\n  * [Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition](https://arxiv.org/abs/2405.19917)\u003cbr\u003e:house:[project](https://masashi-hatano.github.io/MM-CDFSL/)\n  * [On the Utility of 3D Hand Poses for Action Recognition](https://arxiv.org/abs/2403.09805)\u003cbr\u003e:house:[project](https://s-shamil.github.io/HandFormer/)\n  * [POET: Prompt Offset Tuning for Continual Human Action Adaptation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08141.pdf)\u003cbr\u003e:star:[code](https://github.com/humansensinglab/)\n  * [Occluded Gait Recognition with Mixture of Experts: An Action Detection Perspective](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01016.pdf)\u003cbr\u003e:star:[code](https://github.com/BNU-IVC/OccGait)\n  * [Leveraging temporal contextualization for video action recognition](https://arxiv.org/abs/2404.09490)\u003cbr\u003e:star:[code](https://github.com/naver-ai/tc-clip)\n  * [Optimizing Factorized Encoder Models: Time and Memory Reduction for Scalable and Efficient Action Recognition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01635.pdf)\n  * [SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition](https://arxiv.org/abs/2403.09508)\u003cbr\u003e:house:[project](https://kaist-viclab.github.io/SkateFormer_site/)\n* 动作理解  \n  * [EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding](https://arxiv.org/abs/2406.08877)\u003cbr\u003e:star:[code](https://github.com/iSEE-Laboratory/EgoExo-Fitness/tree/main)\n* 群体动作识别\n  * [Towards More Practical Group Activity Detection: A New Benchmark and Model](https://arxiv.org/abs/2312.02878)\u003cbr\u003e:house:[project](https://cvlab.postech.ac.kr/research/CAFE)\n  * [Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition](https://arxiv.org/abs/2405.18012)\n  * [Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph](https://arxiv.org/abs/2407.19497)\u003cbr\u003e:star:[code](https://github.com/mgiant/MP-GCN)\n* 癫痫发作检测\n  * [VSViG: Real-time Video-based Seizure Detection via Skeleton-based Spatiotemporal ViG](https://arxiv.org/abs/2311.14775)\n\n\u003ca name=\"34\"/\u003e\n\n## 34.Visual Question Answering(视觉问答)\n* [DriveLM: Driving with Graph Visual Question Answering](https://arxiv.org/abs/2312.14150)\u003cbr\u003e:star:[code](https://github.com/OpenDriveLab/DriveLM)\n* [Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following](https://arxiv.org/abs/2406.02774)\n* [WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering](http://arxiv.org/abs/2407.05603v1)\u003cbr\u003e:star:[code](https://github.com/cpystan/WSI-VQA)\n* [GRACE: Graph-Based Contextual Debiasing for Fair Visual Question Answering](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02569.pdf)\n* [Q\u0026A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge](https://arxiv.org/abs/2401.10712)\u003cbr\u003e:star:[code](https://github.com/WHB139426/QA-Prompts)\n* [Compositional Substitutivity of Visual Reasoning for Visual Question Answering](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06434.pdf)\u003cbr\u003e:star:[code](https://github.com/NeverMoreLCH/CG-SPS)\n* [Fully Authentic Visual Question Answering Dataset from Online Communities](https://arxiv.org/abs/2311.15562)\u003cbr\u003e:house:[project](https://vqaonline.github.io/)\n* [An Explainable Vision Question Answer Model via Diffusion Chain-of-Thought](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08395.pdf)\n* 音视频问答\n  * [Learning Trimodal Relation for AVQA with Missing Modality](http://arxiv.org/abs/2407.16171v1)\n* 视频问答\n  * [Video Question Answering with Procedural Programs](https://arxiv.org/abs/2312.00937)\u003cbr\u003e:house:[project](https://rccchoudhury.github.io/proviq2023/)\n  * [ViLA: Efficient Video-Language Alignment for Video Question Answering](https://arxiv.org/abs/2312.08367)\u003cbr\u003e:star:[code](https://github.com/xijun-cs/ViLA)\n  * [TimeCraft: Navigate Weakly-Supervised Temporal Grounded Video Question Answering via Bi-directional Reasoning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00720.pdf)VQA\n  * [AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering](https://arxiv.org/abs/2311.14906)\u003cbr\u003e:star:[code](https://github.com/Xiuyuan-Chen/AutoEval-Video)\n* 视听问答\n  * [Learning Trimodal Relation for Audio-Visual Question Answering with Missing Modality](https://arxiv.org/abs/2407.16171)\n\n\u003ca name=\"33\"/\u003e\n\n## 33.Motion Generation(人体运动生成)\n* [Event-Based Motion Magnification](https://arxiv.org/abs/2402.11957)\u003cbr\u003e:star:[code](https://github.com/OpenImagingLab/emm)\n* [Learning-based Axial Video Motion Magnification](https://arxiv.org/abs/2312.09551)\u003cbr\u003e:house:[project](https://axial-momag.github.io/axial-momag/)\n* [SMooDi: Stylized Motion Diffusion Model](http://arxiv.org/abs/2407.12783v1)\u003cbr\u003e:star:[code](https://neu-vi.github.io/SMooDi/)\n* [Length-Aware Motion Synthesis via Latent Diffusion](http://arxiv.org/abs/2407.11532v1)\u003cbr\u003e:star:[code](https://github.com/AlessioSam/LADiff)\n* [HUMOS: Human Motion Model Conditioned on Body Shape](http://arxiv.org/abs/2409.03944v1)\u003cbr\u003e:star:[code](https://CarstenEpic.github.io/humos/)\n* [HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance](http://arxiv.org/abs/2407.06937v1)\u003cbr\u003e:star:[code](https://github.com/Enderfga/HumanRefiner)\n* [Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07885.pdf)\u003cbr\u003e:house:[project](https://panwliu.github.io/mhc/)\n* [Generating Human Interaction Motions in Scenes with Text Control](https://arxiv.org/abs/2404.10685)\u003cbr\u003e:house:[project](https://research.nvidia.com/labs/toronto-ai/tesmo/)运动生成\n* [Motion Mamba: Efficient and Long Sequence Motion Generation](https://arxiv.org/abs/2403.07487)\u003cbr\u003e:star:[code](https://github.com/steve-zeyu-zhang/MotionMamba/)\u003cbr\u003e:house:[project](https://steve-zeyu-zhang.github.io/MotionMamba/)\n* [Large Motion Model for Unified Multi-Modal Motion Generation](https://arxiv.org/abs/2404.01284)\u003cbr\u003e:house:[project](https://mingyuan-zhang.github.io/projects/LMM.html)\n* [EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation](https://arxiv.org/abs/2312.02256)\u003cbr\u003e:star:[code](https://github.com/Frank-ZY-Dou/EMDM)\u003cbr\u003e:house:[project](https://frank-zy-dou.github.io/projects/EMDM/index.html)\n* [Bridging the Gap Between Human Motion and Action Semantics via Kinematics Phrases](https://arxiv.org/abs/2310.04189)\u003cbr\u003e:house:[project](https://foruck.github.io/KP/)人体运动\n* [TRAM: Global Trajectory and Motion of 3D Humans from in-the-wild Videos](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01796.pdf)\u003cbr\u003e:house:[project](https://yufu-wang.github.io/tram4d/)人体运动\n* [Nymeria: A Massive Collection of Egocentric Multi-modal Human Motion in the Wild](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03541.pdf)人体运动\n* [FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models](https://arxiv.org/abs/2406.10740)\n* [MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model](https://arxiv.org/abs/2404.19759)\u003cbr\u003e:star:[code](https://github.com/Dai-Wenxun/MotionLCM)\n* [Realistic Human Motion Generation with Cross-Diffusion Models](https://arxiv.org/abs/2312.10993)\u003cbr\u003e:house:[project](https://wonderno.github.io/CrossDiff-webpage/)人体运动\n* [CoMo: Controllable Motion Generation through Language Guided Pose Code Editing](https://arxiv.org/abs/2403.13900)\u003cbr\u003e:house:[project](https://yh2371.github.io/como/)生成可控运动\n* [TLControl: Trajectory and Language Control for Human Motion Synthesis](https://arxiv.org/abs/2311.17135)\u003cbr\u003e:house:[project](https://tlcontrol.weilinwl.com/)人体运动合成\n* [Retrieval Robust to Object Motion Blur](https://arxiv.org/abs/2404.18025)\u003cbr\u003e:star:[code]((https://github.com/Rong-Zou/Retrieval-Robust-to-Object-Motion-Blur)\n* 三维人体运动合成\n  * [ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions](https://arxiv.org/pdf/2311.17057.pdf)\u003cbr\u003e:house:[project](https://vcai.mpi-inf.mpg.de/projects/remos/)\n* 文本-动作合成\n  * [FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis](https://arxiv.org/pdf/2405.15763)\n  * [Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation](http://arxiv.org/abs/2407.10528v1)\u003cbr\u003e:star:[code](https://jpthu17.github.io/GuidedMotion-project/)\n  * [Plan, Posture and Go: Towards Open-vocabulary Text-to-Motion Generation](https://arxiv.org/abs/2312.14828)\u003cbr\u003e:house:[project](https://moonsliu.github.io/Pro-Motion/)\n  * [ParCo: Part-Coordinating Text-to-Motion Synthesis](https://arxiv.org/abs/2403.18512)\u003cbr\u003e:star:[code](https://github.com/qrzou/ParCo)\n* 人体运动预测\n  * [Human Motion Forecasting in Dynamic Domain Shifts: A Homeostatic Continual Test-time Adaptation Framework](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04599.pdf)人体运动预测\n  * [Scene-aware Human Motion Forecasting via Mutual Distance Prediction](https://arxiv.org/abs/2310.00615)\n* 人体运动估计\n  * [MANIKIN: Biomechanically Accurate Neural Inverse Kinematics for Human Motion Estimation](https://static.siplab.org/papers/eccv2024-manikin.pdf)\u003cbr\u003e:house:[project](https://siplab.org/projects/MANIKIN)\n* 运动估计\n  * [Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation](http://arxiv.org/abs/2407.10802v1)\u003cbr\u003e:star:[code](https://github.com/tub-rip/MotionPriorCMax)\n  * [COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation](https://arxiv.org/abs/2408.16426)\n* 舞蹈生成\n  * [Beat-It: Beat-Synchronized Multi-Condition 3D Dance Generation](https://arxiv.org/abs/2407.07554)\u003cbr\u003e:house:[project](https://zikaihuangscut.github.io/Beat-It/)\n* 行为生成\n  * [DIM: Dyadic Interaction Modeling for Social Behavior Generation](https://arxiv.org/abs/2403.09069)\u003cbr\u003e:star:[code](https://github.com/Boese0601/Dyadic-Interaction-Modeling)\n* 运动迁移  \n  * [Temporal Residual Jacobians for Rig-free Motion Transfer](https://arxiv.org/abs/2407.14958)\u003cbr\u003e:house:[project](https://temporaljacobians.github.io/)\u003cbr\u003e🤗[huggingface](https://huggingface.co/papers/2407.14958)\n* 运动预测\n  * [Enhanced Motion Forecasting with Visual Relation Reasoning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07336.pdf)\n\n\u003ca name=\"32\"/\u003e\n\n## 32.Person Re-Identification(人员重识别)\n* [Human-in-the-Loop Visual Re-ID for Population Size Estimation](https://arxiv.org/abs/2312.05287)\u003cbr\u003e:star:[code](https://github.com/cvl-umass/counting-clusters)\n* 行人重识别\n  * [Keypoint Promptable Re-Identification](https://arxiv.org/abs/2407.18112)\u003cbr\u003e:star:[code](https://github.com/VlSomers/keypoint_promptable_reidentification)\n  * [Privacy-Preserving Adaptive Re-Identification without Image Transfer](http://arxiv.org/abs/2407.12589v1)\n  * [Rethinking Normalization Layers for Domain Generalizable Person Re-identification](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08753.pdf)\u003cbr\u003e:star:[code](https://github.com/3699nr/ReNorm)\n  * [Domain Shifting: A Generalized Solution for Heterogeneous Cross-Modality Person Re-Identification](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09119.pdf)\n  * VI-ReID\n    * [Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification](https://arxiv.org/abs/2401.06825)\u003cbr\u003e:thumbsup:[无监督可见光-红外行人重识别（USL-VI-ReID）](https://std.xmu.edu.cn/2024/0710/c4739a488273/page.htm)\n    * [WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification](https://www.arxiv.org/abs/2408.10624)\n* 人物搜索\n  * [PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery](https://arxiv.org/abs/2409.13475)基于文本的人物搜索\n* 步态识别\n  * [Camera-LiDAR Cross-modality Gait Recognition](https://arxiv.org/abs/2407.02038)\n  * [Free Lunch for Gait Recognition: A Novel Relation Descriptor](https://arxiv.org/abs/2308.11487)\n  * [Causality-inspired Discriminative Feature Learning in Triple Domains for Gait Recognition](http://arxiv.org/abs/2407.12519v1)\n  * [Cut out the Middleman: Revisiting Pose-based Gait Recognition](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04501.pdf)\u003cbr\u003e:star:[code](https://github.com/BNU-IVC/FastPoseGait)\n* 计数\n  * [CountFormer: Multi-View Crowd Counting Transformer](http://arxiv.org/abs/2407.02047v1)\n  * [Robust Zero-Shot Crowd Counting and Localization with Adaptive Resolution SAM](https://arxiv.org/abs/2402.17514)\n  * [Multi-modal Crowd Counting via a Broker Modality](http://arxiv.org/abs/2407.07518v1)\u003cbr\u003e:star:[code](https://github.com/HenryCilence/Broker-Modality-Crowd-Counting)\n  * [Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance](https://arxiv.org/abs/2405.10589)\u003cbr\u003e:star:[code](https://github.com/AaronCIH/APGCC)\n\n\u003ca name=\"31\"/\u003e\n\n## 31.Point Clouds(点云)\n* [SEED: A Simple and Effective 3D DETR in Point Clouds](http://arxiv.org/abs/2407.10749v1)\u003cbr\u003e:star:[code](https://github.com/happinesslz/SEED)\n* [PointLLM: Empowering Large Language Models to Understand Point Clouds](https://arxiv.org/abs/2308.16911)\u003cbr\u003e:star:[code](https://github.com/OpenRobotLab/PointLLM)\u003cbr\u003e:house:[project](https://runsenxu.com/projects/PointLLM/)\n* [TransCAD: A Hierarchical Transformer for CAD Sequence Inference from Point Clouds](https://arxiv.org/abs/2407.12702)\n* [Learning to Adapt SAM for Segmenting Cross-domain Point Clouds](https://arxiv.org/abs/2310.08820)\n* [Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time](https://export.arxiv.org/abs/2407.01851)\n* [milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing](https://arxiv.org/abs/2306.17010)\u003cbr\u003e:star:[code](https://github.com/Toytiny/milliFlow)\n* [Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement](http://arxiv.org/abs/2408.02966v1)\n* [Learning Local Pattern Modularization for Point Cloud Reconstruction from Unseen Classes](http://arxiv.org/abs/2408.14279v1)\u003cbr\u003e:star:[code](https://github.com/chenchao15/Unseen)\n* [T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning](https://arxiv.org/abs/2312.10217)\u003cbr\u003e:star:[code](https://github.com/codename1995/T-MAE)\n* [Progressive Classifier and Feature Extractor Adaptation for Unsupervised Domain Adaptation on Point Clouds](https://arxiv.org/abs/2311.16474v2)\u003cbr\u003e:star:[code](https://github.com/xiaoyao3302/PCFEA)\n* [PFGS: High Fidelity Point Cloud Rendering via Feature Splatting](https://arxiv.org/abs/2407.03857)\u003cbr\u003e:star:[code](https://github.com/Mercerai/PFGS)\n* [Masked Motion Prediction with Semantic Contrast for Point Cloud Sequence Learning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09814.pdf)\u003cbr\u003e:star:[code](https://github.com/yh-han/M2PSC.git)\n* [To Supervise or Not to Supervise: Understanding and Addressing the Key Challenges of Point Cloud Transfer Learning](https://arxiv.org/abs/2403.17869)\n* [Relightable 3D Gaussians: Realistic Point Cloud Relighting with BRDF Decomposition and Ray Tracing](https://arxiv.org/abs/2311.16043)\u003cbr\u003e:star:[code](https://github.com/NJU-3DV/Relightable3DGaussian)\n* [FastPCI: Motion-Structure Guided Fast Point Cloud Frame Interpolation](https://arxiv.org/abs/2410.19573)\u003cbr\u003e:star:[code](https://github.com/genuszty/FastPCI)\n* 点云生成\n  * [RangeLDM: Fast Realistic LiDAR Point Cloud Generation](https://arxiv.org/abs/2403.10094)\u003cbr\u003e:star:[code](https://github.com/WoodwindHu/RangeLDM)\n  * [Text2LiDAR: Text-guided LiDAR Point Clouds Generation via Equirectangular Transformer](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07328.pdf)\u003cbr\u003e:star:[code](https://github.com/wuyang98/Text2LiDAR)\n  * [Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation](https://arxiv.org/abs/2312.07231)\u003cbr\u003e:house:[project](https://dit-3d.github.io/FastDiT-3D/)\n  * [FrePolad: Frequency-Rectified Point Latent Diffusion for Point Cloud Generation](https://arxiv.org/abs/2311.12090)\u003cbr\u003e:house:[project](https://chenliang-zhou.github.io/FrePolad/)\n* 点云完成\n  * [Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion](http://arxiv.org/abs/2407.02887v1)\u003cbr\u003e:star:[code](https://github.com/WHU-USI3DV/EGIInet)\n  * [T-CorresNet: Template Guided 3D Point Cloud Completion with Correspondence Pooling Query Generation Strategy](http://arxiv.org/abs/2407.05008v1)\u003cbr\u003e:star:[code](https://github.com/df-boy/T-CorresNet)\n  * [AEDNet: Adaptive Embedding and Multiview-Aware Disentanglement for Point Cloud Completion](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01714.pdf)\n  * [EINet: Point Cloud Completion via Extrapolation and Interpolation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05687.pdf)\u003cbr\u003e:star:[code](https://github.com/corecai163/EINet)\n  * [Syn-to-Real Domain Adaptation for Point Cloud Completion via Part-based Approach](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06768.pdf)\u003cbr\u003e:star:[code](https://github.com/yun-seo/PPCC)\n  * [ProtoComp: Diverse Point Cloud Completion with Controllable Prototype](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06685.pdf)\u003cbr\u003e:star:[code](https://github.com/Yanbo-23/Proto-Comp)\n* 点云重建\n  * [DiffPMAE: Diffusion Masked Autoencoders for Point Cloud Reconstruction](https://arxiv.org/abs/2312.03298)\u003cbr\u003e:star:[code](https://github.com/TyraelDLee/DiffPMAE)\n* 点云理解\n  * [DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding](https://arxiv.org/abs/2407.08801)\n* 点云配准\n  * [ML-SemReg: Boosting Point Cloud Registration with Multi-level Semantic Consistency](http://arxiv.org/abs/2407.09862v1)\u003cbr\u003e:star:[code](https://github.com/Laka-3DV/ML-SemReg)\n  * [PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training](http://arxiv.org/abs/2407.14054v1)\u003cbr\u003e:star:[code](https://github.com/Chen-Suyi/PointRegGPT)\n  * [SemReg: Semantics Constrained Point Cloud Registration](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05759.pdf)\u003cbr\u003e:star:[code](https://github.com/SheldonFung98/SemReg.git)\n  * [Correspondence-Free SE(3) Point Cloud Registration in RKHS via Unsupervised Equivariant Learning](http://arxiv.org/abs/2407.20223v1)\u003cbr\u003e:house:[project](https://sites.google.com/view/eccv24-equivalign)\n  * [UMERegRobust – Universal Manifold Embedding Compatible Features for Robust Point Cloud Registration](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11688.pdf)\u003cbr\u003e:star:[code](https://github.com/yuvalH9/UMERegRobust)\n  * [PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration](https://arxiv.org/abs/2407.10142)\u003cbr\u003e:star:[code](https://github.com/yaorz97/PARENet)\n  * [UMERegRobust -- Universal Manifold Embedding Compatible Features for Robust Point Cloud Registration](http://arxiv.org/abs/2408.12380v1)\u003cbr\u003e:star:[code](https://github.com/yuvalH9/UMERegRobust)\n  * [Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration](https://arxiv.org/abs/2410.05729)点云配准\n* 点云分割\n  * [Dual-level Adaptive Self-Labeling for Novel Class Discovery in Point Cloud Segmentation](http://arxiv.org/abs/2407.12489v1)\n  * [HGL: Hierarchical Geometry Learning for Test-time Adaptation in 3D Point Cloud Segmentation](http://arxiv.org/abs/2407.12387v1)\u003cbr\u003e:star:[code](https://github.com/tpzou/HGL)\n  * [SegPoint: Segment Any Point Cloud via Large Language Model](http://arxiv.org/abs/2407.13761v1)\u003cbr\u003e:star:[code](https://heshuting555.github.io/SegPoint)\n  * [Localization and Expansion: A Decoupled Framework for Point Cloud Few-shot Semantic Segmentation](https://arxiv.org/abs/2408.13752)\n  * [Pseudo-Embedding for Generalized Few-Shot Point Cloud Segmentation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05346.pdf)\u003cbr\u003e:star:[code](https://github.com/jimtsai23/PseudoEmbed)\n  * [Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation](https://www.arxiv.org/abs/2408.10537)\u003cbr\u003e:star:[code](https://github.com/Javion11/PointLiBR.git)\n* 点云理解\n  * [GPSFormer: A Global Perception and Local Structure Fitting-based Transformer for Point Cloud Understanding](https://arxiv.org/abs/2407.13519)\u003cbr\u003e:star:[code](https://github.com/changshuowang/GPSFormer)\n* 3D点云\n  * [Implicit Filtering for Learning Neural Signed Distance Functions from 3D Point Clouds](http://arxiv.org/abs/2407.13342v1)\u003cbr\u003e:star:[code](https://list17.github.io/ImplicitFilter)\n  * [CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation](http://arxiv.org/abs/2407.16193v1)\u003cbr\u003e:star:[code](https://github.com/shimazing/CloudFixer)\n  * [FLAT: Flux-aware Imperceptible Adversarial Attacks on 3D Point Clouds](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00951.pdf)\n  * [RISurConv: Rotation Invariant Surface Attention-Augmented Convolutions for 3D Point Cloud Classification and Segmentation](https://arxiv.org/abs/2408.06110)\n  * [P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising](http://arxiv.org/abs/2408.16325v1)\u003cbr\u003e:star:[code](https://p2p-bridge.github.io)\n  * [Heterogeneous Graph Learning for Scene Graph Prediction in 3D Point Clouds](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03785.pdf)\n  * [Hiding Imperceptible Noise in Curvature-Aware Patches for 3D Point Cloud Attack](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04444.pdf)3D 点云攻击\n  * [Continuous SO(3) Equivariant Convolution for 3D Point Cloud Analysis](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06843.pdf)\u003cbr\u003e:star:[code](https://github.com/qpwodlsqp/CSEConv)\n  * [Frugal 3D Point Cloud Model Training via Progressive Near Point Filtering and Fused Aggregation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08282.pdf)\n\n\u003ca name=\"30\"/\u003e\n\n## 30.Anomaly Detection(异常检测)\n* [Continuous Memory Representation for Anomaly Detection](https://arxiv.org/abs/2402.18293)\u003cbr\u003e:star:[code](https://github.com/tae-mo/CRAD)\n* [Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection](https://arxiv.org/abs/2302.14696)\u003cbr\u003e:star:[code](https://github.com/shijianjian/DIA.git)\n* [Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11002.pdf)\u003cbr\u003e:star:[code](https://github.com/gaobb/AnoGen)\n* [GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features](http://arxiv.org/abs/2407.12427v1)\u003cbr\u003e:star:[code](https://github.com/LucStrater/GeneralAD)\n* [Learning Diffusion Models for Multi-View Anomaly Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04907.pdf)\n* [Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection](https://arxiv.org/abs/2403.13349)\u003cbr\u003e:star:[code](https://github.com/xcyao00/HGAD)\n* [TransFusion -- A Transparency-Based Diffusion Model for Anomaly Detection](https://arxiv.org/abs/2311.09999)\u003cbr\u003e:star:[code](https://github.com/MaticFuc/ECCV_TransFusion)\n* [Unsupervised, Online and On-The-Fly Anomaly Detection For Non-Stationary Image Distributions](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07868.pdf)\u003cbr\u003e:star:[code](https://github.com/DeclanMcIntosh/Online_InReaCh)\n* [MoEAD: A Parameter-efficient Model for Multi-class Anomaly Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11465.pdf)\u003cbr\u003e:star:[code](https://github.com/TheStarOfMSY/MoEAD)\n* 缺陷检测\n  * [An Incremental Unified Framework for Small Defect Inspection](https://arxiv.org/abs/2312.08917)\u003cbr\u003e:star:[code](https://github.com/jqtangust/IUF)\n* 故障检测\n  * [DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation](http://arxiv.org/abs/2408.00331v1)\u003cbr\u003e:star:[code](https://github.com/kowshikthopalli/DECIDER/)\n* 3D异常检测\n  * [R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection](http://arxiv.org/abs/2407.10862v1)\n* 工业异常检测\n  * [Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection](https://arxiv.org/abs/2401.03145)\n  * [A Unified Anomaly Synthesis Strategy with Gradient Ascent for Industrial Anomaly Detection and Localization](https://arxiv.org/abs/2407.09359)\u003cbr\u003e:star:[code](https://github.com/cqylunlun/GLASS)\n  * [GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection](https://arxiv.org/abs/2406.07487)\u003cbr\u003e:star:[code](https://github.com/hyao1/GLAD)\n  * [AD3: Introducing a score for Anomaly Detection Dataset Difficulty assessment using VIADUCT dataset](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08661.pdf)\n  * [Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08462.pdf)\n* 零样本异常检测\n  * [AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection](http://arxiv.org/abs/2407.15795v1)\u003cbr\u003e:star:[code](https://github.com/caoyunkang/AdaCLIP)\n* 多类异常检测\n  * [Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection](https://arxiv.org/abs/2403.11561)\n* OOD\n  * [Gradient-Regularized Out-of-Distribution Detection](https://export.arxiv.org/abs/2404.12368)\n  * [SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning](https://arxiv.org/abs/2407.03036)\n  * [PixOOD: Pixel-Level Out-of-Distribution Detection](https://arxiv.org/abs/2405.19882)\u003cbr\u003e:star:[code](https://github.com/vojirt/PixOOD)\n  * [An Information Theoretical View for Out-Of-Distribution Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07242.pdf)\n  * [Learning Non-Linear Invariants for Unsupervised Out-of-Distribution Detection](http://arxiv.org/abs/2407.04022v1)\n  * [LAPT: Label-driven Automated Prompt Tuning for OOD Detection with Vision-Language Models](http://arxiv.org/abs/2407.08966v1)\u003cbr\u003e:star:[code](https://github.com/YBZh/LAPT)\n  * [ProSub: Probabilistic Open-Set Semi-Supervised Learning with Subspace-Based Out-of-Distribution Detection](http://arxiv.org/abs/2407.11735v1)\u003cbr\u003e:star:[code](https://github.com/walline/prosub)\n  * [Diffusion for Out-of-Distribution Detection on Road Scenes and Beyond](http://arxiv.org/abs/2407.15739v1)\u003cbr\u003e:star:[code](https://ade-ood.github.io/)\n  * [Can Your Generative Model Detect Out-of-Distribution Covariate Shift?](http://arxiv.org/abs/2409.03043v1)\n  * [Gradient-based Out-of-Distribution Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02138.pdf)\n  * [Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11399.pdf)\n  * [TAG: Text Prompt Augmentation for Zero-Shot Out-of-Distribution Detection](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09304.pdf)\u003cbr\u003e:star:[code](https://github.com/XixiLiu95/TAG)\n* 异常值检测\n  * [Rethinking Unsupervised Outlier Detection via Multiple Thresholding](https://arxiv.org/abs/2407.05382)无监督异常值检测\n* 零样本异常分割\n  * [VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation](https://arxiv.org/abs/2407.12276)\u003cbr\u003e:star:[code](https://github.com/xiaozhen228/VCP-CLIP)\n\n\u003ca name=\"29\"/\u003e\n\n## 29.Semi/self-supervised learning(半/自监督)\n* [SweepNet: Unsupervised Learning Shape Abstraction via Neural Sweepers](https://arxiv.org/abs/2407.06305)\u003cbr\u003e:house:[project](https://mingrui-zhao.github.io/SweepNet/)\n* [Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning](https://arxiv.org/abs/2403.10252)\u003cbr\u003e:star:[code](https://github.com/HereNowL/Region-aware-Distribution-Contrast)\n* 自监督\n  * [CroMo-Mixup: Augmenting Cross-Model Representations for Continual Self-Supervised Learning](http://arxiv.org/abs/2407.12188v1)\u003cbr\u003e:star:[code](https://github.com/ErumMushtaq/CroMo-Mixup)\n  * [HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion](http://arxiv.org/abs/2407.05638v1)\u003cbr\u003e:star:[code](https://github.com/Zeudfish/HPFF)\n  * [SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning](http://arxiv.org/abs/2407.08148v1)\u003cbr\u003e:star:[code](https://github.com/RM-Zhang/SCPNet)\n  * [Efficient Unsupervised Visual Representation Learning with Explicit Cluster Balancing](http://arxiv.org/abs/2407.11168v1)\n  * [OmniSat: Self-Supervised Modality Fusion for Earth Observation](https://arxiv.org/pdf/2404.08351)\u003cbr\u003e:star:[code](https://github.com/gastruc/OmniSat)\u003cbr\u003e:house:[project](https://gastruc.github.io/projects/omnisat.html)\u003cbr\u003e:sunflower:[dataset](https://huggingface.co/datasets/IGNF/PASTIS-HD)\n  * [FroSSL: Frobenius Norm Minimization for Efficient Multiview Self-Supervised Learning](https://arxiv.org/abs/2310.02903)\n  * [Self-supervised visual learning from interactions with objects](https://arxiv.org/abs/2407.06704)\n  * [Exploiting Supervised Poison Vulnerability to Strengthen Self-Supervised Defense](https://arxiv.org/abs/2409.08509)\n  * [GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning](https://arxiv.org/abs/2403.12003)\u003cbr\u003e:star:[code](https://github.com/xiaojieli0903/genview)\n  * [On Pretraining Data Diversity for Self-Supervised Learning](https://arxiv.org/abs/2403.13808)\u003cbr\u003e:star:[code](https://github.com/hammoudhasan/DiversitySSL)\n  * [Decoupling Common and Unique Representations for Multimodal Self-supervised Learning](https://arxiv.org/abs/2309.05300)\u003cbr\u003e:star:[code](https://github.com/zhu-xlab/DeCUR)\n  * [POA: Pre-training Once for Models of All Sizes](http://arxiv.org/abs/2408.01031v1)\u003cbr\u003e:star:[code](https://github.com/Qichuzyy/POA)\n  * [ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders](https://arxiv.org/abs/2303.12001)自监督表示学习\n  * [Pose-Aware Self-Supervised Learning with Viewpoint Trajectory Regularization](https://arxiv.org/abs/2403.14973)\u003cbr\u003e:house:[project](https://pwang.pw/trajSSL/)自监督学习\n  * [SSL-Cleanse: Trojan Detection and Mitigation in Self-Supervised Learning](https://arxiv.org/abs/2303.09079)\u003cbr\u003e:star:[code](https://github.com/ucf-ml-research/ssl-cleanse)\n* 半监督\n  * [Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning](https://arxiv.org/abs/2408.12614)  \n  * [Improving 3D Semi-supervised Learning by Effectively Utilizing All Unlabelled Data](http://arxiv.org/abs/2409.13977v1)\u003cbr\u003e:star:[code](https://github.com/snehaputul/AllMatch)\n  * [SCOMatch: Alleviating Overtrusting in Open-set Semi-supervised Learning](http://arxiv.org/abs/2409.17512v1)\u003cbr\u003e:star:[code](https://github.com/komejisatori/SCOMatch)\n  * [ExMatch: Self-guided Exploitation for Semi-Supervised Learning with Scarce Labeled Samples](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11377.pdf)\n  * [Rebalancing Using Estimated Class Distribution for Imbalanced Semi-Supervised Learning under Class Distribution Mismatch](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03287.pdf)半监督学习\n  * [Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning](https://arxiv.org/abs/2407.15837)\u003cbr\u003e:star:[code](https://github.com/yibingwei-1/LatentMIM)\n  * [Flexible Distribution Alignment: Towards Long-tailed Semi-supervised Learning with Proper Calibration](https://arxiv.org/abs/2306.04621)\u003cbr\u003e:star:[code](https://github.com/emasa/ADELLO-LTSSL)\n \n\u003ca name=\"28\"/\u003e\n\n## 28.Novel Class Discovery(新类发现)\n* [Self-Cooperation Knowledge Distillation for Novel Class Discovery](http://arxiv.org/abs/2407.01930v1)\n\n\u003ca name=\"27\"/\u003e\n\n## 27.GNN/GCN\n* [GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition](https://arxiv.org/abs/2308.14378)\u003cbr\u003e:star:[code](https://github.com/jin-s13/GKGNet)GNN\n* [Graph Neural Network Causal Explanation via Neural Causal Models](https://arxiv.org/abs/2407.09378)\u003cbr\u003e:star:[code](https://github.com/ArmanBehnam/CXGNN)\n* [On the Topology Awareness and Generalization Performance of Graph Neural Networks](https://arxiv.org/abs/2403.04482)\n* [Causal Subgraphs and Information Bottlenecks: Redefining OOD Robustness in Graph Neural Networks](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/12325.pdf)\n\n\u003ca name=\"26\"/\u003e\n\n## 26.NAS\n* [Auto-GAS: Automated Proxy Discovery for Training-free Generative Architecture Search](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00668.pdf)\u003cbr\u003e:star:[code](https://github.com/lliai/Auto-GAS)\n* [Auto-DAS: Automated Proxy Discovery for Training-free Distillation-aware Architecture Search](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00676.pdf)\u003cbr\u003e:star:[code](https://github.com/lliai/Auto-DAS)蒸馏感\n* [SuperFedNAS: Cost-Efficient Federated Neural Architecture Search for On-Device Inference](https://arxiv.org/abs/2301.10879)\n* [Dependency-aware Differentiable Neural Architecture Search](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07216.pdf)\n\n\u003ca name=\"25\"/\u003e\n\n## 25.MC/KD/Pruning(模型压缩/知识蒸馏/剪枝)\n* [DεpS: Delayed ε-Shrinking for Faster Once-For-All Training](http://arxiv.org/abs/2407.06167v1)\n* 模型压缩\n  * [Clean \u0026 Compact: Efficient Data-Free Backdoor Defense with Model Compactness](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07761.pdf)\n* 剪枝\n  * [Non-transferable Pruning](https://arxiv.org/abs/2410.08015)\n  * [Straightforward Layer-wise Pruning for More Efficient Visual Adaptation](http://arxiv.org/abs/2407.14330v1)\n  * [Isomorphic Pruning for Vision Models](https://arxiv.org/abs/2407.04616)\u003cbr\u003e:star:[code](https://github.com/VainF/Isomorphic-Pruning)\n  * [LPViT: Low-Power Semi-structured Pruning for Vision Transformers](https://arxiv.org/abs/2407.02068)\n  * [PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference](https://arxiv.org/abs/2403.16020)\u003cbr\u003e:star:[code](https://github.com/tanvir-utexas/PaPr)剪\n  * [Enhanced Sparsification via Stimulative Training](https://arxiv.org/abs/2403.06417)\u003cbr\u003e:star:[code](https://github.com/tsj-001/STP)\n  * [SNP: Structured Neuron-level Pruning to Preserve Attention Scores](https://arxiv.org/abs/2404.11630)\u003cbr\u003e:star:[code](https://github.com/Nota-NetsPresso/SNP)\n* 量化\n  * [GenQ: Quantization in Low Data Regimes with Generative Synthetic Data](https://arxiv.org/abs/2312.05272v2)\u003cbr\u003e:star:[code](https://github.com/Intelligent-Computing-Lab-Yale/GenQ)\n  * [MetaAug: Meta-Data Augmentation for Post-Training Quantization](http://arxiv.org/abs/2407.14726v1)\n  * [Toward INT4 Fixed-Point Training via Exploring Quantization Error for Gradients](http://arxiv.org/abs/2407.12637v1)\n  * [CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs](http://arxiv.org/abs/2407.05266v1)\u003cbr\u003e:star:[code](https://github.com/georgia-tech-synergy-lab/CLAMP-ViT.git)\n  * [AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer](http://arxiv.org/abs/2407.12951v1)\u003cbr\u003e:star:[code](https://github.com/GoatWu/AdaLog)\n  * [POCA: Post-training Quantization with Temporal Alignment for Codec Avatars](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05670.pdf)\u003cbr\u003e:house:[project](https://mengjian0502.github.io/poca.github.io/)量化\n* KD\n  * [Simple Unsupervised Knowledge Distillation With Space Similarity](https://arxiv.org/abs/2409.13939)知识蒸馏\n  * [Direct Distillation between Different Domains](https://arxiv.org/abs/2401.06826)KD\n  * [Harmonizing knowledge Transfer in Neural Network with Unified Distillation](https://arxiv.org/abs/2409.18565)\n  * [Good Teachers Explain: Explanation-Enhanced Knowledge Distillation](https://arxiv.org/abs/2402.03119)\n  * [The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers](https://arxiv.org/abs/2302.10494)\n  * [Improving Knowledge Distillation via Regularizing Feature Direction and Norm](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03432.pdf)\n  * [Adversarially Robust Distillation by Reducing the Student-Teacher Variance Gap](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00499.pdf)蒸馏\n  * [Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation](https://arxiv.org/abs/2407.03056)\u003cbr\u003e:star:[code](https://github.com/miccunifi/KDPL)\n  * [UNIKD: UNcertainty-Filtered Incremental Knowledge Distillation for Neural Implicit Representation](https://arxiv.org/abs/2212.10950)\u003cbr\u003e:star:[code](https://github.com/dreamguo/UNIKD)\n  * [BKDSNN: Enhancing the Performance of Learning-based Spiking Neural Networks Training with Blurred Knowledge Distillation](https://arxiv.org/abs/2407.09083)\n  * [Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation](https://arxiv.org/abs/2405.11614)\n  * [How to Train the Teacher Model for Effective Knowledge Distillation](https://arxiv.org/abs/2407.18041)\n  * [Markov Knowledge Distillation: Make Nasty Teachers trained by Self-undermining Knowledge Distillation Fully Distillable](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/12478.pdf)\n\n\u003ca name=\"24\"/\u003e\n\n## 24.Vision Transformer\n* [Spline-based Transformers](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11525.pdf)\n* [Denoising Vision Transformers](https://arxiv.org/abs/2401.02957)\n* [FairViT: Fair Vision Transformer via Adaptive Masking](http://arxiv.org/abs/2407.14799v1)\n* [Rotary Position Embedding for Vision Transformer](https://arxiv.org/abs/2403.13298)\u003cbr\u003e:star:[code](https://github.com/naver-ai/rope-vit)\n* [Bidirectional Progressive Transformer for Interaction Intention Anticipation](https://arxiv.org/abs/2405.05552)\n* [Robustness Tokens: Towards Adversarial Robustness of Transformers](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07642.pdf)\n* [SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization](https://arxiv.org/abs/2402.03317)\u003cbr\u003e:star:[code](https://github.com/microsoft/robustlearn)\n* [PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers](http://arxiv.org/abs/2407.04538v1)\n* [OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction](http://arxiv.org/abs/2407.13335v1)\u003cbr\u003e:star:[code](https://github.com/HKUST-NISL/oat_eccv24)\n* [AugDETR: Improving Multi-scale Learning for Detection Transformer](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03484.pdf)Transformer\n* [AttnZero: Efficient Attention Discovery for Vision Transformers](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00666.pdf)\u003cbr\u003e:star:[code](https://github.com/lliai/AttnZero)\n* [SpatialFormer: Towards Generalizable Vision Transformers with Explicit Spatial Understanding](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02019.pdf)\u003cbr\u003e:star:[code](https://github.com/Euphoria16/SpatialFormer)\n* [Efficient Vision Transformers with Partial Attention](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11047.pdf)\n* [SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers](https://arxiv.org/abs/2401.08740)\u003cbr\u003e:star:[code](https://github.com/willisma/SiT)\n* [Stitched ViTs are Flexible Vision Backbones](https://arxiv.org/abs/2307.00154)\u003cbr\u003e:star:[code](https://github.com/ziplab/SN-Netv2)\n* [Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02429.pdf)\n* [Uncertainty-Driven Spectral Compressive Imaging with Spatial-Frequency Transformer](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00861.pdf)\u003cbr\u003e:star:[code](https://github.com/bianlab/Specformer)\n* [GiT: Towards Generalist Vision Transformer through Universal Language Interface](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/04158.pdf)\u003cbr\u003e:star:[code](https://github.com/Haiyang-W/GiT)\n* [An Optimal Control View of LoRA and Binary Controller Design for Vision Transformers](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/06958.pdf)\n* [Fairness-aware Vision Transformer via Debiased Self-Attention](https://arxiv.org/abs/2301.13803)\u003cbr\u003e:star:[code](https://github.com/qiangyao1988/DSA)\n* [ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention](https://arxiv.org/abs/2401.00912)\u003cbr\u003e:star:[code](https://github.com/skyhehe123/ScatterFormer)\n* [LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors](https://arxiv.org/abs/2403.14625)\u003cbr\u003e:house:[project](https://www.cs.umd.edu/~sakshams/LiFT/)\n* [Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach](http://arxiv.org/abs/2407.06964v1)\u003cbr\u003e:house:[project](https://synqt.github.io/)\n* [LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer](https://arxiv.org/abs/2212.09877)\u003cbr\u003e:star:[code](https://github.com/salesforce/LayoutDETR)\n* [Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators](https://arxiv.org/abs/2408.05710)\u003cbr\u003e:star:[code](https://github.com/LeapLabTHU/Attention-Mediators)\n* [BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos](https://arxiv.org/abs/2312.00083)\u003cbr\u003e:star:[code](https://github.com/Pilhyeon/BAM-DETR)\n* [An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding](http://arxiv.org/abs/2408.01120v1)\u003cbr\u003e:star:[code](https://github.com/chenwei746/EEVG)\n\n\u003ca name=\"23\"/","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F52cv%2Feccv-2024-papers","html_url":"https://awesome.ecosyste.ms/projects/github.com%2F52cv%2Feccv-2024-papers","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F52cv%2Feccv-2024-papers/lists"}