{"id":20339272,"url":"https://github.com/encounter1997/awesome-vision-transformers-plus","last_synced_at":"2026-03-09T04:32:37.383Z","repository":{"id":158022769,"uuid":"334564006","full_name":"encounter1997/awesome-vision-transformers-plus","owner":"encounter1997","description":null,"archived":false,"fork":false,"pushed_at":"2021-02-02T08:26:42.000Z","size":5,"stargazers_count":8,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"master","last_synced_at":"2025-11-06T06:01:57.242Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/encounter1997.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null}},"created_at":"2021-01-31T03:27:50.000Z","updated_at":"2024-09-23T11:17:32.000Z","dependencies_parsed_at":"2024-01-31T09:09:55.551Z","dependency_job_id":"b72baf40-268d-4612-a664-0201bc2efac2","html_url":"https://github.com/encounter1997/awesome-vision-transformers-plus","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/encounter1997/awesome-vision-transformers-plus","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/encounter1997%2Fawesome-vision-transformers-plus","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/encounter1997%2Fawesome-vision-transformers-plus/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/encounter1997%2Fawesome-vision-transformers-plus/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/encounter1997%2Fawesome-vision-transformers-plus/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/encounter1997","download_url":"https://codeload.github.com/encounter1997/awesome-vision-transformers-plus/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/encounter1997%2Fawesome-vision-transformers-plus/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":30283424,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-03-09T02:57:19.223Z","status":"ssl_error","status_checked_at":"2026-03-09T02:56:26.373Z","response_time":61,"last_error":"SSL_read: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-14T21:16:07.694Z","updated_at":"2026-03-09T04:32:37.364Z","avatar_url":"https://github.com/encounter1997.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# awesome-vision-transformers-plus\n\u003e A curated list of  papers linked to research based on self-attention for computer vision tasks, \n\u003e built on [awesome-transformer-for-vision](https://github.com/lijiaman/awesome-transformer-for-vision)\n\n## Contents\n\n- [Papers and Resources](#papers-and-resources)\n\t- [Transformer](#papers-transformer)\n\t- [Self-attention Augmented CNNs](#self-attention-augmented-cnns)\n\t- [Early Attempts](#papers-early)\n\t- [2D Vision Tasks](#papers-2d)\n\t\t- [Classification](#papers-classification)\n\t\t- [Detection](#papers-detection)\n\t\t- [Segmentation](#papers-segmentation)\n\t\t- [Tracking](#papers-tracking)\n\t\t- [Image Synthesis](#papers-image-generation)\n\t\t- [Image Processing](#papers-image-processing)\n\t\t- [Action Understanding](#papers-action)\n\t- [3D Vision Tasks](#papers-3d)\n\t\t- [Point Cloud Processing](#papers-point-cloud)\n\t\t- [Motion Modeling](#papers-motion)\n\t\t- [Human Body Modeling](#papers-body)\n\t- [Theory](#papers-theory)\n\t- [Survey](#papers-survey)\n\t- [Others](#papers-others)\n\n\n\u003ca name=\"papers-and-resources\"\u003e\u003c/a\u003e\n\n# Papers and Resources\n\n\u003ca name=\"papers-transformer\"\u003e\u003c/a\u003e\n\n## Transformer\n\n[Attention Is All You Need](https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf). Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. NeurIPS 2017.\n\n[The Annotated Transformer](http://nlp.seas.harvard.edu/2018/04/03/attention.html)\n\n[The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/)\n\n\n\u003ca name=\"self-attention-augmented-cnns\"\u003e\u003c/a\u003e\n## Self-attention Augmented CNNs\n[Non-local Neural Networks](https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf). Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He. CVPR 2018.\n\n[GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond](https://openaccess.thecvf.com/content_ICCVW_2019/papers/NeurArch/Cao_GCNet_Non-Local_Networks_Meet_Squeeze-Excitation_Networks_and_Beyond_ICCVW_2019_paper.pdf). Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu. ICCVW 2019.\n\n[CCNet: Criss-Cross Attention for Semantic Segmentation](https://openaccess.thecvf.com/content_ICCV_2019/papers/Huang_CCNet_Criss-Cross_Attention_for_Semantic_Segmentation_ICCV_2019_paper.pdf). Zilong Huang, Xinggang Wang, Yunchao Wei, Lichao Huang, Humphrey Shi, Wenyu Liu, Thomas S. Huang. ICCV 2019.\n\n[An Empirical Study of Spatial Attention Mechanisms in Deep Networks](https://openaccess.thecvf.com/content_ICCV_2019/papers/Zhu_An_Empirical_Study_of_Spatial_Attention_Mechanisms_in_Deep_Networks_ICCV_2019_paper.pdf). Xizhou Zhu, Dazhi Cheng, Zheng Zhang, Stephen Lin, Jifeng Dai. ICCV 2019.\n\n\n[Attention Augmented Convolutional Networks](https://openaccess.thecvf.com/content_ICCV_2019/papers/Bello_Attention_Augmented_Convolutional_Networks_ICCV_2019_paper.pdf). Irwan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlens, Quoc V. Le. ICCV 2019.\n\n[Disentangled Non-Local Neural Networks](https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600188.pdf). Minghao Yin, Zhuliang Yao, Yue Cao, Xiu Li, Zheng Zhang, Stephen Lin, Han Hu. ECCV 2020.\n\n\u003ca name=\"papers-early\"\u003e\u003c/a\u003e\n## Early Attempts\n\n\n[Local Relation Networks for Image Recognition](https://openaccess.thecvf.com/content_ICCV_2019/papers/Hu_Local_Relation_Networks_for_Image_Recognition_ICCV_2019_paper.pdf). Han Hu, Zheng Zhang, Zhenda Xie, Stephen Lin. ICCV 2019.\n\n[Stand-Alone Self-Attention in Vision Models](https://papers.nips.cc/paper/2019/file/3416a75f4cea9109507cacd8e2f2aefc-Paper.pdf). Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens. NIPS 2019.\n\n\n[Exploring Self-attention for Image Recognition](https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhao_Exploring_Self-Attention_for_Image_Recognition_CVPR_2020_paper.pdf). Hengshuang Zhao, Jiaya Jia, Vladlen Koltun. CVPR 2020.\n\n[Axial Attention in Multidimensional Transformers](https://arxiv.org/pdf/1912.12180). Jonathan Ho, Nal Kalchbrenner, Dirk Weissenborn, Tim Salimans. Arxiv 2019.\n\n\n\n\n\n\n\n\u003ca name=\"papers-2d\"\u003e\u003c/a\u003e\n## 2D Vision Tasks\n\n\u003ca name=\"papers-classification\"\u003e\u003c/a\u003e\n### Classification\n\n[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale](https://arxiv.org/pdf/2010.11929.pdf). Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. ICLR 2021. \n\n[Training data-efficient image transformers \u0026 distillation through attention](https://arxiv.org/pdf/2012.12877). Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. Arxiv 2020.\n\n[Bottleneck Transformers for Visual Recognition](https://arxiv.org/pdf/2101.11605). Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani. Arxiv 2021.\n\n[Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet](https://arxiv.org/pdf/2101.11986). Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, Shuicheng Yan. Arxiv 2021.\n\n\u003ca name=\"papers-detection\"\u003e\u003c/a\u003e\n### Detection\n\n[Toward Transformer-Based Object Detection](https://arxiv.org/pdf/2012.09958.pdf). Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, Andrew Zhai, Dmitry Kislyuk. Arxiv 2020.\n\n[Rethinking Transformer-based Set Prediction for Object Detection](https://arxiv.org/pdf/2011.10881.pdf). Zhiqing Sun, Shengcao Cao, Yiming Yang, Kris Kitani. Arxiv 2020.\n\n[End-to-End Object Detection with Transformers](https://arxiv.org/pdf/2005.12872.pdf). Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. ECCV 2020.\n\n[Deformable DETR: Deformable Transformers for End-to-End Object Detection](https://arxiv.org/pdf/2010.04159.pdf). Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. ICLR 2021. \n\n[UP-DETR: Unsupervised Pre-training for Object Detection with Transformers](https://arxiv.org/pdf/2011.09094.pdf). Zhigang Dai, Bolun Cai, Yugeng Lin, Junying Chen. Arxiv 2020.\n\n[End-to-End Object Detection with Adaptive Clustering Transformer](https://arxiv.org/pdf/2011.09315). Minghang Zheng, Peng Gao, Xiaogang Wang, Hongsheng Li, Hao Dong. Arxiv 2020. \n\n[Fast Convergence of DETR with Spatially Modulated Co-Attention](https://arxiv.org/pdf/2101.07448.pdf). Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li. Arxiv 2021.\n\n\n\n\n\n\u003ca name=\"papers-segmentation\"\u003e\u003c/a\u003e\n### Segmentation\n[Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation](https://arxiv.org/abs/2003.07853). Huiyu Wang, Yukun Zhu, Bradley Green, Hartwig Adam, Alan Yuille, Liang-Chieh Chen. ECCV 2020.\n\n[Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers](https://arxiv.org/pdf/2012.15840.pdf). Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang. Arxiv 2020.\n\n[End-to-End Video Instance Segmentation with Transformers](https://arxiv.org/pdf/2011.14503.pdf). Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia. Arxiv 2020.\n\n[SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation](https://arxiv.org/pdf/2101.08833). Brendan Duke, Abdalla Ahmed, Christian Wolf, Parham Aarabi, Graham W. Taylor. Arxiv 2021.\n\n\u003ca name=\"papers-tracking\"\u003e\u003c/a\u003e\n### Tracking \n\n[TransTrack: Multiple-Object Tracking with Transformer](https://arxiv.org/pdf/2012.15460.pdf). Peize Sun, Yi Jiang, Rufeng Zhang, Enze Xie, Jinkun Cao, Xinting Hu, Tao Kong, Zehuan Yuan, Changhu Wang, Ping Luo. Arxiv 2020.\n\n\u003ca name=\"papers-image-generation\"\u003e\u003c/a\u003e\n### Image Generation\n\n[Image Transformer](https://arxiv.org/pdf/1802.05751). Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Łukasz Kaiser, Noam Shazeer, Alexander Ku, Dustin Tran. ICML 2018.\n\n[Taming Transformers for High-Resolution Image Synthesis](https://arxiv.org/pdf/2012.09841.pdf). Patrick Esser, Robin Rombach, Bjorn Ommer. Arxiv 2020.\n\n\u003ca name=\"papers-image-processing\"\u003e\u003c/a\u003e\n### Image Processing\n\n[Learning Texture Transformer Network for Image Super-Resolution](https://arxiv.org/pdf/2006.04139). Fuzhi Yang, Huan Yang, Jianlong Fu, Hongtao Lu, Baining Guo. CVPR 2020.\n\n[Learning Joint Spatial-Temporal Transformations for Video Inpainting](https://arxiv.org/pdf/2007.10247). Yanhong Zeng, Jianlong Fu, Hongyang Chao. ECCV 2020.\n\n[Colorization Transformer](https://openreview.net/pdf?id=5NA1PinlGFu). Manoj Kumar, Dirk Weissenborn, Nal Kalchbrenner. ICLR 2021.\n\n[Pre-Trained Image Processing Transformer](https://arxiv.org/pdf/2012.00364). Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, Wen Gao. Arxiv 2020.\n\n\n\u003ca name=\"papers-action\"\u003e\u003c/a\u003e\n### Action Understanding\n\n[Video Action Transformer Network](https://arxiv.org/pdf/1812.02707.pdf). Rohit Girdhar, Joao Carreira, Carl Doersch, Andrew Zisserman. CVPR 2019.\n\n[Video Transformer Network](https://arxiv.org/pdf/2102.00719.pdf). Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann. Arxiv 2021.\n\n\n\u003ca name=\"papers-3d\"\u003e\u003c/a\u003e\n## 3D Vision Tasks\n\n\u003ca name=\"papers-point-cloud\"\u003e\u003c/a\u003e\n### Point Cloud Processing\n\n[PCT: Point Cloud Transformer](https://arxiv.org/pdf/2012.09688.pdf). Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu. Arxiv 2020.\n\n[Point Transformer](https://arxiv.org/pdf/2012.09164.pdf). Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun. Arxiv 2020.\n\n\u003ca name=\"papers-motion\"\u003e\u003c/a\u003e\n### Motion Modeling\n\n[Learning to Generate Diverse Dance Motions with Transformer](https://arxiv.org/pdf/2008.08171.pdf). Jiaman Li, Yihang Yin, Hang Chu, Yi Zhou, Tingwu Wang, Sanja Fidler, Hao Li. Arxiv 2020.\n\n[A Spatio-temporal Transformer for 3D Human Motion Prediction](https://arxiv.org/pdf/2004.08692.pdf). Emre Aksan, Peng Cao, Manuel Kaufmann, Otmar Hilliges. Arxiv 2020.\n\n\u003ca name=\"papers-body\"\u003e\u003c/a\u003e\n### Human Body Modeling\n\n[End-to-End Human Pose and Mesh Reconstruction with Transformers](https://arxiv.org/pdf/2012.09760.pdf). Kevin Lin, Lijuan Wang, Zicheng Liu. Arxiv 2020.\n\n\n\u003ca name=\"papers-theory\"\u003e\u003c/a\u003e\n## Theory\n\n[On the Relationship between Self-Attention and Convolutional Layers](https://openreview.net/pdf?id=HJlnC1rKPB). Jean-Baptiste Cordonnier, Andreas Loukas, Martin Jaggi. ICLR 2020.\n\n\n\u003ca name=\"papers-survey\"\u003e\u003c/a\u003e\n## Survey\n\n[A Survey on Visual Transformer](https://arxiv.org/pdf/2012.12556). Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, Zhaohui Yang, Yiman Zhang, Dacheng Tao. Arxiv 2020.\n\n[Transformers in Vision: A Survey](https://arxiv.org/pdf/2101.01169). Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah. Arxiv 2021.\n\n\n\n\u003ca name=\"papers-others\"\u003e\u003c/a\u003e\n## Others\n\n[Music Transformer: Generating Music with Long-Term Structure](https://arxiv.org/pdf/1809.04281.pdf). Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Ian Simon, Curtis Hawthorne, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, Douglas Eck. ICLR 2019. \n\n[Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers](https://arxiv.org//pdf/2102.00529). Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, Aida Nematzadeh. Arxiv 2021.\n\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fencounter1997%2Fawesome-vision-transformers-plus","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fencounter1997%2Fawesome-vision-transformers-plus","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fencounter1997%2Fawesome-vision-transformers-plus/lists"}