awesome-Vision-and-Language-Pre-training

Recent Advances in Vision and Language Pre-training (VLP)
https://github.com/phellonchen/awesome-Vision-and-Language-Pre-training

Last synced: 2 days ago
JSON representation

Representation Learning
Task-specific
- Text-Image Retrieval
- Image Caption
  - XGPT: Cross-modal Generative Pre-Training for Image Captioning
- VQA
  - Fusion of Detected Objects in Text for Visual Question Answering - research/language/tree/master/language/question_answering/b2t2), (**B2T2**)
  - Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
  - BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations
  - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation
  - STL-CQA: Structure-based Transformers with Localization and Encoding for Chart Question Answering
- Visual Dialog
  - VD-BERT: A Unified Vision and Dialog Transformer with BERT - BERT), (**VD-BERT**)
  - Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline - bert), (**VisDial-BERT**)
  - UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog
- Visual Language Navigation
  - Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training
- Visual Machine Reading Comprehension
  - VisualMRC: Machine Reading Comprehension on Document Images
- Other Tasks
  - Visual Relationship Detection With Visual-Linguistic Knowledge From Multimodal Representations
Other Analysis
- Other Tasks
Table of Contents
- VLP: A Survey on Vision-Language Pre-training

Programming Languages

Python 1 Jupyter Notebook 1

Categories

Representation Learning 52 Other Analysis 44 Task-specific 17 Table of Contents 1

Sub Categories

Other Tasks 45 VQA 5 Text-Image Retrieval 5 Visual Dialog 3 Image Caption 1 Visual Machine Reading Comprehension 1 Visual Language Navigation 1

Keywords

vision-and-language 4 bert 2 representation-learning 2 multimodal-learning 2 iclr2020 1 pre-training 1 pytorch 1 self-supervised-learning 1 vl-bert 1 multimodal 1 retrieval 1 computer-vision 1 deep-learning 1 healthcare 1 machine-learning 1 natural-language-processing 1 reading-list 1 reinforcement-learning 1 robotics 1 speech-processing 1 awesome 1 awesome-list 1 multimodal-deep-learning 1 pretraining 1 vl-ptms 1