awesome-multimodal-ml

Reading list for research topics in multimodal machine learning
https://github.com/pliang279/awesome-multimodal-ml

Last synced: 1 day ago
JSON representation

Course content + workshops
- Tutorials on Multimodal Machine Learning - multicomp-lab.github.io/mmml-tutorial/schedule/).
- 11-877 Advanced Topics in Multimodal Machine Learning - based. We plan to post discussion probes, relevant papers, and summarized discussion highlights every week on the website.
- 11-777 Multimodal Machine Learning
Survey Papers
Core Areas
Architectures
- Multimodal Transformers
  - Pretrained Transformers As Universal Computation Engines
  - PolyViT: Co-training Vision Transformers on Images, Videos and Audio
  - VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text - research/google-research/tree/master/vatt)
  - Parameter Efficient Multimodal Transformers for Video Representation Learning - vision/avbert)
- Multimodal Memory
Applications and Datasets

Categories

Applications and Datasets 341 Core Areas 149 Survey Papers 89 Architectures 10 Course content + workshops 3

Sub Categories

Multimodal Content Generation 55 Human AI Interaction 50 Multimodal Representations 33 Language and Visual QA 28 Language Grounding in Vision 24 Language Grouding in Navigation 22 Multimodal Machine Translation 22 Multimodal Fusion 21 Media Description 21 Healthcare 16 Multi-agent Communication 15 Robotics 14 Audio and Visual 14 Multimodal Reinforcement Learning 12 Affect Recognition and Multimodal Language 12 Language and Audio 11 Multimodal Pretraining 10 Generative Learning 10 Bias and Fairness 9 Multimodal Dialog 7 Multimodal Alignment 7 Knowledge Graphs and Knowledge Bases 6 Commonsense Reasoning 6 Multimodal Memory 6 Multimodal Translation 6 Crossmodal Retrieval 5 Analysis of Multimodal Models 5 Self-supervised Learning 5 Missing or Imperfect Modalities 5 Semi-supervised Learning 4 Finance 4 Multimodal Co-learning 4 Few-Shot Learning 4 Multimodal Transformers 4 Intepretable Learning 4 Language Models 4 Human in the Loop Learning 4 Video Generation from Text 3 Autonomous Driving 3 Adversarial Attacks 3 Visual, IMU and Wireless 2