awesome-self-supervised-multimodal-learning

[T-PAMI] A curated list of self-supervised multimodal learning resources.
https://github.com/ys-zong/awesome-self-supervised-multimodal-learning

Last synced: 4 days ago
JSON representation

Applications
- Healthcare
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper - group/CoMIR)
  - [paper - pytorch)
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
- State Representation Learning
  - [paper
  - [paper
  - [paper - action-conditional-video-prediction)
  - [paper
  - [paper - research/planet)
  - [paper
  - [paper - forward-model)
- Remote Sensing
  - [paper
  - [paper
  - [paper
  - [paper - supervised_change_detetction)
  - [paper
  - [paper
- Machine Translation
  - [paper - machine-translation-using-monolingual-corpora-only-pytorch)
  - [paper
  - [paper - grounding)
  - [paper
  - [paper
- Auto-driving
  - [paper
  - [paper
  - [paper
  - [paper - distill.cs.uni-freiburg.de/)
  - [paper
- Robotics
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
Summary of Common Multimodal Datasets
- Image-Text Datasets
  - Link - xirong/flickr8kcn)|
  - Github
  - Link - vcr)|
  - Details - ml/SNLI-VE)|[Github](https://github.com/necla-ml/SNLI-VE)|
  - Link
  - Link
  - Link - caption)|
  - Link - |
  - Link
  - Link
  - Link - |
  - Link
  - Link - research-datasets/conceptual-captions)|
  - Link
  - Link - |
  - Link - |
  - Link - |
  - Link - Med-2019)|
  - Link
  - Link - lab/nlvr)|
  - Link - |
  - Link
  - Link
- Image-Text-Audio Datasets
  - Link - narratives)|
  - Link
- Video-Text Datasets
  - Link - Release)|
  - Link
  - Link
  - Link - video-captioning-pytorch)|
  - Link
  - Link - xw/Video-guided-Machine-Translation)|
  - Link - YouCook2)|
  - Link
  - Link - vtt-it)|
  - Link - |
  - Link - |
  - Link - dataset/annotations)|
  - Link - |
  - Link
- Video-Audio Datasets
  - Link - of-Pixels)|
  - Link
  - Link - morgado/spatialaudiogen)|
  - Link
  - Link - to-Listen-at-the-Cocktail-Party)|
  - Link - |
  - Link - ECCV18)|
  - Link - Perceptual-Computing-Lab/openpose)|
  - Link
  - Link - |
- Point Cloud Datasets
  - Link - vgd/scanobjectnn)|
  - Link
  - Link - |
- Image-Ridar Datasets
  - Link - |
  - Link - devkit)|
  - Link - kitti-api)|
Objectives
- Masked Prediction
  - [paper - ai/models/tree/master/research/mm/opt)
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper - io-inference)
  - [paper - beit)
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
- Instance Discrimination
  - [paper
  - [paper - research/tree/master/mmv)
  - [paper - NCE_HowTo100M)
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper - research/big_vision)
  - [paper
  - [paper
  - [paper
  - [paper - science/crossmodal-contrastive-learning)
  - [paper
  - [paper
  - [paper - research/google-research/tree/master/vatt)
  - [paper
  - [paper - morgado/AVSpatialAlignment)
  - [paper
  - [paper
  - [paper - Part-of-Speech-Embeddings)
  - [paper
  - [paper
  - [paper
  - [paper - CMA)
  - [paper
  - [paper
  - [paper
  - [paper - of-Pixels)
  - [paper
  - [paper
  - [paper
- Clustering
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper - label)
- Hybrid
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper - multi-task)
  - [paper
  - [paper
  - [paper - bug/mpre-unmasked)
  - [paper
  - [paper
  - [paper - Clustering-Network)
  - [paper - videotext)
  - [paper
Related Survey Papers
- [paper
- [paper
- [paper
- [paper
- [paper
- [paper
- [paper
- [paper
Challenges
- Resources
  - [paper
  - [paper - Neural-Scaling)
  - [paper - GVT/DeCLIP)
- Robustness/Fairness
  - [paper - language-models-are-bows)
  - [paper
  - [paper - ood)
  - [paper - jia/BadEncoder)
  - [paper - science/multimodal-robustness)
  - [paper
  - [paper
  - [paper - Liang/Modality-Gap)
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper
  - [paper

Programming Languages

Python 9 HTML 1 Jupyter Notebook 1

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

awesome-self-supervised-multimodal-learning

Applications

Healthcare

State Representation Learning

Remote Sensing

Machine Translation

Auto-driving

Robotics

Summary of Common Multimodal Datasets

Image-Text Datasets

Image-Text-Audio Datasets

Video-Text Datasets

Video-Audio Datasets

Point Cloud Datasets

Image-Ridar Datasets

Objectives

Masked Prediction

Instance Discrimination

Clustering

Hybrid

Challenges

Resources

Robustness/Fairness

awesome-self-supervised-multimodal-learning

Applications

Healthcare

State Representation Learning

Remote Sensing

Machine Translation

Auto-driving

Robotics

Summary of Common Multimodal Datasets

Image-Text Datasets

Image-Text-Audio Datasets

Video-Text Datasets

Video-Audio Datasets

Point Cloud Datasets

Image-Ridar Datasets

Objectives

Masked Prediction

Instance Discrimination

Clustering

Hybrid

Related Survey Papers

Challenges

Resources

Robustness/Fairness