awesome-diarization

A curated list of awesome Speaker Diarization papers, libraries, datasets, and other resources.
https://github.com/wq2012/awesome-diarization

Last synced: 17 days ago
JSON representation

Datasets
- Augmentation noise sources
  - AudioSet - scale dataset of manually annotated audio events. |
  - MUSAN
- Diarization datasets
  - 2000 NIST Speaker Recognition Evaluation - 6 (Switchboard)](https://github.com/google/speaker-id/tree/master/publications/LstmDiarization/evaluation/NIST_SRE2000/Disk6_ground_truth), [Disk-8 (CALLHOME)](https://github.com/google/speaker-id/tree/master/publications/LstmDiarization/evaluation/NIST_SRE2000/Disk8_ground_truth) | Multiple | $2400.00 | [Evaluation Plan](https://www.nist.gov/sites/default/files/documents/2017/09/26/spk-2000-plan-v1.0.htm_.pdf) |
  - 2003 NIST Rich Transcription Evaluation Data
  - CALLHOME American English Speech - id/blob/master/publications/LstmDiarization/evaluation/CALLHOME_American_English/ch109_whitelist.txt) |
  - The ICSI Meeting Corpus
  - The AMI Meeting Corpus
  - Fisher English Training Speech Part 1 Speech
  - Fisher English Training Part 2, Speech
  - VoxConverse - visual diarisation dataset consisting of over 50 hours of multispeaker clips of human speech, extracted from YouTube videos |
  - The AliMeeting Corpus
  - The AMI Meeting Corpus
  - The ICSI Meeting Corpus
- Speaker embedding training sets
  - TIMIT
  - VCTK
  - LibriSpeech - scale (1000 hours) corpus of read English speech. |
  - Multilingual LibriSpeech (MLS) - English, German, Dutch, Spanish, French, Italian, Portuguese, Polish. |
  - LibriVox
  - The Spoken Wikipedia Corpora
  - BookTubeSpeech - videos where people share their opinions on books - from YouTube. The dataset can be downloaded using [BookTubeSpeech-download](https://github.com/wq2012/BookTubeSpeech-download). |
  - DeepMine
  - Multilingual LibriSpeech (MLS) - English, German, Dutch, Spanish, French, Italian, Portuguese, Polish. |
  - NISP-Dataset
  - VoxBlink2 - NC-SA 4.0 | Multilingual dataset from [VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark](https://arxiv.org/abs/2407.11510) |
  - VoxCeleb 1&2 - visual dataset consisting of short clips of human speech, extracted from interview videos uploaded to YouTube. |
  - DeepMine
Other learning materials
Products
- Video tutorials
  - Recorder app
  - Google Cloud Speech-to-Text API
  - Watson Speech To Text API
  - Speaker Diarization API
  - Tingwu (听悟)
  - Azure Conversation Transcription API
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Recorder app
  - Kviskr - macOS app for meeting transcription with speaker diarization, using Whisper.cpp and Pyannote on CoreML |
  - Recorder app
  - Amazon Transcribe
  - Tingwu (听悟)
  - Kviskr - macOS app for meeting transcription with speaker diarization, using Whisper.cpp and Pyannote on CoreML |
  - OATS - open-source macOS app for meeting transcription and notes with speaker diarization and optional fully offline mode |
  - Azure Conversation Transcription API
Publications
- Other

Programming Languages

Python 22 C++ 3 Rust 1 Shell 1 Swift 1 Cuda 1 Jupyter Notebook 1

Categories

Publications 84 Other learning materials 78 Software 67 Products 66 Datasets 26 Star History 2

Sub Categories

Video tutorials 75 Tech blogs 69 Other 51 Special topics 33 Framework 23 Speaker embedding 15 Speaker embedding training sets 13 Diarization datasets 11 Clustering 9 Evaluation 8 Audio data augmentation 5 Other software 3 Augmentation noise sources 2 Speaker change detection 2 Audio feature extraction 2 Books 1 Online courses 1

Keywords

speaker-diarization 8 audio 5 speaker-recognition 5 pytorch 5 speaker-verification 4 asr 4 speech-to-text 4 diarization 4 python 4 macos 3 deep-learning 3 acoustics 3 voice-activity-detection 3 room-impulse-response 2 tensorflow 2 speaker-identification 2 speech-recognition 2 speech-processing 2 ios 2 speaker-embedding 2 machine-learning 2 vad 2 signal-processing 2 image-source-model 2 arm32 1 cpp 1 paraformer 1 csharp 1 dfsmn 1 dotnet 1 conformer 1 audio-visual-speech-recognition 1 windows 1 lazarus 1 vits 1 linux 1 risc-v 1 mfc 1 object-pascal 1 onnx 1 text-to-speech 1 raspberry-pi 1 dsp 1 librosa 1 music 1 scipy 1 audio-analysis-tasks 1 audio-data 1 pyaudioanalysis 1 audio-processing 1

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

awesome-diarization

Datasets

Augmentation noise sources

Diarization datasets

Speaker embedding training sets

Other learning materials

Books

Online courses

Tech blogs

Video tutorials

Products

Video tutorials

Publications

Other