An open API service indexing awesome lists of open source software.

https://github.com/sadevans/preprocess_mtedx


https://github.com/sadevans/preprocess_mtedx

Last synced: 3 months ago
JSON representation

Awesome Lists containing this project

README

        

# Подготовка датасета mTEdx-ru для обучения модели AUTO-AVSR

# Шаг 1. Загрузка датасета

Для того, чтобы скачать датасет, необходимо запустить файл `download.py` с некоторыми аргументами:

```bash
python3 download.py --dataset mtedx --root-path your/path/to/download/folder --src-lang ru
```
Обязательные аргументы:
- `--dataset` - название датасета
- `--root-path` - путь до местоположения загрузки датасета
- `--src-lang` - язык датасета

Необязательные аргументы:
- `--download` - требуется ли загрузка сжатого датасета. По умолчанию - True, однако если у вас уже скачан датасет, и вы хотите скачать только видео - передайте `--download 0`
- `--num-workers` - количество параллельных процессов

# Шаг 2. Предобработка датасета для обрезки видео
python prepare_mtedx.py --root-dir "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx/ru-ru/preproc" --dataset "mtedx_ru" --downloaded-path "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx" --seg-duration 24 --src-lang "ru"

# Шаг 3. Обрезка ROI губ

# Шаг 4. Создание SentencePiece модели