https://github.com/sadevans/preprocess_mtedx
https://github.com/sadevans/preprocess_mtedx
Last synced: 3 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/sadevans/preprocess_mtedx
- Owner: sadevans
- Created: 2024-02-20T19:37:58.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-06-13T04:05:34.000Z (12 months ago)
- Last Synced: 2025-01-19T00:46:31.315Z (5 months ago)
- Language: Python
- Size: 32.5 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Подготовка датасета mTEdx-ru для обучения модели AUTO-AVSR
# Шаг 1. Загрузка датасета
Для того, чтобы скачать датасет, необходимо запустить файл `download.py` с некоторыми аргументами:
```bash
python3 download.py --dataset mtedx --root-path your/path/to/download/folder --src-lang ru
```
Обязательные аргументы:
- `--dataset` - название датасета
- `--root-path` - путь до местоположения загрузки датасета
- `--src-lang` - язык датасетаНеобязательные аргументы:
- `--download` - требуется ли загрузка сжатого датасета. По умолчанию - True, однако если у вас уже скачан датасет, и вы хотите скачать только видео - передайте `--download 0`
- `--num-workers` - количество параллельных процессов# Шаг 2. Предобработка датасета для обрезки видео
python prepare_mtedx.py --root-dir "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx/ru-ru/preproc" --dataset "mtedx_ru" --downloaded-path "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx" --seg-duration 24 --src-lang "ru"# Шаг 3. Обрезка ROI губ
# Шаг 4. Создание SentencePiece модели