https://github.com/evilfreelancer/datasets-translator
Colleciton of scripts for translating datasets from one language to another
https://github.com/evilfreelancer/datasets-translator
Last synced: 8 months ago
JSON representation
Colleciton of scripts for translating datasets from one language to another
- Host: GitHub
- URL: https://github.com/evilfreelancer/datasets-translator
- Owner: EvilFreelancer
- Created: 2024-12-30T22:08:15.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-12-30T22:24:27.000Z (over 1 year ago)
- Last Synced: 2024-12-30T23:19:55.234Z (over 1 year ago)
- Language: Python
- Size: 5.86 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Translator
Простой скрипт для автоматизации перевода датасетов, на данный момент реализова перевод для:
- [isaiahbjork/chain-of-thought-sharegpt](https://huggingface.co/datasets/isaiahbjork/chain-of-thought-sharegpt)
- [HuggingFaceH4/MATH-500](https://huggingface.co/datasets/HuggingFaceH4/MATH-500)
## translator.py
Простой скрипт для машинного перевода использующий модели:
- [utrobinmv/t5_translate_en_ru_zh_small_1024](https://huggingface.co/utrobinmv/t5_translate_en_ru_zh_small_1024) -
small модель (наиболее быстрая)
- [utrobinmv/t5_translate_en_ru_zh_large_1024](https://huggingface.co/utrobinmv/t5_translate_en_ru_zh_large_1024) -
large модель (самый качественный перевод)
- [utrobinmv/t5_translate_en_ru_zh_base_200](https://huggingface.co/utrobinmv/t5_translate_en_ru_zh_base_200) - base
модель (не уступающая по качеству модели large), но для более коротких текстов и более быстрая.
Полезные ссылки:
- [Сравнение локальных моделей машинного перевода для английского, китайского и русского языков](https://habr.com/ru/articles/791522/)
- [New argos model en_ru for add argospm-index](https://community.libretranslate.com/t/new-argos-model-en-ru-for-add-argospm-index/311)
## ollama_translator.py
Версия скрипта для перевода датасетов заточенная работу через Ollama API.
Пример использования:
```shell
python ollama_translatior.py ./MATH-500/test.jsonl ./MATH-500-Russian.jsonl --fields_to_translate=problem,solution,answer
```
## Ссылки
- https://github.com/EvilFreelancer/impruver - приложение для обучения LLM