Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/Anbani/anbani.py
Georgian Python toolkit for NLP, Transliteration and more
https://github.com/Anbani/anbani.py
Last synced: 4 days ago
JSON representation
Georgian Python toolkit for NLP, Transliteration and more
- Host: GitHub
- URL: https://github.com/Anbani/anbani.py
- Owner: Anbani
- License: gpl-3.0
- Created: 2022-06-29T14:10:24.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2023-04-28T05:56:48.000Z (over 1 year ago)
- Last Synced: 2024-09-15T13:53:04.651Z (about 2 months ago)
- Language: Python
- Size: 1.49 MB
- Stars: 7
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# AnbaniPy
Georgian Python toolkit for NLP, Transliteration and more. Partially based on [anbani.js](https://github.com/anbani/anbani.js).
## Install
```bash
pip install anbani
```## Quickstart
Transliteration example:
```python
from anbani.core.converter import convert, interpretinterpret("გამარჯობა", "asomtavruli")
# 'ႢႠႫႠႰႿႭႡႠ'
```Georgianisation example:
```python
from anbani.nlp.georgianisation import georgianisegeorgianise("gamarjoba - rogor xar - rasa iqm - kaia kata - kai erti")
# 'გამარჯობა - როგორ ხარ - რასა იქმ - კაია კატა - კაი ერთი'
```Convert ebooks with qwerty encoding to unicode Mkhedruli:
```python
from anbani.nlp.utils import ebook2text
from anbani.core.converter import classify_text
from anbani.core.converter import converttext = ebook2text("/home/george/Dev/georgian-text-corpus/sources/mylibrary/raw/files/ჩარლზ დიკენსი - დევიდ კოპერფილდი.pdf")
print(text[:300])print(classify_text(text))
print(convert(text, "qwerty", "mkhedruli")[:300])
# Carlz dikensi daviT koperfildi Tavi pirveli dabadeba me viqnebi gmiri Cemive sakuTari Tavgadasavlisa Tu sxva...
# latin
# ჩარლზ დიკენსი დავით კოპერფილდი თავი პირველი დაბადება მე ვიქნები გმირი ჩემივე საკუთარი თავგადასავლისა თუ სხვა...
```Expand contractions:
```python
from anbani.nlp.contractions import expand_texttext = "ილია ჭავჭავაძე (დ. 8 ნოემბერი, 1837, სოფელი ყვარელი — გ. 12 სექტემბერი, 1907, წიწამური)"
print(text)
print(expand_text(text))# ილია ჭავჭავაძე (დ. 8 ნოემბერი, 1837, სოფელი ყვარელი — გ. 12 სექტემბერი, 1907, წიწამური)
# ილია ჭავჭავაძე (დაბადება 8 ნოემბერი, 1837, სოფელი ყვარელი — გარდაცვალება 12 სექტემბერი, 1907, წიწამური)```
## To-Do
Feel free to fork this repo!
- [x] Tokenizer
- [x] Transliteration
- [x] Expand contractions
- [x] ebook2pdf converter
- [ ] Stemmer
- [ ] Lemmatizer
- [ ] Stopwords## Resources used
- http://www.nplg.gov.ge/civil/statiebi/wignebi/qartul_enis_marTlwera/qartul_enis_marTlwera_tavi-12.htm
- http://www.nplg.gov.ge/civil/upload/Semokleba.htm