https://github.com/nevmenandr/thai-language
computer tools for thai language
https://github.com/nevmenandr/thai-language
corpus linguistic-corpora opennlp python thai-language
Last synced: 4 months ago
JSON representation
computer tools for thai language
- Host: GitHub
- URL: https://github.com/nevmenandr/thai-language
- Owner: nevmenandr
- License: cc0-1.0
- Created: 2015-03-20T08:03:38.000Z (over 10 years ago)
- Default Branch: master
- Last Pushed: 2017-09-27T00:43:15.000Z (about 8 years ago)
- Last Synced: 2025-04-14T11:13:19.972Z (6 months ago)
- Topics: corpus, linguistic-corpora, opennlp, python, thai-language
- Language: Python
- Homepage:
- Size: 27.1 MB
- Stars: 22
- Watchers: 13
- Forks: 8
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# thai-language
В этом репозитории помещаются исходные коды программ, которые помогают нам в создании компьютерных инструментов для тайского языка.# upd. [**Корпус сделан и доступен по этому адресу**](http://web-corpora.net/ThaiCorpus/)
[**Тайский корпус**](http://web-corpora.net/ThaiCorpus/)# [**We have made the corpus, it is available here**](http://web-corpora.net/ThaiCorpus/)
[**Thai corpus HSE**](http://web-corpora.net/ThaiCorpus/)[**Тайский корпус**](http://www.arts.chula.ac.th/~ling/TNCII/)
[**Еще один, более подробный, тайский корпус**](https://sealang.net/thai/corpus.htm)
[**Cайт-словарь**](http://www.thai-language.com/)
[**Старая версия словаря**](http://www.thai-language.com/dict)
*Там примерно 52 тыс. слов. Вот [он в скачанном виде](https://yadi.sk/d/uw1XOBwKfQsD6),
Ранее пропущенные страницы находятся [тут](https://yadi.sk/d/mgz9psnYovN6j)[**Другой тайский словарь**](https://github.com/veer66/Yaitron/tree/master/data)
[**Наш словарь**](https://github.com/nevmenandr/thai-language/blob/master/slovar.zip)[**Соответствие в тегах между словарями**](https://docs.google.com/spreadsheets/d/1TUpAeWCaBly1Hyaphcyq-Uq3grXG8cZlwHVSKHnk7OE/edit)
[**Курсовая про сравнение тайских токенизаторов**](https://docs.google.com/document/d/1NjhneMKB9Zx9Rzb4p_vxKhHjk_JUCrdak96lVtqJsPM/edit?usp=sharing)
[**Хороший размеченный (токенизированный) корпус**](https://drive.google.com/file/d/0BwRU-58YQiIiTlRrN0t6TW5ldVk/view?usp=sharing)
**Pos-tagger**
[Apache OpenNLP](http://opennlp.apache.org/ "Apache OpenNLP") +
[OpenNLP Thai](http://opennlp.sourceforge.net/models/thai/ "Thai Models")[**Libthai**](http://linux.thai.net/projects/libthai)
[**Smart Word Analysis for Thai SWATH**](http://www.cs.cmu.edu/~paisarn/software.html)
[**Tlexs**](http://sansarn.com/tlex/)
[**Краулер своими руками**](http://pi-code.blogspot.ru/search/label/%D0%BA%D1%80%D0%B0%D1%83%D0%BB%D0%B5%D1%80)
[*Транслитерация*](http://polyglot.readthedocs.io/en/latest/Transliteration.html)
Видео: