https://github.com/chavaone/android_gl_dict
Android Galician (gl_ES) Keyboard Dictionary
https://github.com/chavaone/android_gl_dict
Last synced: 3 months ago
JSON representation
Android Galician (gl_ES) Keyboard Dictionary
- Host: GitHub
- URL: https://github.com/chavaone/android_gl_dict
- Owner: chavaone
- Created: 2013-01-18T15:07:13.000Z (about 13 years ago)
- Default Branch: master
- Last Pushed: 2013-01-23T20:13:00.000Z (about 13 years ago)
- Last Synced: 2024-04-19T00:34:08.889Z (almost 2 years ago)
- Language: Shell
- Size: 1.35 MB
- Stars: 2
- Watchers: 3
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- low-resource-languages - android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary (Galician / Utilities)
README
Android Galician Keyboard Dictionary
====================================
## Dicionario de galego para teclado de Android (Galego)
Empregando a información [deste post](http://forum.xda-developers.com/showthread.php?t=1027207) en XDA-Developers e uns cuantos scripts que escribín en Python e Bash costruín un dicionario de galego para os nosos teclados en Android.
Para obter as frecuencias das palabras en galego empreguei a paxina de novas [praza.com](http://praza.com).
### Pasos para facer o diccionario
* Descargar os documentos web. Isto podese facer co script **retrieve_html.sh**. Este script recibe como parametro a paxina web da que queremos sacar as palabras e descarga de forma recursiva (visitando os enlaces que aparecen en cada documento) todas as web ata completar o nivel 5 de forma recursiva ou descargar un xigabyte de información. O script creará unha carpeta de nome html_folder que contera todos os arquivos html descargados.
* Quitarlle os documentos descargados as etiquetas de html. Para isto podemos empregar o script **remove_html_markup.py** que crea unha carpeta txt_folder na que garda os documentos html da carpeta html_folder quitandolles as etiquetas de html e substituindo guións, puntos, comas e puntos e comas entre outros por espacios.
* Agora temos que copiar todos os textos que temos a un so arquivo.
```bash
cat `ls` > all.txt
```
* Temos que quitar os elementos dos textos que non sexan palabras.
```bash
cat forum.txt | tr "[:punct:][:blank:][:digit:]" "\n" | grep "^." > unsortedallwordslist.txt
```
* Temos que ordear as palabras por orde de frecuancia de aparición como por orde alfabético.
```bash
cat allwordslist.txt | tr "A-Z" "a-z" | sort | uniq -c | sort -nr > words.txt
```
* Antes de meter estas palabras no dicionario debemos asegurarnos de que son correctas. Para isto empregaremos o modulo PyEnchant que ten un dicionario do idioma galego. O script **correct_spell.py** permitenos facer isto.
* Por último temos que adaptar a lista de palabras a sintaxe do dicionario. Acompañando a cada palabra temos que indicar a frecuencia desta nos textos. A frecuencia mídese de 0 a 255, sendo 255 as palabras máis frecuentes. O script **change_numering.py** fai isto, mais está feito adhoc para esa lista de palabras polo que para empregalo con outra lista habería que cambialo.