https://github.com/chavaone/android_gl_dict

Android Galician (gl_ES) Keyboard Dictionary
https://github.com/chavaone/android_gl_dict

Last synced: 5 months ago
JSON representation

Android Galician (gl_ES) Keyboard Dictionary

Host: GitHub
URL: https://github.com/chavaone/android_gl_dict
Owner: chavaone
Created: 2013-01-18T15:07:13.000Z (over 13 years ago)
Default Branch: master
Last Pushed: 2013-01-23T20:13:00.000Z (over 13 years ago)
Last Synced: 2024-04-19T00:34:08.889Z (about 2 years ago)
Language: Shell
Size: 1.35 MB
Stars: 2
Watchers: 3
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

low-resource-languages - android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary (Galician / Utilities)
awesome-low-resource-languages - android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary. (Language Specific Projects / Galician)

README

          Android Galician Keyboard Dictionary

====================================

## Dicionario de galego para teclado de Android (Galego)

Empregando a información [deste post](http://forum.xda-developers.com/showthread.php?t=1027207) en XDA-Developers e uns cuantos scripts que escribín en Python e Bash costruín un dicionario de galego para os nosos teclados en Android.

Para obter as frecuencias das palabras en galego empreguei a paxina de novas [praza.com](http://praza.com).

### Pasos para facer o diccionario

 * Descargar os documentos web. Isto podese facer co script **retrieve_html.sh**. Este script recibe como parametro a paxina web da que queremos sacar as palabras e descarga de forma recursiva (visitando os enlaces que aparecen en cada documento) todas as web ata completar o nivel 5 de forma recursiva ou descargar un xigabyte de información. O script creará unha carpeta de nome html_folder que contera todos os arquivos html descargados.

 * Quitarlle os documentos descargados as etiquetas de html. Para isto podemos empregar o script **remove_html_markup.py** que crea unha carpeta txt_folder na que garda os documentos html da carpeta html_folder quitandolles as etiquetas de html e substituindo guións, puntos, comas e puntos e comas entre outros por espacios.

 * Agora temos que copiar todos os textos que temos a un so arquivo.

  ```bash

  cat `ls` > all.txt

  ```

 * Temos que quitar os elementos dos textos que non sexan palabras.

  ```bash

  cat forum.txt | tr "[:punct:][:blank:][:digit:]" "\n" | grep "^." > unsortedallwordslist.txt

  ```

	 

 * Temos que ordear as palabras por orde de frecuancia de aparición como por orde alfabético. 

  ```bash

  cat allwordslist.txt | tr "A-Z" "a-z" | sort | uniq -c | sort -nr  > words.txt

  ```

 * Antes de meter estas palabras no dicionario debemos asegurarnos de que son correctas. Para isto empregaremos o modulo PyEnchant que ten un dicionario do idioma galego. O script **correct_spell.py** permitenos facer isto.

 * Por último temos que adaptar a lista de palabras a sintaxe do dicionario. Acompañando a cada palabra temos que indicar a frecuencia desta nos textos. A frecuencia mídese de 0 a 255, sendo 255 as palabras máis frecuentes. O script **change_numering.py** fai isto, mais está feito adhoc para esa lista de palabras polo que para empregalo con outra lista habería que cambialo.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/chavaone/android_gl_dict

Awesome Lists containing this project

README