https://github.com/cquest/reaccentue
Module python de réaccentuation de texte
https://github.com/cquest/reaccentue
Last synced: 12 months ago
JSON representation
Module python de réaccentuation de texte
- Host: GitHub
- URL: https://github.com/cquest/reaccentue
- Owner: cquest
- Created: 2018-09-10T16:10:52.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2021-02-12T17:29:05.000Z (over 5 years ago)
- Last Synced: 2025-02-23T16:55:14.328Z (over 1 year ago)
- Language: Python
- Size: 23.3 MB
- Stars: 3
- Watchers: 3
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# reaccentue
Module python 3.x pour ré-accentuer du texte à partir d'un dictionnaire au format hunspell.
Le dictionnaire par défaut provient de http://www.dicollecte.org
Il est chargé initialement à partir des fichier ".dic" et ".aff" pour générer les variations de suffixes (féminin, pluriel, conjugaisons) et mis en cache pour les utilisations suivantes.
La capitalisation suit les règles utilisées en France par OpenStreetMap.
## Installation
```
git clone https://github.com/cquest/reaccentue.git
cd reaccentue
pip install -r requirements.txt
```
## Préparation des fichiers linguistiques
Certains mots peuvent exister avec et sans accents, par exemple: venus et vénus.
Pour lever l'ambiguïté, il est possible de s'appuyer sur le mot précédent et de déterminer la fréquence d'apparition la plus élevée.
Exemple: RUE DE VENUS -> Rue de Vénus
Pour calculer ces fréquences, le script doublets.sh s'appuie sur un dump textuel de la version française de wikipédia et génère un tableau du nombre d'apparition de chaque doublet de mots stocké dans un fichier freq5.pz.
```
cd dico
sh doublets.sh
cd ..
```
À la première exécution du script reaccentue.py, un dictionnaire sera contruit et stocké en cache (dico/cache.pz).
## Utilisation en ligne de commande
Il est possible de n'appliquer l'accentuation que sur une seule chaîne de texte:
```
python reaccentue.py "BOULEVARD DES MARECHAUX"
Boulevard des Maréchaux
```
ou sur un fichier CSV, en précisant son nom et la colonne à traiter:
`python reaccentue.py test.csv nom`
## Utilisation depuis python
```
from reaccentue import reaccentue
print(reaccentue('BOULEVARD DES MARECHAUX'))
```
## Tests
`pytest tests.py`