Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/aittalla/kabyle-corpus-dataset

Dans l'univers du Traitement Automatique des Langues , l'accès à des datasets diversifiés et bien annotés est essentiel pour développer des modèles performants. Ce projet vise à combler cette lacune spécifique pour la langue taqbaylit, une langue berbère parlée principalement en Kabylie
https://github.com/aittalla/kabyle-corpus-dataset

ber berber berber-dataset corpus data dataset ia kabyle kabyle-art kb machine-learning nlp nlp-machine-learning python taqbaylit text words

Last synced: about 2 months ago
JSON representation

Host: GitHub
URL: https://github.com/aittalla/kabyle-corpus-dataset
Owner: aitTalla
Created: 2024-07-09T16:11:27.000Z (6 months ago)
Default Branch: main
Last Pushed: 2024-07-09T16:30:24.000Z (6 months ago)
Last Synced: 2024-07-09T20:58:37.675Z (6 months ago)
Topics: ber, berber, berber-dataset, corpus, data, dataset, ia, kabyle, kabyle-art, kb, machine-learning, nlp, nlp-machine-learning, python, taqbaylit, text, words
Homepage: https://aittalla-corporation.web.app
Size: 16.8 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Dataset de Corpus de Texte en Langue Taqbaylit

Ce projet contient un dataset de corpus de texte en langue Taqbaylit, une langue berbère parlée principalement en Kabylie, une région montagneuse au nord de l'Algérie. Ce corpus est destiné à faciliter la recherche et le développement dans le domaine du traitement automatique des langues pour la langue kabyle.
![Exemple d'image](ICON.png)
## Contenu du Projet

- **corpus/** : Ce répertoire contient les fichiers du corpus de texte en langue kabyle.
- **Small Corpus** : [1_SmallCorpusKabyle.txt](corpus/1_SmallCorpusKabyle.txt)
- **Meduim Corpus** :[2_MeduimCorpusKabyle.txt](corpus/2_MeduimCorpusKabyle.txt)
- **Big Corpus** : [3_bigCorpusKabyle.txt](corpus/3_bigCorpusKabyle.txt)
- **Giga Corpus** :[4_gigaCorpusKabyle.txt](corpus/4_gigaCorpusKabyle.txt)

## Exemples d'utilisation

Le dataset peut être utilisé pour :

- Entraîner des modèles de traitement du langage naturel (NLP) pour la langue kabyle, tels que la classification de texte, l'analyse de sentiment, etc.
- Effectuer des analyses linguistiques et sociolinguistiques sur le texte en langue Taqbaylit.
- Développer des applications basées sur le NLP pour la communauté kabyle.

## Prérequis

Aucun prérequis spécifique n'est nécessaire pour utiliser ce dataset, simplement un environnement Python avec les bibliothèques standard pour le traitement du langage naturel.

## Comment Utiliser

1. **Téléchargement du Dataset** :
- Clonez ce référentiel sur votre machine locale en utilisant la commande suivante :
```
git clone https://github.com/aitTalla/kabyle-corpus-dataset
```

2. **Exploration du Dataset** :
- Explorez les fichiers dans le répertoire `corpus/` pour accéder aux textes en langue kabyle.

3. **Intégration dans Vos Projets** :
- Utilisez les données pour entraîner des modèles NLP personnalisés ou pour des analyses linguistiques spécifiques à la langue kabyle.

## Contribution

Les contributions sous forme de suggestions, de corrections ou d'ajouts de nouveaux textes en langue kabyle sont les bienvenues. Veuillez soumettre une pull request expliquant clairement les changements proposés.

## Licence

Ce projet est sous licence MIT - voir le fichier [LICENSE](LICENSE) pour plus de détails.