Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/najmaelboutaheri/scopus-data-analysis-morocco
Ce projet vise à analyser les publications scientifiques des universités marocaines en exploitant les données de la base Scopus.
https://github.com/najmaelboutaheri/scopus-data-analysis-morocco
Last synced: 17 days ago
JSON representation
Ce projet vise à analyser les publications scientifiques des universités marocaines en exploitant les données de la base Scopus.
- Host: GitHub
- URL: https://github.com/najmaelboutaheri/scopus-data-analysis-morocco
- Owner: najmaelboutaheri
- Created: 2024-12-10T14:05:23.000Z (about 2 months ago)
- Default Branch: main
- Last Pushed: 2024-12-25T18:57:21.000Z (about 1 month ago)
- Last Synced: 2024-12-25T19:29:24.360Z (30 days ago)
- Language: Jupyter Notebook
- Homepage:
- Size: 37.4 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Analyse des Données SCOPUS - Performance Académique des Universités Marocaines
## **Description du Projet**
Ce projet vise à analyser les publications scientifiques des universités marocaines en exploitant les données de la base **Scopus**.
L'objectif principal est d'évaluer les **performances académiques**, d'identifier les **tendances de recherche**, les **collaborations internationales**, ainsi que les **domaines dominants**.Cette analyse fournit des **insights stratégiques** pour renforcer l'impact des institutions académiques marocaines et orienter les politiques de recherche.
---
## **Architecture du Projet**
L'architecture du projet suit plusieurs étapes :
1. **Extraction des Données** :
Collecter les données brutes en exportant les fichiers .csv directement de cite.
2. **Stockage des Données** :
Stockage initial dans **Snowflake** pour assurer l'accessibilité et la sécurité.
3. **Transformation des Données** :
Nettoyage, prétraitement et modélisation des données avec **Python**.
4. **Stockage Final** :
Stockage des tables finales (tables de faits et dimensions) dans **SQL Server**.
5. **Visualisation** :
Création de tableaux de bord interactifs avec **Power BI**.### **Schéma de l'Architecture**
---## **Structure du Projet**
```bash
📁 Projet_Analyse_Scopus
│
├── 📂 DataModeling
│ ├── Modèle_de_données.png # Schéma du modèle de données (étoile)
│
├── 📂 Documents
│ ├── Ensah-BPMN.svg # Diagramme BPMN de processus
│ ├── Etat-D'avancement-Rapport.pdf # Rapport d'état d avancement
│ ├── Presentation-scopus-powerbi.pdf # Présentation Power BI Scopus
│ ├── Presentation_de_la_digitalisation.pdf # Présentation digitalisation
│ ├── Scopus-Dashboard.pbix # Tableau de bord Power BI
│
├── 📂 PreprocessingSteps
│ ├── AffiliationsExctraction.ipynb # Extraction des affiliations
│ ├── Data_Combination.ipynb # Combinaison des tables de données
│ ├── Exctraction_Regions.ipynb # Extraction des régions géographiques
│ ├── ScopusDataUnderstanding.ipynb # Analyse exploratoire des données
│ ├── affiliation_dimension_exctraction.ipynb # Table dimension affiliation
│ ├── author_dimension_exctraction.ipynb # Table dimension auteur
│
├── 📂 Regions_Data
│ ├── country.csv # Liste des pays
│ ├── list-cities-morocco-98j.csv # Liste des villes marocaines
│
├── 📂 Sample-of-data
│ ├── Raw-Data.xlsx # Exemple de données brutes
│
├── README.md # Fichier README (ce fichier)
└── Modèle_de_données.png # Schéma principal
```
---## **Description des Données**
Le dataset extrait contient :
- **Nombre total d'enregistrements** : 31,006 lignes
- **Nombre de tables** : 6 tables principales### **Contenu des Données :**
**Auteurs** : Informations sur les chercheurs.
**Affiliations** : Institutions liées aux auteurs.
**Pays et Villes** : Distribution géographique des publications.
**Universités** : Distinction entre universités marocaines et étrangères.
**Publications** : Références, citations, domaines de recherche.---
## **Prétraitement des Données**
Les étapes de prétraitement incluent :
![Capture d'écran 2024-12-18 092301](https://github.com/user-attachments/assets/f62275e5-bbe0-472c-a11e-6cf11f770c9d)
1. **La compréhension des données** :
Vérfication des doublons et des valeurs manquantes.
![Capture d'écran 2024-12-18 095509](https://github.com/user-attachments/assets/1356f7c0-7ca1-482d-9033-096c5e48d002)
2. **Exctraction des noms d'auteurs**
![Capture d'écran 2024-12-17 115754](https://github.com/user-attachments/assets/39709c84-6c94-4e14-ac46-0c5108b842f1)3. **Exctraction des noms d'universtès marocaines et etrangères avec les données géographiques**
![Capture d'écran 2024-12-17 120658](https://github.com/user-attachments/assets/b89d1152-ef74-452e-8160-c523cf7b024e)
4. **Modélisation:**
![Capture d'écran 2024-12-17 081113](https://github.com/user-attachments/assets/f8eedae2-024a-4f6a-a7da-7e6cf3c3ae7e)Nous avons modeliser les données en suivant le modéle shema étoile pour faciliter l'accée par les requètes SQL et garantir une bonne pérformance.
- **les tables de dimension:**
![Capture d'écran 2024-12-18 095431](https://github.com/user-attachments/assets/cd055b89-d6ba-4445-807c-6108cbd2245d)- **la table de fait**:
![Capture d'écran 2024-12-18 095602](https://github.com/user-attachments/assets/98123a4c-8eb9-49c9-89fc-846ef33ef15c)5. **Réduction des données** :
- Spécification d'un échantillon représentatif à 10% de chaque intervalle de date pour une distribution équilibrée.
6. **Normalisation dans POWER BI** :
- Transformation des dates et formats de texte.
7. **Crier les mesures et afficher les visualisations** :
- Le projet contient 6 pages chacune orienté vers une dimension ce qui permet de comprendre profondement les patterns dans les données explorées.
---## **Exécution des Scripts**
1. **La compréhension des données et exctraction de la table Auteur** :
- Ouvrir `ScopusDataUnderstanding.ipynb` et exécuter chaque cellule.
2. **Exctraction des Données** :
- Lancer `AffiliationsExctraction.ipynb` pour exctraire les affiliations.
3. **Combinaison des Données** :
- Exécuter `Data_Combination.ipynb`.
4. **Exctraction des données géographiques** :
- Exécuter `Exctraction_Regions.ipynb`.
5. **Exctraction de la table de la dimension affiliation** :
- Exécuter `affiliation_dimension_exctraction`.
6. **Exctraction de la table de la dimension auteur** :
- Exécuter `author_dimension_exctraction.ipynb`.
7. **Visualisation** :
- Importer `Scopus-Dashboard.pbix` dans Power BI pour afficher les résultats.
---## **Visualisation des Résultats**
Les tableaux de bord **Power BI** présentent :
- **Statistiques générales** des publications.
- **Analyse géographique** des collaborations internationales.
- **Tendances des domaines de recherche** par université.
- **Comparaison des performances** entre universités marocaines et étrangères.
---## **Contenu des Données**
- **Raw-Data.xlsx** : Données brutes extraites de Scopus.
- **Pays et Régions** : `country.csv`, `list-cities-morocco-98j.csv`.Les tables incluent :
- **Auteurs** : Identification et informations.
- **Affiliations** : Institutions académiques.
- **Publications** : Références, citations et sujets.
- **Conferences**: date de fin et de debut.
- **WEB**: Les liens sur internet et les idetifiants DOI.
- **Données Géographieque**:cites and countries.---
## **Outils et Technologies**
- **Stockage** : Snowflake
- **Nettoyage & Prétraitement** : Python (Pandas, NumPy)
- **Environnement** : Google Colab
- **Modélisation** : Power BI
- **Visualisation** : Power BI Dashboards---
## **Résultats Principaux**
- **Analyse de 31,006 enregistrements** répartis sur 6 tables principales.
- **Distribution équilibrée des données** à 10% par intervalle de date pour éviter les biais temporels.
- **Tableau de bord Power BI** pour une analyse visuelle des collaborations, performances et tendances.---
## **Documents Importants**
- [Diagramme BPMN](Documents/Ensah-BPMN.svg)
- [Rapport d'État d'Avancement](Documents/Etat-D'avancement-Rapport.pdf)
- [Présentation Power BI](Documents/Presentation-scopus-powerbi.pdf)
- [Présentation Digitalisation](Documents/Presentation_de_la_digitalisation.pdf)---
## **Colaborateurs**
- Bachiri Jawad
- Boukayoua Loubna
- El Bouthaeri Najma
## **Contact**
Pour toute question ou collaboration :
- **Email** : [email protected]
- **LinkedIn** : [Lien vers le profil](https://www.linkedin.com/in/najma-el-boutaheri-8185a1267/)---
## **Licence**
Projet sous licence **MIT**.---