Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/abdelmajidlh/spark-functionality-repo
Ce dépôt GitHub contient un document détaillé sur les bases du langage Scala.
https://github.com/abdelmajidlh/spark-functionality-repo
apache apachespark databricks databricks-notebooks pyspark python3 scala spark
Last synced: 2 months ago
JSON representation
Ce dépôt GitHub contient un document détaillé sur les bases du langage Scala.
- Host: GitHub
- URL: https://github.com/abdelmajidlh/spark-functionality-repo
- Owner: AbdelmajidLh
- Created: 2023-02-08T15:18:18.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2024-04-08T08:43:58.000Z (10 months ago)
- Last Synced: 2024-04-08T10:02:24.744Z (10 months ago)
- Topics: apache, apachespark, databricks, databricks-notebooks, pyspark, python3, scala, spark
- Homepage:
- Size: 847 KB
- Stars: 3
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Bonjour, c'est [Abdelmajid][linkedin] 👋
[![My Website](https://img.shields.io/website?style=for-the-badge&url=https%3A%2F%2Fabdelmajidlh.github.io%2FePortfolio%2F)][website] [![LinkedIn](https://img.shields.io/badge/LinkedIn-Abdelmajid%20EL%20HOU-blue?style=for-the-badge&logo=linkedin&logoColor=blue)][linkedin][website]: https://abdelmajidlh.github.io/ePortfolio/
[linkedin]: https://www.linkedin.com/in/aelhou/# Fonctionnalités Spark
Ce repo contient une collection de fonctionnalités Spark documentées avec des exemples de code en Scala et Python, inspirées du livre Spark The Definitive Guide.
## Introduction à Spark
Apache Spark est un puissant moteur de traitement de données open-source, conçu pour offrir une performance et une facilité d'utilisation exceptionnelles pour le traitement de données à grande échelle. Il fournit un cadre unifié pour le traitement par lots, le traitement en streaming, le traitement interactif et l'apprentissage automatique, le tout avec une grande efficacité.
Spark a été développé pour répondre aux défis posés par le traitement de grands volumes de données à une vitesse et une échelle sans précédent. Contrairement à d'autres solutions de traitement de données, Spark est capable de maintenir de grandes quantités de données en mémoire, ce qui permet des performances significativement plus rapides que les systèmes traditionnels basés sur le disque (Mapreduce).
L'un des principaux avantages de Spark est son modèle de programmation flexible et expressif. Il offre une API riche dans plusieurs langages de programmation, notamment Scala, Java, Python et R, ce qui permet aux développeurs de choisir le langage qui convient le mieux à leurs besoins et à leur expertise.
Spark propose également une vaste bibliothèque de fonctions intégrées pour le traitement de données structurées, la manipulation de flux, l'analyse graphique, l'apprentissage automatique, le traitement de graphiques, et bien plus encore. Cette richesse fonctionnelle en fait un choix populaire pour une gamme variée d'applications, des analyses ad hoc aux pipelines de traitement de données complexes.
Apache Spark est devenu un pilier essentiel de l'écosystème Big Data, offrant aux entreprises et aux développeurs les outils nécessaires pour tirer pleinement parti de leurs données à grande échelle, et ouvrant la voie à de nouvelles possibilités d'analyse et d'innovation.
## Ce que vous allez apprendre dans ce repo :
Ce référentiel vous guidera à travers le processus d'installation de Spark en local, que vous utilisiez Windows, Linux Ubuntu ou que vous préfériez
l'exécuter directement sur la plateforme Databricks. Vous apprendrez pas à pas les bases de Spark avec Scala ou Python, en suivant des exemples détaillés.
Chaque fichier Markdown comprendra des conseils, des commentaires explicatifs et le code à exécuter dans Spark, vous permettant ainsi de vous familiariser
progressivement avec les fonctionnalités de Spark et de renforcer votre compréhension de son utilisation dans le contexte du Big Data.## Environnement
**Spark 3.5.0, Scala 2.12.18 et Java 11.0.22**
## Les données
L'ensemble des données utilisées dans les exemples sont disponibles à ce lien : [lien_vers_les_données](https://github.com/databricks/Spark-The-Definitive-Guide/tree/master/data)## Comment contribuer
Pour contribuer à ce projet, veuillez suivre ces étapes :
1. Fork du projet
2. Créez votre branche de fonctionnalité (`git checkout -b feature/AmazingFeature`)
3. Commitez vos modifications (`git commit -m 'Add some AmazingFeature'`)
4. Pushez sur la branche (`git push origin feature/AmazingFeature`)
5. Ouvrez une demande de tirage## Licence
Ce projet est sous licence [MIT](LICENSE).