https://github.com/hal91190/spark-intro
Une introduction à Apache Spark
https://github.com/hal91190/spark-intro
bigdata cc-by-nc-sa course-materials french notebooks spark sparksql
Last synced: 6 months ago
JSON representation
Une introduction à Apache Spark
- Host: GitHub
- URL: https://github.com/hal91190/spark-intro
- Owner: hal91190
- License: other
- Created: 2017-10-18T15:36:42.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2024-08-02T01:44:44.000Z (about 1 year ago)
- Last Synced: 2025-04-11T18:22:16.920Z (6 months ago)
- Topics: bigdata, cc-by-nc-sa, course-materials, french, notebooks, spark, sparksql
- Language: Jupyter Notebook
- Size: 243 KB
- Stars: 0
- Watchers: 0
- Forks: 4
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE.txt
Awesome Lists containing this project
README
# Introduction à Spark
## Installation de Spark et du projet
Pour pouvoir exécuter les exemples de ce projet, il faut disposer d'un environnement Spark/Jupyter.
Pour cela, vous pouvez utiliser `pyspark` avec un environnement virtuel Python.
**Vous devez également disposer d'un JRE (ou d'un JDK) sur la machine.**```bash
python3 -m venv sparkenv # Création d'un environnement virtuel
source sparkenv/bin/activate # Activation de l'environnement
python3 -m pip install -r requirements.txt # Installation des bibliothèques (pyspark, ...)
```## Utilisation du projet
Avant de lancer `pyspark` ou un notebook, il faut activer l'environnement virtuel créé ci-dessus.```bash
source sparkenv/bin/activate # Activation de l'environnement
```## Construction du support de cours
Les slides sont au format [asciidoctor](http://asciidoctor.org/).```bash
bundle install
bundle exec rake
```## Mettre à jour le projet
* Les versions de [`asciidoctor`](https://asciidoctor.org/) sont configurables dans [`Gemfile`](./Gemfile) (cf. [rubygems.org](https://rubygems.org/?locale=fr))```bash
bundle update --bundler
bundle update
```