Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/yandex-cloud-examples/yc-data-proc-spark-pyspark
Запуск и управление приложениями для Spark и PySpark в сервисе Yandex Data Proc.
https://github.com/yandex-cloud-examples/yc-data-proc-spark-pyspark
data-proc pyspark spark yandex-cloud yandexcloud
Last synced: about 14 hours ago
JSON representation
Запуск и управление приложениями для Spark и PySpark в сервисе Yandex Data Proc.
- Host: GitHub
- URL: https://github.com/yandex-cloud-examples/yc-data-proc-spark-pyspark
- Owner: yandex-cloud-examples
- License: apache-2.0
- Created: 2024-03-08T08:42:37.000Z (8 months ago)
- Default Branch: main
- Last Pushed: 2024-08-27T13:22:12.000Z (2 months ago)
- Last Synced: 2024-08-27T14:45:32.073Z (2 months ago)
- Topics: data-proc, pyspark, spark, yandex-cloud, yandexcloud
- Language: HCL
- Homepage: https://cloud.yandex.ru/docs/data-proc/tutorials/run-spark-job#prepare-data
- Size: 10.7 KB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Запуск и управление приложениями для Spark и PySpark в сервисе Yandex Data Processing
В кластере [Yandex Data Processing](https://yandex.cloud/ru/docs/data-proc) вы можете запустить Spark- и PySpark-задания с помощью инструментов:
* [Spark Shell](https://spark.apache.org/docs/latest/quick-start) (командная оболочка для языков программирования Scala и Python). Расчеты запускаются не с помощью скрипта, а построчно.
* [Spark-submit](https://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications). Скрипт сохраняет результаты расчета в HDFS.
* [CLI Yandex Cloud](https://yandex.cloud/ru/docs/cli/). Команды CLI позволяют сохранить результаты расчета не только в HDFS, но и в бакете [Yandex Object Storage](https://yandex.cloud/ru/docs/storage).Подготовка инфраструктуры для Yandex Data Processing через Terraform описана в [практическом руководстве](https://yandex.cloud/ru/docs/data-proc/tutorials/run-spark-job), необходимый для настройки конфигурационный файл [data-proc-for-spark-jobs.tf](data-proc-for-spark-jobs.tf) расположен в этом репозитории.