Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/vector4wang/quick-spark-process
:star2::star2::star2:学习spark的相关示例
https://github.com/vector4wang/quick-spark-process
java spark springboot-spark
Last synced: 16 days ago
JSON representation
:star2::star2::star2:学习spark的相关示例
- Host: GitHub
- URL: https://github.com/vector4wang/quick-spark-process
- Owner: vector4wang
- Created: 2018-04-19T16:46:29.000Z (over 6 years ago)
- Default Branch: master
- Last Pushed: 2022-11-15T23:51:47.000Z (almost 2 years ago)
- Last Synced: 2024-10-12T07:38:11.171Z (about 1 month ago)
- Topics: java, spark, springboot-spark
- Language: Java
- Homepage:
- Size: 735 KB
- Stars: 38
- Watchers: 5
- Forks: 34
- Open Issues: 5
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# quick-spark-process
学习spark的相关示例[![LICENSE](https://img.shields.io/badge/license-Anti%20996-blue.svg)](https://github.com/996icu/996.ICU/blob/master/LICENSE)
### word-count
最简单也是最经典的例子
后面搭了spark集群 并使用了hdfs来存储文件,有几点需要注意
#### 文件的调用方式
```java
context.textFile("D:\\data\\spark\\blsmy.txt"); -- 用于idea测试
context.textFile("file:///mnt/data/blsmy.txt"); -- 用于集群运行(前提,运行的各节点都需要有此文件)
context.textFile("hdfs://spark-master:9000/wordcount/blsmy.txt"); -- 使用hdfs调用文件
```
#### 日志输出的位置
在页面中,输出的日志有sterr和stdout两种,在stdout可以查看程序中输出的内容。如果你在程序中使用了println(....)输出语句,这些信息会在stdout文件里面显示;其余的Spark运行日志会在stderr文件里面显示。
也可以直接进行日志文件进行查看,如:
```bash
/spark/software/spark/work/app-20180428142302-0003/0/stdout
/spark/software/spark/work/app-20180428142302-0003/0/stderr
```
#### 启动的方式
```bash
bin/spark-submit \
--master spark://spark-master:7077 \
--driver-memory 1g \
--executor-cores 1 \
--class com.spark.WordCount \
simple/word-count-1.0-SNAPSHOT.jar
```### spark-pi
也是一个比较经典的栗子### spark-sql
使用sparksql做的简单操作