Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/jms0522/hadoop_system
✅ hadoop eco system을 구성하고 파이프라인 제작합니다.
https://github.com/jms0522/hadoop_system
hadoop pipeline spark
Last synced: 4 months ago
JSON representation
✅ hadoop eco system을 구성하고 파이프라인 제작합니다.
- Host: GitHub
- URL: https://github.com/jms0522/hadoop_system
- Owner: jms0522
- Created: 2024-08-14T18:28:07.000Z (6 months ago)
- Default Branch: main
- Last Pushed: 2024-09-18T14:33:44.000Z (5 months ago)
- Last Synced: 2024-09-29T07:01:38.549Z (4 months ago)
- Topics: hadoop, pipeline, spark
- Language: Jupyter Notebook
- Homepage:
- Size: 4.3 MB
- Stars: 2
- Watchers: 1
- Forks: 0
- Open Issues: 5
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 🛠️ Hadoop & Spark 기반의 데이터 파이프라인 구축 프로젝트
이 프로젝트는 Hadoop과 Spark를 사용하여 **배치 파이프라인**과 **스트리밍 파이프라인**을 처리하고 분석할 수 있는 환경을 구축하는 것을 목표로 합니다.
대용량 데이터의 효율적인 처리와 실시간 데이터 스트리밍 분석을 통해 비즈니스 인사이트를 도출합니다.
![]()
# 📋 프로젝트 개요
- **배치 파이프라인**: 정해진 주기에 따라 대량의 데이터를 일괄 처리
- **스트리밍 파이프라인**: 실시간으로 데이터가 수집되고 처리 (Streaming, Structured)이 프로젝트는 두 가지 파이프라인을 동시에 운영하여 데이터를 수집, 저장, 처리, 분석하는 환경을 제공합니다.
# 🚀 주요 기능
- **Hadoop 기반 배치 처리**: HDFS에 저장된 대용량 데이터를 Spark로 처리
- **Spark 스트리밍**: 실시간 데이터 스트리밍 처리 및 분석
- **데이터 시각화**: 분석된 데이터를 다양한 시각화 도구로 시각화
- **유연한 확장성**: 대용량 데이터를 처리할 수 있는 확장 가능한 환경 구축# 🛠️ 사용된 기술 스택
- **Apache Hadoop**: 분산 스토리지 및 데이터 처리
- **Apache Spark**: 실시간 데이터 처리 및 분석
- **Kafka**: 스트리밍 데이터 수집
- **HDFS**: 분산 파일 시스템
- **YARN**: 자원 관리 및 클러스터 관리# 🖥️ 설치 및 실행 방법
⚙️ 환경 설정
1. Hadoop 및 Spark를 설치합니다.
2. Kafka 클러스터를 설정합니다.
3. 프로젝트 코드를 클론합니다.git clone https://github.com/jms0522/hadoop_system.git
cd hadoop_system
# 📈 결과 분석 및 시각화분석된 데이터는 notebooks/ 디렉토리에서 Jupyter Notebook을 통해 시각화할 수 있습니다. 다양한 시각화 도구를 활용해 데이터 인사이트를 도출합니다.
📞 문의
프로젝트에 대한 문의 사항이 있으시면 [이메일]([email protected])로 연락주세요.