https://github.com/arfazrll/data-mining-competition
Repository ini berisi partisipasi saya dalam kompetisi ADIKARA 2024 - Data Mining Competition. Repository ini terkait mengembangkan model prediksi Food Price Index menggunakan dataset spatiotemporal.
https://github.com/arfazrll/data-mining-competition
dataanalysis datamining kaggle-competition machine-learning predictive-modeling spatiotemporal-forecasting
Last synced: 6 months ago
JSON representation
Repository ini berisi partisipasi saya dalam kompetisi ADIKARA 2024 - Data Mining Competition. Repository ini terkait mengembangkan model prediksi Food Price Index menggunakan dataset spatiotemporal.
- Host: GitHub
- URL: https://github.com/arfazrll/data-mining-competition
- Owner: Arfazrll
- License: mit
- Created: 2024-12-21T08:01:23.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-12-22T18:46:41.000Z (about 1 year ago)
- Last Synced: 2024-12-30T04:28:33.051Z (about 1 year ago)
- Topics: dataanalysis, datamining, kaggle-competition, machine-learning, predictive-modeling, spatiotemporal-forecasting
- Language: Jupyter Notebook
- Homepage: https://www.kaggle.com/competitions/data-mining-adikara
- Size: 21.9 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# ๐ **ADIKARA 2024 - Data Mining Competition**

**ADIKARA 2024 - Data Mining Competition**! ๐
Kompetisi ini bertujuan untuk mengasah keterampilan analisis data dalam memprediksi **Food Price Index** dengan dataset spatiotemporal.
---
## ๐ **Daftar Isi**
- [๐ Latar Belakang](#-latar-belakang)
- [๐ฏ Tujuan](#-tujuan)
- [๐ Struktur Repository](#-struktur-repository)
- [๐ Dataset](#-dataset)
- [๐ Metrik Evaluasi](#-metrik-evaluasi)
- [๐ Alur Penyelesaian](#-alur-penyelesaian)
- [๐ Notebook 1 - Pelatihan Model](#-notebook-1---pelatihan-model)
- [๐ Notebook 2 - Prediksi Submission](#-notebook-2---prediksi-submission)
- [๐ Format Submission](#-format-submission)
- [๐ป Cara Menjalankan](#-cara-menjalankan)
- [๐ ๏ธ Prasyarat](#%EF%B8%8F-prasyarat)
- [๐ File Pendukung](#-file-pendukung)
- [๐ Teknologi yang Digunakan](#-teknologi-yang-digunakan)
- [๐ฎ Kesimpulan](#-kesimpulan)
---
## ๐ **Latar Belakang**
Untuk membaca, menganalitis dan menangani data spatiotemporal. Dengan dataset berbasis **indeks harga pangan**, lalu mengembangkan model yang mendukung pengambilan keputusan terkait data tersebut.
---
## ๐ฏ **Tujuan**
- **Mengaplikasikan Data dan Machine Learning**
- **Meningkatkan teknis dalam data mining**
- **Mendukung pengambilan keputusan berbasis data**
---
## ๐ **Struktur Repository**
```plaintext
adikara2024-datamining/
โโโ Notebook File/
โ โโโ Notebook1_Manusia_Pelupa_ADIKARA2024.ipynb
โ โโโ Notebook2_Manusia_Pelupa_ADIKARA2024.ipynb
โโโ Submission File/
โ โโโ submission_Manusia Pelupa_ADIKARA2024.csv
โ โโโ test_adikara2024_unlabeled.csv
โโโ adikara2024-datamining/
โ โโโ train_adikara2024.csv
โ โโโ sample_submission_adikara2024.csv
โโโ LICENSE
โโโ README.md
โโโ ...
```
---
## ๐ **Dataset**
| **File** | **Deskripsi** |
|----------------------------|------------------------------------------------------------|
| `train_adikara2024.csv` | Data pelatihan dengan label *Food Price Index* |
| `test_adikara2024_unlabeled.csv` | Data uji tanpa label, digunakan untuk prediksi |
| `sample_submission_adikara2024.csv` | Contoh format file *submission* untuk leaderboard |
> โ ๏ธ **Catatan:** Pastikan untuk Menggunakan data dengan benar.
---
## ๐ **Metrik Evaluasi**
Menggunakan **Symmetric Mean Absolute Percentage Error (sMAPE)**:

Semakin **kecil nilai sMAPE**, semakin baik prediksi modelnya.
---
## ๐ **Alur Penyelesaian**
1. ๐ฅ **Eksplorasi Data**
2. ๐ ๏ธ **Pre-processing & Feature Engineering**
3. ๐ง **Pemodelan**
4. ๐ **Evaluasi Model dengan sMAPE**
5. ๐พ **Eksport Model Terbaik**
6. ๐ **Prediksi Data Uji**
7. ๐ **Generate Submission File**
---
## ๐ **Notebook 1 - Pelatihan Model**
**Nama File:** `Notebook1_Manusia_Pelupa_ADIKARA2024.ipynb`
Notebook ini mencakup:
- Eksplorasi data (`train_adikara2024.csv`)
- *Pre-processing* (menangani nilai hilang, *encoding*, dsb.)
- Pelatihan model dengan algoritma seperti Random Forest, XGBoost, dll.
- Evaluasi model menggunakan sMAPE
- Eksport model terbaik
---
## ๐ **Notebook 2 - Prediksi Submission**
**Nama File:** `Notebook2_Manusia_Pelupa_ADIKARA2024.ipynb`
Notebook ini mencakup:
- Membaca file `test_adikara2024_unlabeled.csv`
- Mengimpor model terbaik dari Notebook 1
- *Pre-processing* data uji
- Memprediksi *Food Price Index*
- Menghasilkan file submission (`submission_Manusia Pelupa_ADIKARA2024.csv`)
---
## ๐ **Format Submission**
Berikut format yang harus digunakan untuk file submission:
```csv
id,FoodPriceIndex
122,20.5
123,21.7
124,19.8
```
---
## ๐ป **Cara Menjalankan**
1. Clone repository ini:
```bash
git clone https://github.com/YourUsername/adikara2024-datamining.git
cd adikara2024-datamining
```
2. Siapkan lingkungan Python (opsional):
```bash
python -m venv env
source env/bin/activate # Untuk Linux/Mac
env\Scripts\activate # Untuk Windows
pip install -r All_Requirements.txt
```
## ๐ ๏ธ **Prasyarat**
Pastikan Anda memiliki:
- Python 3.8 atau lebih baru
- Library utama seperti `pandas`, `numpy`, `scikit-learn`, `xgboost`, dll.
- Jupyter Notebook untuk menjalankan `.ipynb` file
---
## ๐ **File Pendukung**
| **File/Fungsi** | **Deskripsi** |
|--------------------------|---------------|
| `requirements.txt` | Daftar library yang diperlukan untuk menjalankan kode |
| `sample_submission.csv` | Template untuk format submission |
| `train.csv` | Dataset pelatihan dengan label |
| `test.csv` | Dataset uji tanpa label |
---
## ๐ **Teknologi yang Digunakan**
- Python ๐
- Jupyter Notebook ๐
- Machine Learning (Random Forest, XGBoost, dll.) ๐ค
- Pandas & Numpy untuk analisis data ๐
- Matplotlib & Seaborn untuk visualisasi ๐
---
3. Jalankan notebook dengan Jupyter:
```bash
jupyter notebook
```
4. Ikuti instruksi pada `Notebook1` dan `Notebook2` untuk pelatihan serta prediksi.
---
## ๐ฎ **Kesimpulan**
**ADIKARA 2024 - Data Mining Competition** memberikan saya peluang luar biasa untuk meningkatkan kemampuan analisis data spatiotemporal dan machine learning. Dengan memanfaatkan metrik evaluasi seperti sMAPE, saya dapat mengembangkan model prediksi yang akurat dan relevan๐
---