https://github.com/nightrunners02/uap_machine-learning

439 indonesia ipynb-jupyter-notebook nightrunners02 python uap

Last synced: about 2 months ago
JSON representation

Host: GitHub
URL: https://github.com/nightrunners02/uap_machine-learning
Owner: NightRunners02
License: mit
Created: 2025-12-19T09:09:18.000Z (6 months ago)
Default Branch: main
Last Pushed: 2025-12-24T07:00:35.000Z (6 months ago)
Last Synced: 2025-12-24T21:59:07.097Z (6 months ago)
Topics: 439, indonesia, ipynb-jupyter-notebook, nightrunners02, python, uap
Language: Jupyter Notebook
Homepage: https://github.com/NightRunners02/UAP_Machine-Learning
Size: 14.6 MB
Stars: 1
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# 📩 Spam SMS Classification – UAP Pembelajaran Mesin

---

Proyek ini merupakan **Ujian Akhir Praktikum (UAP)** mata kuliah **Pembelajaran Mesin**, yang berfokus pada **klasifikasi teks SMS spam dan ham** menggunakan **tiga pendekatan model**, yaitu:

1. **Neural Network Base (Non-Pretrained – LSTM)**
2. **Pretrained Model 1 – DistilBERT**
3. **Pretrained Model 2 – BERT**

Selain pelatihan dan evaluasi model, proyek ini juga dilengkapi dengan **dashboard interaktif menggunakan Streamlit** untuk melakukan inferensi dan analisis performa model.

---

## 👨‍🎓 Informasi Mahasiswa

- **Nama** : Khairy Zhafran H. Kastella
- **NIM** : 202210370311439
- **Mata Kuliah** : Pembelajaran Mesin
- **Universitas** : Universitas Negeri Malang

---

## 📂 Struktur Repository

```
📦 Praktikum-Text-UAP
│
├── data/
│ └── spam.csv
│
├── file_ipynb/
│ ├── Model_Bert_UAP_Machine_Learning.ipynb
│ ├── Model_Distilbert_UAP_Machine_Learning.ipynb
│ └── Model_LSTM_UAP_Machine_Learning.ipynb
│
├── model_nn_base/
│ ├── model_lstm.pth
│ └── tokenizer.pkl
│
├── model_distilbert/
│ ├── config.json
│ ├── model.safetensors
│ └── tokenizer.json
│
├── model_bert/
│ ├── config.json
│ ├── model.safetensors
│ └── tokenizer.json
│
├── train_lstm.py
├── train_distilbert.py
├── train_bert.py
│
├── evaluate_lstm.py
├── evaluate_distilbert.py
├── evaluate_bert.py
│
├── app.py
├── requirements.txt
├── pyproject.toml
└── README.md

````

---

## 📊 Dataset

Proyek ini menggunakan dataset **SMS Spam Collection Dataset** dari Kaggle.

- **Sumber Dataset**
🔗 https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset

- **Jumlah Data** : 5.574 SMS
- **Label** :
- `ham` → SMS normal
- `spam` → SMS spam

### Contoh Data

| Label | Teks |
|------|------|
| ham | Go until jurong point, crazy.. Available only in bugis |
| spam | Free entry in a weekly competition to win FA Cup tickets |

---

## ⚙️ Preprocessing Data

Langkah preprocessing yang dilakukan:

- Encoding label (`ham = 0`, `spam = 1`)
- Pembersihan teks dasar
- Tokenisasi:
- **TF-IDF** untuk model NN Base
- **Tokenizer Transformer** untuk DistilBERT dan BERT
- Padding & truncation (max length = 128)

---

## 🧠 Model yang Digunakan

### 1️⃣ Neural Network Base (Non-Pretrained – LSTM)

- Embedding Layer
- LSTM Layer
- Fully Connected Layer
- Sigmoid Output
- Dilatih dari awal tanpa pretrained weight

**Kelebihan**:
- Lebih ringan
- Mudah dipahami
- Cocok untuk baseline

---

### 2️⃣ Pretrained Model 1 – DistilBERT

- Model Transformer ringan
- Transfer learning dari `distilbert-base-uncased`
- Fine-tuning pada dataset SMS Spam

**Kelebihan**:
- Lebih cepat dari BERT
- Akurasi tinggi
- Lebih efisien untuk deployment

---

### 3️⃣ Pretrained Model 2 – BERT

- Model Transformer penuh
- Transfer learning dari `bert-base-uncased`
- Representasi konteks teks lebih kaya

**Kelebihan**:
- Akurasi tertinggi
- Pemahaman konteks lebih baik

---

## 📈 Evaluasi Model

Evaluasi dilakukan menggunakan:

- **Classification Report**
- Accuracy
- Precision
- Recall
- F1-Score
- **Confusion Matrix**
- **Grafik Loss dan Accuracy**

### Contoh Metrik Evaluasi

| Model | Accuracy |
|------|----------|
| LSTM (NN Base) | ~87% |
| DistilBERT | ~96% |
| BERT | ~97% |

📌 *Model pretrained menunjukkan performa yang lebih baik dibandingkan model non-pretrained.*

---

## 📊 Visualisasi

- Grafik **Training Loss vs Epoch**
- Grafik **Accuracy vs Epoch**

---

## 📈 Hasil Evaluasi Model

### 🔹 Perbandingan Akurasi 3 Model

![Perbandingan Akurasi](gambar_figure/Perbandingan%20Akurasi%203%20Model.png)

Grafik menunjukkan bahwa **BERT memiliki performa terbaik**, diikuti oleh **DistilBERT**, sedangkan **LSTM** digunakan sebagai baseline non-pretrained.

---

## 🧪 Evaluasi Per Model

### 1️⃣ LSTM (Non-Pretrained)

**Training Loss & Accuracy**

![Training LSTM](gambar_figure/Training%20Loss%20dan%20Accuracy%20LSTM.png)

Model LSTM menunjukkan proses pembelajaran yang stabil, namun performanya masih terbatas dibanding model pretrained karena keterbatasan pemahaman konteks bahasa.

**Confusion Matrix**

![Confusion Matrix LSTM](gambar_figure/Confusion%20Matrix%20-%20LSTM.png)

Masih terdapat kesalahan klasifikasi, terutama pada data spam yang memiliki struktur bahasa mirip pesan normal.

---

### 2️⃣ DistilBERT

**Training Loss & Accuracy**

![Training DistilBERT](gambar_figure/Training%20Loss%20dan%20Accuracy%20Distilbert.png)

Kurva training menunjukkan konvergensi yang baik dan stabil. DistilBERT mampu belajar lebih cepat dengan performa yang mendekati BERT.

**Confusion Matrix**

![Confusion Matrix DistilBERT](gambar_figure/Confusion%20Matrix%20-%20Distilbert.png)

Mayoritas prediksi berada pada diagonal utama, menandakan performa klasifikasi yang kuat dan konsisten.

---

### 3️⃣ BERT

**Training Loss & Accuracy**

![Training BERT](gambar_figure/Training%20Loss%20dan%20Accuracy%20Bert.png)

BERT menunjukkan akurasi tertinggi dengan loss paling rendah, menandakan pemahaman konteks teks yang sangat baik.

**Confusion Matrix**

![Confusion Matrix BERT](gambar_figure/Confusion%20Matrix%20-%20Bert.png)

Hampir seluruh prediksi berada pada diagonal utama, menunjukkan performa klasifikasi terbaik di antara ketiga model.

---

## 🖥️ Dashboard Streamlit

Dashboard menyediakan fitur:

- Pilih model (LSTM / DistilBERT / BERT)
- Input teks SMS
- Prediksi real-time
- Tampilan hasil dengan:
- 🟥 Background merah untuk **SPAM**
- 🟩 Background hijau untuk **HAM**
- Informasi jumlah total data

---

## ▶️ Cara Menjalankan Project (Local)

### 1️⃣ Clone Repository
```bash
git clone https://github.com/username/Praktikum-Text-UAP.git
cd Praktikum-Text-UAP
````

### 2️⃣ Install Dependency

```bash
pip install -r requirements.txt
```

atau menggunakan **PDM**:

```bash
pdm install
```

### 3️⃣ Jalankan Dashboard

```bash
streamlit run app.py
```

---

## 🌐 Live Demo (Optional)

🔗 *Belum tersedia / Opsional*

---

## 📝 Kesimpulan

* Model **pretrained (DistilBERT & BERT)** memberikan performa terbaik
* **LSTM** tetap layak sebagai baseline
* Streamlit mempermudah analisis dan presentasi model
* Transfer learning sangat efektif untuk klasifikasi teks

---

## 📌 Catatan

Proyek ini dibuat untuk keperluan **akademik** dan **pembelajaran**, bukan untuk penggunaan komersial.

---

⭐ Jangan lupa beri **star** jika repository ini membantu!

---

⛓️‍💥 Misc / Lain-lain

🗣️ Powered By:

---

🌠 Starred:

[![Stargazers repo roster for @NightRunners02/](https://reporoster.com/stars/NightRunners02/UAP_Machine-Learning)](https://github.com/NightRunners02/UAP_Machine-Learning/stargazers)

---

🪐 Forked:

[![Forkers repo roster for @NightRunners02/](https://reporoster.com/forks/NightRunners02/UAP_Machine-Learning)](https://github.com/NightRunners02/UAP_Machine-Learning/network/members)

---

💫 Star History:

[![Star History Chart](https://api.star-history.com/svg?repos=NightRunners02/UAP_Machine-Learning&type=Date)](https://star-history.com/#UAP_Machine-Learning/Portofolio_Simple&Date)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/nightrunners02/uap_machine-learning

Awesome Lists containing this project

README

⛓️‍💥 Misc / Lain-lain

🗣️ Powered By:

🌠 Starred:

🪐 Forked:

💫 Star History: