Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/deliprofesor/behavioral-insights-and-data-exploration
https://github.com/deliprofesor/behavioral-insights-and-data-exploration
Last synced: 12 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/deliprofesor/behavioral-insights-and-data-exploration
- Owner: deliprofesor
- Created: 2024-04-19T21:28:24.000Z (9 months ago)
- Default Branch: main
- Last Pushed: 2024-11-25T20:25:30.000Z (about 1 month ago)
- Last Synced: 2024-11-25T20:27:56.579Z (about 1 month ago)
- Language: Python
- Size: 4.93 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Behavioral Insights and Data Exploration
Bu proje, İspanyolca Konuşma Verilerinin Analizi üzerine odaklanan bir veri analitiği ve makine öğrenimi projesidir. Veri seti, İspanyolca konuşma sırasında kaydedilen akustik özellikleri ve bazı demografik bilgileri içerir. Aşağıda, projede kullanılan yöntemler ve veri setinin detayları açıklanmıştır:
![spanish](https://github.com/user-attachments/assets/764613e0-21e4-4e4a-a94e-8f9e296219bc)
Veri Seti Parametreleri:
- **cdur: Konuşma sırasında ölçülen sürenin bir bölümü.**
- **vdur: Sesli harf süresi.**
- **place: Artikülasyon yeri (ör. Velar, Dental).**
- **stress: Vurgunun tipi (ör. Tonic, Unstressed).**
- **prevowel ve posvowel: Önceki ve sonraki sesli harfler.**
- **wordpos: Kelime içindeki pozisyon (ör. Initial, Medial).**
- **wordfreq: Kelimenin frekansı (kullanım sıklığı).**
- **speechrate: Konuşma hızı.**
- **sex: Konuşmacının cinsiyeti (Kadın veya Erkek).**
- **speaker: Konuşmacı kimliği (ör. s01).**# Projenin Hedefleri
- **Veriyi temizlemek ve analiz etmek.**
- **Aykırı değerleri tespit etmek ve kaldırmak.**
- **Eksik verileri doldurmak.**
- **Akustik özellikler arasındaki ilişkileri incelemek.**
- **Veriyi normalizasyon ve standardizasyon gibi yöntemlerle ön işleme tabi tutmak.**
- **Özellik mühendisliği ile yeni değişkenler oluşturmak.**
- **Kümeleme analizi ve zaman serisi modelleme gibi ileri düzey analitik yöntemler uygulamak.**# Veri İncelemesi ve Eksik Veri Analizi
Veri setindeki eksik değerler ortalama ile dolduruldu. Eksik değerlerin görselleştirilmesi için Missingno kullanıldı.
# Aykırı Değerlerin Tespiti
cdur değişkeni için IQR (Interquartile Range) yöntemi kullanılarak aykırı değerler kaldırıldı.
# Veri Normalizasyonu ve Standardizasyon
cdur, vdur ve wordfreq değişkenleri Min-Max Skalası kullanılarak %0-100 aralığına normalleştirildi. vdur değişkeni, Standart Skalası ile yeniden ölçeklendirildi.
# Kutu Grafikleri ve Yoğunluk Analizi
Histogram, kutu grafiği ve yoğunluk grafikleri ile cdur ve vdur değişkenlerinin dağılımı görselleştirildi. Korelasyon analizi için bir ısı haritası oluşturuldu.
_ **cdur_to_vdur_ratio: cdur ve vdur oranı hesaplandı.**
_ **log_wordfreq: wordfreq değişkeninin logaritması alındı.**![vdur_o_s](https://github.com/user-attachments/assets/9d6be06e-7833-4056-a921-4d83042371f5)
![cdur](https://github.com/user-attachments/assets/a6f1e085-a445-4bb0-9e2a-0f6fc69e9c74)
![cdur-2](https://github.com/user-attachments/assets/7c1604e0-e7f7-4d4b-8bd2-7b4952b2dbb2)
# Korelasyon Analizi
Bu bölüm, seçilen sütunlar arasındaki ilişkinin yönünü ve gücünü analiz eder.
![korelasyon](https://github.com/user-attachments/assets/6cd0953a-2758-48df-bec2-5183130390e9)
# Kümeleme (Clustering)
K-Means algoritması, veri setindeki benzer özelliklere sahip veri noktalarını gruplamak (kümelemek) için kullanılan bir denetimsiz makine öğrenimi algoritmasıdır.
Veri setindeki farklı grupları (ses süreleri ve frekans değerleri açısından benzerlik gösteren konuşma örnekleri) belirlemek için kullandık.
Özellikle ‘cdur’ (ses süresi), ‘vdur’ (sesli harf süresi) ve ‘wordfreq’ (kelime frekansı) gibi sayısal verilerdeki gizli yapıları anlamak ve görselleştirmek amacıyla kullanıldı. Kümeleme sonuçları bir dağılım grafiği ile görselleştirildi.![k-means](https://github.com/user-attachments/assets/831ae8e8-5927-4b9d-81d8-53e497f99882)
# Zaman Serisi Analizi
cdur değişkeni üzerinde ARIMA ve Holt-Winters Exponential Smoothing modelleri ile tahminlemeler yapıldı.
Zaman serisi verisinin trend ve mevsimsellik gibi bileşenleri seasonal_decompose yöntemi ile analiz edildi.![zaman cdur](https://github.com/user-attachments/assets/978fd6ff-cebc-4b1c-ac9e-d26ecc235eff)
# ARIMA (AutoRegressive Integrated Moving Average)
ARIMA modeli, zaman serisi verilerinin trendlerini ve desenlerini modellemek ve gelecekteki değerleri tahmin etmek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) zaman serisi verisinin geçmiş değerlerine dayanarak, gelecekteki olası değerleri tahmin etmek için kullanıldı. ARIMA, trend (artış/azalış) ve sezonsal (dönemsel) bileşenlerin analizi için uygundur. Verideki geçmiş bağımlılıkları dikkate alır.
![ARIMA ](https://github.com/user-attachments/assets/cf2ccf75-0a0a-453c-aec5-843b501e6f92)
# Holt-Winters Exponential Smoothing
Holt-Winters yöntemi, zaman serisi verilerindeki trend ve sezonsallık bileşenlerini modellemek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) verisinin hem trend hem de dönemsel (sezonsal) yapıya sahip olabileceğini varsaydık.
![exponential](https://github.com/user-attachments/assets/da095e13-714a-4a0c-85d6-0be791d6eed3)
# Sonuç ve Çıkarımlar
cdur, vdur ve wordfreq değişkenleri arasındaki korelasyon, konuşma süresi ve kelime sıklığına dair anlamlı bilgiler sundu.
Kümeleme analizi, veriyi üç gruba ayırarak akustik özelliklerdeki benzerlikleri gösterdi.
Zaman serisi analizi, konuşma süresindeki trendleri ve mevsimselliği ortaya çıkardı.