{"id":28710558,"url":"https://github.com/prawy126/data-analysis","last_synced_at":"2025-06-14T21:06:52.967Z","repository":{"id":295800668,"uuid":"970815458","full_name":"Prawy126/Data-Analysis","owner":"Prawy126","description":null,"archived":false,"fork":false,"pushed_at":"2025-06-03T15:33:09.000Z","size":12457,"stargazers_count":0,"open_issues_count":4,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-06-03T22:51:13.654Z","etag":null,"topics":["ai","data-analysis","data-visualization","python","python3","tinker"],"latest_commit_sha":null,"homepage":"https://prawy126.github.io/HurtownieDanych/","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/Prawy126.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2025-04-22T15:20:45.000Z","updated_at":"2025-06-03T15:33:11.000Z","dependencies_parsed_at":"2025-05-27T12:53:34.135Z","dependency_job_id":null,"html_url":"https://github.com/Prawy126/Data-Analysis","commit_stats":null,"previous_names":["prawy126/data-analysis"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/Prawy126/Data-Analysis","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Prawy126%2FData-Analysis","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Prawy126%2FData-Analysis/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Prawy126%2FData-Analysis/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Prawy126%2FData-Analysis/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/Prawy126","download_url":"https://codeload.github.com/Prawy126/Data-Analysis/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Prawy126%2FData-Analysis/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":259884470,"owners_count":22926445,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ai","data-analysis","data-visualization","python","python3","tinker"],"created_at":"2025-06-14T21:06:52.408Z","updated_at":"2025-06-14T21:06:52.952Z","avatar_url":"https://github.com/Prawy126.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Analiza Online Retail II i Student Performance\n\nAplikacja do analizy statystycznej, klasteryzacji, klasyfikacji oraz przetwarzania wstępnego danych z wykorzystaniem zbiorów **Online Retail II** i **Student Performance**.\n\n---\n\n## Spis treści\n1. [Opis projektu](#opis-projektu)\n2. [Funkcjonalności](#funkcjonalności)\n3. [Wykorzystane technologie](#wykorzystane-technologie)\n4. [Instalacja i wymagania](#instalacja-i-wymagania)\n5. [Uruchomienie aplikacji](#uruchomienie-aplikacji)\n6. [Interfejs użytkownika (GUI)](#interfejs-użytkownika-gui)\n7. [Eksperymenty i wyniki](#eksperymenty-i-wyniki)\n8. [Autorzy](#autorzy)\n9. [Literatura](#literatura)\n\n---\n\n## Opis projektu\nCelem projektu jest stworzenie narzędzia umożliwiającego:\n- **Analizę statystyczną** (min, max, odchylenie standardowe, mediana, moda).\n- **Klasteryzację** (K-Means) i **klasyfikację** (Random Forest, ID3).\n- **Preprocessing danych** (usuwanie brakujących wartości, kodowanie, skalowanie).\n- **Wizualizację** (wykresy słupkowe, liniowe, punktowe, kołowe).\n- Pracę na dwóch zbiorach danych: **Online Retail II** (transakcje e-commerce) i **Student Performance** (wyniki uczniów).\n\n---\n\n## Funkcjonalności\n| Funkcjonalność                  | Opis                                                                 |\n|---------------------------------|---------------------------------------------------------------------|\n| **Wczytywanie danych**          | Obsługa plików CSV z walidacją błędów.                              |\n| **Statystyki**                  | Obliczanie miar statystycznych dla danych numerycznych i kategorycznych. |\n| **Korelacje**                   | Metody Pearsona i Spearmana.                                        |\n| **Modyfikacja danych**          | Usuwanie kolumn/wierszy, zastępowanie wartości, skalowanie (MinMax, Standard). |\n| **Kodowanie**                   | One-Hot Encoding, Binary Encoding, Target Encoding.                |\n| **Wykresy**                     | 4 typy: słupkowy, liniowy, punktowy, kołowy.                       |\n| **Algorytmy ML**                | Klasyfikacja (Random Forest, ID3), klasteryzacja (K-Means).        |\n\n---\n\n## Wykorzystane technologie\n- **Język**: Python 3.12\n- **Biblioteki**: \n  - `pandas`, `numpy` – przetwarzanie danych.\n  - `scikit-learn` – algorytmy ML i preprocessing.\n  - `matplotlib`, `seaborn` – wizualizacja.\n  - `tkinter` – interfejs graficzny.\n- **Narzędzia**: Jupyter Notebook (eksperymenty), Git (wersjonowanie).\n\n---\n\n## Instalacja i wymagania\n### Wymagania sprzętowe/programowe:\n- System: Windows/Linux/macOS.\n- RAM: min. 4 GB (dla dużych zbiorów danych zalecane 8 GB).\n- Python 3.12+.\n\n### Instalacja:\n1) Sklonuj repozytorium:\n\n```bash\ngit clone https://github.com/twoj_nick/projekt.git\n```\n\n---\n\n## Uruchomienie aplikacji\nUruchom plik główny:\n   \n2) Zainstaluj zależności:\n\n```bash\npip install -r requirements.txt\n```\n\n---\n\n## Uruchomienie aplikacji\n1) **Uruchom plik główny:**\n\n```bash\npython main.py\n```\n2) **Krok po kroku:**\n- Wybierz zbiór danych (CSV).\n- Wykonaj preprocessing (np. usuwanie brakujących wartości).\n- Wybierz funkcjonalność (statystyki, wykresy, algorytmy ML).\n- Zapisz wyniki lub eksportuj wykresy.\n\n---\n\n## Interfejs użytkownika (GUI)\n\n_Aktualnie trwają prace_\n\n---\n\n## Eksperymenty i wyniki\n1) Zbiory danych:\n- Online Retail II:\n  - Opis: 1,067,371 transakcji e-commerce.\n  - Wyniki: Klasteryzacja produktów według sprzedaży (K-Means), wykrycie sezonowości zakupów.\n- Student Performance:\n  - Opis: 649 uczniów, 30 cech.\n  - Wyniki: Klasyfikacja wyników z matematyki (Random Forest – dokładność 85%).\n- Wnioski:\n  - K-Means skutecznie grupuje produkty o podobnej sprzedaży.\n  - Random Forest osiąga lepsze wyniki niż ID3 w przewidywaniu ocen.\n\n---\n\n## Autorzy\n\n**Jakub Opar** – frontend (GUI, wizualizacja).\n\n**Michał Pilecki** – backend (algorytmy ML, statystyki). [![wakatime](https://wakatime.com/badge/github/Prawy126/HurtownieDanych.svg)](https://wakatime.com/badge/github/Prawy126/HurtownieDanych)\n\n---\n\n## Literatura\n\n- Zbiór Online Retail II: UCI Machine Learning Repository.\n- Zbiór Student Performance: UCI Machine Learning Repository.\n- Dokumentacja bibliotek: pandas, scikit-learn, matplotlib.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fprawy126%2Fdata-analysis","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fprawy126%2Fdata-analysis","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fprawy126%2Fdata-analysis/lists"}