{"id":27644954,"url":"https://github.com/rusenaite/speaker-identification-using-ml","last_synced_at":"2026-04-17T00:02:22.582Z","repository":{"id":289550583,"uuid":"971621496","full_name":"rusenaite/speaker-identification-using-ML","owner":"rusenaite","description":"A speaker recognition system using machine learning (SVM) with MFCC, chroma, and tonnetz features extracted from short audio clips.","archived":false,"fork":false,"pushed_at":"2025-04-23T20:40:04.000Z","size":30272,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-04-24T00:59:17.778Z","etag":null,"topics":["chroma","mfcc","ml","python","svm","tonnetz"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/rusenaite.png","metadata":{"files":{"readme":"readme.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2025-04-23T19:57:34.000Z","updated_at":"2025-04-23T20:41:50.000Z","dependencies_parsed_at":"2025-04-23T21:43:31.371Z","dependency_job_id":null,"html_url":"https://github.com/rusenaite/speaker-identification-using-ML","commit_stats":null,"previous_names":["rusenaite/speaker-identification-using-ml"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/rusenaite/speaker-identification-using-ML","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rusenaite%2Fspeaker-identification-using-ML","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rusenaite%2Fspeaker-identification-using-ML/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rusenaite%2Fspeaker-identification-using-ML/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rusenaite%2Fspeaker-identification-using-ML/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/rusenaite","download_url":"https://codeload.github.com/rusenaite/speaker-identification-using-ML/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rusenaite%2Fspeaker-identification-using-ML/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":265876900,"owners_count":23842956,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["chroma","mfcc","ml","python","svm","tonnetz"],"created_at":"2025-04-24T00:59:16.540Z","updated_at":"2026-04-17T00:02:17.520Z","avatar_url":"https://github.com/rusenaite.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Kalbėtojo atpažinimas naudojant mašininį mokymąsi\n\n## Tikslas\nSukurti sistemą, kuri geba atpažinti kalbėtoją iš trumpų garso įrašų, taikant mašininio mokymosi metodus.\n\n## Sistemos schema\n\n\u003cimg src=\"diagram.png\" alt=\"Sistemos schema\" width=\"400\" /\u003e\n\n## Duomenys\n- Naudotas kelių kalbėtojų garso įrašų rinkinys (10 kalbėtojų, po kelis įrašus kiekvienam).\n- Įrašai trumpi (1–3 sekundės), WAV formatu.\n- Katalogo struktūra:\n  ```\n  dataset/\n  ├── speaker1/\n  ├── speaker2/\n  └── ...\n  ```\n  \n## Požymių išgavimas\nIš kiekvieno įrašo išgauti šie požymiai:\n- MFCC (13 koeficientų, su vidurkiu ir standartiniu nuokrypiu)\n- Chroma (vidurkis ir standartinis nuokrypis)\n- Tonnetz (vidurkis ir standartinis nuokrypis)\n\nTrumpi įrašai (\u003c2048 mėginių) buvo automatiškai prailginti nuliais (zero-padding), kad būtų užtikrintas skaičiavimų stabilumas.\n\n## Klasifikavimo modelis\nNaudotas SVM (Support Vector Machine) su `linear` branduoliu.\n\n- Požymiai normalizuoti naudojant `StandardScaler`.\n- Duomenys padalyti: 80% – mokymui, 20% – testavimui.\n\n## Rezultatai\n\n| Rodiklis | Reikšmė |\n|----------|---------|\n| Tikslumas (accuracy) | 100.00% |\n| Klasifikavimo ataskaita | Visos klasės atpažintos be klaidų |\n| Confusion matrix | Jokios klasifikavimo klaidos |\n\n## Eksperimentas su triukšmu\nBuvo pridėtas white noise (noise_level = 0.05) prie testavimo požymių.\n\n| Būsena | Tikslumas |\n|--------|-----------|\n| Be triukšmo | 100.00% |\n| Su triukšmu | 100.00% |\n\nPastaba: triukšmas buvo pridėtas prie išskaičiuotų požymių. Realistiškesniam testavimui rekomenduojama triukšmą taikyti tiesiai WAV įrašams prieš požymių skaičiavimą.\n\n## Išvados\n- Modelis sėkmingai atpažino visus kalbėtojus, net esant labai trumpiems įrašams.\n- MFCC, Chroma ir Tonnetz požymiai pasirodė esantys labai efektyvūs.\n- SVM modelis su linear branduoliu buvo tinkamas pasirinkimas šiai užduočiai.\n- Tolimesniems bandymams verta įtraukti triukšmą ankstesnėse stadijose bei didesnius, įvairesnius duomenis.","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frusenaite%2Fspeaker-identification-using-ml","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Frusenaite%2Fspeaker-identification-using-ml","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frusenaite%2Fspeaker-identification-using-ml/lists"}