{"id":47548035,"url":"https://github.com/rcspam/dictee","last_synced_at":"2026-05-03T22:03:43.647Z","repository":{"id":343026404,"uuid":"1173383779","full_name":"rcspam/dictee","owner":"rcspam","description":"Push-to-talk voice dictation for Linux — 100% local, multilingual (25+ languages), with speaker diarization. Qt frontend, Rust backend on NVIDIA Parakeet via ONNX Runtime. KDE Plasmoid integred.","archived":false,"fork":false,"pushed_at":"2026-04-26T20:02:45.000Z","size":37431,"stargazers_count":9,"open_issues_count":1,"forks_count":1,"subscribers_count":1,"default_branch":"master","last_synced_at":"2026-04-26T21:27:36.462Z","etag":null,"topics":["asr","cli","dictation","kde","linux","nvidia","onnx","parakeet","plasma","plasma-6","plasma-applet","plasmoid","push-to-talk","rust","speech-to-text","stt","translate","voice","voice-dictation","voice-recognition"],"latest_commit_sha":null,"homepage":"https://github.com/rcspam/dictee/releases","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"gpl-3.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/rcspam.png","metadata":{"files":{"readme":"README.fr.md","changelog":"CHANGELOG.md","contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2026-03-05T10:00:13.000Z","updated_at":"2026-04-26T20:02:49.000Z","dependencies_parsed_at":null,"dependency_job_id":"36da5861-d8df-422f-8a9a-726c252f585c","html_url":"https://github.com/rcspam/dictee","commit_stats":null,"previous_names":["rcspam/dictee"],"tags_count":41,"template":false,"template_full_name":null,"purl":"pkg:github/rcspam/dictee","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rcspam%2Fdictee","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rcspam%2Fdictee/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rcspam%2Fdictee/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rcspam%2Fdictee/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/rcspam","download_url":"https://codeload.github.com/rcspam/dictee/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/rcspam%2Fdictee/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":32586189,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-05-03T06:36:36.687Z","status":"ssl_error","status_checked_at":"2026-05-03T06:36:09.306Z","response_time":103,"last_error":"SSL_read: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["asr","cli","dictation","kde","linux","nvidia","onnx","parakeet","plasma","plasma-6","plasma-applet","plasmoid","push-to-talk","rust","speech-to-text","stt","translate","voice","voice-dictation","voice-recognition"],"created_at":"2026-03-29T02:00:22.277Z","updated_at":"2026-05-03T22:03:43.641Z","avatar_url":"https://github.com/rcspam.png","language":"Python","funding_links":[],"categories":["Uncategorized","Applications"],"sub_categories":["Uncategorized","Utilities \u0026 Tools"],"readme":"\u003cp align=\"center\"\u003e\n  \u003cpicture\u003e\n    \u003csource media=\"(prefers-color-scheme: dark)\" srcset=\"assets/banner-dark.svg\"\u003e\n    \u003csource media=\"(prefers-color-scheme: light)\" srcset=\"assets/banner-light.svg\"\u003e\n    \u003cimg src=\"assets/banner-light.svg\" alt=\"dictée\" width=\"512\"\u003e\n  \u003c/picture\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003cb\u003e\u003ci\u003eParler, c'est juste plus simple.\u003c/i\u003e\u003c/b\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003cb\u003eParlez librement, le texte apparaît instantanément\u003c/b\u003e — dictée vocale 100 % locale pour Linux avec 25+ langues, 5 backends de traduction, diarisation des locuteurs et retour visuel en temps réel. Le texte s'écrit directement à l'endroit de votre curseur.\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"https://github.com/rcspam/dictee/releases\"\u003e\u003cimg src=\"https://img.shields.io/github/v/release/rcspam/dictee?label=release\u0026color=blue\u0026include_prereleases\" alt=\"Dernière version\"\u003e\u003c/a\u003e\n  \u003ca href=\"LICENSE\"\u003e\u003cimg src=\"https://img.shields.io/badge/licence-GPL--3.0-green\" alt=\"Licence GPL-3.0\"\u003e\u003c/a\u003e\n  \u003cimg src=\"https://img.shields.io/badge/moteur-Rust-orange?logo=rust\" alt=\"Rust\"\u003e\n  \u003cimg src=\"https://img.shields.io/badge/interface-PyQt6%20%2F%20Bash-yellow\" alt=\"PyQt6 / Bash\"\u003e\n  \u003cimg src=\"https://img.shields.io/badge/plateforme-Linux-lightgrey?logo=linux\" alt=\"Linux\"\u003e\n  \u003ca href=\"https://github.com/rcspam/dictee/wiki\"\u003e\u003cimg src=\"https://img.shields.io/badge/docs-wiki-blue\" alt=\"Wiki\"\u003e\u003c/a\u003e\n\u003c/p\u003e\n\n\u003e 📚 **Nouveau** : le [**wiki dictée**](https://github.com/rcspam/dictee/wiki/fr-Home) complet est désormais en ligne — 24 pages couvrant l'installation, la configuration, les 4 backends ASR (avec deep-dives Parakeet-TDT et Canary-1B), le post-traitement, la diarisation, le dépannage et le guide développeur. Disponible en 🇫🇷 français et 🇬🇧 anglais.\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"#quest-ce-que-dictée-\"\u003eQu'est-ce que dictée ?\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#démarrage-rapide\"\u003eDémarrage rapide\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#fonctionnalités\"\u003eFonctionnalités\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#installation\"\u003eInstallation\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#configuration\"\u003eConfiguration\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#utilisation\"\u003eUtilisation\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#post-traitement\"\u003ePost-traitement\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#limitations-connues\"\u003eLimitations\u003c/a\u003e \u0026bull;\n  \u003ca href=\"#feuille-de-route\"\u003eFeuille de route\u003c/a\u003e \u0026bull;\n  \u003ca href=\"https://github.com/rcspam/dictee/wiki\"\u003eWiki\u003c/a\u003e\n\u003c/p\u003e\n\n---\n\n## Qu'est-ce que dictée ?\n\n**dictée** est un système complet de dictée vocale pour Linux. Appuyez sur un raccourci, parlez, et le texte est tapé directement dans l'application active — n'importe quelle application, n'importe quelle fenêtre, n'importe quel champ de saisie.\n\nLa transcription est effectuée **100 % localement** par défaut : aucun audio ne quitte votre machine à moins que vous ne choisissiez explicitement un backend de traduction en ligne.\n\n- 🔒 **100 % local par défaut** — Parakeet, Canary, faster-whisper et Vosk tournent tous hors ligne sur votre matériel\n- 🌍 **25+ langues** — avec ponctuation et capitalisation natives (Parakeet-TDT)\n- 🔀 **4 backends ASR** — changez instantanément selon la langue, la latence et le matériel\n- 🎨 **Retour visuel** — widget KDE Plasma, icône systray, ou animation plein écran\n\n---\n\n## Démarrage rapide\n\nTrois étapes pour passer de zéro à la dictée en moins de deux minutes :\n\n**1. Installer**\n\n```bash\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash\n```\n\n**2. Configurer**\n\nL'assistant de premier lancement vous guide pour la sélection du backend, le téléchargement du modèle et l'association du raccourci clavier. Relancez à tout moment via `dictee --setup`.\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/wizard_1.3.png\" alt=\"Assistant de premier lancement\" width=\"720\"\u003e\n\u003c/p\u003e\n\n**3. Parler**\n\nAppuyez sur votre raccourci (par défaut **F9**), parlez, relâchez. La transcription apparaît au curseur.\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/plasmoid-cheat.png\" alt=\"Widget plasmoid en enregistrement\" width=\"720\"\u003e\n\u003c/p\u003e\n\nPour les chemins d'installation détaillés (`.deb`/`.rpm` manuels, prérequis GPU, AUR, depuis les sources), voir la section [Installation](#installation) ci-dessous ou les pages wiki [Installation](https://github.com/rcspam/dictee/wiki/Installation) et [GPU-Setup](https://github.com/rcspam/dictee/wiki/GPU-Setup).\n\n---\n\n## Fonctionnalités\n\n### 4 backends ASR\n\n| Backend | Langues | Taille modèle | Latence chaude | Notes |\n|---------|---------|---------------|----------------|-------|\n| **Parakeet-TDT 0.6B v3** | 25 | ~2,5 Go | ~0,8s CPU · ~0,16s GPU | Par défaut, ponctuation native |\n| **Canary-1B v2** | 25 | ~5 Go | ~0,7s GPU | Traduction intégrée (25 ↔ EN, 48 paires) |\n| **faster-whisper** | 99 | ~500 Mo–3 Go | ~0,3s | Large couverture linguistique |\n| **Vosk** | 20+ | ~50 Mo | ~1,5s | Léger, strictement hors ligne |\n\nChaque backend tourne comme service systemd utilisateur avec le même protocole socket Unix — le changement est transparent. → [Wiki ASR-Backends](https://github.com/rcspam/dictee/wiki/ASR-Backends)\n\n### 5 backends de traduction\n\n| Backend | Confidentialité | Vitesse | Qualité | Langues |\n|---------|-----------------|---------|---------|---------|\n| **Canary-1B** | 🔒 Local | Intégré | Excellente | 4 |\n| **LibreTranslate** | 🔒 Local | 0,1–0,3s | Bonne | 30+ |\n| **Ollama** | 🔒 Local | 2–3s | Excellente | Toutes (LLM) |\n| **Google Translate** | 🌐 Cloud | 0,2–0,7s | Excellente | 130+ |\n| **Bing Translator** | 🌐 Cloud | 1,7–2,2s | Très bonne | 100+ |\n\n→ [Wiki Translation](https://github.com/rcspam/dictee/wiki/Translation) · [Ollama-Setup](https://github.com/rcspam/dictee/wiki/Ollama-Setup)\n\n### Pipeline de post-traitement\n\nUn pipeline configurable en 12 étapes transforme la sortie ASR brute avant qu'elle n'atteigne votre curseur :\n\n- **Règles regex + dictionnaire** — 7 langues, variantes ASR, commandes vocales → [Rules-and-Dictionary](https://github.com/rcspam/dictee/wiki/Rules-and-Dictionary)\n- **Correction LLM** — polissage optionnel de la fluidité via Ollama local (position first / last / hybrid) → [LLM-Correction](https://github.com/rcspam/dictee/wiki/LLM-Correction)\n- **Nombres \u0026 dates** — cardinaux, ordinaux, versions, décimales, heures en français → [Numbers-Dates-Continuation](https://github.com/rcspam/dictee/wiki/Numbers-Dates-Continuation)\n- **Tampon de continuation** — continuer une phrase entre deux dictées avec mémoire du dernier mot\n- **Short-text keepcaps** — exceptions par langue pour sigles et noms propres (nouveauté v1.3)\n\n→ [Post-Processing-Overview](https://github.com/rcspam/dictee/wiki/Post-Processing-Overview)\n\n### Diarisation des locuteurs (Meetings)\n\nRépond à la question *« qui a parlé et quand ? »* dans les enregistrements multi-locuteurs via le modèle **Sortformer** de NVIDIA. Jusqu'à 4 locuteurs, idéal pour les comptes rendus de réunion et les interviews. Déclenché via le **mode Meeting** ou `dictee --meeting`. → [Wiki Diarization](https://github.com/rcspam/dictee/wiki/Diarization)\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/diarization-1_1.3.png\" alt=\"Sortie de diarisation\" width=\"900\"\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/diarisation-2_1.3.png\" alt=\"Diarisation — étiquettes des locuteurs\" width=\"900\"\u003e\n\u003c/p\u003e\n\n### 3 interfaces visuelles\n\n- **Widget KDE Plasma 6** — plasmoid QML natif, 5 styles d'animation, état en direct → [Plasmoid-Widget](https://github.com/rcspam/dictee/wiki/Plasmoid-Widget)\n- **Icône systray** — PyQt6, fonctionne sur GNOME/XFCE/Sway (repli AppIndicator) → [Tray-Icon](https://github.com/rcspam/dictee/wiki/Tray-Icon)\n- **animation-speech** (externe) — overlay plein écran sur compositeurs `wlr-layer-shell`\n\nLes trois interfaces partagent leur état via un surveillant de fichier — toute modification est reflétée instantanément (sûr en multi-utilisateur via suffixe UID).\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/plasmoid-cheat.png\" alt=\"Plasmoid KDE Plasma\" width=\"720\"\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/tray_1.3.png\" alt=\"Menu de l'icône systray\" width=\"360\"\u003e\n\u003c/p\u003e\n\n#### animation-speech (overlay plein écran)\n\n[animation-speech](https://github.com/rcspam/animation-speech) est un projet autonome qui fournit une animation visuelle plein écran pendant l'enregistrement, annulable via la touche Échap. Il fonctionne sur tout compositeur Wayland qui supporte `wlr-layer-shell` (KDE Plasma, Sway, Hyprland…).\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"https://youtu.be/-fWZZEO7mCA\"\u003e\n    \u003cimg src=\"assets/demo.gif\" alt=\"démo animation-speech — cliquez pour voir sur YouTube\" width=\"640\"\u003e\n  \u003c/a\u003e\n\u003c/p\u003e\n\n```bash\nsudo dpkg -i animation-speech_1.2.0_all.deb\n```\n\n\u003e Téléchargement : [releases animation-speech](https://github.com/rcspam/animation-speech/releases)\n\n\u003e **Note :** animation-speech n'est pas compatible avec GNOME (pas de support `wlr-layer-shell`). Les utilisateurs GNOME peuvent s'appuyer sur `dictee-tray` pour le retour visuel. Les contributions pour une extension GNOME Shell sont bienvenues — voir la [source du plasmoid](plasmoid/) comme architecture de référence.\n\n---\n\n## Installation\n\n### Une ligne (recommandé)\n\nDétecte automatiquement votre distribution et votre GPU, ajoute le dépôt CUDA NVIDIA si nécessaire, installe le bon paquet :\n\n```bash\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash\n```\n\nPris en charge : **Ubuntu, Debian, Fedora, openSUSE, Arch Linux**. Les autres distributions basculent sur le tarball.\n\n**Options** (après `--`) :\n\n```bash\n# Forcer CPU (ignorer la détection GPU)\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash -s -- --cpu\n\n# Forcer GPU (CUDA)\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash -s -- --gpu\n\n# Épingler une version précise\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash -s -- --version 1.3.0\n\n# Non interactif\ncurl -fsSL https://raw.githubusercontent.com/rcspam/dictee/master/install.sh | bash -s -- --non-interactive\n```\n\n### Installation manuelle\n\nTéléchargez depuis [Releases](../../releases).\n\n**Ubuntu / Debian (CPU) :**\n\n```bash\nsudo apt install ./dictee-cpu_1.3.0_amd64.deb\n```\n\n**Ubuntu / Debian (GPU) :** nécessite le dépôt APT CUDA NVIDIA — voir [GPU-Setup](https://github.com/rcspam/dictee/wiki/GPU-Setup) pour la configuration unique, puis :\n\n```bash\nsudo apt install ./dictee-cuda_1.3.0_amd64.deb\n```\n\n**Fedora / openSUSE (CPU) :**\n\n```bash\nsudo dnf install ./dictee-cpu-1.3.0-1.x86_64.rpm\n```\n\n**Fedora / openSUSE (GPU) :** ajoutez d'abord le dépôt CUDA (voir [GPU-Setup](https://github.com/rcspam/dictee/wiki/GPU-Setup)), puis `dictee-cuda-1.3.0-1.x86_64.rpm`.\n\n**Arch Linux (AUR) :** `PKGBUILD` à la racine du dépôt (x86_64 + aarch64). Clonez + `makepkg -si`.\n\n**aarch64 / Jetson :** pas de paquet pré-construit — compilez depuis les sources. CUDA limité aux cartes NVIDIA Jetson.\n\n**Autres distros (tarball) :**\n\n```bash\ntar xzf dictee-1.3.0_amd64.tar.gz\ncd dictee-1.3.0\nsudo ./install.sh\n```\n\n**Depuis les sources :** `cargo build --release --features sortformer` puis `sudo ./install.sh`. Voir [Developer-Guide](https://github.com/rcspam/dictee/wiki/Developer-Guide) pour la liste complète des features Cargo et les scripts de build.\n\n---\n\n## Configuration\n\nAu premier lancement, un **assistant de configuration** vous guide (backend, modèle, raccourcis).\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/wizard_1.3.png\" alt=\"Assistant de premier lancement\" width=\"800\"\u003e\n\u003c/p\u003e\n\nReconfigurez à tout moment depuis le menu de l'application, l'icône systray, le widget Plasma, ou en lançant :\n\n```bash\ndictee --setup\n```\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/dictee-setup_1.3.png\" alt=\"Panneau de configuration complet\" width=\"800\"\u003e\n\u003c/p\u003e\n\n### Changement de backend (une ligne)\n\n```bash\n# Afficher les backends actuels\ndictee-switch-backend status\n\n# Changer l'ASR (parakeet · canary · whisper · vosk)\ndictee-switch-backend asr canary\n\n# Changer la traduction (canary · libretranslate · ollama · google · bing)\ndictee-switch-backend translate ollama\n```\n\nLe systray et le plasmoid incluent des sous-menus de backend — pas besoin de terminal.\n\nPour la configuration détaillée (tous les backends ASR, matrice de traduction, réglages plasmoid, raccourcis sur WM en mosaïque), voir le wiki :\n\n- [ASR-Backends](https://github.com/rcspam/dictee/wiki/ASR-Backends) · [Translation](https://github.com/rcspam/dictee/wiki/Translation)\n- [Plasmoid-Widget](https://github.com/rcspam/dictee/wiki/Plasmoid-Widget) · [Tray-Icon](https://github.com/rcspam/dictee/wiki/Tray-Icon)\n- [Keyboard-Shortcuts](https://github.com/rcspam/dictee/wiki/Keyboard-Shortcuts) (KDE/GNOME/Sway/i3/Hyprland)\n\n---\n\n## Utilisation\n\n```bash\n# Dictée simple — transcrire et taper\ndictee\n\n# Dictée + traduction (par défaut : langue système → anglais)\ndictee --translate\ndictee --translate --ollama            # 100 % local via Ollama\n\n# Changer la langue cible\nDICTEE_LANG_TARGET=es dictee --translate   # → espagnol\n\n# Mode réunion (diarisation, jusqu'à 4 locuteurs)\ndictee --meeting\n\n# Annuler une dictée en cours\ndictee --cancel\n\n# Tester les règles de post-traitement en direct\ndictee-test-rules                       # interactif\ndictee-test-rules --loop                # boucle continue\ndictee-test-rules --wav fichier.wav     # depuis un fichier audio\n```\n\n→ Référence complète des commandes : [Wiki CLI-Reference](https://github.com/rcspam/dictee/wiki/CLI-Reference)\n\n---\n\n## Post-traitement\n\ndictée exécute un **pipeline configurable de 12 étapes** après transcription et avant collage :\n\n1. Normalisation des variantes ASR\n2. Substitution du dictionnaire\n3. Conversion nombres \u0026 dates\n4. Fusion avec le tampon de continuation\n5. Règles regex (pré-LLM)\n6. Correction LLM *(optionnelle, position first)*\n7. Règles regex (post-LLM)\n8. Exceptions short-text (keepcaps)\n9. Mode de correspondance étendu\n10. Capitalisation finale\n11. Traduction *(optionnelle)*\n12. Collage / injection\n\nConfigurez via `dictee --setup` → onglet **Post-traitement**, ou testez les règles en direct avec `dictee-test-rules`.\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/post-process-regex.png\" alt=\"Éditeur de règles regex\" width=\"900\"\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003cimg src=\"assets/screenshots-vm/post-process-regex-test.png\" alt=\"Règles regex avec panneau de test intégré\" width=\"900\"\u003e\n\u003c/p\u003e\n\n→ Approfondissements : [Post-Processing-Overview](https://github.com/rcspam/dictee/wiki/Post-Processing-Overview) · [Rules-and-Dictionary](https://github.com/rcspam/dictee/wiki/Rules-and-Dictionary) · [LLM-Correction](https://github.com/rcspam/dictee/wiki/LLM-Correction) · [Numbers-Dates-Continuation](https://github.com/rcspam/dictee/wiki/Numbers-Dates-Continuation)\n\n---\n\n## Limitations connues\n\n- **Diarisation + Parakeet sur GPU 8 Go** plafonne à environ **10–15 min d'audio**. Parakeet-TDT charge le mel-spectrogramme complet en une passe (~185 Mo de VRAM par minute d'audio), ce qui déborde les GPU grand public au-delà d'environ 15 min. Contournements : découper le fichier, désactiver la diarisation, ou utiliser le backend CPU. L'auto-chunking est prévu pour la release v1.3 finale. → [Wiki Diarization](https://github.com/rcspam/dictee/wiki/Diarization)\n- **GPU AMD / Intel** non pris en charge actuellement — dictée bascule sur CPU.\n- **Pas de streaming temps réel** — Parakeet-TDT et Canary nécessitent l'utterance complète ; seul Nemotron (EN uniquement, via binaire Rust) streame nativement.\n\nPour les rapports de bugs et contournements, voir [Troubleshooting](https://github.com/rcspam/dictee/wiki/Troubleshooting).\n\n---\n\n## Feuille de route\n\n**v1.3.0 (actuelle)** — Exceptions keepcaps short-text (7 langues), mode de correspondance étendu, purge des modèles LibreTranslate, corrections continuation + traduction, dictée des numéros de version, sûreté multi-utilisateur (suffixe UID sur les fichiers d'état), toggles cross-process du plasmoid (LLM / Short / Meeting), 682 tests postprocess + 148 tests pipeline, bannière theme-aware.\n\n**v1.4+ (prévu)**\n- **Diarisation chunked** — traiter les fichiers \u003e 15 min via `transcribe-diarize-batch` (prototype validé : 54 min en 122 s)\n- **Hotword boosting** — biaiser le décodage ASR vers des noms personnalisés (shallow fusion sur les logits TDT, Parakeet uniquement)\n- **Whisper translate** — traduction multi-cible via `task=\"translate\"` (EN uniquement, hors ligne)\n- **Backend Moonshine** CPU\n- **CLI speech-to-text** — piper de l'audio, récupérer du texte\n- **VAD** — dictée mains libres sans push-to-talk\n- **Transcription streaming** avec affichage en direct\n- **Overlay intégré** — remplacer `animation-speech` externe\n- Packaging **AppImage / Flatpak**\n- Applets **COSMIC / GNOME Shell** (contributions bienvenues !)\n\n→ Historique complet : [Wiki Changelog](https://github.com/rcspam/dictee/wiki/Changelog)\n\n---\n\n## Crédits\n\nLe moteur de transcription s'appuie sur [parakeet-rs](https://github.com/altunenes/parakeet-rs) par [Enes Altun](https://github.com/altunenes) — bibliothèque Rust pour l'inférence NVIDIA Parakeet via ONNX Runtime. L'implémentation Rust du backend Canary a initialement été portée depuis [onnx-asr](https://github.com/istupakov/onnx-asr) par [Ivan Stupakov](https://github.com/istupakov) et est désormais entièrement autonome. Les modèles ONNX Parakeet et Canary sont fournis par NVIDIA (téléchargés séparément depuis HuggingFace, non redistribués par ce projet).\n\nLa simulation de saisie clavier utilise [dotool](https://sr.ht/~geb/dotool/) par geb (GPL-3.0).\n\n## Licence\n\nCe projet est distribué sous licence **GPL-3.0-or-later** (voir [LICENSE](LICENSE)).\n\nLe code original [parakeet-rs](https://github.com/altunenes/parakeet-rs) par Enes Altun est sous licence MIT (voir [LICENSE-MIT](LICENSE-MIT)). [dotool](https://sr.ht/~geb/dotool/) est inclus sous GPL-3.0.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frcspam%2Fdictee","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Frcspam%2Fdictee","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frcspam%2Fdictee/lists"}