{"id":48848898,"url":"https://github.com/techgniouss/pdagent","last_synced_at":"2026-04-15T07:01:43.729Z","repository":{"id":351270301,"uuid":"1207978711","full_name":"techgniouss/pdagent","owner":"techgniouss","description":"Your PC in your pocket — a Telegram bot for remote control, Gemini AI automation, and developer tools.","archived":false,"fork":false,"pushed_at":"2026-04-14T09:17:29.000Z","size":277,"stargazers_count":1,"open_issues_count":0,"forks_count":0,"subscribers_count":0,"default_branch":"main","last_synced_at":"2026-04-14T11:05:03.707Z","etag":null,"topics":["ai-agent","automation","computer-use","computer-vision","gemini-ai","python","python-telegram-bot","remote-control","rpa","telegram-bot","tesseract-ocr","ui-automation","windows"],"latest_commit_sha":null,"homepage":"https://pypi.org/project/pocket-desk-agent/","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/techgniouss.png","metadata":{"files":{"readme":"README.de.md","changelog":null,"contributing":"CONTRIBUTING.md","funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":"SECURITY.md","support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":"AGENTS.md","dco":null,"cla":null}},"created_at":"2026-04-11T16:52:09.000Z","updated_at":"2026-04-14T09:15:56.000Z","dependencies_parsed_at":null,"dependency_job_id":null,"html_url":"https://github.com/techgniouss/pdagent","commit_stats":null,"previous_names":["techgniouss/pdagent"],"tags_count":1,"template":false,"template_full_name":null,"purl":"pkg:github/techgniouss/pdagent","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/techgniouss%2Fpdagent","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/techgniouss%2Fpdagent/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/techgniouss%2Fpdagent/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/techgniouss%2Fpdagent/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/techgniouss","download_url":"https://codeload.github.com/techgniouss/pdagent/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/techgniouss%2Fpdagent/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":31830157,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-14T18:05:02.291Z","status":"online","status_checked_at":"2026-04-15T02:00:06.175Z","response_time":63,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ai-agent","automation","computer-use","computer-vision","gemini-ai","python","python-telegram-bot","remote-control","rpa","telegram-bot","tesseract-ocr","ui-automation","windows"],"created_at":"2026-04-15T07:01:42.682Z","updated_at":"2026-04-15T07:01:43.719Z","avatar_url":"https://github.com/techgniouss.png","language":"Python","readme":"# Pocket Desk Agent\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"https://pypi.org/project/pocket-desk-agent/\"\u003e\u003cimg src=\"https://img.shields.io/pypi/v/pocket-desk-agent.svg?style=for-the-badge\u0026color=3776AB\" alt=\"PyPI\" /\u003e\u003c/a\u003e\n  \u003cimg src=\"https://img.shields.io/badge/Python-3.11+-3776AB?style=for-the-badge\u0026logo=python\u0026logoColor=white\" alt=\"Python\" /\u003e\n  \u003cimg src=\"https://img.shields.io/badge/Gemini-2.0_Flash-4285F4?style=for-the-badge\u0026logo=google-gemini\u0026logoColor=white\" alt=\"Gemini\" /\u003e\n  \u003cimg src=\"https://img.shields.io/badge/Windows-Unterstützt-0078D6?style=for-the-badge\u0026logo=windows\u0026logoColor=white\" alt=\"Windows\" /\u003e\n  \u003cimg src=\"https://img.shields.io/badge/Lizenz-MIT-yellow.svg?style=for-the-badge\" alt=\"Lizenz\" /\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\u003cstrong\u003eDein PC in der Hosentasche — Fernsteuerung, KI-Automatisierung und Entwicklerwerkzeuge — alles über Telegram.\u003c/strong\u003e\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"docs/COMMANDS.md\"\u003eBefehle\u003c/a\u003e •\n  \u003ca href=\"docs/LOCAL_DEVELOPMENT.md\"\u003eEntwicklung\u003c/a\u003e •\n  \u003ca href=\"CONTRIBUTING.md\"\u003eMitwirken\u003c/a\u003e •\n  \u003ca href=\"SECURITY.md\"\u003eSicherheit\u003c/a\u003e\n\u003c/p\u003e\n\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"README.md\"\u003eEnglish\u003c/a\u003e •\n  \u003ca href=\"README.zh-CN.md\"\u003e中文\u003c/a\u003e •\n  \u003ca href=\"README.ru.md\"\u003eРусский\u003c/a\u003e •\n  \u003ca href=\"README.es.md\"\u003eEspañol\u003c/a\u003e •\n  \u003ca href=\"README.de.md\"\u003e\u003cstrong\u003eDeutsch\u003c/strong\u003e\u003c/a\u003e •\n  \u003ca href=\"README.fr.md\"\u003eFrançais\u003c/a\u003e •\n  \u003ca href=\"README.ja.md\"\u003e日本語\u003c/a\u003e •\n  \u003ca href=\"README.pt-BR.md\"\u003ePortuguês\u003c/a\u003e •\n  \u003ca href=\"README.ko.md\"\u003e한국어\u003c/a\u003e •\n  \u003ca href=\"README.tr.md\"\u003eTürkçe\u003c/a\u003e •\n  \u003ca href=\"README.uk.md\"\u003eУкраїнська\u003c/a\u003e\n\u003c/p\u003e\n\n**Pocket Desk Agent** ist ein selbst gehosteter Telegram-Bot, der dir die vollständige Fernsteuerung deines Windows-PCs von jedem Gerät aus ermöglicht. Er läuft vollständig auf deiner Maschine — kein Cloud-Relay, kein Abonnement, keine Daten verlassen dein Netzwerk außer dem Telegram-Nachrichten-Relay und der optionalen Gemini-API.\n\nSofort einsatzbereit, ohne KI-Konfiguration:\n- **Dateien durchsuchen und lesen** in deinen genehmigten Verzeichnissen\n- **Desktop steuern** — Screenshots, Tastenkürzel, Zwischenablage, Fensterwechsel, Ruhezustand, Herunterfahren\n- **UI automatisieren** mit OCR-Klicks (Tesseract) und Elementerkennung (OpenCV)\n- **Claude Desktop und VS Code fernsteuern** ohne die Tastatur zu berühren\n- **Makros aufzeichnen** und mehrstufige Arbeitsabläufe mit einem Befehl wiederholen\n- **Aufgaben planen** für einen späteren Zeitpunkt — überleben Neustarts\n- **Android-APKs erstellen und liefern** aus React-Native-Projekten über Telegram\n\n**Google Gemini 2.0 Flash**-Zugangsdaten hinzufügen für:\n- **Konversationellen KI-Chat** mit Mehrfach-Gesprächsgedächtnis und Bildanalyse\n- **Agentische Computersteuerung** — Gemini kann Dateien durchsuchen, Screenshots machen, klicken, tippen und deinen PC auf natürliche Sprache hin automatisieren, mit menschlicher Bestätigung für destruktive Aktionen\n- **Prompt-Verbesserung** über `/enhance`\n\n---\n\n## Hauptfunktionen\n\nAlles unten funktioniert ohne KI-Konfiguration:\n\n- **Dateisystem-Explorer**: Dateien auf dem PC vom Telefon durchsuchen, lesen und suchen, beschränkt auf genehmigte Pfade.\n- **Desktop-Steuerung**: Screenshots, Tastenkürzel, Zwischenablage, Fensterverwaltung, Akkustand, Ruhezustand/Herunterfahren.\n- **Sicht- und UI-Automatisierung**: OCR-Klicks über Tesseract, Elementerkennung über OpenCV.\n- **Makro-Aufzeichnung**: Mehrstufige UI-Sequenzen aufzeichnen und mit einem Befehl wiederholen.\n- **Claude-Desktop-Integration**: Remote-Steuerung — Prompts senden, Modelle wechseln, Arbeitsbereiche verwalten.\n- **VS Code / Antigravity-Integration**: Ordner öffnen, KI-Modelle wechseln, Antigravity-Erweiterung steuern.\n- **Aufgabenplaner**: Automatisierungsabläufe oder Claude-Prompts zu einem bestimmten Zeitpunkt ausführen. Aufgaben überleben Neustarts.\n- **Build-Automatisierung**: React-Native-Android-Builds starten und APKs über Telegram empfangen.\n- **Automatische Updates**: Der Bot kann Updates prüfen und anwenden.\n- **Leichtgewichtig**: ~55-70 MB RAM im Leerlauf, \u003c0.5% CPU. Schwere Abhängigkeiten werden nur bei Bedarf geladen.\n\n**Optional — erfordert Google-Gemini-Zugangsdaten:**\n\n- **KI-Chat und Computersteuerung**: Gemini 2.0 Flash mit Mehrfach-Gesprächen, Bildanalyse und Tool-Aufrufen. Alle destruktiven Aktionen erfordern explizite Bestätigung über Telegram-Schaltflächen.\n- **Prompt-Verbesserung**: `/enhance` lässt Gemini einen Prompt umschreiben und verbessern.\n\n---\n\n## Funktionsweise\n\nPocket Desk Agent läuft als lokaler Prozess auf deinem Windows-PC und verbindet sich **ausgehend** mit Telegrams Servern über Long-Polling — kein Port-Forwarding, keine Router-Konfiguration oder dynamisches DNS erforderlich.\n\n```\nDein Telefon → Telegram-Server → (ausgehendes Polling) → Pocket Desk Agent (lokal) → PC-Aktion → Antwort\n```\n\n**Wichtige interne Komponenten:**\n\n| Komponente | Rolle |\n| :--- | :--- |\n| `python-telegram-bot` | Asynchroner Telegram-Client |\n| `GeminiClient` | Gemini-API-Sitzungen und Gesprächsverlauf |\n| `FileManager` | Datei-I/O in Sandbox — Pfadvalidierung |\n| `AuthManager` | OAuth für Antigravity, Gemini CLI und API-Key |\n| `SchedulerRegistry` | Aufgaben auf Disk gespeichert, Prüfung alle 60 s |\n| `RateLimiter` | Token-Bucket-Ratenbegrenzer pro Benutzer |\n\n---\n\n## Plattformkompatibilität\n\n| Funktion | Windows | macOS / Linux |\n| :--- | :---: | :---: |\n| Dateisystem | ✅ | ✅ |\n| KI-Chat (Gemini) | ✅ | ✅ |\n| Aufgabenplanung | ✅ | ✅ |\n| Screenshots | ✅ | ✅ |\n| Tastenkürzel | ✅ | ⚠️ teilweise |\n| Zwischenablage | ✅ | ⚠️ teilweise |\n| UI-Automatisierung (OCR) | ✅ | ❌ |\n| Fensterverwaltung | ✅ | ❌ |\n| Claude-Desktop-Integration | ✅ | ❌ |\n| VS-Code-Integration | ✅ | ❌ |\n| APK-Build | ✅ | ❌ |\n| Autostart nach Anmeldung | ✅ | ❌ |\n\n---\n\n## Vorbereitung\n\n### 1. Telegram-Bot erstellen\n\n1. Öffne Telegram und schreibe **[@BotFather](https://t.me/BotFather)**\n2. Sende `/newbot` und folge den Anweisungen\n3. Kopiere den **Bot-Token** — das ist dein `TELEGRAM_BOT_TOKEN`\n\n### 2. Telegram-Benutzer-ID ermitteln\n\n1. Schreibe **[@userinfobot](https://t.me/userinfobot)** in Telegram\n2. Er antwortet mit deiner numerischen ID — das ist dein `AUTHORIZED_USER_IDS`\n\n### 3. (Optional) Google-/Gemini-Zugangsdaten\n\nNur für KI-Chat, Bildanalyse oder den Befehl `/enhance` erforderlich.\n\n**Option A — OAuth (empfohlen):** Integrierte OAuth-Unterstützung, kein separates GCP-Projekt nötig. Wähle **Antigravity OAuth** oder **Gemini CLI OAuth** beim Setup.\n\n**Option B — API-Schlüssel:**\n1. Gehe zu [Google AI Studio](https://aistudio.google.com/app/apikey)\n2. Erstelle einen API-Schlüssel — das ist dein `GOOGLE_API_KEY`\n\n---\n\n## Schnellstart und Installation\n\n### Systemanforderungen\n\n- **Python 3.11+**\n- **Windows 10 oder neuer** — für UI-Automatisierungsfunktionen erforderlich\n- **Tesseract OCR** — für `/findtext`, `/smartclick`. `pdagent setup` ausführen zum Installieren\n- **Visual C++ Redistributables** — normalerweise bereits installiert\n\n### Option A: Installation über PyPI (empfohlen)\n\n```bash\npip install pocket-desk-agent\npdagent\n```\n\nBeim ersten Start startet `pdagent` einen interaktiven Einrichtungsassistenten.\n\n```bash\npdagent start        # als Hintergrunddienst starten\npdagent configure    # Einrichtungsassistenten erneut ausführen\npdagent setup        # Systemabhängigkeiten prüfen und installieren\n```\n\n### Option B: Lokaler Entwicklermodus\n\n```bash\ngit clone https://github.com/techgniouss/pocket-desk-agent.git\ncd pocket-desk-agent\npip install -e \".[dev]\"\npdagent\n```\n\n---\n\n## Bot starten\n\n| Befehl | Beschreibung |\n| :--- | :--- |\n| `pdagent` | Im Vordergrund ausführen |\n| `pdagent start` | Als Hintergrunddienst starten |\n| `pdagent stop` | Dienst stoppen |\n| `pdagent restart` | Dienst neu starten |\n| `pdagent status` | Status prüfen |\n| `pdagent configure` | Einrichtungsassistent |\n| `pdagent auth` | Gemini-Zugangsdaten verwalten |\n| `pdagent version` | Installierte Version anzeigen |\n\n---\n\n## Sicherheit\n\nAusführliche Sicherheitsinformationen findest du in **[SECURITY.md](SECURITY.md)**.\n\n---\n\n## Fehlerbehebung\n\n**Bot startet, reagiert aber nicht auf Nachrichten**\n- Bestätige, dass deine Telegram-ID in `AUTHORIZED_USER_IDS` steht\n- Prüfe `bot.log` im Arbeitsverzeichnis auf Fehler\n- Führe `/status` aus, um die Gemini-Verbindung zu prüfen\n\n**`/findtext` oder `/smartclick` geben einen Fehler zurück**\n- Tesseract OCR ist nicht installiert oder nicht im PATH\n- Führe `pdagent setup` aus oder installiere manuell: `winget install UB-Mannheim.TesseractOCR`\n\n**Gemini-Authentifizierung schlägt fehl**\n- Führe `pdagent auth` aus und wähle \"Anmelden\", oder nutze `/login` in Telegram\n- Für OAuth: Stelle sicher, dass Port `51121` nicht durch eine Firewall blockiert wird\n\n---\n\n## Mitwirken\n\nSiehe [CONTRIBUTING.md](CONTRIBUTING.md) für Entwicklungssetup, Coding-Standards und das Hinzufügen neuer Befehle.\n\n---\n\n## Lizenz\n\nVertrieben unter der MIT-Lizenz. Siehe [LICENSE](LICENSE) für Details.\n","funding_links":[],"categories":[],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Ftechgniouss%2Fpdagent","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Ftechgniouss%2Fpdagent","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Ftechgniouss%2Fpdagent/lists"}