{"id":27998629,"url":"https://github.com/686f6c61/artificial-intelligence-text-detector-unicode","last_synced_at":"2025-05-08T22:54:26.600Z","repository":{"id":290734655,"uuid":"975390294","full_name":"686f6c61/artificial-intelligence-text-detector-unicode","owner":"686f6c61","description":"Detector de invisibles Unicode (U+200B,U+200C,U+200D…) de modelos IA razonadores","archived":false,"fork":false,"pushed_at":"2025-04-30T14:21:49.000Z","size":15777,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-05-08T22:54:21.934Z","etag":null,"topics":["artificial-intelligence","detection","llms","unicode","unicode-characters"],"latest_commit_sha":null,"homepage":"https://686f6c61.github.io/artificial-intelligence-text-detector-unicode/","language":"JavaScript","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/686f6c61.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2025-04-30T08:33:10.000Z","updated_at":"2025-04-30T14:21:52.000Z","dependencies_parsed_at":"2025-04-30T10:03:40.659Z","dependency_job_id":null,"html_url":"https://github.com/686f6c61/artificial-intelligence-text-detector-unicode","commit_stats":null,"previous_names":["686f6c61/artificial-intelligencetext-detector-unicode"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/686f6c61%2Fartificial-intelligence-text-detector-unicode","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/686f6c61%2Fartificial-intelligence-text-detector-unicode/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/686f6c61%2Fartificial-intelligence-text-detector-unicode/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/686f6c61%2Fartificial-intelligence-text-detector-unicode/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/686f6c61","download_url":"https://codeload.github.com/686f6c61/artificial-intelligence-text-detector-unicode/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":253160814,"owners_count":21863625,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["artificial-intelligence","detection","llms","unicode","unicode-characters"],"created_at":"2025-05-08T22:54:25.817Z","updated_at":"2025-05-08T22:54:26.587Z","avatar_url":"https://github.com/686f6c61.png","language":"JavaScript","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Detector de caracteres invisibles unicode\n\n![Version](https://img.shields.io/badge/version-0.2.0-blue.svg)\n![License](https://img.shields.io/badge/license-MIT-green.svg)\n\n## 📋 Descripción\n\nHerramienta web para detectar, analizar y visualizar caracteres Unicode invisibles en texto. Estos caracteres sin representación visual suelen ser insertados inadvertidamente por modelos de IA durante la generación de texto y pueden causar problemas en ciertos contextos.\n\n![Captura de pantalla de la aplicación](media/image.png)\n\n## 🎬 Demostración\n\n![Demostración del funcionamiento](media/poc.gif)\n\n## 🔍 ¿Por qué detectar caracteres invisibles?\n\nLos modelos de IA como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:\n\n- **Procesamiento interno**: Los modelos procesan texto en unidades llamadas \"tokens\". Al convertir estos tokens de vuelta a texto, a veces se introducen caracteres invisibles como artefactos del proceso.\n  \n- **Tokenización multisistema**: Para manejar diferentes idiomas y sistemas de escritura, los modelos utilizan marcadores de dirección (RTL/LTR) que pueden quedar en el texto final.\n  \n- **Formateo de texto**: Al generar texto con formato específico (código, tablas, listas), pueden usar caracteres invisibles para controlar la disposición.\n  \n- **Control del flujo de texto**: Para evitar que ciertas palabras se rompan o para mantener formatos específicos, los modelos pueden usar caracteres como ZWSP (Zero Width Space).\n\n## 🚀 Funcionalidades\n\n- ✅ Detección de 20 tipos diferentes de caracteres Unicode invisibles\n- ✅ Editor de texto con numeración de líneas y contadores de palabras/caracteres\n- ✅ Visualización precisa de la posición exacta de cada carácter invisible\n- ✅ Resaltado interactivo y navegación a caracteres detectados\n- ✅ Generación de informes detallados exportables\n- ✅ Documentación completa sobre cada tipo de carácter\n- ✅ Interfaz minimalista inspirada en bloc de notas clásico\n\n## 💻 Uso\n\n1. Copie y pegue el texto que desea analizar en el área de texto\n2. Haga clic en \"Comprobar caracteres invisibles\"\n3. Examine los resultados detallados y la vista previa con caracteres resaltados\n4. Utilice los botones de navegación para saltar a posiciones específicas\n5. Descargue o copie el informe completo si es necesario\n\n## 🔎 Caracteres invisibles detectados\n\n| Código | Nombre | Descripción | Más información |\n|--------|--------|-------------|----------------|\n| U+200B | Zero Width Space | Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible. | [Wikipedia](https://en.wikipedia.org/wiki/Zero-width_space) |\n| U+200C | Zero Width Non-Joiner | Previene la ligadura entre caracteres que normalmente se unirían. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+200D | Zero Width Joiner | Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+FEFF | Zero Width No-Break Space | También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones. | [Wikipedia](https://en.wikipedia.org/wiki/Byte_order_mark) |\n| U+2060 | Word Joiner | Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+180E | Mongolian Vowel Separator | Separa vocales en escritura mongola tradicional. | [Unicode.org](https://www.unicode.org/charts/PDF/U1800.pdf) |\n| U+200E | Left-to-Right Mark | Fuerza dirección de izquierda a derecha para el texto siguiente. | [Wikipedia](https://en.wikipedia.org/wiki/Left-to-right_mark) |\n| U+200F | Right-to-Left Mark | Fuerza dirección de derecha a izquierda para el texto siguiente. | [Wikipedia](https://en.wikipedia.org/wiki/Right-to-left_mark) |\n| U+202A | Left-to-Right Embedding | Establece un nuevo nivel de incrustación con dirección LTR. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+202B | Right-to-Left Embedding | Establece un nuevo nivel de incrustación con dirección RTL. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+202C | Pop Directional Formatting | Finaliza el último nivel de formato direccional. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+202D | Left-to-Right Override | Fuerza toda la secuencia siguiente a ser tratada como LTR. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+202E | Right-to-Left Override | Fuerza toda la secuencia siguiente a ser tratada como RTL. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+2061 | Function Application | Símbolo matemático invisible que representa la aplicación de funciones. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+2062 | Invisible Times | Representa una multiplicación invisible en notación matemática. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+2063 | Invisible Separator | Separador invisible usado en notación matemática. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+2064 | Invisible Plus | Representa una suma invisible en notación matemática. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n| U+034F | Combining Grapheme Joiner | Une grafemas o unidades visuales en escrituras complejas. | [Unicode.org](https://www.unicode.org/charts/PDF/U0300.pdf) |\n| U+061C | Arabic Letter Mark | Controla el comportamiento de texto árabe en entornos bidireccionales. | [Unicode.org](https://www.unicode.org/charts/PDF/U0600.pdf) |\n| U+00AD | Soft Hyphen | Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea. | [Wikipedia](https://en.wikipedia.org/wiki/Soft_hyphen) |\n| U+2009 | Thin Space | Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa. | [Unicode.org](https://www.unicode.org/charts/PDF/U2000.pdf) |\n\n## 🔧 Implementación técnica\n\nEste proyecto está implementado utilizando:\n\n- HTML5 para la estructura\n- CSS3 para estilos minimalistas en blanco y negro\n- JavaScript vanilla para toda la lógica de detección y manipulación\n\nLa arquitectura del código sigue un enfoque modular con clara separación de:\n- Interfaz de usuario y componentes visuales\n- Lógica de detección y análisis de caracteres\n- Generación de informes y exportación\n\n## 📦 Instalación\n\n1. Clone este repositorio:\n```bash\ngit clone https://github.com/686f6c61/artificial-intelligence-text-detector-unicode.git\n```\n\n2. Abra `index.html` en su navegador para comenzar a usar la aplicación.\n\nNo se requieren dependencias externas ni pasos de compilación.\n\n## 🤔 Casos de uso comunes\n\n- **Desarrollo de software**: Identificar caracteres invisibles en código que pueden causar errores difíciles de depurar\n- **Procesamiento de texto**: Limpiar textos generados por IA antes de usarlos en entornos sensibles\n- **Seguridad**: Detectar posibles marcas invisibles en textos que podrían indicar su origen\n- **Compatibilidad**: Verificar textos antes de insertarlos en sistemas con limitaciones de caracteres\n- **Análisis de IA**: Estudiar patrones de inserción de caracteres en diferentes modelos de IA\n\n## 📊 Limitaciones\n\nLa detección de caracteres invisibles puede ayudar a identificar contenido generado por IA, pero no es concluyente por sí misma. Otros factores como patrones lingüísticos, estructura del texto y contexto deben considerarse para un análisis completo.\n\n## 🔄 Actualizaciones futuras\n\n- Soporte para más tipos de caracteres Unicode\n- Análisis estadístico de frecuencias y patrones\n- Modo de limpieza automática de caracteres invisibles\n- Integración con APIs de detección de texto generado por IA\n\n## 📝 Licencia\n\nEste proyecto está licenciado bajo la Licencia MIT. Consulte el archivo LICENSE para más detalles.\n\n## 📰 Artículos relacionados\n\nEstos artículos refuerzan la importancia de detectar caracteres Unicode invisibles en texto generado por IA:\n\n- [AI chatbots can read and write invisible text, creating an ideal covert channel](https://arstechnica.com/security/2024/10/ai-chatbots-can-read-and-write-invisible-text-creating-an-ideal-covert-channel/) - Ars Technica explica cómo los LLMs pueden interpretar y generar caracteres invisibles, creando potenciales canales encubiertos para ataques.\n- [New ChatGPT models seem to leave watermarks on text](https://www.rumidocs.com/newsroom/new-chatgpt-models-seem-to-leave-watermarks-on-text) - Análisis sobre posibles \"marcas de agua\" invisibles que los modelos recientes de OpenAI podrían estar insertando en sus salidas.\n- [GPT-4.1 Character Encoding Issues](https://community.openai.com/t/gpt-4-1-character-encoding-issues/1236017) - Discusión en la comunidad de OpenAI sobre problemas de codificación de caracteres en GPT-4.1.\n\n## 👤 Autor\n\n- [686f6c61](https://github.com/686f6c61)\n- Twitter: [@hex686f6c61](https://x.com/hex686f6c61)\n\n## 🔗 Enlaces útiles\n\n- [Estándar Unicode](https://unicode.org/)\n- [Caracteres de control Unicode](https://en.wikipedia.org/wiki/Unicode_control_characters)\n- [Herramientas para desarrolladores Unicode](https://www.unicode.org/resources/developers.html) ","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F686f6c61%2Fartificial-intelligence-text-detector-unicode","html_url":"https://awesome.ecosyste.ms/projects/github.com%2F686f6c61%2Fartificial-intelligence-text-detector-unicode","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F686f6c61%2Fartificial-intelligence-text-detector-unicode/lists"}