{"id":49089560,"url":"https://github.com/ctala/ai-benchmarks-alternativos","last_synced_at":"2026-04-20T17:35:08.079Z","repository":{"id":351703773,"uuid":"1208196757","full_name":"ctala/ai-benchmarks-alternativos","owner":"ctala","description":"Benchmark de modelos AI alternativos para agentes (OpenClaw, N8N). Comparativa de precios, benchmarks propios, y estrategia local+nube.","archived":false,"fork":false,"pushed_at":"2026-04-16T04:59:07.000Z","size":624,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":0,"default_branch":"main","last_synced_at":"2026-04-16T06:44:45.439Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/ctala.png","metadata":{"files":{"readme":"README.md","changelog":"CHANGELOG.md","contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2026-04-12T00:24:25.000Z","updated_at":"2026-04-16T04:59:11.000Z","dependencies_parsed_at":null,"dependency_job_id":null,"html_url":"https://github.com/ctala/ai-benchmarks-alternativos","commit_stats":null,"previous_names":["ctala/ai-benchmarks-alternativos"],"tags_count":null,"template":false,"template_full_name":null,"purl":"pkg:github/ctala/ai-benchmarks-alternativos","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ctala%2Fai-benchmarks-alternativos","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ctala%2Fai-benchmarks-alternativos/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ctala%2Fai-benchmarks-alternativos/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ctala%2Fai-benchmarks-alternativos/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/ctala","download_url":"https://codeload.github.com/ctala/ai-benchmarks-alternativos/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ctala%2Fai-benchmarks-alternativos/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":32057800,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-20T11:35:06.609Z","status":"ssl_error","status_checked_at":"2026-04-20T11:34:48.899Z","response_time":94,"last_error":"SSL_connect returned=1 errno=0 peeraddr=140.82.121.6:443 state=error: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2026-04-20T17:35:05.722Z","updated_at":"2026-04-20T17:35:08.072Z","avatar_url":"https://github.com/ctala.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Benchmark de Modelos AI Alternativos\n\n**Version 1.3.0** | Ultima actualizacion: 16 de Abril de 2026\n\nProyecto para evaluar y comparar modelos de IA para uso con agentes (OpenClaw, N8N) y asistentes personales. Incluye benchmarks propios ejecutables, comparativas de precios, y guia de modelos open-source para hardware local (NVIDIA DGX Spark).\n\n\u003e **Contexto**: La suscripcion de Anthropic no provee API key para agentes. Buscamos alternativas priorizando costo, calidad, velocidad, tool calling y disponibilidad continua.\n\n## Documentos Principales\n\n| Documento | Contenido |\n|-----------|-----------|\n| [COMPARATIVA.md](COMPARATIVA.md) | 35+ modelos con precios, open-source/propietario, licencias, rankings por categoria |\n| [SUSCRIPCIONES.md](SUSCRIPCIONES.md) | Todas las suscripciones fijas ($0-$300/mes) + checklist de que probar |\n| [PACKS.md](PACKS.md) | Packs por suscripcion (MiniMax, Qwen, OpenAI, Google, Ollama, OpenRouter, xAI) + estrategia local+nube |\n| [PROVEEDORES.md](PROVEEDORES.md) | Guia de proveedores: quien los creo, foco, contexto, open-source vs propietario |\n| [CHANGELOG.md](CHANGELOG.md) | Historial de cambios del proyecto |\n\n## Criterios de Evaluacion\n\n| Criterio | Peso | Descripcion |\n|----------|------|-------------|\n| Costo | 25% | Precio por millon de tokens o suscripcion mensual fija |\n| Calidad | 25% | Precision, coherencia, seguimiento de instrucciones |\n| Velocidad | 20% | Tokens/segundo y latencia de primera respuesta |\n| Tool Calling | 20% | Capacidad de function calling para agentes |\n| Disponibilidad | 10% | Rate limits, cuotas, que no se quede sin servicio |\n\n## Metodologia\n\n```mermaid\nflowchart TD\n    subgraph INPUT[\"Entrada\"]\n        T[\"77 Tests en 19 Suites\"]\n        M[\"20+ Modelos via OpenRouter\"]\n    end\n\n    subgraph EXEC[\"Ejecucion\"]\n        R[\"runner.py envia test al modelo\"]\n        RESP[\"Modelo genera respuesta\"]\n        R --\u003e RESP\n    end\n\n    subgraph SCORING[\"Scoring (3 capas)\"]\n        direction TB\n        S1[\"\u003cb\u003eCapa 1: Automatico\u003c/b\u003e\n        Longitud, secciones, idioma, formato\n        Penalizacion: chino en espanol\n        Busqueda Unicode-aware\"]\n\n        S2[\"\u003cb\u003eCapa 2: Expected Answer\u003c/b\u003e\n        Razonamiento, alucinaciones,\n        creatividad, honestidad,\n        datos numericos, precision\"]\n\n        S3[\"\u003cb\u003eCapa 3: LLM-as-Judge\u003c/b\u003e\n        Gemma 4 31B local o API\n        precision, relevancia,\n        profundidad, claridad,\n        utilidad practica\"]\n\n        S1 --\u003e COMBINE\n        S2 --\u003e COMBINE\n        S3 --\u003e|\"--judge\"| COMBINE\n    end\n\n    subgraph COMBINE[\"Combinacion\"]\n        direction TB\n        NOJUDGE[\"Sin juez: 40% formato + 60% sustancia\"]\n        WITHJUDGE[\"Con juez: 30% auto + 70% juez\"]\n    end\n\n    subgraph METRICS[\"Score Final Ponderado\"]\n        direction LR\n        Q[\"Calidad 35%\"]\n        TC[\"Tool Calling 25%\"]\n        CO[\"Costo 15%\"]\n        AV[\"Disponibilidad 15%\"]\n        SP[\"Velocidad 5%\"]\n        LA[\"Latencia 5%\"]\n    end\n\n    subgraph OUTPUT[\"Salida\"]\n        JSON[\"results/*.json\"]\n        RANK[\"Ranking Global\"]\n        CAT[\"Mejor por Categoria\"]\n    end\n\n    T --\u003e R\n    M --\u003e R\n    RESP --\u003e S1\n    RESP --\u003e S2\n    RESP --\u003e S3\n    COMBINE --\u003e METRICS\n    METRICS --\u003e JSON\n    JSON --\u003e RANK\n    JSON --\u003e CAT\n\n    style INPUT fill:#1a1a2e,stroke:#e94560,color:#fff\n    style EXEC fill:#16213e,stroke:#0f3460,color:#fff\n    style SCORING fill:#0f3460,stroke:#533483,color:#fff\n    style COMBINE fill:#533483,stroke:#e94560,color:#fff\n    style METRICS fill:#1a1a2e,stroke:#e94560,color:#fff\n    style OUTPUT fill:#16213e,stroke:#0f3460,color:#fff\n```\n\n### Flujo detallado\n\n1. **Entrada**: Cada test (prompt + criterios + expected_answer) se envia a cada modelo via OpenRouter\n2. **Scoring automatico** (Capa 1): Regex verifica longitud, secciones, idioma, formato. Penaliza caracteres chinos en espanol.\n3. **Expected answer** (Capa 2): Valida que la respuesta contenga los insights correctos, no alucine, sea creativa sin cliches, y tenga datos precisos.\n4. **LLM-as-Judge** (Capa 3, opcional con `--judge`): Un modelo juez lee la respuesta y la evalua con rubrica en 5 dimensiones + criterios extras por suite.\n5. **Combinacion**: Sin juez usa 40% formato + 60% sustancia. Con juez usa 30% automatico + 70% evaluacion del juez.\n6. **Score final**: Pondera calidad (35%), tool calling (25%), costo (15%), disponibilidad (15%), velocidad (5%), latencia (5%).\n\n### Eleccion del modelo juez y sesgo\n\nEl modelo juez introduce sesgo: un LLM tiende a puntuar mejor respuestas de su propio proveedor (~5-7% de inflacion documentada). Por eso la eleccion importa:\n\n| Juez | Costo | Sesgo | Recomendacion |\n|------|-------|-------|---------------|\n| **Gemma 4 31B (local)** | **$0** | **Bajo** | **Default - buena calidad, gratis, Apache 2.0** |\n| GLM-4.7 9B (local) | $0 | Minimo | No esta en benchmark = 0 conflicto de interes |\n| Qwen 3.5 72B (local) | $0 | Bajo | Maxima calidad si tienes 42GB+ RAM |\n| Claude Haiku (API) | ~$0.07/modelo | Medio | Rapido pero sesga modelos Anthropic |\n| Gemini Flash (API) | ~$0.05/modelo | Medio | Rapido pero sesga modelos Google |\n\nEl default es **Gemma 4 31B via Ollama** si esta disponible (local, gratis, bajo sesgo). Si Ollama no esta corriendo, usa Claude Haiku via OpenRouter como fallback. Los resultados JSON siempre registran que juez se uso para trazabilidad.\n\n```bash\npython benchmarks/runner.py --list-judges                     # Ver jueces disponibles\npython benchmarks/runner.py --quick --judge                   # Auto-detecta (local \u003e API)\npython benchmarks/runner.py --quick --judge --judge-model glm4  # GLM-4.7 local (minimo sesgo)\npython benchmarks/runner.py --quick --judge --judge-model haiku # Claude Haiku via API\n```\n\n## Quick Start\n\n```bash\npython3 -m venv .venv \u0026\u0026 source .venv/bin/activate\npip install -r requirements.txt\ncp benchmarks/config.example.py benchmarks/config.py\n# Editar config.py con tu OPENROUTER_API_KEY\npython benchmarks/runner.py --quick                          # Todos los modelos, 1 run\npython benchmarks/runner.py --quick --judge                  # Con LLM-as-Judge (Claude Haiku)\npython benchmarks/runner.py --models minimax-m2.7 deepseek-v3  # Modelos especificos\npython benchmarks/runner.py --tier cheap                     # Solo tier economico\npython benchmarks/runner.py --list-models                    # Ver modelos disponibles\npython benchmarks/runner.py --list-tests                     # Ver tests disponibles\n```\n\n## Como Replicar el Benchmark\n\nGuia paso a paso para correr el benchmark completo desde cero.\n\n### Requisitos\n- Python 3.11+\n- API key de [OpenRouter](https://openrouter.ai/) (unica key necesaria, da acceso a 290+ modelos)\n- (Opcional) [Ollama](https://ollama.ai/) para modelos locales y LLM-as-Judge local\n\n### Paso 1: Setup\n\n```bash\ngit clone https://github.com/ctala/ai-benchmarks-alternativos.git\ncd ai-benchmarks-alternativos\npython3 -m venv .venv \u0026\u0026 source .venv/bin/activate\npip install -r requirements.txt\ncp benchmarks/config.example.py benchmarks/config.py\n```\n\nEdita `benchmarks/config.py` y agrega tu `OPENROUTER_API_KEY`.\n\n### Paso 2: Elegir modelos\n\nEn `config.py`, comenta/descomenta los modelos que quieras evaluar. Para una prueba rapida:\n\n```bash\n# Solo 2 modelos baratos, 1 run por test\npython benchmarks/runner.py --quick --models deepseek-v3 mimo-v2-flash\n```\n\n### Paso 3: Correr benchmark\n\n```bash\n# Rapido sin juez (~5 min por modelo)\npython benchmarks/runner.py --quick\n\n# Con LLM-as-Judge para resultados confiables (~8 min por modelo)\npython benchmarks/runner.py --quick --judge\n\n# Con juez local via Ollama ($0, requiere Ollama + modelo descargado)\nollama pull gemma4:31b\npython benchmarks/runner.py --quick --judge --judge-model gemma4\n\n# Benchmark completo (3 runs por test, mas preciso, ~15 min por modelo)\npython benchmarks/runner.py --judge\n```\n\n### Paso 4: Resultados\n\nLos resultados se guardan en `benchmarks/results/benchmark_YYYYMMDD_HHMMSS.json` con:\n- Scores por test y modelo (calidad, tool calling, velocidad, costo)\n- Metadata del juez usado (modelo, proveedor, local/API) para trazabilidad\n- Rankings global y por categoria en la consola\n\n### Paso 5: Agregar un modelo nuevo\n\n```bash\n# 1. Agregar en config.py (ver config.example.py para formato)\n# 2. Agregar pricing en scoring.py dict PRICING\n# 3. Correr\npython benchmarks/runner.py --quick --judge --models mi-nuevo-modelo\n# 4. Actualizar docs con resultados\n```\n\n### Costo estimado por run completo\n\n| Componente | Costo |\n|------------|-------|\n| 1 modelo, 77 tests, modo --quick | ~$0.01-0.05 (depende del modelo) |\n| LLM-as-Judge (Haiku, 77 evals) | ~$0.07 |\n| LLM-as-Judge (local Ollama) | $0.00 |\n| Run completo 10 modelos con juez | ~$0.50-1.00 |\n| Run completo 10 modelos, 3 runs, con juez | ~$1.50-3.00 |\n\n## Modelos Incluidos (via OpenRouter)\n\n### Gratuitos\n- DeepSeek R1, Llama 3.3 70B, Qwen 3.6 Plus (preview), MiMo-V2-Flash (free)\n\n### Ultra Economicos (\u003c$0.10/M tokens)\n- Mistral Nemo, **Nemotron 3 Nano**, MiMo-V2-Flash\n\n### Economicos ($0.10 - $1.20/M tokens)\n- **Nemotron 3 Super**, DeepSeek V3.2, **Mistral Small 4**, **Grok 4.1 Fast**, **Gemini 3.1 Flash Lite**, MiniMax M2.7, Gemini 2.5 Flash, Qwen 3.6 Plus, **Devstral 2**, MiMo-V2-Omni, **GLM-5.1**, Qwen 3.5 Plus, Llama 4 Maverick\n\n### Medio ($1.00 - $15/M tokens)\n- MiMo-V2-Pro, Gemini 2.5 Pro, **Gemini 3.1 Pro**, **Grok 4.20**, GPT-4o, Claude Sonnet 4\n\n### Open Source para NVIDIA DGX Spark (128GB)\n- **Nemotron 3 Super** (16 GB), **Nemotron 3 Nano** (4 GB), Gemma 4 26B MoE, Gemma 4 31B, Qwen 3.5 25B/72B, Llama 3.3/4 70B, MiniMax M2.5, DeepSeek V3.2\n\n## Benchmark Suites (77 tests en 19 suites)\n\n| Suite | Tests | Que Evalua |\n|-------|-------|-----------|\n| **deep_reasoning** | 6 | Matematica, logica, causal, code bugs, Fermi, etica |\n| **hallucination** | 3 | Trampas factuales, fidelidad al contexto, citas falsas |\n| **creativity** | 4 | Hooks sin cliches, analogias, profundidad, storytelling |\n| **customer_support** | 4 | Empatia, clasificacion, multi-issue, ingenieria social |\n| **structured_output** | 4 | JSON simple, arrays, anidado, estricto |\n| tool_calling | 4 | Single/multi tool, razonamiento, no-tool |\n| content_generation | 4 | Blog, email, social media, product descriptions |\n| startup_content | 5 | Blog ecosistemastartup.com, cursos, workshops, newsletters |\n| code_generation | 4 | API integration, N8N workflows, SQL, debugging |\n| reasoning | 3 | Analisis de negocio, logica, decisiones |\n| task_management | 3 | Action items, planning, project breakdown |\n| summarization | 2 | Resumen ejecutivo, extraccion datos |\n| **string_precision** | 6 | Copia exacta de hex, API keys, JWT, config files |\n| **news_seo_writing** | 5 | Articulos SEO, JSON N8N, solo espanol, anti-alucinacion, Perplexity |\n| **ocr_extraction** | 5 | Facturas, tarjetas, recibos con verificacion, dashboards, notas manuscritas |\n| **orchestration** | 5 | Planificacion multi-paso, error recovery, tool selection, paralelizacion |\n| **multi_turn** | 4 | Iteracion de contenido, soporte escalado, cambio de requisitos, debugging |\n| **policy_adherence** | 4 | Politicas de reembolso, privacidad de datos, reglas de idioma, limites de alcance |\n| presentation | 2 | Slide outline, reportes de datos |\n\nScripts adicionales (no incluidos en el scoring global):\n- `image_generation.py` - Feature images con MiniMax Image-01\n- `tts_generation.py` - Text-to-speech con MiniMax Speech-02\n\n## Resultados (12 Abril 2026)\n\n### Ranking Global - 48 tests x modelo, 951 runs, desde Chile\n\n| # | Modelo | Score | tok/s | Latencia | Costo/call | Open Source | Tests |\n|---|--------|-------|-------|----------|------------|-------------|-------|\n| 1 | **Devstral Small** | **7.38** | **161** | **3.2s** | $0.00194 | Si (Apache) | 48 |\n| 2 | **GPT-4.1** | **7.14** | 110 | 5.4s | $0.00203 | No | 48 |\n| 3 | **GPT-4.1 Mini** | **7.08** | 98 | 5.8s | $0.00206 | No | 48 |\n| 4 | DeepSeek V3.2 | 7.01 | 34 | 16.9s | $0.00022 | Si (MIT) | 48 |\n| 5 | Gemini 2.5 Flash Lite | 6.88 | 195 | 4.1s | $0.00311 | No | 48 |\n| 6 | Mistral Large | 6.86 | 52 | 16.5s | $0.00296 | Si (Apache) | 48 |\n| 7 | Claude Sonnet 4.6 | 6.83 | 59 | 17.6s | $0.00346 | No | 48 |\n| 8 | GPT-5.4 Mini | 6.78 | 131 | 5.5s | $0.00265 | No | 48 |\n| 9 | Claude Opus 4.6 | 6.77 | 49 | 20.7s | $0.00345 | No | 48 |\n| 10 | Kimi K2 | 6.67 | 30 | 22.7s | $0.00248 | No | 48 |\n| 11 | Llama 4 Maverick | 6.65 | 53 | 13.0s | $0.00195 | Si (Llama) | 48 |\n| 12 | Qwen3 Coder | 6.61 | 60 | 20.1s | $0.00244 | Si (Apache) | 48 |\n| 13 | GPT-5.4 | 6.33 | 58 | 14.0s | $0.00278 | No | 48 |\n| 14 | MiniMax M2.7 | 6.27 | 45 | 29.4s | $0.00397 | Parcial | 48 |\n| 15 | Qwen 3.6 Plus | 6.19 | 46 | 87.7s | $0.01033 | Si (Apache) | 48 |\n| 16 | Kimi K2.5 | 5.78 | 45 | 47.1s | $0.00529 | No | 27 |\n\n### Ranking Solo Alternativas (sin Anthropic/OpenAI)\n\n| # | Modelo | Score | tok/s | Costo/call | Open Source | Suscripcion |\n|---|--------|-------|-------|------------|-------------|-------------|\n| 1 | **Devstral Small** | **7.38** | 161 | $0.00194 | Si (Apache) | Pay-as-you-go |\n| 2 | DeepSeek V3.2 | 7.01 | 34 | $0.00022 | Si (MIT) | Pay-as-you-go |\n| 3 | Gemini 2.5 Flash Lite | 6.88 | 195 | $0.00311 | No | Google AI Pro $20/mes |\n| 4 | Mistral Large | 6.86 | 52 | $0.00296 | Si (Apache) | Le Chat ~$15/mes |\n| 5 | Kimi K2 | 6.67 | 30 | $0.00248 | No | Pay-as-you-go |\n| 6 | Llama 4 Maverick | 6.65 | 53 | $0.00195 | Si (Llama) | Pay-as-you-go |\n| 7 | Qwen3 Coder | 6.61 | 60 | $0.00244 | Si (Apache) | Pay-as-you-go |\n| 8 | MiniMax M2.7 | 6.27 | 45 | $0.00397 | Parcial | MiniMax $20-$69/mes |\n| 9 | Qwen 3.6 Plus | 6.19 | 46 | $0.01033 | Si (Apache) | Qwen $50/mes |\n\n### Mejor por Categoria\n\n| Categoria | 1ro | 2do | 3ro |\n|-----------|-----|-----|-----|\n| **Razonamiento** | DeepSeek V3.2 (7.65) | Devstral (7.64) | GPT-4.1 (7.45) |\n| **Agentes (tool+soporte)** | Devstral (7.21) | GPT-5.4 Mini (7.13) | Claude Opus 4.6 (7.02) |\n| **Contenido** | Devstral (7.37) | GPT-4.1 Mini (7.21) | GPT-4.1 (7.14) |\n| **Codigo** | Devstral (7.65) | GPT-4.1 (7.37) | DeepSeek V3.2 (7.34) |\n| **Productividad** | Devstral (7.39) | GPT-4.1 (7.26) | Gemini Flash Lite (7.13) |\n| **JSON/Datos** | Devstral (7.33) | Gemini Flash Lite (7.33) | GPT-4.1 (7.22) |\n| **Alucinaciones** | Claude Sonnet 4.6 (7.62) | Mistral Large (7.52) | Gemini Flash Lite (7.47) |\n| **Creatividad** | Devstral (6.93) | Gemini Flash (6.85) | DeepSeek V3.2 (6.75) |\n| **String Precision** | Devstral (8.58) | Gemini Flash Lite (8.43) | GPT-5.4 Mini (8.38) |\n| **Noticias SEO** | DeepSeek V3.2 (7.67) | Gemini Flash Lite (7.38) | Gemini Flash (7.35) |\n\n### Hallazgos Clave\n\n- **#1 Devstral Small**: Open-source (Apache 2.0), 161 tok/s, $0.10/$0.30 per M. Sorpresa total.\n- **GPT-4.1 \u003e GPT-5.4**: GPT-4.1 (#2) supera consistentemente a GPT-5.4 (#13) en todos los tests\n- **Claude sube con tests de calidad**: Sonnet #7 y Opus #9 gracias a honestidad y soporte al cliente\n- **Mas honesto**: Claude Sonnet 4.6 - #1 en alucinaciones (7.62)\n- **Menos creativo**: MiniMax M2.7 ultimo en creatividad (5.19) - respuestas genericas\n- **Mas rapido**: Gemini Flash Lite (195 tok/s) y Devstral (161 tok/s)\n- **Mas barato**: DeepSeek V3.2 - $0.00022/call, #4 global\n- **Modelos chinos**: MiniMax y Qwen a veces responden con caracteres chinos en espanol\n- **LLM-as-Judge (Abril 16)**: Nuevo modo `--judge` con auto-deteccion: usa Gemma 4 31B local ($0, bajo sesgo) si Ollama disponible, sino Claude Haiku via API. Califica 5 dimensiones + criterios por suite. 30% auto + 70% juez. Ver seccion Metodologia para analisis de sesgo.\n- **Scoring v2 (Abril 16)**: Corregido sesgo de formato. Ahora valida sustancia (razonamiento, honestidad, creatividad real, datos correctos). Los rankings pueden cambiar al re-correr benchmarks. Ver [CHANGELOG.md](CHANGELOG.md) para detalles.\n- **Nuevos tests (18 nuevos)**: OCR/extraccion, orquestacion, multi-turno, y adherencia a politicas. Total: 77 tests en 19 suites.\n- **Xiaomi MiMo**: 4 modelos nuevos incluyendo MiMo-V2-Flash (MIT, $0.09/$0.29, 73.4% SWE-Bench) - candidato serio a top 5\n\n### Recomendacion por Caso de Uso\n\n| Uso | Modelo Recomendado | Por que |\n|-----|-------------------|---------|\n| Agente general | Devstral Small | #1 global, rapido, open-source |\n| Agente con tool calling | GPT-4.1 Mini | Top en tool calling, rapido |\n| Agente economico | DeepSeek V3.2 | #4 global, el mas barato |\n| Agente ultra rapido | Gemini 2.5 Flash Lite | 195 tok/s, 4.1s latencia |\n| Agente con suscripcion fija | MiniMax M2.7 | $20-69/mes, sin sorpresas |\n| Soporte al cliente | Claude Opus 4.6 | #3 en agentes, empatia superior |\n| Contenido sin alucinaciones | Claude Sonnet 4.6 | #1 en honestidad (7.62) |\n| Contenido creativo | Devstral Small o Gemini Flash | Top en creatividad |\n| Coding/automatizaciones | Devstral o DeepSeek V3.2 | Top en coding |\n| JSON/datos estructurados | Devstral o Gemini Flash Lite | Empatan #1 (7.33) |\n| Open-source para DGX Spark | Llama 4 Maverick | #11, open-source, barato |\n\n\u003e Los resultados JSON completos estan en `benchmarks/results/`\n\u003e Ver tambien: [DESCUBRIMIENTOS.md](DESCUBRIMIENTOS.md) | [PACKS.md](PACKS.md) | [PROVEEDORES.md](PROVEEDORES.md)\n\n## Estructura\n\n```\n├── README.md                        # Este archivo\n├── COMPARATIVA.md                   # Comparativa completa de modelos\n├── SUSCRIPCIONES.md                 # Suscripciones mensuales\n├── CHANGELOG.md                     # Historial de cambios\n├── benchmarks/\n│   ├── config.example.py            # Configuracion ejemplo\n│   ├── config.py                    # Tu configuracion (gitignored)\n│   ├── runner.py                    # Motor de benchmarks\n│   ├── scoring.py                   # Sistema de puntuacion\n│   ├── tests/                       # 19 suites de tests\n│   └── results/                     # Resultados JSON\n├── providers/\n│   └── adapters.py                  # Adaptador unificado OpenAI-compatible\n└── requirements.txt\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fctala%2Fai-benchmarks-alternativos","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fctala%2Fai-benchmarks-alternativos","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fctala%2Fai-benchmarks-alternativos/lists"}