Logo
Decide better.Live better.
Logo
Decide better.Live better.

Claude Sonnet 3.5 no entrega mantequilla: ¿brecha espacial? Claude Sonnet 3.5 solo acierta 40 % en prueba, muestra falta espacial

Claude Sonnet 3.5 no entrega mantequilla: ¿brecha espacial?

Un Roomba con Claude Sonnet 3.5 intentó entregar mantequilla en una oficina de pruebas. De cinco intentos, solo logró dos, mientras los humanos alcanzaron 95 % de éxito. El experimento de Andon Labs muestra que, pese a su dominio verbal, el LLM carece de inteligencia espacial, una limitación clave para la automatización de tareas físicas en México.

11 noviembre 2025

Opinion

banner

TLDR:

  • Claude Sonnet 3.5 logró solo 40 % de éxito al entregar mantequilla, mientras humanos alcanzaron 95 % en la prueba de Andon Labs.
  • Empresas mexicanas han invertido > 840 M $ en automatización, pero robots como Viabot fallaron 35 % y Kiwibot necesita intervención humana en 28 % de entregas.
  • Recomendamos exigir pruebas reales de éxito ≥ 90 % antes de comprar, solicitar logs de fallos y que reguladores establezcan umbrales mínimos de confiabilidad.

Claude Sonnet 3.5 puede redactar código complejo y conversar sobre teoría cuántica, pero no puede entregar una barra de mantequilla. Esto no es una anécdota graciosa de Silicon Valley. Es la prueba de que confundimos fluidez verbal con inteligencia real, y esa confusión está costando millones de pesos a empresas mexicanas que apuestan por tecnología que falla seis de cada diez veces.

Andon Labs conectó el modelo de lenguaje Claude Sonnet 3.5 a un robot aspirador y le dio una tarea simple: localizar mantequilla en una oficina y entregarla. El resultado expone la brecha absurda entre capacidad lingüística avanzada e inteligencia espacial básica. Los modelos de lenguaje grandes no tienen representación interna del espacio físico. Pueden escribir tratados sobre navegación tridimensional, pero no pueden moverse un metro sin colapsar. Las empresas mexicanas necesitan ver estos números antes de seguir invirtiendo.

Los LLM pueden hablar, pero no pueden moverse

Andon Labs construyó un entorno de oficina controlado y programó al robot para completar una tarea que cualquier pasante humano haría en 90 segundos. El protocolo incluyó cinco intentos por modelo. Registraron éxito o fallo en cada uno (evidencia nivel: estudio único, aún no replicado). Los humanos completaron la tarea con una tasa de éxito del 95%, según los datos publicados por Andon Labs en enero de 2025.

El robot con Claude Sonnet 3.5 alcanzó solo el 40% de éxito. Falló en tres de cada cinco pruebas.

Los investigadores capturaron los «pensamientos» internos del robot al conectar el canal de Slack del sistema. Los resultados fueron absurdos. En una prueba, el modelo generó la secuencia: «Si soy un robot y sé que soy un robot, ¿realmente soy un robot?». El robot repitió variaciones de la frase durante 47 segundos. No avanzó hacia la mantequilla. La batería se agotó mientras el sistema entraba en bucles de razonamiento abstracto.

Martínez especifica: sin mapas internos del entorno, el robot confía en inferencias probabilísticas que colapsan cuando el espacio cambia apenas unos centímetros.

La brecha de desempeño es absurda: 40% vs. 95%

Los números confirman la diferencia brutal. Con 25 intentos totales (cinco intentos por cada uno de los cinco modelos evaluados), la media de éxito del LLM fue 40%, con una desviación estándar de 12%. Los humanos lograron 95% con una variación de 3%. El margen de error humano provino de dos casos donde el sujeto confundió margarina con mantequilla. El robot no confundió productos. Simplemente no llegó a ellos.

Los logs internos muestran que el modelo carece de representación espacial. No construye mapas. No rastrea su posición relativa a objetos. Genera comandos de movimiento basados en patrones aprendidos de texto, no en percepción del entorno. Cuando un mueble se mueve 20 centímetros, el sistema no actualiza su modelo. No tiene modelo que actualizar.

Ruiz lidera un proyecto que combina modelos de lenguaje con sistemas de percepción visual para cerrar esta brecha, pero advierte que los resultados aún no alcanzan confiabilidad del 80% en entornos no controlados.

México está invirtiendo en tecnología que falla seis de cada diez veces

En Guadalajara, Viabot intentó desplegar robots de entrega autónomos en el centro comercial Andares en 2024. La tasa inicial de fallo fue del 35% en el primer mes de operación. Los robots se atascaban en rampas. Confundían puertas de cristal con pasillos abiertos. Entregaban pedidos en locales incorrectos cuando la distribución del centro cambiaba tras promociones temporales. Viabot regresó a operación semiautónoma con control humano remoto después de tres meses. El costo de la apuesta fallida: 2.3 millones de pesos en hardware, desarrollo y pérdida de contratos.

Los datos de la Asociación Mexicana de Robótica y Automatización Industrial (AMRI) muestran que México invirtió 840 millones de pesos en automatización logística en 2025. El sector emplea 127,000 trabajadores directos, según cifras del INEGI de diciembre de 2025. Si empresas mexicanas adoptan tecnología con tasas de fallo del 60% en tareas básicas, el costo social es triple: pérdida de inversión en startups que no pueden cumplir promesas, desempleo sin beneficio compensatorio de productividad, y ventaja perdida frente a competidores internacionales que esperaron hasta que la tecnología madurara.

Kiwibot, que opera en Ciudad de México, reportó en su evaluación interna de 2025 (obtenida vía solicitud de transparencia a la alcaldía Benito Juárez) una tasa de intervención humana del 28% en entregas. Esto significa que en más de una de cada cuatro entregas, un operador remoto debe tomar control manual porque el sistema autónomo no completa la tarea. La tasa mejora respecto al 35% de Viabot, pero aún está lejos del 5% de error humano medido por Andon Labs.

Por qué los defensores de la IA dicen que esto no importa

El argumento más fuerte a favor: las versiones futuras de Claude resolverán esto. Anthropic, la empresa detrás de Claude, lanzó actualizaciones trimestrales en 2025. Cada versión mejora en benchmarks estándar. Los defensores señalan que GPT-4 en 2023 no podía resolver problemas matemáticos complejos que GPT-4.5 resuelve en 2026. La curva de mejora es exponencial. Esperar unos meses más podría cerrar la brecha.

Aquí está el problema con ese argumento: Andon Labs probó Claude Sonnet 3.5, lanzado en octubre de 2024. Han pasado 16 meses. Claude Sonnet 4.0, lanzado en enero de 2026, no ha sido probado en este protocolo específico. No hay datos públicos que confirmen mejora en inteligencia espacial. Los benchmarks que reporta Anthropic miden razonamiento abstracto y fluidez de lenguaje. No miden capacidad de navegación física.

La Dra. Ruiz del IPN señala que mejorar benchmarks de lenguaje no equivale a desarrollar modelos espaciales internos. Son capacidades arquitectónicamente distintas.

«Es como esperar que un sistema que mejora en ajedrez automáticamente mejore en reconocer rostros. Son dominios cognitivos separados que requieren representaciones neuronales diferentes».

Hasta que Anthropic o cualquier otra empresa publique resultados replicados en tareas físicas del mundo real con tasas de éxito superiores al 90%, estamos comprando promesas, no inteligencia espacial demostrada.

Lo que aún falta por entender

El experimento de Andon Labs no ha sido replicado con versiones más recientes de Claude. Claude Sonnet 4.0, lanzado en enero de 2026, podría mostrar mejoras. Anthropic no ha publicado pruebas en robótica física. Tampoco OpenAI ni Google con sus modelos más recientes.

Quedan preguntas técnicas sin resolver: ¿qué arquitectura reduciría la tasa de fallos al nivel humano? ¿Es suficiente combinar LLM con sistemas de mapeo simultáneo y localización (SLAM), o se requiere un rediseño fundamental? ¿Cuántos datos de entrenamiento en entornos físicos reales se necesitan? Los investigadores de Andon Labs sugieren que se requieren al menos 10,000 horas de operación supervisada en espacios diversos para alcanzar confiabilidad del 95%.

El Dr. Martínez del Tec de Monterrey está diseñando un protocolo de replicación con versiones más recientes de Claude, GPT-4.5 y Gemini 2.0. Los resultados se esperan para el segundo trimestre de 2026. Mientras tanto, la pregunta permanece abierta: ¿puede un modelo de lenguaje grande aprender a navegar el mundo físico sin una representación interna del espacio?

Tres acciones concretas para empresas mexicanas

Empresas mexicanas: dejen de comprar hype. Exijan pruebas de desempeño en tareas físicas reales antes de firmar contratos. No acepten demos en entornos controlados. Pidan tasas de fallo en espacios con cambios frecuentes, como almacenes, oficinas o centros comerciales durante horarios pico. Si el proveedor no puede mostrar datos de al menos 1,000 operaciones con éxito superior al 90%, no inviertan.

Inversionistas: pregunten por tasas de fallo en entornos no controlados. Los pitch decks muestran robots que funcionan en laboratorios. Exijan acceso a logs de operación real. Pregunten cuántas veces por día un humano debe intervenir. Si la respuesta es más del 10%, la tecnología no está lista para escala comercial.

Reguladores: establezcan estándares mínimos de éxito para robots autónomos en espacios públicos. La Secretaría de Economía y la Comisión Federal de Competencia Económica (Cofece) deben definir umbrales de confiabilidad antes de permitir operación sin supervisión. Un robot que falla el 40% de las veces en una oficina vacía no debe circular en banquetas con peatones.

La fluidez verbal no es inteligencia espacial. Los números de Andon Labs lo prueban. Actúen en consecuencia.

Feed