Logo
Decide better.Live better.
Logo
Decide better.Live better.

La IA falla al leer gestos sociales en tres segundos. Estudio de 350 IA muestra menos del 60 % de precisión humana, riesgo para los autos en México

La IA falla al leer gestos sociales en tres segundos

Un estudio de Johns Hopkins probó 350 modelos de IA con videos de tres segundos que mostraban gestos, miradas y posturas. Mientras los humanos acertaron más del 90 % de las interpretaciones, la IA apenas superó el 60 %. Esto pone en riesgo la seguridad de autos autónomos y robots en ciudades mexicanas, subrayando la urgencia de crear redes con memoria de contexto dinámico.

7 noviembre 2025

Explainer

banner

TLDR:

  • En pruebas de 3 s, personas acertaron el 92 % al identificar liderazgo, cooperación e incomodidad, mientras los mejores modelos de IA alcanzaron apenas 58 %.
  • Los algoritmos analizan cada fotograma como imagen aislada, sin contexto, por eso fallan al interpretar gestos y ponen en riesgo autos autónomos y robots.
  • Los autores proponen contexto dinámico entrenado con videos locales (cruces de Reforma, La Merced) para que la IA aprenda intenciones y reduzca la supervisión.

Científicos de Johns Hopkins midieron algo que hacemos sin pensar: leer intenciones en tres segundos de video. Pusieron a prueba a 120 personas y a 350 modelos de inteligencia artificial con las mismas escenas breves. Los humanos alcanzaron 92% de precisión. Los modelos apenas superaron el 50%. La brecha explica por qué los autos autónomos siguen chocando y por qué los robots asistentes se confunden cuando alguien cambia de opinión a medio gesto.

La IA procesa interacciones sociales como si viera fotografías individuales en una pared, mientras los humanos vemos una película completa. No capta que la mano levantada en el fotograma 1 cobra significado solo cuando el fotograma 2 muestra hacia dónde mira la persona. Sin esa continuidad, la máquina adivina, no comprende. Y adivinar en un cruce peatonal puede costar vidas.

El experimento y sus números

Los investigadores de Johns Hopkins mostraron clips de tres segundos donde personas coordinaban acciones o permanecían solas. Tres segundos: el tiempo promedio de una interacción social básica, suficiente para que un humano decida si alguien necesita ayuda, está incómodo o lidera un grupo. Cada escena contenía gestos, miradas, posturas. Elementos que procesamos en milisegundos sin instrucción previa. Los voluntarios calificaron esas interacciones en una escala del 1 al 5 (evidence: single study, Johns Hopkins 2025).

Se midieron tres dimensiones clave:

  • Liderazgo: quién guía la acción, visible en la postura y la dirección de la mirada.
  • Cooperación: sincronización de movimientos, como dos personas levantando un objeto juntas.
  • Incomodidad: señales de evasión, brazos cruzados, miradas desviadas.

Los mismos videos se introdujeron en más de 350 modelos de IA: desde redes de visión por computadora hasta modelos generativos de gran escala entrenados con miles de millones de parámetros. Los mejores resultados provinieron de modelos multimodales que combinaron video y texto. Aun así quedaron por debajo del 60% de precisión (evidence: single study, Johns Hopkins 2025).

La comparación cuantitativa es contundente. Humanos: ≈92%. Mejor modelo de IA: ≈58%. Una diferencia de casi 35 puntos porcentuales. Incluso al proporcionar subtítulos escritos, los grandes modelos de lenguaje fallaron en captar los matices que cualquier persona identifica de inmediato. La muestra incluyó participantes de diversas edades y géneros, garantizando que los resultados no dependieran de un perfil demográfico específico (evidence: single study, Johns Hopkins 2025).

«Los humanos perciben estas señales en milisegundos. Los modelos actuales no tienen ese mecanismo integrado.»

La variabilidad de las respuestas humanas mostró que la percepción social es robusta frente a diferencias culturales y de edad. La IA, en cambio, mostró una vulnerabilidad sistemática: no reconoce la intención detrás de una mano levantada o de una mirada desviada. Procesa fotogramas, no historias.

Cuando ver no es comprender

Los algoritmos actuales aprenden de datos estáticos etiquetados, no de interacciones fluidas. Reconocen patrones cuando la etiqueta es fija: "perro", "coche", "persona caminando". Pero la interacción social depende del contexto, el timing y la intención subyacente. Una mano levantada puede significar saludo. Advertencia. Solicitud. El significado cambia según el momento y el gesto que sigue.

Los modelos no disponen de un mecanismo que ajuste su interpretación en fracciones de segundo. Carecen de lo que los investigadores llaman "memoria de contexto": un sistema que mantenga información de micro‑gestos y la combine con la escena completa (evidence: single study, Johns Hopkins 2025). Sin esa integración multisensorial, la IA procesa cada fotograma como una imagen aislada.

Es como leer el ambiente en un mercado lleno. Sabes quién está apurado, quién está vendiendo, quién solo mira, sin que nadie diga palabra. La máquina vería rostros, manos, objetos, pero no percibiría el flujo de intenciones que tú captas de un vistazo.

Estudios neurocientíficos indican que áreas como el surco temporal superior y la corteza prefrontal mantienen una representación continua de la interacción social (evidence: consensus, neurociencia). El cerebro humano integra visión, audición y propiocepción al instante. Replicar ese proceso requeriría redes que mantengan estados internos y actualicen sus predicciones a medida que la escena evoluciona.

Los autores proponen desarrollar "redes de contexto dinámico" que combinen datos visuales con anotaciones temporales y que aprendan de datasets como el HSRI (400 videos, 10,000 anotaciones) para entrenar la percepción de intenciones (evidence: single study, HSRI 2025). Para entrenar estas redes con contexto local, se necesitarían videos de cruces peatonales en Reforma, interacciones en La Merced o gestos en el Metro. Esas escenas enseñarían a la IA el lenguaje corporal específico de la vida urbana mexicana.

Aún falta validar si esas arquitecturas pueden escalar a entornos urbanos complejos. Por ahora, la brecha persiste.

El peligro en el cruce peatonal

Los vehículos autónomos y los robots asistentes deben interpretar señales como la mirada de un peatón o la postura de un trabajador antes de actuar. En un cruce de la Ciudad de México, un auto autónomo que no detecte que una persona está indecisa podría frenar bruscamente. O, peor, no detenerse. La falta de comprensión social aumenta el riesgo de colisiones y de decisiones ineficientes (evidence: single study, Johns Hopkins 2025).

Para México, donde la adopción de vehículos autónomos y robots en fábricas está en expansión, la brecha obliga a mantener supervisión humana. Los sistemas actuales requieren supervisión humana en cualquier escenario que implique interacción social directa. Las empresas diseñan interfaces que alertan al operador cuando la IA encuentra una situación social ambigua.

«No se trata de que la IA sea torpe. Se trata de que su arquitectura no fue construida para captar el flujo de intenciones que define nuestras interacciones.»

Los próximos pasos incluyen entrenar modelos con datos locales de gestos y posturas típicos de la vida urbana mexicana. Evaluar su desempeño en pruebas de campo. Validar si pueden aprender el "entre líneas" de la conducta humana. Mientras tanto, la lección clara es que la IA acelera procesos, pero no sustituye el juicio humano en contextos donde las señales sociales definen la seguridad.

¿Podrán las máquinas algún día leer una mirada de incomodidad tan rápido como tú lo haces al cruzar la calle? La próxima generación de IA deberá aprender lo que un niño de tres años ya sabe: que ver no es solo procesar luz, sino sentir intención.

Feed