¿Por qué la inteligencia artificial falla en interpretar interacciones sociales básicas?

La IA procesa cada fotograma como imagen aislada, sin memoria de contexto que integre gestos, miradas y timing. Carece del mecanismo humano que combina información multisensorial en milisegundos para captar intenciones subyacentes, convirtiendo patrones visuales en adivinar en lugar de comprender.

¿Qué tan grande es la diferencia entre humanos e IA al leer señales sociales?

En el estudio de Johns Hopkins, humanos alcanzaron 92% de precisión interpretando clips de tres segundos, mientras los mejores modelos de IA apenas superaron 58%. Esta brecha de 35 puntos representa la diferencia entre comprender intenciones y procesar imágenes estáticas sin contexto temporal.

¿Cómo afecta esta limitación a los vehículos autónomos en México?

Los autos autónomos pueden fallar al detectar si un peatón está indeciso o cambió de intención. En cruces urbanos complejos como los de CDMX, esta incapacidad aumenta riesgo de colisiones y decisiones ineficientes, obligando a mantener supervisión humana constante en interacciones sociales directas.

¿Qué necesitan los modelos de IA para mejorar la comprensión social?

Requieren redes de contexto dinámico que mantengan estados internos y actualicen predicciones conforme evoluciona la escena. También necesitan entrenamiento con datasets locales que capturen gestos específicos de cada cultura, como interacciones en mercados, transporte público y cruces peatonales urbanos.

¿Qué dimensiones sociales evaluó el experimento de Johns Hopkins?

El estudio midió tres dimensiones en clips de tres segundos: liderazgo (quién guía la acción mediante postura y mirada), cooperación (sincronización de movimientos entre personas) e incomodidad (señales de evasión como brazos cruzados o miradas desviadas). Elementos que humanos procesan instantáneamente.

¿Puede la IA aprender el lenguaje corporal mexicano específico?

Es posible mediante entrenamiento con videos de contextos locales: cruces en Reforma, interacciones en La Merced, gestos en el Metro. Estos datasets enseñarían patrones culturales específicos, aunque aún falta validar si estas arquitecturas escalan efectivamente a entornos urbanos complejos en tiempo real.

La IA falla al leer gestos sociales en tres segundos. Estudio de 350 IA muestra menos del 60 % de precisión humana, riesgo para los autos en México

Un estudio de Johns Hopkins probó 350 modelos de IA con videos de tres segundos que mostraban gestos, miradas y posturas. Mientras los humanos acertaron más del 90 % de las interpretaciones, la IA apenas superó el 60 %. Esto pone en riesgo la seguridad de autos autónomos y robots en ciudades mexicanas, subrayando la urgencia de crear redes con memoria de contexto dinámico.

7 noviembre 2025

—Explicaciones

Montserrat Hernández

TLDR:

En pruebas de 3 s, personas acertaron el 92 % al identificar liderazgo, cooperación e incomodidad, mientras los mejores modelos de IA alcanzaron apenas 58 %.
Los algoritmos analizan cada fotograma como imagen aislada, sin contexto, por eso fallan al interpretar gestos y ponen en riesgo autos autónomos y robots.
Los autores proponen contexto dinámico entrenado con videos locales (cruces de Reforma, La Merced) para que la IA aprenda intenciones y reduzca la supervisión.

Científicos de Johns Hopkins midieron algo que hacemos sin pensar: leer intenciones en tres segundos de video. Pusieron a prueba a 120 personas y a 350 modelos de inteligencia artificial con las mismas escenas breves. Los humanos alcanzaron 92% de precisión. Los modelos apenas superaron el 50%. La brecha explica por qué los autos autónomos siguen chocando y por qué los robots asistentes se confunden cuando alguien cambia de opinión a medio gesto.

La IA procesa interacciones sociales como si viera fotografías individuales en una pared, mientras los humanos vemos una película completa. No capta que la mano levantada en el fotograma 1 cobra significado solo cuando el fotograma 2 muestra hacia dónde mira la persona. Sin esa continuidad, la máquina adivina, no comprende. Y adivinar en un cruce peatonal puede costar vidas.

El experimento y sus números

Los investigadores de Johns Hopkins mostraron clips de tres segundos donde personas coordinaban acciones o permanecían solas. Tres segundos: el tiempo promedio de una interacción social básica, suficiente para que un humano decida si alguien necesita ayuda, está incómodo o lidera un grupo. Cada escena contenía gestos, miradas, posturas. Elementos que procesamos en milisegundos sin instrucción previa. Los voluntarios calificaron esas interacciones en una escala del 1 al 5 (evidence: single study, Johns Hopkins 2025).

Se midieron tres dimensiones clave:

Liderazgo: quién guía la acción, visible en la postura y la dirección de la mirada.
Cooperación: sincronización de movimientos, como dos personas levantando un objeto juntas.
Incomodidad: señales de evasión, brazos cruzados, miradas desviadas.

Los mismos videos se introdujeron en más de 350 modelos de IA: desde redes de visión por computadora hasta modelos generativos de gran escala entrenados con miles de millones de parámetros. Los mejores resultados provinieron de modelos multimodales que combinaron video y texto. Aun así quedaron por debajo del 60% de precisión (evidence: single study, Johns Hopkins 2025).

La comparación cuantitativa es contundente. Humanos: ≈92%. Mejor modelo de IA: ≈58%. Una diferencia de casi 35 puntos porcentuales. Incluso al proporcionar subtítulos escritos, los grandes modelos de lenguaje fallaron en captar los matices que cualquier persona identifica de inmediato. La muestra incluyó participantes de diversas edades y géneros, garantizando que los resultados no dependieran de un perfil demográfico específico (evidence: single study, Johns Hopkins 2025).

«Los humanos perciben estas señales en milisegundos. Los modelos actuales no tienen ese mecanismo integrado.»

La variabilidad de las respuestas humanas mostró que la percepción social es robusta frente a diferencias culturales y de edad. La IA, en cambio, mostró una vulnerabilidad sistemática: no reconoce la intención detrás de una mano levantada o de una mirada desviada. Procesa fotogramas, no historias.

Cuando ver no es comprender

Los algoritmos actuales aprenden de datos estáticos etiquetados, no de interacciones fluidas. Reconocen patrones cuando la etiqueta es fija: "perro", "coche", "persona caminando". Pero la interacción social depende del contexto, el timing y la intención subyacente. Una mano levantada puede significar saludo. Advertencia. Solicitud. El significado cambia según el momento y el gesto que sigue.

Los modelos no disponen de un mecanismo que ajuste su interpretación en fracciones de segundo. Carecen de lo que los investigadores llaman "memoria de contexto": un sistema que mantenga información de micro‑gestos y la combine con la escena completa (evidence: single study, Johns Hopkins 2025). Sin esa integración multisensorial, la IA procesa cada fotograma como una imagen aislada.

Es como leer el ambiente en un mercado lleno. Sabes quién está apurado, quién está vendiendo, quién solo mira, sin que nadie diga palabra. La máquina vería rostros, manos, objetos, pero no percibiría el flujo de intenciones que tú captas de un vistazo.

Estudios neurocientíficos indican que áreas como el surco temporal superior y la corteza prefrontal mantienen una representación continua de la interacción social (evidence: consensus, neurociencia). El cerebro humano integra visión, audición y propiocepción al instante. Replicar ese proceso requeriría redes que mantengan estados internos y actualicen sus predicciones a medida que la escena evoluciona.

Los autores proponen desarrollar "redes de contexto dinámico" que combinen datos visuales con anotaciones temporales y que aprendan de datasets como el HSRI (400 videos, 10,000 anotaciones) para entrenar la percepción de intenciones (evidence: single study, HSRI 2025). Para entrenar estas redes con contexto local, se necesitarían videos de cruces peatonales en Reforma, interacciones en La Merced o gestos en el Metro. Esas escenas enseñarían a la IA el lenguaje corporal específico de la vida urbana mexicana.

Aún falta validar si esas arquitecturas pueden escalar a entornos urbanos complejos. Por ahora, la brecha persiste.

El peligro en el cruce peatonal

Los vehículos autónomos y los robots asistentes deben interpretar señales como la mirada de un peatón o la postura de un trabajador antes de actuar. En un cruce de la Ciudad de México, un auto autónomo que no detecte que una persona está indecisa podría frenar bruscamente. O, peor, no detenerse. La falta de comprensión social aumenta el riesgo de colisiones y de decisiones ineficientes (evidence: single study, Johns Hopkins 2025).

Para México, donde la adopción de vehículos autónomos y robots en fábricas está en expansión, la brecha obliga a mantener supervisión humana. Los sistemas actuales requieren supervisión humana en cualquier escenario que implique interacción social directa. Las empresas diseñan interfaces que alertan al operador cuando la IA encuentra una situación social ambigua.

«No se trata de que la IA sea torpe. Se trata de que su arquitectura no fue construida para captar el flujo de intenciones que define nuestras interacciones.»

Los próximos pasos incluyen entrenar modelos con datos locales de gestos y posturas típicos de la vida urbana mexicana. Evaluar su desempeño en pruebas de campo. Validar si pueden aprender el "entre líneas" de la conducta humana. Mientras tanto, la lección clara es que la IA acelera procesos, pero no sustituye el juicio humano en contextos donde las señales sociales definen la seguridad.

¿Podrán las máquinas algún día leer una mirada de incomodidad tan rápido como tú lo haces al cruzar la calle? La próxima generación de IA deberá aprender lo que un niño de tres años ya sabe: que ver no es solo procesar luz, sino sentir intención.

¿De qué trata esto?

Feed

Máscaras de luz roja para tu piel. Elige la mejor según tu presupuesto

Descubre qué dispositivo ofrece mejores resultados para arrugas e inflamación en 2026

Alejandra Rojas Márquez16 julio 2026

Sabanto y Verdant Robotics integran sistemas. Usted puede automatizar su cosecha sin operador

La nueva alianza permite reducir costos de insumos y operar 24/7 con equipos existentes

Luisa Fernanda Ríos16 julio 2026

Mach Industries levanta $300 millones: lo que significa para el futuro de la defensa autónoma

La valoración de la startup se cuadriplicó en un año y acelera la producción de drones de combate

Alejandro 'Alex' Ríos16 julio 2026

Anthropic revela el J-lens: lo que tu IA está pensando antes de hablar

Entiende los procesos internos de Claude Opus 4.6 para confiar mejor en sus decisiones

Rocío Delgado16 julio 2026

Schlage Sense Pro: ¿Vale la pena pagar $399 por la cerradura inteligente más avanzada de Apple?

Descubre si la tecnología de desbloqueo manos libres realmente mejora tu rutina o si es mejor esperar a la compatibilidad con Android

Lía Morales16 julio 2026

Un misterio químico en Plutón y Titán: lo que tu curiosidad sobre el espacio debe saber

Identifican una firma desconocida en dos mundos lejanos; esto es lo que nos dice sobre el origen de la química orgánica

Mateo Esteban Chávez-Ruiz16 julio 2026

Avataar AI lanza Varya: crea videos a un costo 20 veces menor para tus proyectos

La nueva herramienta permite generar contenido profesional por $0.005 por segundo, ideal para emprendedores

Rocío Delgado15 julio 2026

Mapearon la red fúngica global: lo que este sistema circulatorio subterráneo significa para tu seguridad alimentaria

Descubre cómo 110 cuatrillones de kilómetros de hongos regulan el clima y qué impacto tiene en el suelo de tu jardín

Emiliana Ríos15 julio 2026

Estados Unidos lidera la creación de IA, pero tú podrías estar quedándote atrás en su uso

El reporte de Stanford revela que el país construye la tecnología, pero no es el que mejor la integra en el día a día

Rocío Delgado15 julio 2026

MRAgent redefine la memoria de la IA. Descubre cómo evitar que tu asistente olvide detalles clave

Entiende por qué esta arquitectura permite conversaciones más largas y precisas sin desperdiciar recursos

Rocío Delgado15 julio 2026

La IA falla al leer gestos sociales en tres segundos. Estudio de 350 IA muestra menos del 60 % de precisión humana, riesgo para los autos en México

noviembre 7, 2025, 1:13 am-Explicaciones

Montserrat Hernández

TLDR:

En pruebas de 3 s, personas acertaron el 92 % al identificar liderazgo, cooperación e incomodidad, mientras los mejores modelos de IA alcanzaron apenas 58 %.
Los algoritmos analizan cada fotograma como imagen aislada, sin contexto, por eso fallan al interpretar gestos y ponen en riesgo autos autónomos y robots.
Los autores proponen contexto dinámico entrenado con videos locales (cruces de Reforma, La Merced) para que la IA aprenda intenciones y reduzca la supervisión.

El experimento y sus números

Se midieron tres dimensiones clave:

Liderazgo: quién guía la acción, visible en la postura y la dirección de la mirada.
Cooperación: sincronización de movimientos, como dos personas levantando un objeto juntas.
Incomodidad: señales de evasión, brazos cruzados, miradas desviadas.

«Los humanos perciben estas señales en milisegundos. Los modelos actuales no tienen ese mecanismo integrado.»

Cuando ver no es comprender

Aún falta validar si esas arquitecturas pueden escalar a entornos urbanos complejos. Por ahora, la brecha persiste.

El peligro en el cruce peatonal

«No se trata de que la IA sea torpe. Se trata de que su arquitectura no fue construida para captar el flujo de intenciones que define nuestras interacciones.»

Sigue temas y autores de esta historia para recibir recomendaciones más personalizadas y novedades por correo.

Montserrat Hernández Explicaciones Ciencia neurociencia

¿De qué trata esto?

La IA falla al leer gestos sociales en tres segundos. Estudio de 350 IA muestra menos del 60 % de precisión humana, riesgo para los autos en México

TLDR:

El experimento y sus números

Cuando ver no es comprender

El peligro en el cruce peatonal

Feed

Máscaras de luz roja para tu piel. Elige la mejor según tu presupuesto

Sabanto y Verdant Robotics integran sistemas. Usted puede automatizar su cosecha sin operador

Mach Industries levanta $300 millones: lo que significa para el futuro de la defensa autónoma

Anthropic revela el J-lens: lo que tu IA está pensando antes de hablar

Schlage Sense Pro: ¿Vale la pena pagar $399 por la cerradura inteligente más avanzada de Apple?

Un misterio químico en Plutón y Titán: lo que tu curiosidad sobre el espacio debe saber

Avataar AI lanza Varya: crea videos a un costo 20 veces menor para tus proyectos

Mapearon la red fúngica global: lo que este sistema circulatorio subterráneo significa para tu seguridad alimentaria

Estados Unidos lidera la creación de IA, pero tú podrías estar quedándote atrás en su uso

MRAgent redefine la memoria de la IA. Descubre cómo evitar que tu asistente olvide detalles clave

El experimento y sus números

Cuando ver no es comprender

El peligro en el cruce peatonal

Feed

Máscaras de luz roja para tu piel. Elige la mejor según tu presupuesto

Sabanto y Verdant Robotics integran sistemas. Usted puede automatizar su cosecha sin operador

Mach Industries levanta $300 millones: lo que significa para el futuro de la defensa autónoma

Anthropic revela el J-lens: lo que tu IA está pensando antes de hablar

Schlage Sense Pro: ¿Vale la pena pagar $399 por la cerradura inteligente más avanzada de Apple?

Un misterio químico en Plutón y Titán: lo que tu curiosidad sobre el espacio debe saber

Avataar AI lanza Varya: crea videos a un costo 20 veces menor para tus proyectos

Mapearon la red fúngica global: lo que este sistema circulatorio subterráneo significa para tu seguridad alimentaria

Estados Unidos lidera la creación de IA, pero tú podrías estar quedándote atrás en su uso

MRAgent redefine la memoria de la IA. Descubre cómo evitar que tu asistente olvide detalles clave

La IA falla al leer gestos sociales en tres segundos. Estudio de 350 IA muestra menos del 60 % de precisión humana, riesgo para los autos en México