Imagina que estás en un mercado lleno de gente: alguien te pasa una bolsa, otra persona señala hacia un puesto, y tú entiendes al instante quién colabora con quién, quién espera su turno, quién está distraído. Tu cerebro procesa estas señales sociales en milisegundos, sin esfuerzo.
Ahora imagina que le pides a una inteligencia artificial que haga lo mismo. Según un estudio reciente de la Universidad Johns Hopkins, la IA actual falla rotundamente en esta tarea que para los humanos es casi automática.
Qué reveló el experimento de Johns Hopkins
Científicos de la Universidad Johns Hopkins diseñaron un experimento sencillo pero revelador para medir qué tan cerca está la IA de comprender la interacción social humana.
La respuesta fue contundente: ni siquiera cerca.
El estudio utilizó videos de apenas tres segundos. En ellos, personas realizaban tareas simples: pasarse objetos, trabajar juntas, actuar de forma independiente. Nada complejo, solo interacciones cotidianas.
El diseño del estudio
Los investigadores mostraron clips de video cortos a participantes humanos. Los participantes calificaron aspectos clave de la interacción social en una escala del 1 al 5: ¿quién colabora con quién? ¿Quién presta atención a quién? ¿Qué intenciones se perciben?
Luego vino la prueba de fuego para la IA. Los científicos utilizaron más de 350 modelos de inteligencia artificial —incluyendo grandes modelos de lenguaje (sistemas entrenados con millones de textos para procesar y generar lenguaje humano) y modelos generativos (IA que crea contenido nuevo basándose en patrones aprendidos)— para predecir cómo los humanos calificarían esos mismos videos.
El resultado: ningún modelo de IA logró interpretar correctamente el comportamiento social dinámico.
Cómo funciona la percepción social humana
Para entender por qué la IA falla, primero hay que comprender qué hace el cerebro humano cuando observa una interacción social.
Tu cerebro no solo ve movimientos: detecta patrones, anticipa intenciones, lee señales no verbales como la dirección de la mirada, la postura corporal, el ritmo de los gestos. Este proceso, conocido como visión social dinámica, es una habilidad que desarrollamos desde la infancia y que nos permite navegar el mundo social con fluidez.
Señales no verbales que la IA no capta
Los modelos de IA actuales pueden reconocer objetos, rostros, incluso emociones básicas en imágenes estáticas. Pero cuando se trata de interpretar la dinámica de una interacción en tiempo real, carecen de algo fundamental: la capacidad de integrar múltiples señales contextuales y temporales para construir una narrativa social coherente.
Es como si la IA pudiera leer las palabras de una conversación pero no captar el tono, las pausas, o el lenguaje corporal que le dan significado.
Por qué esto importa para la tecnología actual
Este hallazgo no es solo un dato curioso de laboratorio. Tiene implicaciones directas para tecnologías que ya están en desarrollo o en uso.
Vehículos autónomos y robots asistentes
Piensa en un vehículo autónomo que debe decidir si un peatón va a cruzar la calle. No basta con detectar su presencia: el sistema debe interpretar su lenguaje corporal, su mirada, su intención. Un error de interpretación puede ser fatal.
O considera un robot asistente en un hospital. Si no puede captar la frustración en el rostro de un paciente o la urgencia en el gesto de un médico, su utilidad se reduce drásticamente.
Para México, esto significa que tecnologías prometidas como taxis autónomos o asistentes robóticos en clínicas rurales aún enfrentan barreras fundamentales antes de ser confiables en entornos sociales reales.
Qué falta en los modelos de IA modernos
Los investigadores de Johns Hopkins concluyen que los modelos de IA actuales carecen de algún aspecto fundamental que permite al cerebro humano interpretar sin errores y rápidamente los aspectos de la interacción social dinámica.
¿Qué es ese «algo»? Aún no está claro. Podría ser la experiencia corporal —el hecho de que los humanos tenemos cuerpos y entendemos el movimiento desde dentro—. Podría ser la empatía evolutiva, desarrollada durante millones de años de vida en grupos sociales. O podría ser una combinación de factores que aún no hemos identificado.
Lo que sí está claro es que entrenar modelos con más datos o hacerlos más grandes no resuelve el problema por sí solo.
Qué sigue: el camino hacia una IA socialmente consciente
El estudio abre preguntas más que respuestas.
¿Cómo podemos enseñar a la IA a «ver» como vemos nosotros? ¿Es posible replicar la percepción social sin replicar la experiencia humana completa?
Algunos enfoques prometedores incluyen:
- IA multimodal: sistemas que integran video, audio y texto para captar más contexto.
- Aprendizaje por refuerzo social: entrenar modelos mediante interacciones simuladas con humanos.
- Arquitecturas inspiradas en neurociencia: diseñar redes que imiten más de cerca cómo el cerebro procesa información social.
Pero por ahora, la brecha entre la percepción humana y la artificial en contextos sociales sigue siendo enorme.
¿Qué aspecto fundamental del cerebro humano falta replicar? ¿Es la experiencia corporal, la empatía evolutiva, o algo aún no identificado? Mientras los científicos buscan respuestas, una cosa queda clara: en el mercado de la interacción social, los humanos seguimos siendo insuperables.























