Беспилотный автомобиль подъезжает к перекрёстку. Два человека стоят на краю тротуара и обмениваются взглядами. Один едва заметно качает головой. Другой делает шаг назад. Для человека за рулём это мгновенно считываемая ситуация: они пропускают машину. Для искусственного интеллекта — нерасшифрованный код.
Исследователи из Университета Джонса Хопкинса впервые измерили, насколько плохо современные модели ИИ распознают социальные сигналы. Команда под руководством Кэти Гарсиа и Лейлы Исик опубликовала результаты в 2025 году, представив их на конференции по компьютерному зрению. Речь не о сложных этических дилеммах, а о базовой способности читать невербальное взаимодействие в коротком видео. Проблема оказалась фундаментальной: архитектура, которая генерирует связный текст и создаёт фотореалистичные изображения, проваливается на задачах трёхлетнего ребёнка.

Схема эксперимента: 250 трёхсекундных видео → 49 000 оценок людьми vs 350+ моделей ИИ → сравнение точности предсказаний
Что исследователи измеряли
Команда создала библиотеку из 250 трёхсекундных видеороликов. В каждом — люди выполняют простые действия: открывают дверь друг другу, поднимают коробку вдвоём, проходят мимо без взаимодействия. Обычные сцены из повседневной жизни.
Участникам показали эти видео и попросили оценить каждую сцену по пяти параметрам. Шкала от 1 до 5. Без сложных инструкций — просто смотреть и оценивать.
Параметры оценки:
- Координация действий между людьми
- Внимание друг к другу
- Оказание помощи
- Независимость действий
- Совместность целей
Затем те же видео показали более чем 350 большим языковым моделям — от широко известных систем до специализированных архитектур. Моделям поставили ту же задачу: предсказать человеческие оценки. Ни одна модель не приближается к человеческой точности.
Как проходил эксперимент
Исследователи собрали более 49 000 поведенческих оценок от людей‑участников. Каждое видео оценивалось многократно, чтобы зафиксировать устойчивые паттерны восприятия. Люди смотрели трёхсекундный ролик и отмечали, видят ли они совместное действие, помощь, координацию или независимые движения.
Модели ИИ получили два типа входных данных. Первый — сами видео, обработанные через мультимодальные архитектуры. Второй — текстовые описания этих видео, написанные участниками. В обоих случаях задача оставалась прежней: предсказать, как люди оценят социальную динамику сцены.
Трёхсекундное окно было выбрано намеренно. Для человека три секунды — мгновенная оценка, как за чайным столом: кто сейчас заговорит, кто слушает, кто отвлёкся. Мы считываем это автоматически, как бабушка чувствует настроение внука по одному взгляду. Это минимальный отрезок, в котором можно увидеть развитие действия: начало, реакцию, завершение. Взгляд, жест, короткий обмен. Наш мозг эволюционировал для считывания намерений в реальном времени.

Сцена, которую человек понимает мгновенно, а ИИ не может расшифровать: два пешехода координируют действия невербально
Почему все модели ИИ провалились
Человеческий мозг обрабатывает социальную сцену как единое событие, а не набор объектов. Мы мгновенно считываем намерения, эмоциональную окраску, иерархию взаимодействия. Когда два человека несут диван, мы видим не просто два тела и предмет мебели. Они синхронизируются, как гребцы в лодке — без команд, через тонкие сигналы тела. Мы видим координацию: кто ведёт, кто подстраивается, где возникает рассогласование.
Это считывание происходит через десятки микросигналов. Наклон головы, напряжение в плечах, синхронность шагов, направление взгляда. Мы считываем их мгновенно. Процесс настолько автоматический, что мы не успеваем его осознать — как фокусировка глаза или удержание равновесия.
Языковые модели работают иначе. Они обучены предсказывать последовательности токенов — фрагментов текста или данных. Когда модель анализирует описание видео, она ищет статистические паттерны в словах. Когда работает с визуальным входом, распознаёт объекты и их пространственное расположение.
Но социальная динамика — это не сумма объектов. Она разворачивается во времени через взаимное влияние. Когда человек A протягивает руку, а человек B отклоняется — это не два независимых жеста. Второе действие существует в ответ на первое. Его смысл полностью зависит от этого контекста.
Современный ИИ построен на архитектуре трансформеров — сетях, которые обрабатывают информацию через механизм внимания. Эта архитектура блестяще справляется с задачами, где важны долгосрочные зависимости в данных: перевод, генерация кода, ответы на вопросы. Но трансформеры не моделируют темпоральную причинность, то есть как одно действие физически порождает другое.

Как мы видим социальное взаимодействие: человек обрабатывает целостное событие через микросигналы, ИИ распознаёт объекты и последовательности токенов
Что это значит для беспилотных автомобилей и роботов
Беспилотные автомобили, роботы‑помощники, системы умного дома проектируются с расчётом на взаимодействие с людьми в непредсказуемых ситуациях. Все они опираются на ту же базовую технологию больших языковых моделей и компьютерного зрения, которая провалила тест на социальный интеллект.
Автономное такси видит пешеходов у дороги. Распознаёт их как объекты класса «человек». Оценивает расстояние и скорость. Но может ли оно понять, что двое туристов отвлеклись на телефоны и не следят за дорогой? Что группа подростков балуется, толкая друг друга к краю тротуара? Что пожилая пара медленно идёт, потому что один поддерживает другого?
Робот‑ассистент в доме престарелых должен различать контексты. Человек тянется за стаканом, потому что хочет пить? Или пытается встать, опираясь на неустойчивую поверхность? Это различие критично для безопасности. Оно полностью лежит в области социального интеллекта.
Российские разработки в области робототехники сталкиваются с той же проблемой. В Сколковском институте науки и технологий лаборатория интеллектуальных систем работает над сервисными роботами для медицинских учреждений. Исследовательские группы РАН развивают промышленные манипуляторы, которым придётся действовать рядом с операторами. Технологические компании создают системы для непредсказуемой человеческой среды. Результаты исследования показывают: путь к настоящей автономности лежит не через увеличение размера моделей, а через фундаментальный пересмотр подхода.
Чего не хватает искусственному интеллекту
Модель запоминает: после «открыл дверь» следует «вошёл в комнату». Но она не понимает, что открытие двери физически создаёт возможность для входа. В социальном взаимодействии эта слепота становится критичной.
Человеческий мозг читает причинно‑следственные связи автоматически. Специализированные нейронные контуры — зеркальные нейроны, системы распознавания намерений, области обработки социальных сигналов — делают это непрерывно. У трансформеров таких контуров нет. Они обучены на корреляциях, а не на причинности.
Проблема не в вычислительной мощности. Это архитектурное ограничение текущей парадигмы машинного обучения. Исследователи указывают направление: нужны архитектуры, которые моделируют не только корреляции в данных, но и причинно‑следственные связи в физическом и социальном мире.
Возможно, вдохновение придёт из нейронаук — из понимания того, как биологические системы решают задачу социального познания. Последующие работы авторов включают методику behavior‑guided fine‑tuning — выравнивание видеомоделей с человеческими суждениями через обучение на поведенческих данных.
Пока же мы живём в мире, где ИИ может написать симфонию, но не может понять, почему два человека улыбаются друг другу.
Это не метафора ограниченности машин. Это точное описание границы, отделяющей распознавание паттернов от понимания смысла. Следующий эксперимент покажет, может ли behavior‑guided fine‑tuning научить модели различать намерения — или эта граница непреодолима для машин. Ответ определит фундаментальное различие между биологическим и искусственным интеллектом.











