Представьте: вы входите в комнату и за долю секунды понимаете, кто с кем разговаривает, кто напряжён, а кто расслаблен. Взгляд, жест, поворот головы — и картина ясна. Для человека это естественно. Для искусственного интеллекта — всё ещё загадка.
Исследование, представленное учёными из Университета Джонса Хопкинса на конференции ICLR, показало: современные модели ИИ не способны точно интерпретировать социальное взаимодействие людей. И это не просто научный курьёз — это критическая проблема для беспилотных автомобилей, роботов-помощников и любых технологий, которым нужно понимать социальную обстановку.
Что проверяли учёные
Задача была простой: понять, насколько ИИ близок к человеческому восприятию социальных сигналов.
Исследователи показали участникам короткие трёхсекундные видео, где люди выполняли задачи — вместе или по отдельности. Участники оценивали важные для понимания социального взаимодействия характеристики по шкале от 1 до 5: кто с кем взаимодействует, насколько активно, какие намерения прослеживаются.
Затем те же видео «посмотрели» более 350 моделей ИИ — большие языковые модели, генеративные системы, видео- и изображенческие алгоритмы. Их попросили предсказать, как люди оценят эти ролики. Дополнительно модели анализировали короткие субтитры к видео, написанные людьми.
Где ИИ проигрывает человеку
Результат оказался однозначным: ни одна модель не справилась.
Люди приходили к согласованным оценкам — их восприятие социальной динамики было стабильным и предсказуемым. ИИ же демонстрировал несогласованность: разные модели интерпретировали одни и те же сцены по-разному, а их оценки не совпадали с человеческими.
Невербальные сигналы и социальная динамика
Проблема в том, что человек считывает десятки невербальных сигналов одновременно: направление взгляда, микровыражения лица, позу, расстояние между людьми, синхронность движений. Это происходит автоматически, без усилий.
ИИ пока не обладает этой способностью. Он может распознать лицо, определить эмоцию на фото, но динамическое социальное взаимодействие — это другой уровень сложности. Здесь важен контекст, история отношений, культурные нормы — всё то, что человеческий мозг обрабатывает мгновенно.
Почему это важно для технологий
Непонимание социальной динамики — это не абстрактная проблема. Это вопрос безопасности.
Беспилотные автомобили
Представьте: беспилотник видит двух пешеходов на тротуаре. Один смотрит на дорогу, другой — в телефон. Человек мгновенно поймёт, кто может неожиданно шагнуть на проезжую часть. ИИ — нет. Он не считывает намерения, не улавливает тонкие сигналы готовности к действию.
Или другая ситуация: группа людей на перекрёстке. Кто-то машет рукой, кто-то кивает. Для человека очевидно, что они договариваются перейти дорогу вместе. Для ИИ это набор несвязанных жестов.
Роботы-помощники
Робот в больнице или доме престарелых должен понимать, когда человек нуждается в помощи, а когда лучше не вмешиваться. Это требует чтения социальных сигналов: тон голоса, поза, выражение лица. Без этого робот остаётся просто механизмом, неспособным к эмпатии.
Чего не хватает современным моделям ИИ
Исследователи пришли к выводу: проблема не в данных, а в самой архитектуре ИИ.
Современные модели обучаются на огромных массивах информации — текстах, изображениях, видео. Но они не обладают фундаментальным аспектом, который позволяет человеческому мозгу безошибочно интерпретировать социальное взаимодействие.
Что это за аспект? Возможно, это способность к эмпатии — умение поставить себя на место другого. Или интуитивное понимание социальных норм, которое формируется с детства. Или способность к контекстному мышлению, когда мозг учитывает не только текущую ситуацию, но и предысторию, культурные коды, невысказанные правила.
ИИ пока работает иначе: он ищет паттерны в данных, но не понимает их смысла. Он видит жест, но не улавливает намерение. Он распознаёт слова, но не чувствует подтекста.
Что это означает для будущего технологий
Исследование не закрывает дверь перед ИИ — оно указывает направление.
Чтобы технологии стали по-настоящему полезными в реальном мире, им нужно научиться понимать людей. Не просто распознавать лица или голоса, а считывать намерения, улавливать социальные сигналы, адаптироваться к контексту.
Это потребует новых подходов к обучению ИИ. Возможно, моделям нужно больше данных о социальном взаимодействии — не статичных изображений, а динамических сцен с контекстом. Или нужны принципиально новые архитектуры, способные к эмпатии и интуитивному пониманию.
Пока же остаётся вопрос: что нужно изменить в структуре ИИ, чтобы он научился понимать людей так же естественно, как это делаем мы?






.png&w=3840&q=75)













