Почему большие языковые модели не могут распознавать социальные сигналы?

Языковые модели обучены предсказывать последовательности токенов на основе статистических паттернов, а не причинно-следственных связей. Они распознают объекты и их расположение, но не понимают темпоральную динамику взаимодействия — как одно действие физически порождает другое в социальном контексте.

Сколько времени нужно человеку для оценки социального взаимодействия?

Человеку достаточно трёх секунд для считывания базовых социальных сигналов: намерений, координации, эмоциональной окраски взаимодействия. Это минимальный отрезок, в котором можно увидеть начало действия, реакцию и завершение — наш мозг эволюционировал для мгновенного распознавания таких паттернов.

Какие параметры социального взаимодействия проверяли исследователи?

Исследователи из Университета Джонса Хопкинса оценивали пять параметров: координацию действий между людьми, внимание друг к другу, оказание помощи, независимость действий и совместность целей. Участники оценивали каждый параметр по шкале от 1 до 5 на основе трёхсекундных видеороликов.

Как слепота ИИ к социальным сигналам влияет на беспилотные автомобили?

Беспилотные автомобили могут распознавать пешеходов как объекты и измерять расстояние, но не понимают контекст: отвлечены ли туристы на телефоны, балуются ли подростки у дороги, поддерживает ли один человек другого. Эта неспособность читать намерения и социальную динамику критична для безопасности.

Можно ли научить ИИ понимать социальное взаимодействие?

Исследователи указывают на необходимость фундаментального пересмотра архитектуры. Увеличение размера моделей не решит проблему — нужны системы, моделирующие причинно-следственные связи, а не только корреляции. Методика behavior-guided fine-tuning показывает перспективное направление через обучение на поведенческих данных.

В чём фундаментальное различие между человеческим и машинным восприятием социальных сцен?

Человек воспринимает социальную сцену как единое событие, мгновенно считывая намерения через десятки микросигналов: наклон головы, напряжение в плечах, синхронность движений. ИИ видит набор объектов и их пространственное расположение, но не улавливает временную причинность и взаимное влияние действий участников.

Почему ИИ не понимает невербальное общение людей. Выявлено, что ИИ‑модели не распознают сигналы, угрожая автономным системам

Учёные из Университета Джонса Хопкинса обнаружили, что крупные трансформер‑модели не умеют правильно оценивать простые социальные взаимодействия в трёхсекундных видеоклипах. Ошибки в распознавании невербальных сигналов ставят под угрозу безопасность беспилотных автомобилей и сервисных роботов, требуя новых архитектур, учитывающих причинно‑следственные связи.

7 ноября 2025

—Объяснения

Вадим Черемисин

TLDR:

Исследователи создали 250 трёхсекундных видеороликов, собрали 49 000 оценок людей и сравнили их с предсказаниями 350 ИИ‑моделей; ни одна не достигла человеческой точности.
Модели обрабатывают кадры как набор объектов и токенов, не учитывают причинно‑следственные взаимосвязи и микросигналы поведения, поэтому они не распознают координацию и намерения.
Неудача в распознавании невербального взаимодействия ставит под угрозу безопасность автономных машин и роботов; учёные предлагают новые архитектуры и обучение на поведении.

Беспилотный автомобиль подъезжает к перекрёстку. Два человека стоят на краю тротуара и обмениваются взглядами. Один едва заметно качает головой. Другой делает шаг назад. Для человека за рулём это мгновенно считываемая ситуация: они пропускают машину. Для искусственного интеллекта — нерасшифрованный код.

Исследователи из Университета Джонса Хопкинса впервые измерили, насколько плохо современные модели ИИ распознают социальные сигналы. Команда под руководством Кэти Гарсиа и Лейлы Исик опубликовала результаты в 2025 году, представив их на конференции по компьютерному зрению. Речь не о сложных этических дилеммах, а о базовой способности читать невербальное взаимодействие в коротком видео. Проблема оказалась фундаментальной: архитектура, которая генерирует связный текст и создаёт фотореалистичные изображения, проваливается на задачах трёхлетнего ребёнка.

Схема эксперимента: 250 видео проанализировали 49 000 человеческих оценок и более 350 моделей ИИ

Схема эксперимента: 250 трёхсекундных видео → 49 000 оценок людьми vs 350+ моделей ИИ → сравнение точности предсказаний

Что исследователи измеряли

Команда создала библиотеку из 250 трёхсекундных видеороликов. В каждом — люди выполняют простые действия: открывают дверь друг другу, поднимают коробку вдвоём, проходят мимо без взаимодействия. Обычные сцены из повседневной жизни.

Участникам показали эти видео и попросили оценить каждую сцену по пяти параметрам. Шкала от 1 до 5. Без сложных инструкций — просто смотреть и оценивать.

Параметры оценки:

Координация действий между людьми
Внимание друг к другу
Оказание помощи
Независимость действий
Совместность целей

Затем те же видео показали более чем 350 большим языковым моделям — от широко известных систем до специализированных архитектур. Моделям поставили ту же задачу: предсказать человеческие оценки. Ни одна модель не приближается к человеческой точности.

Как проходил эксперимент

Исследователи собрали более 49 000 поведенческих оценок от людей‑участников. Каждое видео оценивалось многократно, чтобы зафиксировать устойчивые паттерны восприятия. Люди смотрели трёхсекундный ролик и отмечали, видят ли они совместное действие, помощь, координацию или независимые движения.

Модели ИИ получили два типа входных данных. Первый — сами видео, обработанные через мультимодальные архитектуры. Второй — текстовые описания этих видео, написанные участниками. В обоих случаях задача оставалась прежней: предсказать, как люди оценят социальную динамику сцены.

Трёхсекундное окно было выбрано намеренно. Для человека три секунды — мгновенная оценка, как за чайным столом: кто сейчас заговорит, кто слушает, кто отвлёкся. Мы считываем это автоматически, как бабушка чувствует настроение внука по одному взгляду. Это минимальный отрезок, в котором можно увидеть развитие действия: начало, реакцию, завершение. Взгляд, жест, короткий обмен. Наш мозг эволюционировал для считывания намерений в реальном времени.

Беспилотный автомобиль на перекрёстке с двумя пешеходами, обменивающимися взглядами

Сцена, которую человек понимает мгновенно, а ИИ не может расшифровать: два пешехода координируют действия невербально

Почему все модели ИИ провалились

Человеческий мозг обрабатывает социальную сцену как единое событие, а не набор объектов. Мы мгновенно считываем намерения, эмоциональную окраску, иерархию взаимодействия. Когда два человека несут диван, мы видим не просто два тела и предмет мебели. Они синхронизируются, как гребцы в лодке — без команд, через тонкие сигналы тела. Мы видим координацию: кто ведёт, кто подстраивается, где возникает рассогласование.

Это считывание происходит через десятки микросигналов. Наклон головы, напряжение в плечах, синхронность шагов, направление взгляда. Мы считываем их мгновенно. Процесс настолько автоматический, что мы не успеваем его осознать — как фокусировка глаза или удержание равновесия.

Языковые модели работают иначе. Они обучены предсказывать последовательности токенов — фрагментов текста или данных. Когда модель анализирует описание видео, она ищет статистические паттерны в словах. Когда работает с визуальным входом, распознаёт объекты и их пространственное расположение.

Но социальная динамика — это не сумма объектов. Она разворачивается во времени через взаимное влияние. Когда человек A протягивает руку, а человек B отклоняется — это не два независимых жеста. Второе действие существует в ответ на первое. Его смысл полностью зависит от этого контекста.

Современный ИИ построен на архитектуре трансформеров — сетях, которые обрабатывают информацию через механизм внимания. Эта архитектура блестяще справляется с задачами, где важны долгосрочные зависимости в данных: перевод, генерация кода, ответы на вопросы. Но трансформеры не моделируют темпоральную причинность, то есть как одно действие физически порождает другое.

Сравнение восприятия: человек видит целостное событие, ИИ — набор объектов и токенов

Как мы видим социальное взаимодействие: человек обрабатывает целостное событие через микросигналы, ИИ распознаёт объекты и последовательности токенов

Что это значит для беспилотных автомобилей и роботов

Беспилотные автомобили, роботы‑помощники, системы умного дома проектируются с расчётом на взаимодействие с людьми в непредсказуемых ситуациях. Все они опираются на ту же базовую технологию больших языковых моделей и компьютерного зрения, которая провалила тест на социальный интеллект.

Автономное такси видит пешеходов у дороги. Распознаёт их как объекты класса «человек». Оценивает расстояние и скорость. Но может ли оно понять, что двое туристов отвлеклись на телефоны и не следят за дорогой? Что группа подростков балуется, толкая друг друга к краю тротуара? Что пожилая пара медленно идёт, потому что один поддерживает другого?

Робот‑ассистент в доме престарелых должен различать контексты. Человек тянется за стаканом, потому что хочет пить? Или пытается встать, опираясь на неустойчивую поверхность? Это различие критично для безопасности. Оно полностью лежит в области социального интеллекта.

Российские разработки в области робототехники сталкиваются с той же проблемой. В Сколковском институте науки и технологий лаборатория интеллектуальных систем работает над сервисными роботами для медицинских учреждений. Исследовательские группы РАН развивают промышленные манипуляторы, которым придётся действовать рядом с операторами. Технологические компании создают системы для непредсказуемой человеческой среды. Результаты исследования показывают: путь к настоящей автономности лежит не через увеличение размера моделей, а через фундаментальный пересмотр подхода.

Чего не хватает искусственному интеллекту

Модель запоминает: после «открыл дверь» следует «вошёл в комнату». Но она не понимает, что открытие двери физически создаёт возможность для входа. В социальном взаимодействии эта слепота становится критичной.

Человеческий мозг читает причинно‑следственные связи автоматически. Специализированные нейронные контуры — зеркальные нейроны, системы распознавания намерений, области обработки социальных сигналов — делают это непрерывно. У трансформеров таких контуров нет. Они обучены на корреляциях, а не на причинности.

Проблема не в вычислительной мощности. Это архитектурное ограничение текущей парадигмы машинного обучения. Исследователи указывают направление: нужны архитектуры, которые моделируют не только корреляции в данных, но и причинно‑следственные связи в физическом и социальном мире.

Возможно, вдохновение придёт из нейронаук — из понимания того, как биологические системы решают задачу социального познания. Последующие работы авторов включают методику behavior‑guided fine‑tuning — выравнивание видеомоделей с человеческими суждениями через обучение на поведенческих данных.

Пока же мы живём в мире, где ИИ может написать симфонию, но не может понять, почему два человека улыбаются друг другу.

Это не метафора ограниченности машин. Это точное описание границы, отделяющей распознавание паттернов от понимания смысла. Следующий эксперимент покажет, может ли behavior‑guided fine‑tuning научить модели различать намерения — или эта граница непреодолима для машин. Ответ определит фундаментальное различие между биологическим и искусственным интеллектом.

О чём это

Лента

Уязвимости в популярных AI-фреймворках: как защитить свои данные в 2026 году

Проверьте версии LangGraph, Langflow и LangChain-core, чтобы предотвратить удаленный взлом систем

Демьян Бархатов7 июля 2026

ИИ и цифровые двойники помогут сделать геотермальную энергию доступнее. Узнайте, когда это изменит ваш энергосбыт

Технологии Nvidia и Fervo Energy позволят масштабировать чистую энергию до уровня целых городов к 2029 году

Михаил Розенберг7 июля 2026

AI-агенты — не ваши новые коллеги. Почему их нужно считать инструментами, а не сотрудниками

Разберитесь, как избежать ловушки «перекладывания ответственности» и сохранить контроль над качеством работы

Демьян Бархатов7 июля 2026

Syngenta и правительство Индии запускают Annam.AI. Поймите, как ИИ защитит глобальную продовольственную безопасность

Партнёрство обеспечит доступ к точным прогнозам урожая для 600 млн человек

Дмитрий Хачатурян3 июля 2026

Reservoir открывает фермы для стартапов. Решите, стоит ли вам подаваться на бесплатный уровень

Новая трёхуровневая структура снижает порог входа в агротех: от бесплатных тестов до полноценного резидентства

Олег Цветков3 июля 2026

Роботы в садах теперь картографируют воду: узнайте, как защитить урожай от засухи

Новая система от UC Riverside помогает экономить каждую каплю, оптимизируя полив для каждой отдельной смены

Вадим Черемисин3 июля 2026

Пять технологий меняют сельское хозяйство: узнайте, как цифровизация поможет обеспечить продовольственную безопасность

От ИИ до дронов — понимание этих инструментов поможет вам оценить устойчивость глобальной системы питания

Софья Тарасова26 июня 2026

Adobe поглощает Topaz Labs: ваши инструменты для реставрации фото станут мощнее

Технологии улучшения видео и изображений интегрируются в Creative Cloud к концу 2026 года

Софья Тарасова25 июня 2026

Google DeepMind вкладывает $75 млн в студию A24. Стоит ли ждать новых инструментов для творчества?

Партнёрство позволит киношникам использовать ИИ для работы с сюжетами, а не для их замены

Демьян Бархатов23 июня 2026

AMD представила архитектуру Zen 6. Вот как это повлияет на ваши мощности в дата-центре

Новая архитектура Venice ставит на параллелизм и AVX-512, чтобы ускорить тяжелые математические вычисления

Денис Савин23 июня 2026