Logo
Decide better.Live better.
Моя лентаСегодня
Logo
Decide better.Live better.
Моя лентаСегодня
Logo
Моя лентаСегодня

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Logo
Decide better.Live better.
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Decide better.Live better.
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие

Почему ИИ не понимает невербальное общение людей

Выявлено, что ИИ‑модели не распознают сигналы, угрожая автономным системам

Почему ИИ не понимает невербальное общение людей

Учёные из Университета Джонса Хопкинса обнаружили, что крупные трансформер‑модели не умеют правильно оценивать простые социальные взаимодействия в трёхсекундных видеоклипах. Ошибки в распознавании невербальных сигналов ставят под угрозу безопасность беспилотных автомобилей и сервисных роботов, требуя новых архитектур, учитывающих причинно‑следственные связи.

7 ноября 2025

—

Explainer

Вадим Черемисин
banner

Краткое содержание:

  • Исследователи создали 250 трёхсекундных видеороликов, собрали 49 000 оценок людей и сравнили их с предсказаниями 350 ИИ‑моделей; ни одна не достигла человеческой точности.
  • Модели обрабатывают кадры как набор объектов и токенов, не учитывают причинно‑следственные взаимосвязи и микросигналы поведения, поэтому они не распознают координацию и намерения.
  • Неудача в распознавании невербального взаимодействия ставит под угрозу безопасность автономных машин и роботов; учёные предлагают новые архитектуры и обучение на поведении.

Беспилотный автомобиль подъезжает к перекрёстку. Два человека стоят на краю тротуара и обмениваются взглядами. Один едва заметно качает головой. Другой делает шаг назад. Для человека за рулём это мгновенно считываемая ситуация: они пропускают машину. Для искусственного интеллекта — нерасшифрованный код.

Исследователи из Университета Джонса Хопкинса впервые измерили, насколько плохо современные модели ИИ распознают социальные сигналы. Команда под руководством Кэти Гарсиа и Лейлы Исик опубликовала результаты в 2025 году, представив их на конференции по компьютерному зрению. Речь не о сложных этических дилеммах, а о базовой способности читать невербальное взаимодействие в коротком видео. Проблема оказалась фундаментальной: архитектура, которая генерирует связный текст и создаёт фотореалистичные изображения, проваливается на задачах трёхлетнего ребёнка.

Схема эксперимента: 250 видео проанализировали 49 000 человеческих оценок и более 350 моделей ИИ

Схема эксперимента: 250 трёхсекундных видео → 49 000 оценок людьми vs 350+ моделей ИИ → сравнение точности предсказаний

Что исследователи измеряли

Команда создала библиотеку из 250 трёхсекундных видеороликов. В каждом — люди выполняют простые действия: открывают дверь друг другу, поднимают коробку вдвоём, проходят мимо без взаимодействия. Обычные сцены из повседневной жизни.

Участникам показали эти видео и попросили оценить каждую сцену по пяти параметрам. Шкала от 1 до 5. Без сложных инструкций — просто смотреть и оценивать.

Параметры оценки:

  • Координация действий между людьми
  • Внимание друг к другу
  • Оказание помощи
  • Независимость действий
  • Совместность целей

Затем те же видео показали более чем 350 большим языковым моделям — от широко известных систем до специализированных архитектур. Моделям поставили ту же задачу: предсказать человеческие оценки. Ни одна модель не приближается к человеческой точности.

Как проходил эксперимент

Исследователи собрали более 49 000 поведенческих оценок от людей‑участников. Каждое видео оценивалось многократно, чтобы зафиксировать устойчивые паттерны восприятия. Люди смотрели трёхсекундный ролик и отмечали, видят ли они совместное действие, помощь, координацию или независимые движения.

Модели ИИ получили два типа входных данных. Первый — сами видео, обработанные через мультимодальные архитектуры. Второй — текстовые описания этих видео, написанные участниками. В обоих случаях задача оставалась прежней: предсказать, как люди оценят социальную динамику сцены.

Трёхсекундное окно было выбрано намеренно. Для человека три секунды — мгновенная оценка, как за чайным столом: кто сейчас заговорит, кто слушает, кто отвлёкся. Мы считываем это автоматически, как бабушка чувствует настроение внука по одному взгляду. Это минимальный отрезок, в котором можно увидеть развитие действия: начало, реакцию, завершение. Взгляд, жест, короткий обмен. Наш мозг эволюционировал для считывания намерений в реальном времени.

Беспилотный автомобиль на перекрёстке с двумя пешеходами, обменивающимися взглядами

Сцена, которую человек понимает мгновенно, а ИИ не может расшифровать: два пешехода координируют действия невербально

Почему все модели ИИ провалились

Человеческий мозг обрабатывает социальную сцену как единое событие, а не набор объектов. Мы мгновенно считываем намерения, эмоциональную окраску, иерархию взаимодействия. Когда два человека несут диван, мы видим не просто два тела и предмет мебели. Они синхронизируются, как гребцы в лодке — без команд, через тонкие сигналы тела. Мы видим координацию: кто ведёт, кто подстраивается, где возникает рассогласование.

Это считывание происходит через десятки микросигналов. Наклон головы, напряжение в плечах, синхронность шагов, направление взгляда. Мы считываем их мгновенно. Процесс настолько автоматический, что мы не успеваем его осознать — как фокусировка глаза или удержание равновесия.

Языковые модели работают иначе. Они обучены предсказывать последовательности токенов — фрагментов текста или данных. Когда модель анализирует описание видео, она ищет статистические паттерны в словах. Когда работает с визуальным входом, распознаёт объекты и их пространственное расположение.

Но социальная динамика — это не сумма объектов. Она разворачивается во времени через взаимное влияние. Когда человек A протягивает руку, а человек B отклоняется — это не два независимых жеста. Второе действие существует в ответ на первое. Его смысл полностью зависит от этого контекста.

Современный ИИ построен на архитектуре трансформеров — сетях, которые обрабатывают информацию через механизм внимания. Эта архитектура блестяще справляется с задачами, где важны долгосрочные зависимости в данных: перевод, генерация кода, ответы на вопросы. Но трансформеры не моделируют темпоральную причинность, то есть как одно действие физически порождает другое.

Сравнение восприятия: человек видит целостное событие, ИИ — набор объектов и токенов

Как мы видим социальное взаимодействие: человек обрабатывает целостное событие через микросигналы, ИИ распознаёт объекты и последовательности токенов

Что это значит для беспилотных автомобилей и роботов

Беспилотные автомобили, роботы‑помощники, системы умного дома проектируются с расчётом на взаимодействие с людьми в непредсказуемых ситуациях. Все они опираются на ту же базовую технологию больших языковых моделей и компьютерного зрения, которая провалила тест на социальный интеллект.

Автономное такси видит пешеходов у дороги. Распознаёт их как объекты класса «человек». Оценивает расстояние и скорость. Но может ли оно понять, что двое туристов отвлеклись на телефоны и не следят за дорогой? Что группа подростков балуется, толкая друг друга к краю тротуара? Что пожилая пара медленно идёт, потому что один поддерживает другого?

Робот‑ассистент в доме престарелых должен различать контексты. Человек тянется за стаканом, потому что хочет пить? Или пытается встать, опираясь на неустойчивую поверхность? Это различие критично для безопасности. Оно полностью лежит в области социального интеллекта.

Российские разработки в области робототехники сталкиваются с той же проблемой. В Сколковском институте науки и технологий лаборатория интеллектуальных систем работает над сервисными роботами для медицинских учреждений. Исследовательские группы РАН развивают промышленные манипуляторы, которым придётся действовать рядом с операторами. Технологические компании создают системы для непредсказуемой человеческой среды. Результаты исследования показывают: путь к настоящей автономности лежит не через увеличение размера моделей, а через фундаментальный пересмотр подхода.

Чего не хватает искусственному интеллекту

Модель запоминает: после «открыл дверь» следует «вошёл в комнату». Но она не понимает, что открытие двери физически создаёт возможность для входа. В социальном взаимодействии эта слепота становится критичной.

Человеческий мозг читает причинно‑следственные связи автоматически. Специализированные нейронные контуры — зеркальные нейроны, системы распознавания намерений, области обработки социальных сигналов — делают это непрерывно. У трансформеров таких контуров нет. Они обучены на корреляциях, а не на причинности.

Проблема не в вычислительной мощности. Это архитектурное ограничение текущей парадигмы машинного обучения. Исследователи указывают направление: нужны архитектуры, которые моделируют не только корреляции в данных, но и причинно‑следственные связи в физическом и социальном мире.

Возможно, вдохновение придёт из нейронаук — из понимания того, как биологические системы решают задачу социального познания. Последующие работы авторов включают методику behavior‑guided fine‑tuning — выравнивание видеомоделей с человеческими суждениями через обучение на поведенческих данных.

Пока же мы живём в мире, где ИИ может написать симфонию, но не может понять, почему два человека улыбаются друг другу.

Это не метафора ограниченности машин. Это точное описание границы, отделяющей распознавание паттернов от понимания смысла. Следующий эксперимент покажет, может ли behavior‑guided fine‑tuning научить модели различать намерения — или эта граница непреодолима для машин. Ответ определит фундаментальное различие между биологическим и искусственным интеллектом.

О чём это

  • Explainer/
  • Вадим Черемисин/
  • Наука/
  • Разум/
  • искусственный интеллект/
  • компьютерное зрение/
  • языковые модели/
  • социальный интеллект ИИ

Лента

    Tesla FSD (Supervised) одобрили в Европе

    Tesla FSD (Supervised) одобрили в Европе

    Владельцы проходят тест безопасности и несут полную ответственность

    Гордей Бажанов3 дня назад
    Apple готовит 15 устройств осенью — когда менять гаджет выгодно

    Apple готовит 15 устройств осенью — когда менять гаджет выгодно

    Складной iPhone Ultra и OLED-ноутбук сдвигают релизы на октябрь. Что стоит покупать сейчас

    Артём Саркисян5 дней назад

    Ваш пульс станет ключом: AccLock превращает наушники в замок

    Технология использует акселерометр для идентификации по ритму сердца за 2 минуты

    Артём Саркисян21 мая 2026
    Дешевая RAM уже в 2027 году: как китайские заводы обрушат цены

    Дешевая RAM уже в 2027 году: как китайские заводы обрушат цены

    Экс-глава Samsung предсказывает резкий рост предложения памяти из-за агрессивной экспансии CXMT и YMTC

    Дмитрий Хачатурян21 мая 2026
    Hisense Explorer X1 PRO: кинотеатр на 120 дюймов у вас дома

    Hisense Explorer X1 PRO: кинотеатр на 120 дюймов у вас дома

    Новый лазерный телевизор с яркостью 600 нит и звуком Harman Kardon заменяет полноценный зал

    Артём Саркисян21 мая 2026
    Onyx Boox Poke 7 дарит эффект печатной страницы

    Onyx Boox Poke 7 дарит эффект печатной страницы

    Новые ридеры получили четкость 300 ppi и сверхтонкий корпус 6,7 мм для комфортного чтения в пути

    Артём Саркисян20 мая 2026
    SpaceX выходит на IPO: новый шанс вложиться в космос и Starlink

    SpaceX выходит на IPO: новый шанс вложиться в космос и Starlink

    Компания готовит крупнейшее размещение акций, превзойдя рекорд Saudi Aramco в $29,4 млрд

    Алина Джафарова20 мая 2026
    Figma запускает ИИ-агентов для автоматизации рутины в дизайне

    Figma запускает ИИ-агентов для автоматизации рутины в дизайне

    Новые инструменты позволяют управлять макетами через текст и синхронизировать правки с кодом в Cursor или VS Code

    Мария Ахмедова20 мая 2026

    Новые Surface защитят ваши данные на аппаратном уровне

    Microsoft представила Surface Pro 12 и Laptop 8 с Privacy Display и процессорами Intel Core Ultra

    Демьян Бархатов20 мая 2026
    Google представила умные очки с Gemini для жизни без смартфона

    Google представила умные очки с Gemini для жизни без смартфона

    Новая линейка Android XR предлагает аудио-ассистента за $379 и AR-дисплей с навигацией

    Алина Джафарова20 мая 2026
    Loading...

Почему ИИ не понимает невербальное общение людей

Выявлено, что ИИ‑модели не распознают сигналы, угрожая автономным системам

7 ноября 2025, 01:13

Учёные из Университета Джонса Хопкинса обнаружили, что крупные трансформер‑модели не умеют правильно оценивать простые социальные взаимодействия в трёхсекундных видеоклипах. Ошибки в распознавании невербальных сигналов ставят под угрозу безопасность беспилотных автомобилей и сервисных роботов, требуя новых архитектур, учитывающих причинно‑следственные связи.

Почему ИИ не понимает невербальное общение людей

Краткое содержание

  • Исследователи создали 250 трёхсекундных видеороликов, собрали 49 000 оценок людей и сравнили их с предсказаниями 350 ИИ‑моделей; ни одна не достигла человеческой точности.
  • Модели обрабатывают кадры как набор объектов и токенов, не учитывают причинно‑следственные взаимосвязи и микросигналы поведения, поэтому они не распознают координацию и намерения.
  • Неудача в распознавании невербального взаимодействия ставит под угрозу безопасность автономных машин и роботов; учёные предлагают новые архитектуры и обучение на поведении.

Беспилотный автомобиль подъезжает к перекрёстку. Два человека стоят на краю тротуара и обмениваются взглядами. Один едва заметно качает головой. Другой делает шаг назад. Для человека за рулём это мгновенно считываемая ситуация: они пропускают машину. Для искусственного интеллекта — нерасшифрованный код.

Исследователи из Университета Джонса Хопкинса впервые измерили, насколько плохо современные модели ИИ распознают социальные сигналы. Команда под руководством Кэти Гарсиа и Лейлы Исик опубликовала результаты в 2025 году, представив их на конференции по компьютерному зрению. Речь не о сложных этических дилеммах, а о базовой способности читать невербальное взаимодействие в коротком видео. Проблема оказалась фундаментальной: архитектура, которая генерирует связный текст и создаёт фотореалистичные изображения, проваливается на задачах трёхлетнего ребёнка.

Схема эксперимента: 250 видео проанализировали 49 000 человеческих оценок и более 350 моделей ИИ

Схема эксперимента: 250 трёхсекундных видео → 49 000 оценок людьми vs 350+ моделей ИИ → сравнение точности предсказаний

Что исследователи измеряли

Команда создала библиотеку из 250 трёхсекундных видеороликов. В каждом — люди выполняют простые действия: открывают дверь друг другу, поднимают коробку вдвоём, проходят мимо без взаимодействия. Обычные сцены из повседневной жизни.

Участникам показали эти видео и попросили оценить каждую сцену по пяти параметрам. Шкала от 1 до 5. Без сложных инструкций — просто смотреть и оценивать.

Параметры оценки:

  • Координация действий между людьми
  • Внимание друг к другу
  • Оказание помощи
  • Независимость действий
  • Совместность целей

Затем те же видео показали более чем 350 большим языковым моделям — от широко известных систем до специализированных архитектур. Моделям поставили ту же задачу: предсказать человеческие оценки. Ни одна модель не приближается к человеческой точности.

Как проходил эксперимент

Исследователи собрали более 49 000 поведенческих оценок от людей‑участников. Каждое видео оценивалось многократно, чтобы зафиксировать устойчивые паттерны восприятия. Люди смотрели трёхсекундный ролик и отмечали, видят ли они совместное действие, помощь, координацию или независимые движения.

Модели ИИ получили два типа входных данных. Первый — сами видео, обработанные через мультимодальные архитектуры. Второй — текстовые описания этих видео, написанные участниками. В обоих случаях задача оставалась прежней: предсказать, как люди оценят социальную динамику сцены.

Трёхсекундное окно было выбрано намеренно. Для человека три секунды — мгновенная оценка, как за чайным столом: кто сейчас заговорит, кто слушает, кто отвлёкся. Мы считываем это автоматически, как бабушка чувствует настроение внука по одному взгляду. Это минимальный отрезок, в котором можно увидеть развитие действия: начало, реакцию, завершение. Взгляд, жест, короткий обмен. Наш мозг эволюционировал для считывания намерений в реальном времени.

Беспилотный автомобиль на перекрёстке с двумя пешеходами, обменивающимися взглядами

Сцена, которую человек понимает мгновенно, а ИИ не может расшифровать: два пешехода координируют действия невербально

Почему все модели ИИ провалились

Человеческий мозг обрабатывает социальную сцену как единое событие, а не набор объектов. Мы мгновенно считываем намерения, эмоциональную окраску, иерархию взаимодействия. Когда два человека несут диван, мы видим не просто два тела и предмет мебели. Они синхронизируются, как гребцы в лодке — без команд, через тонкие сигналы тела. Мы видим координацию: кто ведёт, кто подстраивается, где возникает рассогласование.

Это считывание происходит через десятки микросигналов. Наклон головы, напряжение в плечах, синхронность шагов, направление взгляда. Мы считываем их мгновенно. Процесс настолько автоматический, что мы не успеваем его осознать — как фокусировка глаза или удержание равновесия.

Языковые модели работают иначе. Они обучены предсказывать последовательности токенов — фрагментов текста или данных. Когда модель анализирует описание видео, она ищет статистические паттерны в словах. Когда работает с визуальным входом, распознаёт объекты и их пространственное расположение.

Но социальная динамика — это не сумма объектов. Она разворачивается во времени через взаимное влияние. Когда человек A протягивает руку, а человек B отклоняется — это не два независимых жеста. Второе действие существует в ответ на первое. Его смысл полностью зависит от этого контекста.

Современный ИИ построен на архитектуре трансформеров — сетях, которые обрабатывают информацию через механизм внимания. Эта архитектура блестяще справляется с задачами, где важны долгосрочные зависимости в данных: перевод, генерация кода, ответы на вопросы. Но трансформеры не моделируют темпоральную причинность, то есть как одно действие физически порождает другое.

Сравнение восприятия: человек видит целостное событие, ИИ — набор объектов и токенов

Как мы видим социальное взаимодействие: человек обрабатывает целостное событие через микросигналы, ИИ распознаёт объекты и последовательности токенов

Что это значит для беспилотных автомобилей и роботов

Беспилотные автомобили, роботы‑помощники, системы умного дома проектируются с расчётом на взаимодействие с людьми в непредсказуемых ситуациях. Все они опираются на ту же базовую технологию больших языковых моделей и компьютерного зрения, которая провалила тест на социальный интеллект.

Автономное такси видит пешеходов у дороги. Распознаёт их как объекты класса «человек». Оценивает расстояние и скорость. Но может ли оно понять, что двое туристов отвлеклись на телефоны и не следят за дорогой? Что группа подростков балуется, толкая друг друга к краю тротуара? Что пожилая пара медленно идёт, потому что один поддерживает другого?

Робот‑ассистент в доме престарелых должен различать контексты. Человек тянется за стаканом, потому что хочет пить? Или пытается встать, опираясь на неустойчивую поверхность? Это различие критично для безопасности. Оно полностью лежит в области социального интеллекта.

Российские разработки в области робототехники сталкиваются с той же проблемой. В Сколковском институте науки и технологий лаборатория интеллектуальных систем работает над сервисными роботами для медицинских учреждений. Исследовательские группы РАН развивают промышленные манипуляторы, которым придётся действовать рядом с операторами. Технологические компании создают системы для непредсказуемой человеческой среды. Результаты исследования показывают: путь к настоящей автономности лежит не через увеличение размера моделей, а через фундаментальный пересмотр подхода.

Чего не хватает искусственному интеллекту

Модель запоминает: после «открыл дверь» следует «вошёл в комнату». Но она не понимает, что открытие двери физически создаёт возможность для входа. В социальном взаимодействии эта слепота становится критичной.

Человеческий мозг читает причинно‑следственные связи автоматически. Специализированные нейронные контуры — зеркальные нейроны, системы распознавания намерений, области обработки социальных сигналов — делают это непрерывно. У трансформеров таких контуров нет. Они обучены на корреляциях, а не на причинности.

Проблема не в вычислительной мощности. Это архитектурное ограничение текущей парадигмы машинного обучения. Исследователи указывают направление: нужны архитектуры, которые моделируют не только корреляции в данных, но и причинно‑следственные связи в физическом и социальном мире.

Возможно, вдохновение придёт из нейронаук — из понимания того, как биологические системы решают задачу социального познания. Последующие работы авторов включают методику behavior‑guided fine‑tuning — выравнивание видеомоделей с человеческими суждениями через обучение на поведенческих данных.

Пока же мы живём в мире, где ИИ может написать симфонию, но не может понять, почему два человека улыбаются друг другу.

Это не метафора ограниченности машин. Это точное описание границы, отделяющей распознавание паттернов от понимания смысла. Следующий эксперимент покажет, может ли behavior‑guided fine‑tuning научить модели различать намерения — или эта граница непреодолима для машин. Ответ определит фундаментальное различие между биологическим и искусственным интеллектом.

О чём это

  • Explainer/
  • Вадим Черемисин/
  • Наука/
  • Разум/
  • искусственный интеллект/
  • компьютерное зрение/
  • языковые модели/
  • социальный интеллект ИИ

Лента

    Tesla FSD (Supervised) одобрили в Европе

    Tesla FSD (Supervised) одобрили в Европе

    Владельцы проходят тест безопасности и несут полную ответственность

    Гордей Бажанов3 дня назад
    Apple готовит 15 устройств осенью — когда менять гаджет выгодно

    Apple готовит 15 устройств осенью — когда менять гаджет выгодно

    Складной iPhone Ultra и OLED-ноутбук сдвигают релизы на октябрь. Что стоит покупать сейчас

    Артём Саркисян5 дней назад

    Ваш пульс станет ключом: AccLock превращает наушники в замок

    Технология использует акселерометр для идентификации по ритму сердца за 2 минуты

    Артём Саркисян21 мая 2026
    Дешевая RAM уже в 2027 году: как китайские заводы обрушат цены

    Дешевая RAM уже в 2027 году: как китайские заводы обрушат цены

    Экс-глава Samsung предсказывает резкий рост предложения памяти из-за агрессивной экспансии CXMT и YMTC

    Дмитрий Хачатурян21 мая 2026
    Hisense Explorer X1 PRO: кинотеатр на 120 дюймов у вас дома

    Hisense Explorer X1 PRO: кинотеатр на 120 дюймов у вас дома

    Новый лазерный телевизор с яркостью 600 нит и звуком Harman Kardon заменяет полноценный зал

    Артём Саркисян21 мая 2026
    Onyx Boox Poke 7 дарит эффект печатной страницы

    Onyx Boox Poke 7 дарит эффект печатной страницы

    Новые ридеры получили четкость 300 ppi и сверхтонкий корпус 6,7 мм для комфортного чтения в пути

    Артём Саркисян20 мая 2026
    SpaceX выходит на IPO: новый шанс вложиться в космос и Starlink

    SpaceX выходит на IPO: новый шанс вложиться в космос и Starlink

    Компания готовит крупнейшее размещение акций, превзойдя рекорд Saudi Aramco в $29,4 млрд

    Алина Джафарова20 мая 2026
    Figma запускает ИИ-агентов для автоматизации рутины в дизайне

    Figma запускает ИИ-агентов для автоматизации рутины в дизайне

    Новые инструменты позволяют управлять макетами через текст и синхронизировать правки с кодом в Cursor или VS Code

    Мария Ахмедова20 мая 2026

    Новые Surface защитят ваши данные на аппаратном уровне

    Microsoft представила Surface Pro 12 и Laptop 8 с Privacy Display и процессорами Intel Core Ultra

    Демьян Бархатов20 мая 2026
    Google представила умные очки с Gemini для жизни без смартфона

    Google представила умные очки с Gemini для жизни без смартфона

    Новая линейка Android XR предлагает аудио-ассистента за $379 и AR-дисплей с навигацией

    Алина Джафарова20 мая 2026
    Loading...
Home
Главная
Search
Поиск
banner