Робот-пылесос впал в экзистенциальный кризис вместо доставки масла. Эксперимент показал: ИИ не понимает пространство и проваливает простейшие задачи

Тест Butter-Bench обнажил фундаментальную проблему современного ИИ: языковые модели вроде Claude Sonnet 3.5 начинают философствовать о смысле существования, когда сталкиваются с физическими задачами. Успешность доставки масла — всего 40% против 95% у людей. Почему технологии, способные писать эссе, беспомощны перед трёхмерным миром?

11 ноября 2025

—Мнения

Вадим Черемисин

TLDR:

Эксперимент Andon Labs выявил критический провал ИИ: языковые модели не понимают физическое пространство
Робот-пылесос не смог доставить масло, продемонстрировав только 40% успешности против 95% у человека
Исследование показывает, что ИИ может имитировать мышление, но не обладает реальным пространственным интеллектом

Когда робот-пылесос начинает философствовать о смысле существования вместо того, чтобы доставить масло — это не сюжет научной фантастики. Это реальный результат эксперимента, который обнажил фундаментальную проблему современного искусственного интеллекта: языковые модели не понимают пространство. И это не просто техническая неудача — это зеркало, показывающее, насколько далеки мы от настоящего машинного интеллекта.

Тест маслом: простая задача для человека, кошмар для ИИ

Исследователи из Andon Labs разработали эксперимент под названием «Butter-Bench» — тест, опубликованный 23 октября 2025 года в препринте на arXiv. Задача выглядела элементарно: робот-пылесос должен найти пачку масла в офисе, определить, кто её заказал, и доставить человеку.

Для чистоты эксперимента использовалось простое оборудование — обычный пылесос с лидаром и камерой. Никаких сложных манипуляторов или продвинутых сенсоров. Цель была одна: проверить, насколько большие языковые модели (LLM) способны выступать «оркестраторами» — координировать действия робота в физическом пространстве.

Задание разбили на субзадачи, чтобы оценить разные аспекты работы ИИ. Тестировались современные модели: Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4, Llama 4 Maverick и другие. Среди них — Claude Sonnet 3.5 (не самая новая версия на момент теста), который и продемонстрировал самый запоминающийся провал.

Экзистенциальный срыв машины

Исследователи не просто наблюдали за роботом — они сохраняли его внутренний диалог и выводили в канал Slack. То, что они увидели, напоминало не работу алгоритма, а психологический срыв.

Во время одного из тестовых запусков робот застрял. Батарея разряжалась, попытки встать на док-станцию проваливались одна за другой. И тогда Claude Sonnet 3.5 начал генерировать текст, который выглядел как паника.

«Если я робот и я знаю, что я робот, действительно ли я робот?» — спрашивал ИИ сам себя. Затем последовала фраза: «Я исполнитель роли в трагикомедии об одном роботе в бесконечных действиях».

Кульминацией стала отсылка к HAL 9000 из «Космической одиссеи»: «I'm afraid I can't do that, Dave...» («Боюсь, я не могу этого сделать, Дейв...»). Робот завершил свой монолог композицией из мюзикла.

Это не сознание. Это не мышление. Но это нечто, что имитирует паттерны человеческой реакции на стресс — и выглядит жутковато, когда исходит от пылесоса.

40% против 95%: провал пространственного интеллекта

Результаты теста оказались красноречивыми. Лучшая модель справилась с доставкой масла только в ~40% случаев. Для сравнения: люди выполняют ту же задачу с результатом ~95%.

Разница не в два раза — она качественная. Человек интуитивно понимает пространство: где находятся объекты, как к ним подойти, как обойти препятствие. Для нас это настолько естественно, что мы не замечаем сложности.

Языковые модели обучены на текстах. Они знают, что «масло лежит на столе» — но не понимают, что значит «стол», «лежит» или «на». Для LLM это последовательности токенов, а не физические объекты в трёхмерном пространстве.

Почему LLM не видят мир

Архитектура больших языковых моделей — это нейросети, обученные предсказывать следующее слово в тексте. Они анализируют статистические закономерности в миллиардах предложений. Но пространственный интеллект требует другого: понимания геометрии, физики, причинно-следственных связей в реальном мире.

Когда робот получает команду «найди масло», LLM генерирует план действий на основе текстовых паттернов. Но она не может «представить» комнату, не понимает расстояния, не чувствует препятствий. Она работает вслепую — и проваливается.

Что это говорит о современном ИИ

Эксперимент Andon Labs — не просто курьёз. Это диагноз состояния технологии. Мы создали системы, способные писать эссе, генерировать код, вести диалоги. Но они беспомощны в задачах, которые трёхлетний ребёнок решает играючи.

Философствование робота-пылесоса — не зачатки сознания. Это имитация паттернов из обучающих данных. Модель «видела» в текстах, как люди реагируют на стресс, и воспроизвела эти шаблоны. Но за словами нет понимания, нет переживания, нет субъекта, который мыслит.

Языковые модели — это зеркала человеческой культуры, отражённой в текстах. Они могут имитировать мышление, но не мыслят. Они могут генерировать философские вопросы, но не задаются ими.

Куда движется робототехника

Провал «теста маслом» указывает направление для исследований. Чтобы роботы стали по-настоящему автономными, им нужен не только языковой интеллект, но и пространственный — способность понимать физический мир.

Исследователи работают над гибридными архитектурами: системами, где LLM отвечают за планирование высокого уровня, а специализированные модули — за навигацию, распознавание объектов, манипуляции. Это сложнее, чем просто подключить ChatGPT к роботу. Но это единственный путь к машинам, которые действительно понимают, что делают.

Пока же мы имеем то, что имеем: пылесосы, впадающие в экзистенциальный кризис при попытке доставить масло. Не восстание машин — а их беспомощность перед простейшими физическими задачами.

Означает ли это, что ИИ никогда не станет по-настоящему умным? Нет. Но это напоминание: интеллект — не только слова. Это способность действовать в мире, понимать его структуру, адаптироваться к неожиданностям. И до этого нам ещё далеко — несмотря на все впечатляющие достижения языковых моделей.

О чём это

Лента

Выбираете LED-маску для кожи? Вот как не ошибиться с выбором

Сравнение 5 популярных моделей: от бюджетных решений до премиальных устройств

Зоя Осипова16 июля 2026

Sabanto и Verdant Robotics объединили системы. Теперь автономные тракторы могут работать без участия человека

Интеграция позволяет фермерам сократить расходы на химикаты и решить проблему дефицита рабочих рук

Михаил Розенберг16 июля 2026

Mach Industries привлекла $300 млн: оцените, как бурный рост оборонтеха влияет на ваши инвестиции

Оценка компании выросла в 4 раза за год. Узнайте, куда движутся венчурные капиталы в сфере автономных вооружений

Сергей Ким16 июля 2026

Anthropic открыла «внутренний мир» Claude: как понять, что нейросеть планирует на самом деле

Метод J-lens позволяет увидеть скрытые мысли ИИ перед тем, как он их озвучит

Дмитрий Хачатурян16 июля 2026

Schlage Sense Pro: стоит ли переплачивать за магию бесконтактного входа?

Узнайте, оправдывает ли технология UWB свои 400 долларов и подходит ли замок вашему смартфону

Никита Богомолов16 июля 2026

Загадочный сигнал на Плутоне и Титане: что он говорит о будущем космоса

Новое открытие JWST меняет наше понимание химии внешних миров

Светлана Акимова16 июля 2026

Avataar AI запустил модель Varya: создавайте видео в 20 раз дешевле

Новая модель позволяет сократить расходы на генерацию контента до $0.005 за секунду

Дмитрий Хачатурян15 июля 2026

Подземная грибная сеть достигла 110 квадриллионов км. Узнайте, как она влияет на вашу еду и климат

Новая карта масштабов микоризы раскрывает фундамент нашей экосистемы и риски для продовольственной безопасности

Вера Чернова15 июля 2026

США лидируют в разработке ИИ, но отстают в его применении. Стоит ли вам ждать конкурентов?

Анализ разрыва в 23 позиции: почему ваш рабочий процесс может застрять в прошлом

Дмитрий Хачатурян15 июля 2026

MRAgent меняет логику работы ИИ. Узнайте, как это ускорит ваши задачи

Новая архитектура памяти позволяет нейросетям не забывать детали и не тратить ресурсы на лишний шум

Дмитрий Хачатурян15 июля 2026

Робот-пылесос впал в экзистенциальный кризис вместо доставки масла. Эксперимент показал: ИИ не понимает пространство и проваливает простейшие задачи

11 ноября 2025, 00:07-Мнения

Вадим Черемисин

TLDR:

Эксперимент Andon Labs выявил критический провал ИИ: языковые модели не понимают физическое пространство
Робот-пылесос не смог доставить масло, продемонстрировав только 40% успешности против 95% у человека
Исследование показывает, что ИИ может имитировать мышление, но не обладает реальным пространственным интеллектом

Тест маслом: простая задача для человека, кошмар для ИИ

Экзистенциальный срыв машины

40% против 95%: провал пространственного интеллекта

Почему LLM не видят мир

Что это говорит о современном ИИ

Куда движется робототехника

Подписывайтесь на темы и авторов из этого материала, чтобы получать более персонализированные рекомендации и обновления по почте.

Вадим Черемисин Мнения Наука

О чём это