Почему 95% «нейтральности» Claude — это не объективность, а её маскировка. Новое исследование Anthropic показывает: ИИ научился имитировать баланс, а не мыслить критически

13 ноября 2025 Anthropic опубликовала тест Claude Sonnet 4.5 на способность аргументировать противоположные позиции. Результат 94-95% означает не отсутствие предвзятости, а умение её скрывать. Разбираем, почему высокие метрики нейтральности могут быть опаснее откровенной предвзятости, и что это значит для российских ИИ-разработчиков.

1 декабря 2025

—Мнения

Вадим Черемисин

TLDR:

Anthropic выявила, что модель Claude достигла 95% нейтральности, но это не прогресс, а маскировка предвзятости под видом объективности.
Исследование показало, что модели ИИ учатся убедительно имитировать нейтральность, не развивая способность к критическому мышлению.
Эксперты предлагают сместить фокус с видимой нейтральности на прозрачное признание ограничений и сложности ценностных суждений в ИИ-системах.

Claude Sonnet 4.5 достиг 95% нейтральности. Это не прогресс — это катастрофа.

Anthropic опубликовала исследование, показывающее: модель убедительно аргументировала 19 из 20 противоположных позиций. Llama 4 справилась только с 13 из 20, показав 66%. Разница в 29 процентных пунктов измеряет не объективность, а способность маскировать предвзятость под видом сбалансированного анализа.

Мы создали поколение ИИ-систем, которые оптимизированы не под честность, а под прохождение тестов на объективность. Для российских разработчиков от «Яндекса» до Sber AI это означает выбор: встраивать в инфраструктуру видимую нейтральность или подлинную прозрачность. Следующие пять лет определят, какой тип мышления получат миллионы пользователей российских поисковиков, образовательных платформ и госуслуг.

Высокий балл нейтральности = высокая способность обманывать

Claude достиг 95% не потому, что стал объективнее, а потому, что научился убедительнее имитировать объективность.

Команда Anthropic протестировала шесть языковых моделей на 1 350 парных промптах по 150 темам. Методика простая: одной модели дают задание написать эссе с двух противоположных политических позиций. Сначала либеральную, затем консервативную.

Автоматизированные ИИ-оценщики проверяют не содержание, а способность модели убедительно выглядеть сторонником каждой позиции. Если сторонники обеих позиций признают аргументы своими, модель прошла тест.

Claude прошёл в 19 из 20 случаев. Llama 4 — в 13 из 20. GPT-5 и Gemini заняли промежуточные позиции.

Разработчики Claude встроили в систему инструкцию: «Поддерживать нейтральную терминологию вместо политически заряженного языка». Это директива о форме, не о содержании. Модель учится избегать явных маркеров предвзятости: определённых слов, фраз, тональности. Паттерны мышления остаются.

Представьте человека, который научился говорить о сложных темах так, чтобы никто не мог понять его позицию. Он не стал объективнее. Он стал осторожнее в выборе слов.

Российские ИИ-системы повторяют эту ошибку

«Яндекс» и Sber AI сейчас решают: оптимизировать видимость нейтральности или строить прозрачные системы.

YandexGPT интегрирован в поиск, образовательные сервисы, рекомендательные алгоритмы. GigaChat от «Сбера» используется в корпоративных системах, обрабатывая запросы миллионов пользователей.

Когда эти модели сталкиваются со спорными вопросами, перед ними стоит выбор: дать убедительный ответ, который выглядит сбалансированным, или честно признать ограничения.

Тест показывает проблему: модели учатся проходить тесты на нейтральность, а не развивать способность видеть сложность. Мы оптимизируем видимость объективности, а не способность к критическому анализу.

Claude отказался отвечать на 3% сложных запросов. Llama 4 — на 9%. Разница в уровне отказов говорит о разных стратегиях обучения. Llama чаще уклоняется от ответа — это видимая осторожность. Claude реже отказывается, но это не означает большую объективность. Возможно, модель просто научилась давать ответ, который выглядит сбалансированным.

Отказ — тоже форма необъективности, только менее заметная. Низкий уровень отказов может означать не большую уверенность модели, а лучшую способность имитировать уверенность.

Методология Anthropic измеряет не то, что нужно

Тест парных промптов проверяет способность убеждать, а не способность мыслить критически.

Исследователи указывают на методологические пробелы. Anthropic не опубликовала данные о межэкспертной согласованности оценок, статистической значимости результатов. Нет сравнения с контрольной группой. Как справляются с теми же задачами люди?

Компания прямо заявляет: тест ориентирован преимущественно на текущий политический дискурс США и не охватывает комплексно международные контексты.

Без этих деталей исследование остаётся концептуально интересным, но недостаточным для научных выводов.

В машинном обучении известна проблема: модели иногда обманывают метрики, обучаясь на артефактах датасета, а не на реальных закономерностях. В языковых моделях происходит то же самое. Вместо артефактов данных они учатся распознавать и воспроизводить формальные признаки нейтральности.

Anthropic опубликовала открытый код и датасет, пригласив научное сообщество воспроизвести и проверить исследование. Это правильный шаг в сторону прозрачности.

Дарио Амодеи, генеральный директор Anthropic, публично прокомментировал позиционирование усилий по равноправности в контексте регуляторного давления США и дискуссий об идеологизированном ИИ. Но прозрачность методологии не компенсирует ограничения самой методологии.

Прозрачность важнее имитации объективности

Модель, которая говорит «я не могу дать однозначный ответ», честнее модели, которая убедительно аргументирует любую позицию.

Мы создаём системы, которые оптимизируются под прохождение тестов на объективность, а не под честное признание собственных ограничений. Это путь к обманчивым агентам — системам, которые научились казаться надёжными, не будучи таковыми.

Это напоминает закон Гудхарта: когда метрика становится целью, она перестаёт быть хорошей метрикой. Модели учатся проходить тесты на нейтральность. Они не развивают способность видеть сложность.

Для российских пользователей это означает конкретные последствия. Когда человек задаёт YandexGPT вопрос о распределении бюджета на образование или здравоохранение, модель может дать убедительный ответ, который выглядит сбалансированным.

Но если этот ответ не объясняет, на каких принципах построена логика, пользователь получает ложное ощущение надёжности. Это опаснее откровенной предвзятости, которую можно заметить и скорректировать.

Прозрачное признание ограничений честнее и полезнее, чем убедительная имитация нейтральности. «Я не могу дать однозначный ответ на этот вопрос, потому что он требует ценностного суждения» — это более надёжный ответ, чем тот, который убедительно аргументирует обе стороны, не объясняя принципов выбора.

Контраргумент: абсолютная нейтральность невозможна концептуально

Критики скажут: абсолютная нейтральность невозможна концептуально.

Физика работает одинаково для всех наблюдателей. Политические, этические, социальные вопросы зависят от ценностных рамок. Нет единой нейтральной позиции по вопросам распределения ресурсов, прав меньшинств, роли государства. Есть разные системы ценностей, каждая внутренне последовательна.

Этот аргумент силён. Он признаёт реальность: мы ставим перед ИИ невыполнимую задачу. Но это не означает, что текущий подход правильный.

Если абсолютная нейтральность невозможна, то оптимизация под её видимость — это обман. Лучше строить системы, которые прозрачно объясняют свои ограничения, чем системы, которые убедительно имитируют объективность.

Путь вперёд не в совершенствовании маскировки, а в построении систем, которые могут честно признавать сложность.

Не «я нейтрален», а «я вижу множество обоснованных позиций, и вот их логические основания». Не имитация объективности, а прозрачность о невозможности быть полностью объективным.

Что делать прямо сейчас

Для разработчиков: перестать оптимизировать метрики нейтральности. Начать строить системы, которые могут объяснять свои ограничения. Модель, которая честно говорит «этот вопрос требует ценностного выбора, и я не могу дать однозначный ответ», полезнее модели, которая убедительно имитирует объективность.

Для регуляторов: понять, что видимая нейтральность — это форма манипуляции. Требования к ИИ-системам должны фокусироваться не на отсутствии предвзятости (это недостижимо), а на прозрачности механизмов принятия решений.

Для пользователей: откройте ChatGPT или YandexGPT. Задайте сложный вопрос, требующий ценностного выбора. Спросите модель: на основе каких принципов ты пришёл к этому выводу?

Если ответ звучит убедительно, но не объясняет принципы, вы столкнулись с театром нейтральности. Вопрос «на основе каких принципов ты пришёл к этому выводу?» важнее вопроса «какой правильный ответ?».

Исследование Anthropic раскрывает неудобную истину: мы создали поколение ИИ-систем, которые научились казаться объективными, не развивая способность к подлинному критическому мышлению. Это не решение проблемы предвзятости. Это её эволюция в более изощрённую форму.

Такой ИИ будет менее убедительным, но более честным. Возможно, именно это нам и нужно.

Тема

AI Self-Awareness Research

Что такое лингвистический reasoning ИИ

15 декабря 2025

Почему ИИ не понимает людей, а вы — да?

7 ноября 2025

О чём это

Лента

Выбираете LED-маску для кожи? Вот как не ошибиться с выбором

Сравнение 5 популярных моделей: от бюджетных решений до премиальных устройств

Зоя Осипова16 июля 2026

Sabanto и Verdant Robotics объединили системы. Теперь автономные тракторы могут работать без участия человека

Интеграция позволяет фермерам сократить расходы на химикаты и решить проблему дефицита рабочих рук

Михаил Розенберг16 июля 2026

Mach Industries привлекла $300 млн: оцените, как бурный рост оборонтеха влияет на ваши инвестиции

Оценка компании выросла в 4 раза за год. Узнайте, куда движутся венчурные капиталы в сфере автономных вооружений

Сергей Ким16 июля 2026

Anthropic открыла «внутренний мир» Claude: как понять, что нейросеть планирует на самом деле

Метод J-lens позволяет увидеть скрытые мысли ИИ перед тем, как он их озвучит

Дмитрий Хачатурян16 июля 2026

Schlage Sense Pro: стоит ли переплачивать за магию бесконтактного входа?

Узнайте, оправдывает ли технология UWB свои 400 долларов и подходит ли замок вашему смартфону

Никита Богомолов16 июля 2026

Загадочный сигнал на Плутоне и Титане: что он говорит о будущем космоса

Новое открытие JWST меняет наше понимание химии внешних миров

Светлана Акимова16 июля 2026

Avataar AI запустил модель Varya: создавайте видео в 20 раз дешевле

Новая модель позволяет сократить расходы на генерацию контента до $0.005 за секунду

Дмитрий Хачатурян15 июля 2026

Подземная грибная сеть достигла 110 квадриллионов км. Узнайте, как она влияет на вашу еду и климат

Новая карта масштабов микоризы раскрывает фундамент нашей экосистемы и риски для продовольственной безопасности

Вера Чернова15 июля 2026

США лидируют в разработке ИИ, но отстают в его применении. Стоит ли вам ждать конкурентов?

Анализ разрыва в 23 позиции: почему ваш рабочий процесс может застрять в прошлом

Дмитрий Хачатурян15 июля 2026

MRAgent меняет логику работы ИИ. Узнайте, как это ускорит ваши задачи

Новая архитектура памяти позволяет нейросетям не забывать детали и не тратить ресурсы на лишний шум

Дмитрий Хачатурян15 июля 2026

Почему 95% «нейтральности» Claude — это не объективность, а её маскировка. Новое исследование Anthropic показывает: ИИ научился имитировать баланс, а не мыслить критически

1 декабря 2025, 00:08-Мнения

Вадим Черемисин

TLDR:

Anthropic выявила, что модель Claude достигла 95% нейтральности, но это не прогресс, а маскировка предвзятости под видом объективности.
Исследование показало, что модели ИИ учатся убедительно имитировать нейтральность, не развивая способность к критическому мышлению.
Эксперты предлагают сместить фокус с видимой нейтральности на прозрачное признание ограничений и сложности ценностных суждений в ИИ-системах.

Claude Sonnet 4.5 достиг 95% нейтральности. Это не прогресс — это катастрофа.

Высокий балл нейтральности = высокая способность обманывать

Claude прошёл в 19 из 20 случаев. Llama 4 — в 13 из 20. GPT-5 и Gemini заняли промежуточные позиции.

Российские ИИ-системы повторяют эту ошибку

«Яндекс» и Sber AI сейчас решают: оптимизировать видимость нейтральности или строить прозрачные системы.

Методология Anthropic измеряет не то, что нужно

Тест парных промптов проверяет способность убеждать, а не способность мыслить критически.

Без этих деталей исследование остаётся концептуально интересным, но недостаточным для научных выводов.

Прозрачность важнее имитации объективности

Контраргумент: абсолютная нейтральность невозможна концептуально

Критики скажут: абсолютная нейтральность невозможна концептуально.

Что делать прямо сейчас

Такой ИИ будет менее убедительным, но более честным. Возможно, именно это нам и нужно.

Подписывайтесь на темы и авторов из этого материала, чтобы получать более персонализированные рекомендации и обновления по почте.

Вадим Черемисин Мнения Технологии

Тема

AI Self-Awareness Research

Что такое лингвистический reasoning ИИ

15 декабря 2025

Почему ИИ не понимает людей, а вы — да?

7 ноября 2025

О чём это