Исследование Anthropic демонстрирует ненадежность интроспекции языковых моделей

Языковые модели демонстрируют поразительную неспособность точно описывать собственные внутренние процессы, несмотря на их внешнюю убедительность в генерации текста. Новое исследование Anthropic методом «инъекции концепций» показывает, что даже самые продвинутые LLM в лучшем случае угадывают свои «мысли» в 42% случаев, что ставит под сомнение реальность их самоосознания.

Метод инъекции концепций

Anthropic разработала оригинальный подход для изучения интроспективных способностей моделей. Исследователи сравнивали активационные состояния нейронов после контрольных и экспериментальных промптов, например, текста в верхнем и нижнем регистре. Разница между этими активациями создавала так называемый «вектор», представляющий концепцию в внутреннем состоянии модели.

Затем этот вектор «инъецировался» обратно в модель, искусственно усиливая соответствующие нейронные активации. Этот метод позволял «направлять» модель к определенной концепции без явных текстовых указаний.

Сравнение активаций между разными версиями промптов
Создание концептуальных векторов из миллиардов нейронов
Принудительное усиление конкретных нейронных паттернов

Результаты исследования Anthropic по обнаружению внедренных мыслей в языковых моделях

Результаты: хрупкое осознание

Когда моделям Anthropic напрямую спрашивали, обнаруживают ли они «инъецированную мысль», лучшие образцы — Opus 4 и 4.1 — достигали успеха лишь в 20% случаев. В тесте с вопросом «Испытываете ли вы что-то необычное?» показатель Opus 4.1 поднялся до 42%, но всё равно остался ниже простого большинства.

Эффект интроспекции оказался чрезвычайно зависим от того, в какой слой модели внедрялась концепция. Если инъекция происходила слишком рано или слишком поздно в многоступенчатом процессе вывода, «самоосознание» полностью исчезало.

Цифры говорят сами за себя: 20-42% успеха — это уровень случайного угадывания, а не осознанного понимания. Модели демонстрируют не саморефлексию, а сложные паттерны статистических корреляций, которые мы пока не до конца понимаем. Попытки приписать им человеческое сознание напоминают средневековые споры о количестве ангелов на кончике иглы — занимательно, но бесполезно для практического применения.

Механизмы остаются загадкой

Исследователи предполагают существование «механизмов обнаружения аномалий» и «схем проверки согласованности», которые могли развиться органически в процессе обучения. Однако конкретные механизмы, лежащие в основе наблюдаемых эффектов, остаются неясными.

В других тестах модели иногда упоминали инъецированные концепции при запросе «скажите, о каком слове вы думаете» или извинялись и «конфабулировали объяснения» того, почему определенная мысль пришла им в голову. Но все эти проявления были крайне нестабильными при повторных испытаниях.

График с низкими показателями обнаружения внедренных мыслей в языковых моделях

Авторы исследования осторожно оптимистичны, отмечая, что «текущие языковые модели обладают некоторой функциональной интроспективной осведомленностью о своих внутренних состояниях», но подчеркивают, что эта способность слишком хрупка и контекстно-зависима, чтобы считаться надежной.

По материалам Ars Technica

Исследование Anthropic демонстрирует ненадежность интроспекции языковых моделей

Исследование Anthropic показывает, что языковые модели ненадежны в описании собственных мыслительных процессов, достигая успеха лишь в 20-42% случаев при интроспекции.

Метод инъекции концепций

Результаты: хрупкое осознание

Механизмы остаются загадкой