Исследование Anthropic демонстрирует ненадежность интроспекции языковых моделей