Новая методика промптинга «полуформальное рассуждение» повысила точность ИИ-анализа кода до 93%

Исследователи из компании Meta* представили новую технику работы с искусственным интеллектом под названием «полуформальное рассуждение». Как сообщает издание VentureBeat, этот метод позволяет большим языковым моделям проводить глубокий аудит кода без необходимости его реального запуска в изолированной среде. Благодаря структурированным шаблонам точность проверки патчей в некоторых сценариях выросла с 78% до впечатляющих 93%.

Данное обновление призвано решить одну из главных проблем автоматизации разработки — высокую стоимость инфраструктуры для тестирования. Обычно для безопасной проверки кода требуются «песочницы» — специальные виртуальные пространства, которые потребляют много вычислительных ресурсов. Новая методика Meta* предлагает альтернативу: заставить нейросеть рассуждать логически и доказательно, имитируя процесс исполнения программы в уме.

Механика полуформального рассуждения

Суть инновации заключается в использовании жестко заданных шаблонов логических сертификатов, которые модель обязана заполнить перед выдачей итогового ответа. Вместо того чтобы просто угадывать результат работы функции, ИИ-агент теперь должен последовательно фиксировать исходные данные, прослеживать пути выполнения кода и делать выводы на основе проверяемых фактов. Такой подход заставляет алгоритм буквально «идти по следам» вызовов функций, не полагаясь на интуицию или красноречивые названия переменных.

Разработчики внедрили эту систему для борьбы с галлюцинациями — моментами, когда нейросеть уверенно выдает выдуманную информацию за истину. В программировании это особенно критично, так как одна пропущенная деталь может привести к краху всей системы. Структурированное рассуждение выступает в роли строгого инспектора, который не принимает ответ без предъявления всех промежуточных расчетов и доказательств.

Полуформальное рассуждение — изящный способ загнать хаотичную логику языковых моделей в рамки строгого алгоритма, что действительно минимизирует глупые ошибки при анализе зависимостей. Однако за этот порядок приходится платить трехкратным ростом потребления токенов и риском «самоуверенной некомпетентности», когда модель выстраивает безупречную логическую цепочку на основе изначально ложной предпосылки. Технология хороша для локальных задач, но без доступа к внешним библиотекам она остается лишь очень умным гаданием по тексту, которое всё еще требует присмотра живого инженера.

Результаты тестов и практическая польза

В ходе экспериментов исследователи использовали современные модели, включая Claude Opus-4.5 и Sonnet-4.5, для решения трех ключевых задач: поиска ошибок, проверки эквивалентности исправлений и ответов на вопросы по сложным базам кода. В наиболее сложных тестах на проверку патчей в репозитории Django модель Opus-4.5 продемонстрировала точность в 93%, значительно опередив традиционные методы текстового сравнения и обычные текстовые подсказки.

Одним из ярких примеров эффективности метода стал случай, когда стандартная модель перепутала встроенную функцию Python с одноименной функцией внутри библиотеки. Обычный ИИ решил, что код работает верно, основываясь на поверхностном сходстве названий. Однако агент, использующий полуформальное рассуждение, честно проследил цепочку вызовов, обнаружил подмену и верно предсказал критическую ошибку, которая привела бы к сбою системы.

Для вас, как для специалистов, важно понимать, что эта техника доступна «из коробки» и не требует дообучения моделей. Вы можете просто внедрить предложенные Meta* шаблоны в свои рабочие процессы, чтобы повысить надежность автоматического ревью. Тем не менее, стоит учитывать, что метод требует большего количества запросов к API, а значит, увеличивает время ожидания и итоговую стоимость анализа кода.

*Meta признана экстремистской и запрещена в РФ