Новая методика промптинга «полуформальное рассуждение» повысила точность ИИ-анализа кода до 93%

Исследователи из Meta* представили новую технику работы с искусственным интеллектом под названием «полуформальное рассуждение», которая позволяет большим языковым моделям проводить глубокий аудит кода без его реального запуска. Этот метод значительно повышает точность проверки патчей, сокращая при этом инфраструктурные затраты на тестирование.

Cover Image for Новая методика промптинга «полуформальное рассуждение» повысила точность ИИ-анализа кода до 93%

Исследователи из компании Meta* представили новую технику работы с искусственным интеллектом под названием «полуформальное рассуждение». Как сообщает издание VentureBeat, этот метод позволяет большим языковым моделям проводить глубокий аудит кода без необходимости его реального запуска в изолированной среде. Благодаря структурированным шаблонам точность проверки патчей в некоторых сценариях выросла с 78% до впечатляющих 93%.

Данное обновление призвано решить одну из главных проблем автоматизации разработки — высокую стоимость инфраструктуры для тестирования. Обычно для безопасной проверки кода требуются «песочницы» — специальные виртуальные пространства, которые потребляют много вычислительных ресурсов. Новая методика Meta* предлагает альтернативу: заставить нейросеть рассуждать логически и доказательно, имитируя процесс исполнения программы в уме.

Механика полуформального рассуждения

Суть инновации заключается в использовании жестко заданных шаблонов логических сертификатов, которые модель обязана заполнить перед выдачей итогового ответа. Вместо того чтобы просто угадывать результат работы функции, ИИ-агент теперь должен последовательно фиксировать исходные данные, прослеживать пути выполнения кода и делать выводы на основе проверяемых фактов. Такой подход заставляет алгоритм буквально «идти по следам» вызовов функций, не полагаясь на интуицию или красноречивые названия переменных.

Разработчики внедрили эту систему для борьбы с галлюцинациями — моментами, когда нейросеть уверенно выдает выдуманную информацию за истину. В программировании это особенно критично, так как одна пропущенная деталь может привести к краху всей системы. Структурированное рассуждение выступает в роли строгого инспектора, который не принимает ответ без предъявления всех промежуточных расчетов и доказательств.

Полуформальное рассуждение — изящный способ загнать хаотичную логику языковых моделей в рамки строгого алгоритма, что действительно минимизирует глупые ошибки при анализе зависимостей. Однако за этот порядок приходится платить трехкратным ростом потребления токенов и риском «самоуверенной некомпетентности», когда модель выстраивает безупречную логическую цепочку на основе изначально ложной предпосылки. Технология хороша для локальных задач, но без доступа к внешним библиотекам она остается лишь очень умным гаданием по тексту, которое всё еще требует присмотра живого инженера.

Результаты тестов и практическая польза

В ходе экспериментов исследователи использовали современные модели, включая Claude Opus-4.5 и Sonnet-4.5, для решения трех ключевых задач: поиска ошибок, проверки эквивалентности исправлений и ответов на вопросы по сложным базам кода. В наиболее сложных тестах на проверку патчей в репозитории Django модель Opus-4.5 продемонстрировала точность в 93%, значительно опередив традиционные методы текстового сравнения и обычные текстовые подсказки.

Одним из ярких примеров эффективности метода стал случай, когда стандартная модель перепутала встроенную функцию Python с одноименной функцией внутри библиотеки. Обычный ИИ решил, что код работает верно, основываясь на поверхностном сходстве названий. Однако агент, использующий полуформальное рассуждение, честно проследил цепочку вызовов, обнаружил подмену и верно предсказал критическую ошибку, которая привела бы к сбою системы.

Для вас, как для специалистов, важно понимать, что эта техника доступна «из коробки» и не требует дообучения моделей. Вы можете просто внедрить предложенные Meta* шаблоны в свои рабочие процессы, чтобы повысить надежность автоматического ревью. Тем не менее, стоит учитывать, что метод требует большего количества запросов к API, а значит, увеличивает время ожидания и итоговую стоимость анализа кода.

*Meta признана экстремистской и запрещена в РФ