Исследователи Microsoft: ИИ не прошел тесты с отладкой кода при программировании

Исследователи Microsoft: ИИ не прошел тесты с отладкой кода при программировании

Искусственный интеллект активно используется в разработке программного обеспечения, но пока он не может полностью заменить человека-программиста, особенно в области отладки кода. Исследователи из Microsoft Research разработали инструмент debug-gym, который предназначен для тестирования и улучшения навыков ИИ-моделей в отладке.

Debug-gym — это среда, в которой ИИ-модели могут работать с существующими репозиториями кода и иметь доступ к отладчикам. Без этих инструментов модели показывают крайне низкую эффективность в отладке. С использованием специализированных инструментов результаты улучшаются, но всё равно значительно уступают возможностям опытного человека-разработчика.

Система расширяет возможности агентов за счет обратной связи от использования инструментов. Агенты могут устанавливать точки останова, перемещаться по коду, выводить значения переменных и создавать тестовые функции. Если агенты уверены в своих действиях, они могут взаимодействовать с инструментами для исследования кода или его переписывания.

Результаты тестов показали, что агенты, использующие инструменты отладки, значительно превосходят тех, кто их не использует. Однако уровень успеха не превышает 50%. Лучший показатель составил всего 48,4%, что недостаточно для промышленного применения. Ограничения связаны с тем, что модели не полностью понимают, как эффективно использовать инструменты, а их текущие обучающие данные не адаптированы к этому сценарию.

Исследователи считают, что проблема кроется в нехватке данных, которые представляют последовательное принятие решений при отладке, в текущем корпусе обучения языковых моделей. Следующим шагом будет настройка модели, которая будет специализироваться на сборе информации, необходимой для устранения ошибок.

Многочисленные исследования показывают, что даже если инструмент ИИ иногда может создать приложение, которое кажется приемлемым для пользователя, модели, как правило, производят код с ошибками и уязвимостями безопасности и не способны устранять эти проблемы. Наиболее вероятным результатом станет создание агента, который сэкономит разработчику значительное количество времени, а не полностью заменит его, сообщает Microsoft Research.


Подписывайтесь на Science XXI в Дзен и Telegram.

Поделиться с друзьями
Science XXI