Исследование показало частые ошибки ChatGPT при оценке научных гипотез

Исследование показало частые ошибки ChatGPT при оценке научных гипотез

Исследователи из Университета штата Вашингтон проверили, насколько ChatGPT способен правильно оценивать научные гипотезы как верные или неверные. Для этого модели предложили более 700 формулировок из научных работ и по 10 раз задавали один и тот же вопрос, чтобы понять не только точность, но и устойчивость ответов.

Во время первой серии испытаний в 2024 году ChatGPT отвечал правильно в 76,5 процента случаев. В повторной проверке в 2025 году этот показатель вырос до 80 процентов. Однако после поправки на случайное угадывание результат уже не выглядел таким высоким. По оценке авторов работы, фактический уровень рассуждения оказался лишь умеренным и ближе к слабой оценке, чем к действительно надежной работе системы.

Наибольшие трудности у модели возникли с ложными утверждениями. Неверные гипотезы она правильно распознавала только в 16,4 процента случаев. Кроме того, исследователи зафиксировали заметную непоследовательность. Даже когда системе 10 раз задавали полностью одинаковый вопрос, стабильность ответов составляла около 73 процентов. В ряде случаев модель по очереди выдавала противоположные варианты, то признавая утверждение верным, то называя его ложным.

Руководитель исследования Месут Чичек пояснил, что проблема заключается не только в точности, но и в том, что система может отвечать по-разному на один и тот же запрос. По его словам, все 10 повторов были одинаковыми, однако ответы менялись: сначала модель говорила, что утверждение верно, затем утверждала обратное, а иногда делила ответы почти поровну между двумя вариантами.

Авторы подчеркивают, что такие результаты показывают ограниченность современных генеративных систем. Они умеют создавать гладкий и убедительный текст, но это не означает глубокого понимания смысла. Чичек считает, что нынешние ИИ-инструменты не воспринимают мир так, как человек: они опираются на запомненные закономерности, могут подсказать что-то полезное, но не понимают тему в человеческом смысле.

Работу Чичек выполнил вместе с учеными из Университета Южного Иллинойса, Ратгерского университета и Северо-Восточного университета. В исследовании использовали 719 гипотез из научных статей по бизнес-тематике, опубликованных с 2021 года. В 2024 году проверяли бесплатную версию ChatGPT-3.5, а в 2025 году — обновленный ChatGPT-5 mini. В целом обе версии показали близкий уровень работы. Результаты опубликованы в Rutgers Business Review.


Подписывайтесь на Science XXI в Дзен и Telegram.

Поделиться с друзьями
Science XXI