
Исследователи из Университета штата Вашингтон проверили, насколько ChatGPT способен правильно оценивать научные гипотезы как верные или неверные. Для этого модели предложили более 700 формулировок из научных работ и по 10 раз задавали один и тот же вопрос, чтобы понять не только точность, но и устойчивость ответов.
Во время первой серии испытаний в 2024 году ChatGPT отвечал правильно в 76,5 процента случаев. В повторной проверке в 2025 году этот показатель вырос до 80 процентов. Однако после поправки на случайное угадывание результат уже не выглядел таким высоким. По оценке авторов работы, фактический уровень рассуждения оказался лишь умеренным и ближе к слабой оценке, чем к действительно надежной работе системы.
Наибольшие трудности у модели возникли с ложными утверждениями. Неверные гипотезы она правильно распознавала только в 16,4 процента случаев. Кроме того, исследователи зафиксировали заметную непоследовательность. Даже когда системе 10 раз задавали полностью одинаковый вопрос, стабильность ответов составляла около 73 процентов. В ряде случаев модель по очереди выдавала противоположные варианты, то признавая утверждение верным, то называя его ложным.
Руководитель исследования Месут Чичек пояснил, что проблема заключается не только в точности, но и в том, что система может отвечать по-разному на один и тот же запрос. По его словам, все 10 повторов были одинаковыми, однако ответы менялись: сначала модель говорила, что утверждение верно, затем утверждала обратное, а иногда делила ответы почти поровну между двумя вариантами.
Авторы подчеркивают, что такие результаты показывают ограниченность современных генеративных систем. Они умеют создавать гладкий и убедительный текст, но это не означает глубокого понимания смысла. Чичек считает, что нынешние ИИ-инструменты не воспринимают мир так, как человек: они опираются на запомненные закономерности, могут подсказать что-то полезное, но не понимают тему в человеческом смысле.
Работу Чичек выполнил вместе с учеными из Университета Южного Иллинойса, Ратгерского университета и Северо-Восточного университета. В исследовании использовали 719 гипотез из научных статей по бизнес-тематике, опубликованных с 2021 года. В 2024 году проверяли бесплатную версию ChatGPT-3.5, а в 2025 году — обновленный ChatGPT-5 mini. В целом обе версии показали близкий уровень работы. Результаты опубликованы в Rutgers Business Review.








