
В области искусственного интеллекта произошло значимое событие — эксперты представили новый сложнейший тест Humanity’s Last Exam для оценки возможностей современных нейросетей. Этот тест стал серьезным испытанием не только для искусственного интеллекта, но и для людей, так как содержит невероятно сложные вопросы и задания.
Первоначально лидерство в тестировании захватила модель DeepSeek R1, показав результат в 9,4% правильных ответов. Однако вскоре две модели от OpenAI превзошли этот показатель. Модель o3-mini достигла отметки в 10,5%, а более мощная, хотя и медленнее работающая o3-mini-high, смогла добиться результата в 13%.
Настоящий прорыв совершил ИИ-агент OpenAI Deep Research, который продемонстрировал впечатляющий результат в 26,6% правильных ответов. Это достижение особенно примечательно тем, что оно было получено менее чем за десять дней после предыдущего рекорда.
Стоит отметить, что OpenAI Deep Research имеет преимущество перед другими моделями благодаря возможности поиска информации, что особенно важно при ответах на вопросы, требующие конкретных знаний. Этот инструмент разработан как персональный аналитик, способный проводить исследования и готовить отчеты, значительно сокращая время, которое потребовалось бы человеку на выполнение аналогичной работы, сообщает TechRadar.