Наука и технологии1717

«Последний экзамен человечества». Для нейросетей создали максимально сложный академический тест — и вот результат

Профессора, ученые, а также выдающиеся выпускники и студенты из почти 500 престижных образовательных учреждений по всему миру решили дать последний академический бой системам искусственного интеллекта, создав для них самый сложный из всех возможных тест экспертного уровня на рассуждение и владение техническими знаниями. Нейросети (в том числе ChatGPT и нашумевший китайский DeepSeek) приняли вызов и уже показали первые результаты.

Иллюстративное изображение. Фото: Vecteezy

Международная команда из 1000 экспертов в различных академических дисциплинах из почти 500 престижных образовательных учреждений (среди которых Оксфорд, Гарвард, Кембридж, Стэнфорд, швейцарский ETH, французская Inria и другие) разработали глобальный тест по техническим и передовым научным знаниям и логическому мышлению для измерения уровня совершенства систем искусственного интеллекта.

Тест получил название HLE (Humanity's Last Exam), или «Последний экзамен человечества». Эксперты назвали его самым сложным академическим испытанием в истории, которое можно создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.

Экзамен HLE состоит из трех тысяч сложных вопросов по ста разным дисциплинам (например, классическая филология, химия, высшая математика, информатика, экология, лингвистика). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.

Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai

В тесте уже приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила весь технологический сектор США).

Все они с треском провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и еще настойчиво утверждали, что были правы), отметили авторы теста HLE.

Есть и показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

Результаты прохождения «Последнего экзамена человечества» (HLE) рядом топовых нейросетей. Все они с треском провалили тест (уровень правильности ответов составлял от 3 до 13 процентов), а лучший результат показала новая версия ChatGPT под названием o3-mini (high), которая вышла недавно. Источник: agi.safe.ai

Также показательно, что существующие сложные глобальные тесты на научные знания, такие как GPQA, MATH и MMLU, давались вышеупомянутым нейросетям намного легче, и те имели в них от 40 до почти 100 процентов правильных ответов.

Однако теперь с созданием теста HLE человечество бросило искусственному интеллекту очень серьезный вызов, который, как печально констатируют эксперты, может стать последним. По прогнозам авторов HLE, нейросети могут достичь в экзамене 50% точности ответов уже в конце этого года.

Сравнительные результаты точности ответов нескольких топовых нейросетей в существующих глобальных узкоспециализированных тестах GPQA, MATH и MMLU. С «Последним экзаменом человечества» (HLE) у систем искусственного интеллекта пока все плохо. Источник: agi.safe.ai

Комментарии17

  • Жвір
    03.02.2025
    А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
  • не такі, як ёсць
    03.02.2025
    Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
  • Хех
    03.02.2025
    Жвір ,
    Трудно сказать, что они там видят.
    Никто исчерпывающе не представляет ход рассуждений ИИ.

    Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

    Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
    И разве ответ неправильный?

Сейчас читают

Ультралевые пролетают мимо бундестага, а ультраправые собрали меньше, чем рассчитывали5

Ультралевые пролетают мимо бундестага, а ультраправые собрали меньше, чем рассчитывали

Все новости →
Все новости

Зять Виктора Орбана может купить Raiffeisenbank в России4

Техника сломалась на следующий день после гарантии. Можно ли вернуть деньги?

Больше никаких розовых костюмов. Стиль Натальи Петкевич изменился кардинально22

Полина Шарендо-Панасюк вспомнила самый трагический момент в заключении1

Минский блогер понюхала дверь соседа и этим спасла его от возможной гибели6

В колонии, где держат Эдуарда Бабарико, сменился начальник1

ХАМАС освободил двух заложников, а в течение дня группировка обещает отпустить еще четырех1

EPAM назвал чистую прибыль за год. Цифра впечатляет8

США пригрозили перекрыть Украине доступ к Starlink11

больш чытаных навін
больш лайканых навін

Ультралевые пролетают мимо бундестага, а ультраправые собрали меньше, чем рассчитывали5

Ультралевые пролетают мимо бундестага, а ультраправые собрали меньше, чем рассчитывали

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць