Ученые провели большой экзамен для современных ИИ
1- 15.03.2026, 21:14
- 1,322
Он охватывает математику, гуманитарные науки, естественные дисциплины, древние языки и узкоспециализированные темы.
Ученые создали «Последний экзамен человечества» из 2 500 вопросов, чтобы проверить пределы возможностей искусственного интеллекта, и даже самые мощные модели не смогли набрать более 50% правильных ответов, пишет New Voice.
Старые тесты больше не выявляют настоящих знаний искусственного интеллекта, поэтому почти 1 000 экспертов со всего мира разработали новый масштабный экзамен. Он охватывает математику, гуманитарные науки, естественные дисциплины, древние языки и узкоспециализированные темы. Каждый вопрос имел четкий проверяемый ответ и не мог быть быстро решен через поиск в интернете.
«Когда ИИ начинает хорошо выполнять человеческие тесты, кажется, что он приближается к человеческому уровню понимания. Но этот экзамен напоминает, что интеллект — это не только узнавание шаблонов, а глубина, контекст и специализированные знания,» — пояснил Тунг Нгуен, профессор компьютерных наук в Texas A&M.
Тестирование показало, что GPT-4o набрал 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — 8%. Самые сильные системы, включая Gemini 3.1 Pro и Claude Opus 4.6, показали 40−50% правильных ответов.
Цель экзамена — не победить искусственный интеллект, а выявить, где системы еще отстают, и создать надежный долгосрочный эталон для оценки ИИ. По словам Нгуена, высокие баллы на старых тестах не означают настоящего интеллекта, потому что они проверяют лишь способность выполнять конкретные задачи, разработанные для людей.
Проект объединил экспертов из разных областей: историков, физиков, лингвистов, медицинских исследователей и компьютерных ученых, чтобы создать тест, который показывает реальные ограничения современного ИИ.