Мультимодальная нейросетевая модель Сбера под наблюдением экспертной комиссии из ВШЭ успешно сдала ЕГЭ по обществознанию
Нейросетевая модель GigaChat выполнила все задания единого государственного экзамена по обществознанию и набрала 67 баллов, что превышает минимальный балл для подачи в вуз (45 баллов) [1] и средний балл по предмету в 2023 году (56,4 балла) [2]. Об этом в рамках конференции AIJ 2023 рассказал вице-президент по Цифровым поверхностям «Салют» Сбербанка Денис Филиппов.
В ходе испытаний проверялись способности обновлённой версии GigaChat, в основе которой лежит одна из наиболее продвинутых моделей для русского языка с 29 миллиардами параметров.
Для проведения эксперимента был выбран предмет «Обществознание» – дисциплина в школе, которая прививает знания по экономике, юриспруденции, социальным наукам. Таким образом, успешная сдача этого экзамена свидетельствует о высокой степени зрелости модели в вопросах социальных норм, экономических и юридических законов.
Для проверки знаний GigaChat использовались только актуальные тестовые задания 2024 года, размещенные на сайте ФИПИ. Перед экспериментом команда удостоверилась, что эти задания не применялись для предварительного обучения модели. Ответы GigaChat проверил сперва независимый эксперт НИУ ВШЭ, а затем валидизировала экспертная комиссия Института образования ВШЭ. Оценивались не только корректность постановки задач и достоверность фактологических ответов GigaChat, но и качество выполнения творческих (открытых) заданий.
Денис Филиппов, вице-президент по Цифровым поверхностям «Салют» Сбербанка:
«Для нас важно оценивать эффективность GigaChat не только по техническим метрикам, но и с точки зрения обычного человека — способен ли сервис помочь в какой-то отдельной области знаний, насколько модель сообразительна, креативна. Для такой оценки хорошо подходят тесты, используемые в системе образования, включая ЕГЭ. Результаты экзамена говорят о том, что GigaChat хорошо эрудирован в области социальных наук. Значит, наш искусственный интеллект «понимает» основные законы общества и ориентируется в вопросах морали. Это ещё одно свидетельство, что пользователи могут использовать наш сервис для решения реальных задач, связанных с фактологией — достаточно в естественной форме задать вопрос, и GigaChat выдаст точный ответ или поможет разобраться в сложной теме».
Евгений Терентьев, директор Института образования ВШЭ:
«Наши эксперты оценивали знания GigaChat независимо от исследовательских и инженерных команд Сбера. Мы проверяли ответы так же, как если бы их давал обычный выпускник школы. По результатам видно, что нейросетевая модель не только обладает достаточным уровнем фактических знаний, но также способна логически мыслить и выбирать лучшее решение из возможных».
Эксперимент, аналогичный проведённому совместно с ВШЭ, скоро сможет повторить каждый желающий — разработчики GigaChat готовят к публикации на GitHub специальный скрипт. Он позволит «одной кнопкой», без необходимости вручную вбивать тексты заданий, протестировать, как нейросетевая модель Сбера сдаёт ЕГЭ.
[1] https://www.garant.ru/hotlaw/federal/1565736/
[2] https://www.edu.ru/news/egegia/ege-2023-kak-eto-bylo/