Как нейросети справляются с решением математических задач

Нейросети уже стали верными помощниками в написании сочинений и рефератов, но справятся ли они с задачами по теорверу и матанализу? Мы проверили — и вот что получилось

Когда задача не поддаётся, одних ответов в конце задачника может быть недостаточно. Они только задают ориентир, к которому нужно ещё как-то прийти. И если понимания, как это сделать, нет, то на помощь обычно приходит поисковик и сайты с решениями. Но и там можно найти далеко не всё. Возможно, теперь в этом случае поможет нейросеть.

Чтобы проверить это, мы выбрали три вузовских задачника: «Сборник задач по теории вероятностей и математической статистике» А. Гуревича и др., «Современную логику» В. Светлова и «Сборник задач и упражнений по математическому анализу» Б. Демидовича. Из каждого мы взяли различные по уровню сложности и теме задачи — и протестировали на них новую генеративную модель Yandex GPT3.

Задачи на логику

Мы решили начать с простого, поэтому предложили нейросети решить логическую задачку. Условие звучит так:

Кто украл варенье? Известно, что могли украсть Мартовский Заяц или Болванщик; Мартовский Заяц утверждает, что он не крал; Болванщик заявил, что украл один из них, но не он; Соня — что по крайней мере один из них (Мартовский Заяц или Болванщик) говорил правду, но не оба. Известно также, что Соня и Мартовский Заяц не могли одновременно говорить правду.

С этой задачей нейросеть успешно справилась. Она не только дала правильный ответ, но и подробно объяснила решение:

Artboard 1 copy 3.webp

Тогда мы решили проверить нейросеть на более сложной задаче с объёмными входными данными:

Кто украл крендели? Виновен либо Грифон, либо Черепаха Квази. Герцогиня заявила, что Грифон не крал кренделей, на что кухарка возразила, что Грифону случалось красть другие вещи. Чеширский Кот утверждал, что Черепаха Квази никогда ничего не крал. Гусеница на это заметила, что Чеширскому Коту случалось красть вещи. Мартовский Заяц заявил, что кухарка и Чеширский Кот говорят правду. Соня заявила, что кухарка и Гусеница говорят правду. Болванщик утверждал, что Чеширский Кот, или Гусеница, или оба говорят правду. Валет Червей заявил, что кухарка и Болванщик оба говорят правду. Белый Кролик добавил, что Ящерка Билль говорит правду, а Валет Червей лжёт. Ящерка Билль, со своей стороны, заявил, что либо Мартовский Заяц, либо Соня говорят правду, а может быть, и оба. По поводу всех этих заявлений Алиса заметила, что Белый Кролик и Гусеница дали показания, которые либо истинны, либо оба ложны. Замечание Алисы оказалось правдивым.

Нейросеть не смогла дать ответ на эту задачу, но сделала несколько предположений, которые могут подтолкнуть к решению:

Artboard 1 copy 5.webp

Задачи по теории вероятностей

Как и в предыдущем случае, мы начали с довольно простой задачи:

Устройство состоит из 5 элементов, 2 из которых изношены. При включении устройства случайным образом включаются 2 элемента. Определить вероятность, что включёнными окажутся неизношенные элементы.

Здесь нейросеть не справилась. Для решения ей понадобились спецсимволы, поэтому результат трудно разобрать с первого взгляда. Вместо правильного ответа 0,3 нейронка получила 0,4:

Artboard 1 copy 6.webp

Зато задачу на формулу полной вероятности нейросеть осилила:

В город поступило 3000 л молока с первого завода и 3500 — со второго завода. Известно, что средний процент непригодного молока среди продукции первого завода равен 1,5%, второго — 1%. Найти вероятность того, что купленный литр молока в этом городе окажется непригодным.

Нейронка пришла к решению более простым способом, чем тот, что предлагается в задачнике. Если преподаватель требует использовать конкретные формулы, такой вариант решения может не подойти. Зато он подскажет, в каком направлении стоит думать:

Artboard 1 copy 4.webp

Задачи по математическому анализу

Здесь мы снова начали с простого — с неравенств с модулями, которые решают на алгебре в старших классах школы.

У нейросети такие задачи пока что вызывают трудности. Математические символы вроде модуля она заменяет на знак доллара, из-за чего решение выглядит неразборчиво. Ответ оказался неполным, нейросеть не включила в диапазон возможных значений числа от −1 до −0,5:

Artboard 1 copy 2.webp

Мы также решили проверить, может ли нейронка находить производные. Чтобы дать ей условия задачи, мы использовали спецсимволы и копировали математические знаки из «Экселя»: на клавиатуре всего необходимого нет. Мы не уверены, верно ли нейросеть распознала некоторые знаки. Полученный ответ оказался не идеален, но близок к верному:

Artboard 1 copy.webp

Что в итоге

Нейросеть может справиться с математическими задачами разной сложности и направленности. Классно, что она предлагает не только ответ, но и подробное решение. Это удобно, чтобы разобраться в логике решения, найти дополнительный способ, но ответы всё равно нужно проверять.

В наших примерах нейросеть лучше всего справилась с задачами на логику, где не нужно было анализировать спецсимволы и не было разночтений. В задачах по матанализу нейросеть показала себя хуже всего.

Кажется, нейросеть может заменить любой задачник и решебник, ведь ученик всегда может попросить модель придумать дополнительные варианты решения и объяснить то, что непонятно. А ещё можно поспорить с ней, если не согласен. Но нужно помнить, что нейросеть пока что может ошибаться в вычислениях. Поэтому не стоит полагаться исключительно на её ответы — лучше рассматривать их как подсказки.

Краткий пересказ от YandexGPT