Человек и LLM: как построить метрики для оценки моделей

28 ноября 2024

В этой статье предлагается найти ответ на вопрос: есть ли универсальный метод оценки работы LLM‑моделей? Для этого Ирина Барская, руководитель службы аналитики и исследований в Яндексе, расскажет, какие для этого существуют бенчмарки и почему нельзя полагаться только на них, как работает Chatbot Arena LLM Leaderboard, кто такие AI‑тренеры и может ли одна модель правильно оценить другую.

28 ноября 2024

Ирина Барская

Разработка

Краткий пересказ от YandexGPT