Человек и LLM: как построить метрики для оценки моделей

Перейти

В этой статье предлагается найти ответ на вопрос: есть ли универсальный метод оценки работы LLM‑моделей? Для этого Ирина Барская, руководитель службы аналитики и исследований в Яндексе, расскажет, какие для этого существуют бенчмарки и почему нельзя полагаться только на них, как работает Chatbot Arena LLM Leaderboard, кто такие AI‑тренеры и может ли одна модель правильно оценить другую.