В статье описывается опыт оптимизации генератора описаний для Pull Request в Яндексе. Автор делится методами выбора оптимальной языковой модели и эффективного промпта, используя подход LLM as a judge. Описываются критерии качества описаний, процесс сбора валидационного датасета и сравнение различных моделей.