CatBoost for Spark

23 марта 2021

Узнайте, какими навыками должен обладатьИИ-разработчик

CatBoost is a popular machine learning library that uses gradient boosted decision trees models. It allows to train models on tabular data with different kinds of features: numeric, categorical, and textual, as well as embeddings, while providing good quality even with default parameters.
It is developed primarily by researchers and engineers of Yandex, the largest IT company of Russia, and is used for search, recommendation systems, personal assistant, self-driving cars, weather prediction and many other tasks at Yandex and in other companies.
In this presentation, we introduce CatBoost distributed training on Spark.
We will discuss the key features, the overall architecture and also present some benchmarks.

Авторы

Станислав Кириллов

Яндекс Образование — Личный кабинет

CatBoost for Spark

Ещё по теме

Yandex DataLens: главные новинки и планы развития

Нейрометеум: наша новая нейросеть глобального прогноза погоды и её вклад в модель прогноза осадков

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Что посмотреть на новогодних каникулах: 11 фильмов и 1 сериал про анализ данных и математику

Универсальный пайплайн прогнозов временных рядов / Александр Елизаров

Сквозная аналитика не с нуля, а с руин легаси / Мария Меркулова

Нужен ли науке опенсорс?

LLM Cache в поиске Лавки / Алексей Щекалев

Как и каким аналитиком стать в 2026 году

Развитие YDB: ИИ- и enterprise-возможности в универсальной СУБД, Андрей Фомичев

Yandex DataLens: главные новинки и планы развития

Нейрометеум: наша новая нейросеть глобального прогноза погоды и её вклад в модель прогноза осадков

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе