Как яндексоиды ищут и читают научные статьи

Серёжа Кастрюлин, исследователь Yandex Research

Главный совет: по абстракту и введению статьи уже можно понять, насколько этот материал вам полезен. Если не заинтересовала идея, детали уже не важны.

В основном я ищу и читаю статьи на сайте arxiv.org. Каждый день там появляются десятки новых работ на разные темы. Отбор интересных статей среди огромного потока — важная часть работы исследователя: чтобы не отставать от прогресса, важно регулярно следить за свежими релизами.

Чтобы упростить задачу, я использую Google Scholar. Клёво подписаться на учёных из нужной области и следить за их работами. Также на платформе есть система рекомендаций, которая присылает уже сжатый список потенциально интересных работ.

Многие в научном мире используют X (бывший Twitter) для поиска статей. Некоторые хорошо сделанные нишевые работы могут там вируситься и попадать в ленту рекомендаций. Я не большой фанат этой соцсети, но подписан на некоторых интересных мне исследователей. Процесс взаимодействия с Х всё ещё похож на поиск иголки в стоге сена, но иногда в ленте можно найти что-то толковое.

Также я состою в разных группах по чтению статей и проведению семинаров. Например, у Yandex Research раз в неделю проводится семинар общей ML-тематики. Я занимаюсь диффузионными моделями в генерации изображений, и у нас есть узкоспециализированный семинар об этом. Такие группы — отличный способ всегда быть в теме. Даже если что-то пропустил, внимательный коллега закинет релевантную работу.

Я предпочитаю читать статьи примерно в той же последовательности, как они написаны, и отсеивать лишнее на каждом этапе. Если название статьи непонятное, то её можно сразу пропустить, если название релевантное — перейти к чтению абстракта. На этой стадии отсеивается большинство статей.

Хорошо составленный абстракт представляет собой ёмкую выжимку из статьи — с мотивацией, описанием проблемы, недостатками текущих методов, предложениями по их устранению и основным практическим результатом работы. Если абстракт заинтересовал, я читаю введение. Многие исследователи пренебрегают этой секцией, считая её формальной и не очень нужной, но я думаю, что хорошее введение часто даёт неплохое понимание работы в целом. Иногда я могу даже ограничиться только им, если мне не интересны детали реализации конкретного метода и достаточно понимания основной идеи исследования.

Если детали важны, я перехожу в секцию с методом, где подробно разбираю предложенный подход: сначала смотрю на схемы, потом читаю формулы, после этого — текст вокруг.

На экспериментальную часть я обращаю внимание только в практически важных для меня работах. Это не делает раздел менее интересным, просто я часто ищу в статьях именно идеи и подходы — и если метод меня не удивил, то и детали экспериментов не заинтересуют.

Мне очень нравится современный тренд указывать ограничения методов и посвящать этому отдельную секцию. К сожалению, не все авторы заполняют её как следует, но я всё равно обращаюсь к этому разделу в тех работах, что сильно меня заинтересовали.

Инструкция от Дмитрия Баранчука из команды Yandex Research о том, как читать научные работы, — в отдельной статье.

Денис Кузнеделев, ML-резидент Yandex Research

Главный совет: подписаться на блоги и телеграм-каналы коллег. Это поможет не потонуть в потоке новой информации, а получать уже отобранный материал.

Для меня, наверное, наиболее эффективный и продуктивный способ узнавать о новых работах — через коллег, занимающихся той же тематикой. Например, я слежу за коллегами из Yandex Research и IST Austria.

Сайты Google Scholar и Research Rabbit регулярно делают подборки свежих статей по темам, которыми пользователь интересовался ранее. Много полезного можно найти в соцсетях вроде Reddit, блогах известных учёных (например, Davis Summarizes Papers), телеграм-каналах про машинное обучение и искусственный интеллект.

У меня тоже есть телеграм-канал с обзорами научных статей из моей области работы — КПД. На его создание меня вдохновил авторский канал Gonzo ML Григория Сапунова из Intento и канал моего коллеги и друга Серёжи Кастрюлина Concise Research.

Идея своего блога пришла чуть больше года назад. Тогда уже существовал ряд широкопрофильных каналов про глубокое обучение, нейросети, компьютерное зрение, NLP и RL. Но каналов, специализирующихся на задаче сжатия и ускорения нейронных сетей (это моя основная сфера деятельности), где бы подробно и доступно разбирали статьи на эту тему, не было.

Для своего канала я обычно отбираю полезные с точки зрения идей и методологии статьи с интересным результатом. Иногда, напротив, обозреваю статьи с очень громкими заявлениями: бывает, при тщательном прочтении и анализе осознаёшь, что авторы недобросовестно подошли к исследованию — проводят нечестное сравнение, подкручивают результат, заметают под ковёр важные детали и нюансы. Причём эти нюансы и детали не всегда легко заметить неспециалисту!

Мне кажется, что полезно не быстро читать статьи, а быстро отсекать хорошие статьи от не очень содержательных. Чётких и однозначных критериев, как отличить хорошую статью от плохой, у меня нет. Но по структуре, заявленным результатам, методике экспериментов можно примерно оценить затраченные усилия и основательность работы.

Иван Рубачёв, исследователь Yandex Research

Главный совет: ищите новые форматы! Например, подкасты на вашу тему, рассылки от учёных и видеоразборы.

Чтобы оставаться в курсе происходящего в области более глобально, я слежу за постами в X и Reddit (r/MachineLearning, r/mlscaling и r/LocalLLaMA). Сейчас это в основном новости из мира больших моделей, языковых и не только, а пару лет назад это было обучение нейросетевых представлений изображений.

Читаю рассылки от Nathan Lambert, Sebastian Raschka, Dylan Patel и слушаю технические подкасты. Dwarkesh Podcast, Latent Space, Sample-space, Machine Learning Street Talk — самые популярные в моей ротации сейчас.

В первое время в университете, когда я только учился читать статьи, мне помогали упрощённые разборы и любые сопутствующие видеоматериалы. Вот несколько примеров:

Yannic Kilcher — один из пионеров видеоразборов статей в области машинного обучения.
Umar Jamil — моя недавняя находка, канал с очень подробными техническими разборами популярных методов и статей.
ML Collective — комьюнити учёных, которые проводят открытые разборы и читают доклады по статьям. Зачастую докладчики и есть авторы статей.

Обращайте внимание на блоги вроде Jay Alammar или Lil’Log. Там появляется множество постов с подробными обзорами разных областей в современном глубинном обучении.

Рекомендую начинающим читателям научных статей не спешить и не тревожиться. Ничего страшного, если вам непонятны какие-то детали. Постепенно разбирайтесь в том, что вам интересно, и помогайте себе любыми сторонними материалами, читайте и перечитывайте статьи в любом порядке, спрашивайте совета у нейросетей — каждому их слову верить не стоит, но инструмент очень полезный. И со временем процесс чтения станет проще.

Как яндексоиды ищут и читают научные статьи

Серёжа Кастрюлин, исследователь Yandex Research

Денис Кузнеделев, ML-резидент Yandex Research

Иван Рубачёв, исследователь Yandex Research

Краткий пересказ от YandexGPT

Ещё по теме:

Научные исследования в ML: где искать, как читать, чему верить

Как научиться читать быстро

Что полезного почитать начинающему разработчику