Научные исследования в ML: где искать, как читать, чему верить

Хочется быть в курсе последних исследований в области машинного обучения, но непонятно, где и как их искать? Дима Баранчук из команды Yandex Research поделился своим опытом поиска и чтения научных статей

Дима, расскажи, где искать статьи на конкретную тему

Чтобы получить общее представление о предмете исследования, можно начать с обычного поиска личных блогов и обзорных статей по ключевым словам в браузере. Это будут точки входа, где можно выделить для себя несколько фундаментальных работ.

Такие статьи могут оказаться не самыми свежими. Для глубокого погружения в тему и поиска наиболее актуальных работ можно воспользоваться системой Google Scholar. В отличие от обычного поиска в браузере, она индексирует только научные статьи, а не всё подряд. На этом этапе я сначала ищу конкретную статью по названию и потом открываю цитирующие её работы щелчком по ссылке «Цитируется».

Artboard 17.webp

На открывшейся странице будут представлены близкие по теме статьи, цитирующие первоисточник, их могут быть тысячи. Чтобы сузить этот список и найти наиболее релевантные и актуальные статьи, я выставляю фильтры. В опциях расширенного поиска можно ограничить поиск диапазоном дат. Стоит обращать внимание на наиболее свежие и цитируемые работы за последний год: в них наверняка содержится полезная информация о том, что происходит в этой области сейчас.

Затем пробегаемся по названиям и описаниям статей из выдачи и набираем список интересных. Далее проваливаемся в каждую из них и просматриваем раздел Related work. Обычно в нём дают краткий литературный обзор со ссылками на другие исследования — они тоже могут пригодиться. По мере чтения можно отмечать в списке литературы те статьи, что заинтересовали вас больше всего, и переходить к ним. Этот способ будет даже продуктивнее, чем просматривать все цитирования.

Artboard 17 copy.webp

Лайфхак: в понравившихся статьях можно кликнуть по первому и последнему авторам из списка, чтобы посмотреть перечень их работ. Там тоже может быть что-то полезное.

Понятно. А если просто хочется быть в курсе выхода новых статей?

Существует архив с открытым доступом — arXiv, там публикуется множество новых научных статей задолго до того, как они появятся на конференциях или в журналах. Имейте в виду, что работы не рецензируются перед публикацией, поэтому за качество материалов никто не отвечает. Но, как правило, авторы стараются публиковать достоверный контент.

Так как архив ежедневно пополняется и уследить за всеми обновлениями сложно, есть сервисы, паблики и каналы с подборками свежих статей. Например, Daily Papers — это подборка полезных статей из arXiv на популярные темы, которая обновляется каждый день. Также можно следить за последними новостями в сфере машинного обучения в Твиттере и тематических телеграм-каналах.

Если хочется сформировать собственную подборку на определённые темы, можно оформить подписку на новые статьи в Google Scholar. Для этого при поисковом запросе нужно нажать на кнопку «Создать оповещение» — и когда появится публикация, отвечающая заданным ключевым словам, вам на почту придёт сообщение. Таких оповещений можно создать сколько угодно, в том числе по конкретному автору.

Допустим, нужная статья нашлась. А как в ней не запутаться?

  • Abstract (аннотация). Сжатая версия статьи, кратко рассказывает об основных целях и результатах исследования, включает общие идеи метода.

  • Introduction (введение). Включает описание задачи, постановку проблемы и мотивацию исследования. Рассказывает о том, что было предложено в этой работе и к каким результатам пришли в итоге.

  • Related work (обзор литературы). Содержит описание смежных работ и исследований, которые были предложены по этой теме ранее и на которые опирается автор. Здесь рассказывается о связи работы с предыдущими и иногда излагаются базовые фундаментальные вещи, которые могут потребоваться для описания предложенного метода.

  • Method (метод). В этой части статьи автор детально описывает основной подход, его алгоритм, архитектуру и так далее. Часто здесь же представляют ключевое теоретическое обоснование предложенного метода и его первичный анализ.

  • Experiments (эксперименты). Включает постановку экспериментального сетапа: какие данные будут использоваться, с какими альтернативными методами (baseline) сравнивают предложенный подход, как оценивается качество этих подходов и другие технические моменты для большего понимания потенциальной практической пользы предложенного метода. Далее идут результаты экспериментов с графиками, таблицами, диаграммами и делаются выводы.

  • Conclusion (заключение или выводы). Краткий пересказ проделанной работы: автор простым языком повторяет суть предложенного метода, подводит итоги, описывает недостатки подхода и рассказывает, что можно сделать в будущем в этом направлении.

  • References (список литературы). Все использованные во время написания статьи источники.

  • Appendix. Всё, что не поместилось в статью: дополнительные результаты, материалы, технические детали и эксперименты. Это не основная часть статьи, но сейчас она есть почти во всех ML-работах. Раздел полезен для тех, кто хочет детально разобраться в нюансах работы, воспроизвести её результаты или сделать поверх неё свои исследования.

Ого! И как это всё читать?

Не обязательно всё: при чтении статьи некоторые разделы часто пропускают — в зависимости от целей и уровня погружённости в тему.

Понять суть. Если вы хотите просто понять главный смысл работы, сначала обратите внимание на аннотацию. Затем переходите к чтению введения, а лучше сразу к части c contributions, где автор описывает вклад работы в область исследований и кратко рассказывает, что было сделано. На этом моменте обычно становится понятно, содержит ли статья потенциально интересную для вас информацию.

Разобраться в теме. Если тема для вас новая и хочется понять, что происходило с этой задачей ранее, стоит ознакомиться с обзором литературы. В свежих и качественных статьях нередко можно наткнуться на ёмкий и полезный обзор.

Ближе к делу. Если вы уже разбираетесь в теме, можно пропустить аннотацию, введение, литературный обзор — и сразу перейти к разделу с описанием метода, а потом посмотреть интересующие результаты в экспериментах.

Для удобства можно распечатать статью и отмечать всю важную информацию маркером, а незнакомые факты выписывать на полях или на специальных стикерах, чтобы лучше запомнить. PDF-документ тоже можно разметить похожим образом. Если нужно вернуться к статье позже, то по этим записям будет легче вспомнить, о чём она.

Это всё, конечно, классно. Но статей на одну тему могут быть сотни, каким верить?

Часто доверие вызывают работы авторов из известных компаний и лабораторий топовых университетов (Стэнфордского, Кембриджского и других). Но, к сожалению, известные имена авторов и их место работы — это не гарантия качества статьи. Поэтому всё равно нужно во многом опираться на здравый смысл и своё понимание области. По ходу чтения статьи важно задавать себе вопросы в духе «почему авторы сделали именно так, а не иначе».

Если некоторые вещи в статье противоречат друг другу, никак не доказываются, не подкрепляются фактами и у вас начинают закрадываться сомнения — такой статье лучше не доверять. Кроме нестыковок в части теории в работе может быть некачественно поставлен эксперимент: например, сетапы немного съехавшие, сравнения не совсем честные — и из-за этого могут быть сделаны некорректные выводы.

Также стоит обращать внимание на то, сравнили ли авторы свои результаты с последними актуальными работами на ту же тему: это важный момент, по которому можно понять, насколько предложенный подход полезен на практике.

Краткий пересказ от YandexGPT