Быть новичком в чём-то всегда нелегко. Поэтому мы и стараемся регулярно снабжать вас боевыми инструкциями для начинающих дата-сайентистов. Например, не так давно мы говорили на тему подготовки к собеседованиям и оформления портфолио на GitHub.
Ещё одной значимой строчкой в вашем резюме может стать опыт в соревновательном дата-сайенсе. Если у вас сейчас возник вопрос: «Где заиметь такой опыт?» — этот пост для вас.
Вы наверняка слышали про Kaggle — крупнейшую платформу, посвящённую DS и ML. Это и банк открытых данных, и площадка для нетворкинга, и бесплатные курсы, и вакансии, и, главное, соревнования.
Именно ради конкурсов люди приходят на Kaggle. Как это работает? Организаторы (часто крупные компании) формулируют задачу, выкладывают данные и обозначают сроки, призовой фонд и метрику, по которой будут оцениваться решения.
За каждым соревнованием закреплена отдельная ветка на форуме: там участники обсуждают возникающие проблемы, делятся идеями. Работать можно прямо из браузера: для этого на серверах Kaggle выделены «кернелы» или «ядра» — специальная облачная среда для программирования.
Каждый участник может делать от трёх до пяти сабмитов в сутки — модели автоматически тестируются на специальной выборке, а результаты сразу попадают на лидерборд. Когда приём решений закрывается, начинается тестирование на новых данных — именно оно определяет победителя. Чемпион получает денежный приз, а остальные участники с неплохими результатами — баллы в рейтинг Kaggle.
Получается, что для опытных специалистов соревнования — это шанс прокачаться в решении нестандартных задач, побороться за вознаграждение, заслужить внимание работодателей и внутренние ачивки платформы. Но начинающему дата-сайентисту, очевидно, обо всём этом думать рано.
Так как же новичку выжать из участия максимум?
● Зарегистрируйтесь на платформе и выберите любой конкурс из раздела «Getting started». Начните с чтения публичных кернелов, попробуйте «слепить» модель из кусков чужого кода, добейтесь любого результата. Как минимум — так вы освоите саму систему.
● Не зацикливайтесь на баллах и медальках. По крайней мере, пока. Для новичков Kaggle — это в первую очередь возможность набить руку, развить насмотренность и пообщаться с практикующими специалистами.
● Разбирайте все неизвестные техники, методы и подходы, которые видите в постах на форуме и в чужих кернелах (особенно топовых). Не ленитесь конспектировать новое. Ваша задача на данном этапе — наработать инструментарий.
● Возвращайтесь к завершённым соревнованиям, как только основная масса лидеров выложит разборы своих моделей. В идеале — старайтесь с использованием их решений добиться «золотого» результата в режиме пост-сабмита.
● Помните, что Kaggle — не демоверсия работы дата-сайентиста. Соревнования прокачивают многие навыки — но, например, понимание бизнес-задач, сбор/очистку данных и выбор метрик обязательно надо тренировать где-то ещё.
Ещё один совет напоследок: даже если вы пока не можете похвастаться статусом Kaggle Competition Master, смело включайте ссылку на свой профиль в резюме.
Ваша страница — зеркало того, чем вы интересуетесь, как прогрессируете и какие технические решения уже освоили. Согласитесь, на интервью с работодателем куда приятнее рассказывать про собственный код, чем отвечать на типовые вопросы по теории.
#полезное@karpovcourses #ml@karpovcourses