Быть новичком в чём-то всегда нелегко. Поэтому мы и стараемся регулярно снабжать вас боевыми инструкциями для начинающих дата-сайентистов. Например, не так давно мы говорили на тему подготовки к собеседованиям и оформления портфолио на GitHub. Ещё одной значимой строчкой в вашем резюме может стать опыт в соревновательном дата-сайенсе. Если у вас сейчас возник вопрос: «Где заиметь такой опыт?» — этот пост для вас. Вы наверняка слышали про Kaggle — крупнейшую платформу, посвящённую DS и ML. Это и банк открытых данных, и площадка для нетворкинга, и бесплатные курсы, и вакансии, и, главное, соревнования. Именно ради конкурсов люди приходят на Kaggle. Как это работает? Организаторы (часто крупные компании) формулируют задачу, выкладывают данные и обозначают сроки, призовой фонд и метрику, по которой будут оцениваться решения. За каждым соревнованием закреплена отдельная ветка на форуме: там участники обсуждают возникающие проблемы, делятся идеями. Работать можно прямо из браузера: для этого на серверах Kaggle выделены «кернелы» или «ядра» — специальная облачная среда для программирования. Каждый участник может делать от трёх до пяти сабмитов в сутки — модели автоматически тестируются на специальной выборке, а результаты сразу попадают на лидерборд. Когда приём решений закрывается, начинается тестирование на новых данных — именно оно определяет победителя. Чемпион получает денежный приз, а остальные участники с неплохими результатами — баллы в рейтинг Kaggle. Получается, что для опытных специалистов соревнования — это шанс прокачаться в решении нестандартных задач, побороться за вознаграждение, заслужить внимание работодателей и внутренние ачивки платформы. Но начинающему дата-сайентисту, очевидно, обо всём этом думать рано. Так как же новичку выжать из участия максимум? ● Зарегистрируйтесь на платформе и выберите любой конкурс из раздела «Getting started». Начните с чтения публичных кернелов, попробуйте «слепить» модель из кусков чужого кода, добейтесь любого результата. Как минимум — так вы освоите саму систему. ● Не зацикливайтесь на баллах и медальках. По крайней мере, пока. Для новичков Kaggle — это в первую очередь возможность набить руку, развить насмотренность и пообщаться с практикующими специалистами. ● Разбирайте все неизвестные техники, методы и подходы, которые видите в постах на форуме и в чужих кернелах (особенно топовых). Не ленитесь конспектировать новое. Ваша задача на данном этапе — наработать инструментарий. ● Возвращайтесь к завершённым соревнованиям, как только основная масса лидеров выложит разборы своих моделей. В идеале — старайтесь с использованием их решений добиться «золотого» результата в режиме пост-сабмита. ● Помните, что Kaggle — не демоверсия работы дата-сайентиста. Соревнования прокачивают многие навыки — но, например, понимание бизнес-задач, сбор/очистку данных и выбор метрик обязательно надо тренировать где-то ещё. Ещё один совет напоследок: даже если вы пока не можете похвастаться статусом Kaggle Competition Master, смело включайте ссылку на свой профиль в резюме. Ваша страница — зеркало того, чем вы интересуетесь, как прогрессируете и какие технические решения уже освоили. Согласитесь, на интервью с работодателем куда приятнее рассказывать про собственный код, чем отвечать на типовые вопросы по теории. #полезное@karpovcourses #ml@karpovcourses

Теги других блогов: соревнования Kaggle дата-сайенс