Для обработки текстовых данных используется отдельный модуль, включающий в себя различные методы препроцессинга, токенизации, лемматизирования/стемминга, перевода в частотную таблицу, ну и т.д. Основной набор функций над табличными данными (вещественными и категориальными) включает в себя различное кодирование категорий, проекцию числовых атрибутов на категориальные, а также различные трансформации. На вход передаем датасет, атрибуты для работы, префикс для новых атрибутов и дополнительные параметры.
В отличие от других решений, участвовавших в соревновании это — end-to-end подход. Модель обучается для каждого игрока и интервала шагов (вместо попарного предсказания). Контакт с землей для текущего игрока и контакт с семью ближайшими игроками прогнозируется для всех входных шагов. Модель состоит из видео-энкодера для обработки входных видеокадров и трансформер декодера для объединения трекинг- и видео-фичей. Как уже ранее упоминалось, рассмотренные нами графовые фичи — далеко не единственный способ использовать особенности предоставленных данных. В погоне за первым местом участники придумали большое количество более сложных графических фич, которые содержат в себе еще больше информации о структуре датасета.
Как я занял 13 место из 3500+ участников и стал Kaggle Competition Master
С каждым разом замечаем, что записей на листках становится все меньше и меньше, а кода в модулях все больше и больше. Постепенно задача анализа сводится kaggle соревнования к тому, что вы просто читаете описание решения, говорите ага, ого, ах вот оно как! И добавляете в себе в копилку одно-два новых заклинания или подхода.
Пригодятся навыки загружать и визуализировать данные, свободно в них ориентироваться. Все необходимые инструменты есть в Python-библиотеках https://deveducation.com/ Pandas и Seaborn. А потренироваться в преобразовании данных из таблицы Excel в формат датафреймов Pandas можно с помощью нашей статьи.
Интересные особенности датасета
Современный Data Science практически необъятен, поэтому выбирайте состязания, релевантные вашим устремлениям. Например, если вы планируете стать специалистом по компьютерному зрению, то соревнования по обработке естественного языка скорее отвлекут вас, чем принесут пользу. Под конец поста хотелось бы дополнительно разобрать решение с первого места, которое, кроме очевидного фактора первенства, поражает своей простотой и элегантностью.
- И добавляете в себе в копилку одно-два новых заклинания или подхода.
- Не могли бы вы немного подкорректировать скорость обучения, которую они использовали для повышения производительности?
- Перед участниками соревнования была поставлена задача предсказать, какие из предложенных пар вопросов являются дубликатами.
- Ничего, надо просто собраться, понять где и что ты упустил — переделать свое решение — и вернуться на место.
2 место – 5 LGBM, добавили 100 новых признаков, использовали все доступные тренировочные данные + дополнительные данные. На форуме создаются несколько постов с обсуждениями на эту тему, но тут – сюрприз! – авторы соревнования пишут, что эти данные использованы быть не могут. Один из раздосадованных участников, потративший больше недели на извлечение данных и обучение по ним модели, даже создает тему, в которой выкладывает все свои наработки, потому что теперь они бесполезны. Правда потом организаторы таки сдают назад, и пишут, что использовать внешние данные все таки можно, но только осторожно, ибо можно переобучиться и все такое. Изначально не было понятно, с какими конкретно финансовыми инструментами мы работаем.
Задачи участников соревнования
Также мы получили представление о производительности, которую мы можем ожидать, используя всего лишь один источник с данными. Чтобы понять данные, стоит оторваться от клавиатуры и почитать документацию, например описание колонок каждого файла. Так как используется несколько файлов, нужно понять, как они связаны между собой, хотя для первого notebook мы будем использовать один файл, чтобы упростить работу. Чтение других ядер также поможет нам ознакомиться с данными и понять, какие переменные важны.
DAYS_BIRTH, возраст заявителя в днях (отрицательное целое число), отрицательно коррелирует с EXT_SOURCE_1. Это может означать, что расчет EXT_SOURCE_1 включает возраст заявителя. Как правило, мы хотим избежать включения признака, который может быть линейно получен из другого признака (это называется линейной зависимостью), поскольку она предоставляет избыточную информацию для модели. Утечка данных от цели к признакам приводит к перегрузке модели. Но понять, почему утечка происходит в том или ином признаке, сложно.
Как начать соревноваться на Kaggle?
За годы своего существования проект взрастил большое комьюнити, которое позволяет прокачивать скилы, получать новые знания, решать практические задачи. При желании можно смотреть, что и как делают сильные участники комьюнити (в плане профессионализма, конечно, а не физической силы), и проверять собственные знания и навыки. Время от времени здесь публикуются статьи с упоминанием Kaggle.
Изучение проектов коллег позволяет обнаружить «белые пятна» в собственных знаниях, а также понять, какие хард-скилы нужно подтянуть. Kaggle, таким образом, помогает относительно быстро совершенствоваться. Например, это можно сделать, выбрав для начала относительно несложный конкурс. Kaggle предлагает пользователям собственную онлайн-среду, где можно писать Python/R-скрипты и работать в Jupyter Notebooks. Работа ведётся в браузере, причём без необходимости устанавливать библиотеки и зависимости. Наработками можно поделиться с сообществом, существует и возможность оценки работ других пользователей.
Решение, занявшее 5 место
Так, например, среди всех записей, для которых значение этой фичи равно нулю, дубликатов около 80%, тогда как среди записей, имеющих одного соседа, дубликатов меньше 40%. Ваш первоначальный анализ набора данных будет зависеть от типа данных, которые вы проверяете. Тем не менее, концепции в целом одинаковы для разных доменов, и приведенная ниже информация может быть адаптирована к вашей конкретной области.
Анализ подходов к решению задачи
Со временем поменялись архитектуры, регуляризация, процедуры обучения и многое другое — кроме, собственно, самой концепции свертки, которая долгое время считалась незыблемым и незаменимым строительным блоком компьютерного зрения. Так вот, начать стоит с выбора языка программирования, с которым вы планируете работать. Kaggle Learn даёт возможность закрепить свои знания по выбранному направлению и совершенствоваться дальше.
Leave a Reply