Sklearn pipeline - как я однажды разобрался с ним!
Это была практическая работа по созданию пайплайна. Был блокнот с готовым рабочим кодом. И задача,похожая на ту, что в блокноте. Казалось бы, что тут такого - взять и перевести все на пайтон, глядя на готовый ноутбук. Но я этого сделать не смог, промучавшись долгих 2 дня! Чего только я ни делал, но мой пайплайн не работал! Тогда я решил конкретно разобрать эту тему, что это за pipline, как они работают. Я заглянул в ColumnTransformer на примере “Титаника” и отработал весь код напайтоне, который записал здесь.
“Вынос мозга” - картинка, сгенерированная нейросетью. Оригинал взят из теграмм-канала @ai_drowing
Изучить этот вопрос я решил вот на этом примере.
Мы будем использовать данные переписи населения США 1994 года, которые мы скачали с OpenML .
Вы можете посмотреть веб-страницу OpenML, чтобы узнать больше об этом наборе данных: .
Набор данных доступен в виде файла CSV (значения, разделенные запятыми), и мы будем использовать pandasего для чтения.
Хоть этот датасет оказался и не в формате csv, а в arff - это не страшно. Я его скачал в таком виде, потом залил на этот сайт, конвертировал и скачал готовый датасет в csv.
Вот здесь готовый ноутбук с датасетом, можно взять и все пошагово выполнить и изучить.
А вот здесь и еще вот здесь есть несколько датасетов для изучения, в том числе и в рамках этой статьи.
Скачивать любые файлаы можно через github.dev
Конвейеры (pipeline) можно не только создавать, но и визуализировать!