Sklearn pipeline - как я однажды разобрался с ним!

Это была практическая работа по созданию пайплайна. Был блокнот с готовым рабочим кодом. И задача,похожая на ту, что в блокноте. Казалось бы, что тут такого - взять и перевести все на пайтон, глядя на готовый ноутбук. Но я этого сделать не смог, промучавшись долгих 2 дня! Чего только я ни делал, но мой пайплайн не работал! Тогда я решил конкретно разобрать эту тему, что это за pipline, как они работают. Я заглянул в ColumnTransformer на примере “Титаника” и отработал весь код напайтоне, который записал здесь.

Image alt

“Вынос мозга” - картинка, сгенерированная нейросетью. Оригинал взят из теграмм-канала @ai_drowing

Изучить этот вопрос я решил вот на этом примере.

Мы будем использовать данные переписи населения США 1994 года, которые мы скачали с OpenML .

Вы можете посмотреть веб-страницу OpenML, чтобы узнать больше об этом наборе данных: .

Набор данных доступен в виде файла CSV (значения, разделенные запятыми), и мы будем использовать pandasего для чтения.

Хоть этот датасет оказался и не в формате csv, а в arff - это не страшно. Я его скачал в таком виде, потом залил на этот сайт, конвертировал и скачал готовый датасет в csv.

Вот здесь готовый ноутбук с датасетом, можно взять и все пошагово выполнить и изучить.

А вот здесь и еще вот здесь есть несколько датасетов для изучения, в том числе и в рамках этой статьи.

Скачивать любые файлаы можно через github.dev

Конвейеры (pipeline) можно не только создавать, но и визуализировать!

Written on February 6, 2023

Возврат на главную страницу