[Skill branch] Data Science 2021 (Никита Варганов, Екатерина Ляпина)

Организатор · 6 Авг 2021

Научитесь готовить данные для анализа и обучать ML модели.

Научитесь извлекать полезные данные из любых источников, анализировать поведение потребителей вашего продукта, быстро монетизировать полученную информацию с максимальной выгодой – станьте специалистом в области Data Science!

Вы научитесь:
1. Теория и практика
За время обучения вы получите серьезную теоретическую и практическую подготовку.
2. Реальные задачи
Основной упор делается на практическое применение Data Science в бизнесе. Пройдете практику под руководством опытных специалистов.
3. Прикладные задачи
Вы детально освоите особенности применения Data Science в банковской сфере на примере работы банковской сферы и не только.
4. Портфолио
Сформируете свое портфолио по специальности Data Science, характеризующее вас как компетентного специалиста.

Что будете иметь:
1. Постановка задачи и получение данных
2. Python и использование библиотек для анализа данных и машинного обучения
3. Выбор и обучение алгоритма машинного обучения
4. Выбор и анализ метрики качества алгоритма машинного обучения
5. Подготовка данных для алгоритмов машинного обучения
6. Обнаружение и визуализация данных для понимания их сущности
7. Настройка гиперпараметров модели
8. Поиск возможностей для улучшения качества модели
9. Проверка модели на реальных данных

Содержание:
Модуль 1 - Введение в машинное обучение

Что такое машинное обучение?

Для чего используется машинное обучение?

Какие типы задач можно решать с помощью машинного обучения?

Основные проблемы машинного обучения

Почему будем использовать python?

Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).

Модуль 2 - Основы Python

типы данных

ссылки на объекты

коллекции данных

логические операции

инструкции управления потоком выполнения

арифметические операторы

ввод / вывод

создание и вызов функций

Практика

Работа с объектами в Python, написание функций для работы с данными

Модуль 3 - Математика, необходимая в DS / ML

функция

производная, частная производная, градиент функции

теория вероятности: основные определения

определение вероятности, вычисление вероятностей сложных событий

распределение вероятностей, независимые и зависимые переменные

генеральные совокупности и выборки

центральная предельная теорема

меры центральной тенденции, меры разброса

выбросы

Практика

реализация указанных математических сущностей на Python

Модуль 4 - Управление данными и их интерпретация

введение в массивы библиотеки NumPy

выполнение вычислений над массивами NumPy

сравнения, макси и булева логика в NumPy

сортировка массивов NumPy

введение в библиотеку pandas

операции над данными в библиотеке pandas

объединение наборов данных: конкатенация, слияние и соединение

агрегирование и группировка в pandas

сводные таблицы в pandas

векторизованные операции и методы повышения производительности pandas

визуализация данных с помощью matplotlib

линейные графики и диаграммы рассеяния в matplotlib

графики плотности, гистограммы в matplotlib

настройка легенды на графикам, тексты и поясняющие надписи

множественные графики

Практика

векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn

Модуль 5 - Линейные модели

измерение ошибки в задачах регрессии

обучение линейной регрессии

градиентный спуск и модификация градиентного спуска

интерпретация коэффициентов линейной регрессии

подготовка данных для линейной модели

оценка качества моделей

регуляризация линейной модели и гиперпараметры

Практика

реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.

Модуль 6 - Логистическая регрессия

измерение ошибки в задачах бинарной классификации

оценивание вероятностей

переобучение, кривые обучения, кривые валидации

интерпретация коэффициентов логистической регрессии

границы решения

Практика

реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.

Модуль 7 - Решающие деревья

обучение и визуализация дерева принятия решений

применение дерева для получения прогнозов

оценивание вероятностей классов

оценивание непрерывной величины

алгоритм обучения CART

вычислительная сложность деревьев решений

выбор критериев разбиения

гиперпараметры, регуляризация, неустойчивость деревьев решений

Практика

обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.

Опционально

самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.

Модуль 8 - Бэггинг, случайный лес

разложение ошибки на смещение и дисперсию

бутстрап, бэггинг, out-of-bag ошибка

метод случайных подпространств

случайный лес

экстремально случайные деревья

работа с текстовыми данными

оценка важности признаков

Практика

самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.

Опционально

самостоятельная реализация модели случайного леса для задачи классификации и регрессии.

Модуль 9 - Градиентный бустинг

бустинг как направленная композиция алгоритмов

AdaBoost

XGBoost

LightGBM

CatBoost

Практика

сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.

Модуль 10 - Важность признаков и методы снижения размерности

Встроенные методы оценки важности признаков, + / -

Оценка важности признаков на основе перестановок

SHAP для оценки важности признаков и интерпретации blackbox-моделей

Проблема проклятия размерности

PCA для снижения размерности

Анализ главных компонент

Практика

использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.

Модуль 11 - Обучение без учителя (кластеризация)

опциональная лекция

Модуль 12 - Основы А-Б тестирования

распределение вероятностей

независимые и зависимые переменные

проверка гипотез

доверительные интервалы

p-value, z-статистика

проверка гипотез с помощью t - критерия

проверка гипотез для долей

Практика

моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.

Модуль 13 - Полный проект машинного обучения (основные этапы + демонстрация)

работа с реальными данными

постановка задачи

получение данных

обнаружение и визуализация данных для понимания их сущности

подготовка данных для алгоритмов машинного обучения

выбор и обучение модели

настройка гиперпараметров модели

анализ ошибок / поиск возможностей для улучшения качества модели

проверка модели на реальных данных

запуск и сопровождение модели