Скачать 

[Skill branch] Data Science 2021 (Никита Варганов, Екатерина Ляпина)

Зарегистрируйтесь, чтобы посмотреть скрытый контент
Организатор
Организатор
Организую Складчины
Команда форума
Сообщения
603 784
Реакции
13 025
Монеты
325
Оплачено
1
Ссылка на картинку
Научитесь готовить данные для анализа и обучать ML модели.

Научитесь извлекать полезные данные из любых источников, анализировать поведение потребителей вашего продукта, быстро монетизировать полученную информацию с максимальной выгодой – станьте специалистом в области Data Science!

Вы научитесь:
1. Теория и практика

За время обучения вы получите серьезную теоретическую и практическую подготовку.
2. Реальные задачи
Основной упор делается на практическое применение Data Science в бизнесе. Пройдете практику под руководством опытных специалистов.
3. Прикладные задачи
Вы детально освоите особенности применения Data Science в банковской сфере на примере работы банковской сферы и не только.
4. Портфолио
Сформируете свое портфолио по специальности Data Science, характеризующее вас как компетентного специалиста.

Что будете иметь:
1. Постановка задачи и получение данных
2. Python и использование библиотек для анализа данных и машинного обучения
3. Выбор и обучение алгоритма машинного обучения
4. Выбор и анализ метрики качества алгоритма машинного обучения
5. Подготовка данных для алгоритмов машинного обучения
6. Обнаружение и визуализация данных для понимания их сущности
7. Настройка гиперпараметров модели
8. Поиск возможностей для улучшения качества модели
9. Проверка модели на реальных данных

Содержание:
Модуль 1 - Введение в машинное обучение

  • Что такое машинное обучение?
  • Для чего используется машинное обучение?
  • Какие типы задач можно решать с помощью машинного обучения?
  • Основные проблемы машинного обучения
  • Почему будем использовать python?
  • Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).
Модуль 2 - Основы Python
  • типы данных
  • ссылки на объекты
  • коллекции данных
  • логические операции
  • инструкции управления потоком выполнения
  • арифметические операторы
  • ввод / вывод
  • создание и вызов функций
Практика
  • Работа с объектами в Python, написание функций для работы с данными
Модуль 3 - Математика, необходимая в DS / ML
  • функция
  • производная, частная производная, градиент функции
  • теория вероятности: основные определения
  • определение вероятности, вычисление вероятностей сложных событий
  • распределение вероятностей, независимые и зависимые переменные
  • генеральные совокупности и выборки
  • центральная предельная теорема
  • меры центральной тенденции, меры разброса
  • выбросы
Практика
  • реализация указанных математических сущностей на Python
Модуль 4 - Управление данными и их интерпретация
  • введение в массивы библиотеки NumPy
  • выполнение вычислений над массивами NumPy
  • сравнения, макси и булева логика в NumPy
  • сортировка массивов NumPy
  • введение в библиотеку pandas
  • операции над данными в библиотеке pandas
  • объединение наборов данных: конкатенация, слияние и соединение
  • агрегирование и группировка в pandas
  • сводные таблицы в pandas
  • векторизованные операции и методы повышения производительности pandas
  • визуализация данных с помощью matplotlib
  • линейные графики и диаграммы рассеяния в matplotlib
  • графики плотности, гистограммы в matplotlib
  • настройка легенды на графикам, тексты и поясняющие надписи
  • множественные графики
Практика
  • векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn
Модуль 5 - Линейные модели
  • измерение ошибки в задачах регрессии
  • обучение линейной регрессии
  • градиентный спуск и модификация градиентного спуска
  • интерпретация коэффициентов линейной регрессии
  • подготовка данных для линейной модели
  • оценка качества моделей
  • регуляризация линейной модели и гиперпараметры
Практика
  • реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.
Модуль 6 - Логистическая регрессия
  • измерение ошибки в задачах бинарной классификации
  • оценивание вероятностей
  • переобучение, кривые обучения, кривые валидации
  • интерпретация коэффициентов логистической регрессии
  • границы решения
Практика
  • реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.
Модуль 7 - Решающие деревья
  • обучение и визуализация дерева принятия решений
  • применение дерева для получения прогнозов
  • оценивание вероятностей классов
  • оценивание непрерывной величины
  • алгоритм обучения CART
  • вычислительная сложность деревьев решений
  • выбор критериев разбиения
  • гиперпараметры, регуляризация, неустойчивость деревьев решений
Практика
  • обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.
Опционально
  • самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.
Модуль 8 - Бэггинг, случайный лес
  • разложение ошибки на смещение и дисперсию
  • бутстрап, бэггинг, out-of-bag ошибка
  • метод случайных подпространств
  • случайный лес
  • экстремально случайные деревья
  • работа с текстовыми данными
  • оценка важности признаков
Практика
  • самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.
Опционально
  • самостоятельная реализация модели случайного леса для задачи классификации и регрессии.
Модуль 9 - Градиентный бустинг
  • бустинг как направленная композиция алгоритмов
  • AdaBoost
  • XGBoost
  • LightGBM
  • CatBoost
Практика
  • сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.
Модуль 10 - Важность признаков и методы снижения размерности
  • Встроенные методы оценки важности признаков, + / -
  • Оценка важности признаков на основе перестановок
  • SHAP для оценки важности признаков и интерпретации blackbox-моделей
  • Проблема проклятия размерности
  • PCA для снижения размерности
  • Анализ главных компонент
Практика
  • использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.
Модуль 11 - Обучение без учителя (кластеризация)
  • опциональная лекция
Модуль 12 - Основы А-Б тестирования
  • распределение вероятностей
  • независимые и зависимые переменные
  • проверка гипотез
  • доверительные интервалы
  • p-value, z-статистика
  • проверка гипотез с помощью t - критерия
  • проверка гипотез для долей
Практика
  • моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.
Модуль 13 - Полный проект машинного обучения (основные этапы + демонстрация)
  • работа с реальными данными
  • постановка задачи
  • получение данных
  • обнаружение и визуализация данных для понимания их сущности
  • подготовка данных для алгоритмов машинного обучения
  • выбор и обучение модели
  • настройка гиперпараметров модели
  • анализ ошибок / поиск возможностей для улучшения качества модели
  • проверка модели на реальных данных
  • запуск и сопровождение модели
Показать больше
 
Зарегистрируйтесь , чтобы посмотреть авторский контент.
Поиск по тегу:
Теги
data engineer data science machine learning python skill branch анализ данных высшая математика екатерина ляпина математика машинное обучение никита варганов оптимизация програмирование
Похожие складчины
Найти больше схожих складчин

Зарегистрируйте учетную запись

У вас появится больше возможностей!

Создать учетную запись

Пройдите быструю регистрацию

Войти

Уже зарегистрированы? Войдите.

Сверху