Основы машинного обучения

Весна 2021

Цель курса — Познакомить студентов с практическим анализом данных и машинным обучением, научить  их выбирать оптимальные алгоритмы и пайплайны с использованием Python.
По окончании курса и успешного итогового тестирования вы сможете пройти стажировку в МегаФоне с последующим трудоустройством.

Описание
Это совместный осенний курс от Mail.ru Group и МегаФона в Технопарке МГТУ им. Н. Э. Баумана.
На курсе вы познакомитесь с практическим анализом данных и машинным обучением, научитесь выбирать оптимальные алгоритмы и пайплайны с использованием Python, применять алгоритмы машинного обучения к практическим задачам.

Курс включает в себя 14 занятий на такие темы: введение в анализ данных, задачи классификации и регрессии, оценка качества моделей и работа с признаками, обучение без учителя, ансамбли моделей, работа с текстовыми данными, рекомендательные системы, анализ графов, работа с геоданными, AB-тесты, проведение экспериментов, базы данных, фреймворки для работы с большими данными, инфраструктура и основы Hadoop

 
Подробнее
Чему научитесь
В ходе изучения курса вы научитесь:
  • Извлекать полезную информацию из данных.
  • Применять алгоритмы машинного обучения к практическим задачам.
  • Обрабатывать изображения с использованием искусственных нейронных сетей.
  • Комплексно решать задачи машинного обучения.
Освоив данный курс, вы сможете работать с классическими и современными алгоритмами и использовать навыки в сферах информационных технологий, лингвистике, психологии, биологии, физике, картографии, банковском деле, экономике и управлении и т.д.
 
Подробнее

Преподаватели

Вадим Журавлёв Вадим Журавлёв

Окончил ВМК МГУ. Программист-исследователь в группе персонализации в Mail.ru Group

Иван Горбань Иван Горбань

Team Lead команды Гео и Ритейл в аналитике больших данных Мегафон

Андрей Тюкавин Андрей Тюкавин

Занимаюсь анализом геоданных в МегаФоне. Ранее работал в компании Урбика, занимался аналитикой дл...


Подробнее

Роман Васильев Роман Васильев

Закончил факультет ВМК МГУ. В МегаФоне уже почти 2 года. За это время решал самые разные задачи -...


Подробнее

Александр Морозов Александр Морозов

Занимаюсь работой с данными и моделями ML. Уже 5 лет занимаюсь базами данных и 4 года ещё занимал...


Подробнее

Андрей Шестаков Андрей Шестаков

Руководитель группы предиктивной аналитики

Георгий Господинов Георгий Господинов

Программист-исследователь, Mail.ru Group

Программа

занятие Часы в ауд. + сам. работа

Смешанное занятие №1: Введение в анализ данных и машинное обучение  

1) Постановка задачи машинного обучения
2) Классификация задач и их примеры
3) Библиотеки python для анализа данных (matplotlib, pandas, numpy)
4 ак. ч.

Смешанное занятие №2: Задачи классификации и регрессии  
+ ДЗ №1

1) Наивный Байесовский классификатор
2) Линейная регрессия
3) Метод ближайших соседей
4) Решающее дерево
5) Логистическая регрессия
Домашнее задание №1: ДЗ № 1
Первая часть: 
В качестве дз вам предлагается выполнить 2 задания:
hw1. Включает в себя глубокую практическую проработку тех теоретических основ, которые вы прошли на лекции с визуализацией.
hw2. Включает в себя решение задачи, которая была описана на занятии
https://drive.google.com/drive/folders/1N65v7sFdcfLZoyn_Gs3_gRLq_3JEs16n?usp=sharing
Вторая часть выложена. Состоит из двух пунктов:
1). Задание из архива MGTU_HW_TREES.7z
2). Набрать скор >0.52 тут: https://www.kaggle.com/c/mf-bd-mgtu
4 ак. ч.

Смешанное занятие №3: Оценка качества моделей и работа с признаками  

1) Оценка качества моделей
2) Работа с категориальными данными
3) Работа с пропущенными данными
4 ак. ч.

Смешанное занятие №4: Обучение без учителя  
+ ДЗ №2

1) Алгоритмы кластеризации
2) Kmeans, Иерархическая кластеризация, Спектральная кластеризация
3) Оценка качества кластеризации
4)Поиск ассоциативных правил
5) понижение размерности
Домашнее задание №2: ДЗ № 2
Задача на исследование алгоритмомов кластеризации
4 ак. ч.

Смешанное занятие №5: Ансамбли моделей  
+ ДЗ №3

1) Выбор оптимальных параметров модели
2) Ансамбли моделей
3) Бустинг, бегинг, стекинг
4) Случайный лес
5) Градиентный бустинг
Домашнее задание №3: Porn detection
https://www.kaggle.com/c/parkml2020/
4 ак. ч.

Смешанное занятие №6: Работа с текстовыми данными  
+ ДЗ №4

1) Предобработка текстовых данных, лемматизация | стемминг
2) Тематическое моделирование
3) Извлечение признаков, BoW, Word2vec
Домашнее задание №4: Обработка и распознавание текстов
https://www.kaggle.com/t/6b23f7b92b4b497e9aead739dd00ae1a
4 ак. ч.

Смешанное занятие №7: Рекомендательные системы  
+ ДЗ №5

1) Метрики для оценки работы рекомендательных систем. 
2) Виды рекомендательных систем: item2item, совстречаемости, 
неперсонализированные, персонализированные, коллоборативная фильтрация, матричная факторизация.
Домашнее задание №5: Рекомендательные системы
https://github.com/vadim0912/park_ML/tree/master/lecture07/HW
Заполненный на семинаре ноутбук seminar_and_HW.ipynb  + внутри ДЗ

Дедлайн - 30 ноября
Жесткий дедлайн - 7 декабря
4 ак. ч.

Смешанное занятие №8: Анализ графов  

1) Графы
2) Форматы представления сетевых данных
3) Меры центральности элементов сети
4) Выявление сообществ
4 ак. ч.

Смешанное занятие №9: Работа с гео-данными  
+ ДЗ №6

1) Особенности гео-данных
2) Проекции
3) Geo Pandas
4) Spatial joins
5) OSM
6) OSMnx
7) QGiS
Домашнее задание №6: ДЗ № 5
Исследовательская задача
4 ак. ч.

Смешанное занятие №10: AB тесты, проведение экспериментов  
+ ДЗ №7

1) Treatment and control groups. Проведение эксперимента. 
Рандомизация, стратификация, кластеризация выборки.
2) Difference in difference, Regression discontinuity, Propensity Score
3) Запуск AB-тестов
Домашнее задание №7: ДЗ № 6
Задание на написание А/В тестирование
4 ак. ч.

Смешанное занятие №11: Базы данных, фреймворки для работы с большими данными  
+ ДЗ №8

1) Реляционные базы данных. 
2) SQL. Аналитический SQL. PL/SQL
3) Big Data
4) Hadoop
Домашнее задание №8: ДЗ № 7
Задание на основы агрегации больших данных
4 ак. ч.

Смешанное занятие №12: Инфраструктура и основы Hadoop  

1) Парадигма MapReduce
2) Компоненты Hadoop
3) Hive
4) PySpark
4 ак. ч.

Экзамен №1: Экзамен  

Экзамен
4 ак. ч.

РАСПИСАНИЕ

Полное расписание