Основы машинного обучения

Осень 2020

Цель курса — Познакомить студентов с практическим анализом данных и машинным обучением, научить  их выбирать оптимальные алгоритмы и пайплайны с использованием Python.
По окончании курса и успешного итогового тестирования вы сможете пройти стажировку в МегаФоне с последующим трудоустройством.

Описание
Это совместный осенний курс от Mail.ru Group и МегаФона в Технопарке МГТУ им. Н. Э. Баумана.
На курсе вы познакомитесь с практическим анализом данных и машинным обучением, научитесь выбирать оптимальные алгоритмы и пайплайны с использованием Python, применять алгоритмы машинного обучения к практическим задачам, обрабатывать изображения с использованием искусственных нейронных сетей.
Курс включает в себя 14 занятий на такие темы: введение в анализ данных, задачи классификации и регрессии, оценка качества моделей и работа с признаками, обучение без учителя, ансамбли моделей, работа с текстовыми данными, рекомендательные системы, анализ графов, работа с геоданными, AB-тесты, проведение экспериментов, базы данных, фреймворки для работы с большими данными, инфраструктура и основы Hadoop

 
Подробнее
Чему научитесь
В ходе изучения курса вы научитесь:
  • Извлекать полезную информацию из данных.
  • Применять алгоритмы машинного обучения к практическим задачам.
  • Обрабатывать изображения с использованием искусственных нейронных сетей.
  • Комплексно решать задачи машинного обучения.
Освоив данный курс, вы сможете работать с классическими и современными алгоритмами и использовать навыки в сферах информационных технологий, лингвистике, психологии, биологии, физике, картографии, банковском деле, экономике и управлении и т.д.
 
Подробнее

Преподаватели

Вадим Журавлёв Вадим Журавлёв

Окончил ВМК МГУ. Программист-исследователь в группе персонализации в Mail.ru Group

Иван Горбань Иван Горбань

Team Lead команды Гео и Ритейл в аналитике больших данных Мегафон

Андрей Тюкавин Андрей Тюкавин

Занимаюсь анализом геоданных в МегаФоне. Ранее работал в компании Урбика, занимался аналитикой дл...


Подробнее

Роман Васильев Роман Васильев

Закончил факультет ВМК МГУ. В МегаФоне уже почти 2 года. За это время решал самые разные задачи -...


Подробнее

Юлия Тувалева Юлия Тувалева

Картограф, геоаналитик в Мегафон, раньше занималась анализом городской среды в Habidatum.

Александр Морозов Александр Морозов

Занимаюсь работой с данными и моделями ML. Уже 5 лет занимаюсь базами данных и 4 года ещё занимал...


Подробнее

Андрей Шестаков Андрей Шестаков

Руководитель группы предиктивной аналитики

Программа

занятие Часы в ауд. + сам. работа

Смешанное занятие №1: Вводная лекция  

Вводная лекция
4 ак. ч.

Смешанное занятие №2: Введение в анализ данных и машинное обучение  
+ ДЗ №1

1) Постановка задачи машинного обучения
2) Классификация задач и их примеры
3) Библиотеки python для анализа данных (matplotlib, pandas, numpy)
Домашнее задание №1: ДЗ № 1
Построить алгоритмы, задачи на визуализацию данных
4 ак. ч.

Смешанное занятие №3: Задачи классификации и регрессии  

1) Наивный Байесовский классификатор
2) Линейная регрессия
3) Метод ближайших соседей
4) Решающее дерево
5) Логистическая регрессия
4 ак. ч.

Смешанное занятие №4: Оценка качества моделей и работа с признаками  

1) Оценка качества моделей
2) Работа с категориальными данными
3) Работа с пропущенными данными
4 ак. ч.

Смешанное занятие №5: Обучение без учителя  
+ ДЗ №2

1) Алгоритмы кластеризации
2) Kmeans, Иерархическая кластеризация, Спектральная кластеризация
3) Оценка качества кластеризации
4)Поиск ассоциативных правил
5) понижение размерности
Домашнее задание №2: ДЗ № 2
Задача на исследование алгоритмомов кластеризации
4 ак. ч.

Смешанное занятие №6: Ансамбли моделей  

1) Выбор оптимальных параметров модели
2) Ансамбли моделей
3) Бустинг, бегинг, стекинг
4) Случайный лес
5) Градиентный бустинг
4 ак. ч.

Смешанное занятие №7: Работа с текстовыми данными  
+ ДЗ №3

1) Предобработка текстовых данных, лемматизация | стемминг
2) Тематическое моделирование
3) Извлечение признаков, BoW, Word2vec
Домашнее задание №3: ДЗ № 3
Задание на предобработку текстов данных /классификация
4 ак. ч.

Смешанное занятие №8: Рекомендательные системы  
+ ДЗ №4

1) Метрики для оценки работы рекомендательных систем. 
2) Виды рекомендательных систем: item2item, совстречаемости, 
неперсонализированные, персонализированные, коллоборативная фильтрация, матричная факторизация.
Домашнее задание №4: ДЗ № 4
Задание на построение рекомендательных систем
4 ак. ч.

Смешанное занятие №9: Анализ графов  

1) Графы
2) Форматы представления сетевых данных
3) Меры центральности элементов сети
4) Выявление сообществ
4 ак. ч.

Смешанное занятие №10: Работа с гео-данными  
+ ДЗ №5

1) Особенности гео-данных
2) Проекции
3) Geo Pandas
4) Spatial joins
5) OSM
6) OSMnx
7) QGiS
Домашнее задание №5: ДЗ № 5
Исследовательская задача
4 ак. ч.

Смешанное занятие №11: AB тесты, проведение экспериментов  
+ ДЗ №6

1) Treatment and control groups. Проведение эксперимента. 
Рандомизация, стратификация, кластеризация выборки.
2) Difference in difference, Regression discontinuity, Propensity Score
3) Запуск AB-тестов
Домашнее задание №6: ДЗ № 6
Задание на написание А/В тестирование
4 ак. ч.

Смешанное занятие №12: Базы данных, фреймворки для работы с большими данными  

1) Реляционные базы данных. 
2) SQL. Аналитический SQL. PL/SQL
3) Big Data
4) Hadoop
4 ак. ч.

Смешанное занятие №13: Инфраструктура и основы Hadoop  
+ ДЗ №7

1) Парадигма MapReduce
2) Компоненты Hadoop
3) Hive
4) PySpark
Домашнее задание №7: ДЗ № 7
Задание на основы агрегации больших данных
4 ак. ч.

Экзамен №1: Экзамен  

Экзамен
4 ак. ч.

РАСПИСАНИЕ

Полное расписание