Проектирование хранилищ больших объемов данных

Осень 2019

Цель курса — подготовить будущих архитекторов хранилищ данных, дать студентам обширные знания в области проектирования процессов обработки больших объемов данных, научить делать обоснованный выбор архитектуры хранилища и выстраивать процесс внедрения от презентации концепции до полноценного функционирования системы.

- Умение доказать необходимость внедрения ХД.
- Умение выбрать между подходами к построению ХД по Кимбаллу и Инмону.
- Знание основных подходов к проектированию БД (OLAP, Data Vault, Anchor modeling) и умение сделать обоснованный выбор между ними.
- Умение проектировать потоки данных с помощью code-driven средств.
- Базовые навыки работы с MPP системами и Hadoop.
- Навык выбора СУБД, модели данных и ETL-инструмента адекватно задаче.

Подробнее

Не секрет, что объем накопленных данных в современном мире колоссален, и те компании, которые умеют извлекать из этих данных знания и монетизировать их, всегда будут на шаг впереди конкурентов.
Однако без должного подхода к организации работы с данными, их очистке, анализу и хранению, вместо ценного ресурса накопленные данные превращаются в неконтролируемуый хаос на балансе организации. 

3 ДЗ, итоговый проект, экзамен.

Формат сдачи курсовой и ДЗ. Для каждой курсовой\ДЗ создается отдельное пространство в облаке Mail.Ru; под каждое ДЗ создается отдельный пост на портале. Студенты прикрепляют ссылку на выполненное ДЗ в гугл. форме с возможностью комментирования.

Подробнее

Преподаватели

Екатерина Колпакова Екатерина Колпакова

Руководитель группы системной аналитики в Mail.Ru Group

Денис Корнилов Денис Корнилов

Big Data Инженер в Mail.Ru Group

Максим Лосников Максим Лосников

Руководитель группы ETL-разработки, рекламные технологии Mail.Ru Group

Артур Чакветадзе Артур Чакветадзе

Генерал NOZABBOYZ.
Люблю шутки про адаптивную вёрстку и saintkill.

Программа

занятие Часы в ауд. + сам. работа

Лекция №1: Введение  

Введение. Структура курса. Понятие и назначение хранилищ данных.
4 часа

Лекция №2: Классические подходы к построению хранилищ данных  

История развитий подходов к построению Хранилища данных. Билл Инмон. Ральф Кимбалл.
4 часа

Лекция №3: Схемы построения БД  

Проектирование схемы БД по схеме Data Vault, Anchor modeling. Разбор первого ДЗ.
4 часа

Семинар №1: Проектирование модели хранилища данных   + ДЗ №1

Построение моделей Звезда, Data Vault и Anchor Modelling на конкретном примере.
Домашнее задание №1: Домашнее задание 1
Спроектировать схему БД своего курсового проекта по выбранной методологии.
4 часа

Лекция №4: MPP-системы  

СУБД массивно-параллельной обработки (MPP). Майкл Стоунбрейкер. Классификация распределенных систем по Стоунбрейкеру. Особенности работы MPP-систем. Teradata. Vertica HP. GreenPlum. Оптимизация запросов в MPP системах.
4 часа

Смешанное занятие №1: Hadoop. Основные компоненты  

Hadoop и его основные компоненты: HDFS, MapReduce, YARN.
Практика на кластере: подключение к кластеру, запуск MapReduce задач.
4 часа

Смешанное занятие №2: Hadoop. Hive  

Hadoop. Знакомство с Hive.
Практика на кластере: основы работы с Hive, запуск простых запросов.
4 часа

Смешанное занятие №3: Hadoop. Spark   + ДЗ №2

Hadoop. Знакомство со Spark.
Практика на кластере: основы работы со Spark
Домашнее задание №2: Домашнее задание по Hadoop
Домашнее задание по Hadoop
4 часа

Лекция №5: Потоки данных ETL. Code-Driven ETL: Airflow.  

Процессы обработки потоков данных. ETL, требования к ETL. Организация потоков данных. Потоковая обработка и батч-обработка. Code-Driven ETL vs GUI-Driven ETL (проблема выбора инструмента).

Code-Driven ETL Airflow. Основные понятия, объекты и классы. Написание ETL-процессов с помощью python на airflow.
4 часа

Лекция №6: Качество и мониторинг данных. Построение хранилища данных как проект.  

Проблема качества данных. Data Quality Management и Data Governance. Тестирование данных. Поддержка и мониторинг. Средства Business Intelligence, обзор популярных BI инструментов. Инструменты для визуализации. Методы анализа данных (OLAP, Data mining).

Задача построения Хранилища данных как проект. Этапы классического проекта хранилища данных. Состав команды и основные роли. Критерии успешности проекта. Консультация перед экзаменом.
4 часа

Экзамен №1: Экзамен  

Прием Курсового проекта\ДЗ.
4 часа