Проектирование хранилищ больших объемов данных

Цель курса — подготовить будущих архитекторов хранилищ данных, дать студентам обширные знания в области проектирования процессов обработки больших объемов данных, научить делать обоснованный выбор архитектуры хранилища и выстраивать процесс внедрения от презентации концепции до полноценного функционирования системы.

- Умение доказать необходимость внедрения ХД.
- Умение выбрать между подходами к построению ХД по Кимбаллу и Инмону.
- Знание основных подходов к проектированию БД (OLAP, Data Vault, Anchor modeling) и умение сделать обоснованный выбор между ними.
- Умение проектировать потоки данных с помощью code-driven средств.
- Базовые навыки работы с MPP системами и Hadoop.
- Навык выбора СУБД, модели данных и ETL-инструмента адекватно задаче.

Подробнее

Не секрет, что объем накопленных данных в современном мире колоссален, и те компании, которые умеют извлекать из этих данных знания и монетизировать их, всегда будут на шаг впереди конкурентов.
Однако без должного подхода к организации работы с данными, их очистке, анализу и хранению, вместо ценного ресурса накопленные данные превращаются в неконтролируемуый хаос на балансе организации. 

3 ДЗ, итоговый проект, экзамен.

Формат сдачи курсовой и ДЗ. Для каждой курсовой\ДЗ создается отдельное пространство в облаке Mail.Ru; под каждое ДЗ создается отдельный пост на портале. Студенты прикрепляют ссылку на выполненное ДЗ в гугл. форме с возможностью комментирования.

Подробнее

Преподаватели

Евгений Ермаков Евгений Ермаков

Руководитель подразделения DWH Рекламных технологий Mail.ru Group


ОБРАЗОВАНИЕ

Подробнее

Денис Корнилов Денис Корнилов

Big Data Инженер в Mail.Ru Group

Екатерина Колпакова Екатерина Колпакова

Ведущий аналитик в Mail.Ru Group

Программа

занятие Часы в ауд. + сам. работа

Лекция №1: Введение   + ДЗ №1

Введение. Структура курса. Понятие и назначение хранилищ данных. История развитий подходов к построению Хранилища данных. Билл Инмон. Ральф Кимбалл. Сходы
Домашнее задание №1: Домашнее задание 1
Получить тему курсового проекта и понять, как с этим жить дальше.
4 часа

Лекция №2: Построение хранилищ  

Основы реляционной алгебры. Нормальные формы от 1й до 6й. Кристофер Дейт. Эдгарр Кодд. Современные подходы к построению хранилища. Data Vault, Anchor modeling.
4 часа

Семинар №1: Схемы построения БД   + ДЗ №2

Проектирование схемы БД по схеме Data Vault, Anchor modeling. Разбор первого ДЗ.
Домашнее задание №2: Домашнее задание 2
Спроектировать схему БД своего курсового проекта по выбранной методологии.
4 часа

Лекция №3: MPP-системы  

СУБД массивно-параллельной обработки (MPP). Майкл Стоунбрейкер. Классификация распределенных систем по Стоунбрейкеру. Особенности работы MPP-систем. Teradata. Vertica HP. GreenPlum. Оптимизация запросов в MPP системах.
4 часа

Лекция №4: Экосистема Hadoop и ее основные компоненты  

Экосистема Hadoop и ее основные компоненты. Работа HDFS. MapReduce. Hive. Spark. Оптимизация запросов в Spark.
4 часа

Семинар №2: Работа с облаком   + ДЗ №3

Работа с облаком mail.ru. Разворачивание в облаке и работа с MPP СУБД. Разворачивание в облаке и работа с Hadoop.
Домашнее задание №3: Домашнее задание 3
Перенести схему своей БД в MPP или Hadoop в облаке mail.ru.
4 часа

Лекция №5: Потоки данных ETL  

Процессы обработки потоков данных. ETL, требования к ETL. Организация потоков данных. Потоковая обработка и батч-обработка. Code-Driven ETL vs GUI-Driven ETL (проблема выбора инструмента)
4 часа

Лекция №6: Качество, тестирование и мониторинг данных  

Проблема качества данных. Data Quality Management и Data Governance. Тестирование данных. Поддержка и мониторинг. Средства Business Intelligence, обзор популярных BI инструментов. Инструменты для визуализации. Методы анализа данных (OLAP, Data mining).
4 часа

Семинар №3: Code-Driven ETL Airflow   + ДЗ №4

Code-Driven ETL Airflow. Основные понятия, объекты и классы. Написание ETL-процессов с помощью python на airflow.
Домашнее задание №4: Домашнее задание 4
Написать ETL процессы прогрузки данных в хранилище, построить аналитические срезы с помощью BI-инструмента.
4 часа

Лекция №7: Построение хранилища данных: проект  

Задача построения Хранилища данных как проект. Этапы классического проекта хранилища данных. Состав команды и основные роли. Критерии успешности проекта. Консультация перед экзаменом.
4 часа

Экзамен №1: Экзамен  

Прием Курсового проекта\ДЗ.
4 часа