OTUS

Data Engineer

  • Язык: Русский
  • Осталось мест: не ограничено
Записаться

Data Engineer

Для кого этот курс?

Для разработчиков. Сможете выполнять специфические задачи, с которыми справится только дата-инженер.

Для системных администраторов. Научитесь работать с Hadoop, Greenplum, Сlickhouse; познакомитесь с новыми системами данных.

Для архитекторов. Узнаете о продвинутых системах больших данных, изучите лямбда-архитектуру, каппа-архитектуру, подход Data Lakehouse.

Необходимые знания

  • Опыт разработки на Java/Python
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH

Будет плюсом

  • Навыки работы с Docker
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика

Построй план своего карьерного развития

Программа обучения
  • Введение

    Введение в профессию. Кто такой Инженер Данных. Какие задачи он решает. Архитектура систем.

    Тема 1: Инженер данных. Задачи, навыки, инструменты, потребность на рынке

    Тема 2: Архитектура систем обработки данных

    Тема 3: Выбор технологий. Облачные технологии

    Тема 4: Docker

  • DWH

    Что это такое Хранилища Данных. Для чего используются. Как их проектировать и как с ними работать.

    Тема 1: Что такое DWH

    Тема 2: Проектирование DWH

    Тема 3: Модели данных в DWH

    Тема 4: Greenplum

    Тема 5: ClickHouse

    Тема 6: Разбор ДЗ по 2 модулю

  • Хранение данных

    Озёра Данных. Распределённые файловые системы. Что это такое. Для чего используются. Как с ними работать.

    Тема 1: Основы Hadoop

    Тема 2: Знакомство с Data Lake

    Тема 3: Распределенные файловые системы

    Тема 4: NoSQL. Key-Value

    Тема 5: NoSQL. Wide-column

    Тема 6: ELK

    Тема 7: ELK (практика)

  • Загрузка данных

    Изучаем загрузку и обработку данных. Организация конвейеров обработки.

    Тема 1: Загрузка данных

    Тема 2: Apache Kafka

    Тема 3: Apache Ni-Fi. Выгрузка данных из внешних систем

    Тема 4: Apache Airflow. Введение в автоматизацию пайплайнов и оркестрацию

    Тема 5: Apache Airflow. Сложные пайплайны

  • Запросы к данным и трансформация

    Изучаем как формулировать запросу к данным, как проводить трансформации.

    Тема 1: Аналитические запросы

    Тема 2: Apache Hive. SQL доступ к Hadoop

    Тема 3: Apache Spark. Архитектура приложения

    Тема 4: Apache Spark. API

    Тема 5: Обработка потоковых данных

  • Предоставление данных для аналитики и машинного обучения

    Управление данными. Качество данных. BI

    Тема 1: Предоставление данных

    Тема 2: Data Quality. Управление качеством данных

    Тема 3: Управление метаданными

    Тема 4: Основы Business Intelligence

    Тема 5: Развертывание BI-решения

  • DataOps

    Data + DevOps = DataOps

    Тема 1: DevOps практики. CI + CD

    Тема 2: Мониторинг

    Тема 3: Разбор ДЗ по 3 и 4 модулю

  • Выпускной проект

    Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.

    Тема 1: Выбор темы и организация проектной работы

    Тема 2: Консультация по проектам и домашним заданиям

    Тема 3: Защита проектных работ

Преподаватели

  • Кирилл Дикалин

    Руководитель направления аналитической инфраструктуры

  • Василий Сушко

  • Николай Осипов

    MLOps Engineer

Закрыть меню