Постер курса

OTUS

DataOps Engineer

  • Начальный уровень
  • Наставник: Нет
  • Сертификат: Нет
  • Формат: Online
  • Рассрочка: Нет
  • Язык: Русский
  • Осталось мест: Неограничено
Записаться

DataOps Engineer

Что даст вам этот курс


DataOps Engineer - это профессия будущего, на которую уже есть огромный спрос и нехватка специалистов.

Кроме стандартных тем (Hadoop, MLOps, оркестрация) мы рассмотрим полный набор инструментов и практик Data Governance (управления данными) - metadata management, data quality, data integration, data discovery, data linage, BI

Этот курс подходит вам, если вы:

- уже умеете работать с данными, но хотите развить знания в инфраструктуре, на которой они работают;

- либо умеете работать с инфраструктурой, но хотите получить специфические знания именно в области работы с данными.

Что разберем на курсе:

Вопросы администрирования Hadoop-кластеров (включая вопросы безопасности!;

Особенности деплоя ETL-процессов, Spark-джоб, приложений обработки данных в реальном времени;

Архитектуру нескольких MPP-баз (Vertica, Greenplum, ClickHouse, ...);

Сервисы и практики Data Governance (BI, data catalog, data linage, CDC, data injestion, data quality, notebooks);

Практики MLOps (деплой моделей, мониторинг экспериментов, оркестрация).

Карта курсов направления Data Science в OTUS

Выпускной проект


Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Это отдельная работа, на выполнение которой отводится последний месяц обучения.На данном курсе в качестве выпускного проекта будет построение data инфраструктуры для различных применений:1. Решение для интеграции данных2. ML-платформа3. CI/CD для процессов обработки данных4. Решение по управлению мета-информацией о данных5. Аналитическая песочница

Процесс обучения


Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Программа обучения
Введение
  • Тема 1. Вводное занятие
  • Тема 2. Архитектуры систем обработки данных (1 часть)
  • Тема 3. Архитектуры систем обработки данных (2 часть)
Необходимые инструменты
  • Тема 4. Облака и on-premise
  • Тема 5. Terraform
  • Тема 6. Ansible
  • Тема 7. Docker
  • Тема 8. Q&A
ETL
  • Тема 9. Data Storage
  • Тема 10. Дизайн ETL
  • Тема 11. Data Ingestion
  • Тема 12. Фреймворки для обработки данных
  • Тема 13. Оркестрация
Хранилища и платформы
  • Тема 14. Архитектура аналитических БД
  • Тема 15. SQL-движки Hive, Presto, Impala
  • Тема 16. Vertica
  • Тема 17. GreenPlum
  • Тема 18. ClickHouse
  • Тема 19. Q&A
Hadoop
  • Тема 20. Hadoop
  • Тема 21. Развертывание Hadoop
  • Тема 22. Мониторинг Hadoop
  • Тема 23. Безопасность Hadoop
Практики Data Governance
  • Тема 24. Практики Data Governance
  • Тема 25. Управление метаданными
  • Тема 26. Контроль качества данных
  • Тема 27. Организация песочницы
MLOps
  • Тема 28. Практики MLOps
  • Тема 29. Инфраструктура для исследований
  • Тема 30. Контроль качества моделей
  • Тема 31. Версионирование данных
  • Тема 32. Варианты деплоя моделей - REST
  • Тема 33. Варианты деплоя моделей - Spark
  • Тема 34. CI, мониторинг и логирование для фреймворков обработки данных
Проектный модуль
  • Тема 35. Выбор темы и организация проектной работы + Консультация по проектам и домашним заданиям
  • Тема 36. Защита проектных работ + Подведение итогов курса
Что нужно знать?
  • Базовые знания SQL
  • - Отличное знание Linux
  • - Умения работы с Docker
Знания и навыки, которые приобретете
  • Если у вас есть соответствующее профильное образование, вы можете получить удостоверение о повышении квалификации.;
  • В результате обучения вы:
  • Научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

Преподаватели

  • Рустем Галиев

    Senior DevOps инженер в компании IBM

    Опыт работы более 5 лет. Имею опыт работы в крупных компаниях, банковской сфере и стартапах. Начинал свой путь как разработчик и из разработки ушел в эксплуатацию и инженерию.23 сертификата от IBM и 3 сертификата от GoogleВ работе предпочитаю использовать подход Source to Code и Infrastructure to Code, автоматизирую большую часть процессов и этапов при разработке и эксплуатации программного обеспеченияЗакончил Bialystok University of Technology по направлению Computer Science - BioinformaticsВеду IT-блог в instagram на странице devoopser.Стэк технологий:Cloud: IBM Cloud, AWS, OpenstackCI/CD: TeamCity+Octopus, Jenkins, Gitlab CI/CDContainers: Docker, OpenshiftOrchestration: Docker swarm, KubernetesOS: CentOS 7, Ubuntu, AlpineSoftware provisioning: Ansible, TerraformScripts: bash, pythonMonitoring: Prometheus+Alertmanager, LogDNAAutomated code review: Sonarqube Преподаватель

  • Максим Пантелеев

    Специалист по машинному обучению и разработке (BigData). Работал в таких компаниях как Mail.Ru Group, Wamba, NVidia, Sber, Megafon, Техносерв Консалтинг, где реализовывал практические кейсы применения машинного обучения полного цикла - прогнозирование временных рядов, детектирование аномалий, системы анализа соц. медиа поля (NLP), рекомендательные системы в ритейле и тд, так и HighLoad практическая реализация этих кейсов в продуктивном окружении - Hadoop, Spark, Flink, Kafka и тдДолгое время занимался преподаванием курсов по машинному обучению и технологиям BigData в таких организациях как тренинговый Центр Люксофт, ВШЭ Преподаватель

  • Егор Матешук

    CDO AdTech-компании Квант

    Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений. До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика. Руководитель программы

  • Роман Богатов

    Руководитель аналитической разработки, Emerging Travel Group

    Более 10 лет развивает аналитику в компании. Среди достижений: - Построение собственной системы сквозной вебаналитики;- Построение аналитического хранилища на базе MPP Vertica;- Организация процессинга данных на базе Spark, Kafka, HDFS;- Выстраивание процессов работы с данными, включая data quality;- Создание нескольких внутренних инстументов по работе и структурированию метаданных (Data Catalog);- Построение системы корпоративной отчетности, в том числе realtime;- Более 5 лет повышает Data Literacy внутри компании, проводя различные тренинги по работе с данными, инструментами, SQL;Также вырастил несколько руководителей аналитики, которые теперь работают в крупных компаниях.Основной фокус на понимании проблем бизнеса при работе с данными и их решение. Преподаватель

  • Александра Чащина

    Выпускница магистерской программы “Informatique pour la Science de Données (Big Data)” университета Париж-Сакле. С 2018 года специализируется на больших данных. Участвует в проектах разработки аналитических платформ данных, а также платформ обработки данных в режиме реального времени на 10000+ пользователей. Имеет сертификаты Databricks Spark&Scala и RedHat DevOps. В настоящее время работает со стриминговой обработкой (Kafka), а также внедряет практики DataOps (Gitlab CI/CD, Kubernetes, Liquibase, Airflow). Преподаватель

  • Дарья Абдуллина

    TeamLead отдела BigData, DeltaSolutions

    Закончила магистратуру в МГТУ им. Баумана в 2013 году, по специальности Программное обеспечение ЭВМ и информационные технологии, кафедра ИУ-7. Стаж работы более 10 лет. Успела поработать на разных языках программирования - C#, Java, Python, Scala. Большими данными занимаюсь с 2014.Учавствовала в запуске множества проектов различной сложности - от небольших проектов с парной разработкой сервисов на Java, до больших сложных систем на базе Cloudera и Hortonworks для обратки петабайтов данных. Участвовала в проектах для операторов связи на территории России и СНГ. Разрабатывала внутренний инструментарий для решения задач в стеке Hadoop. Есть опыт работы практически со всем "зоопарком" Hadoop - hbase, hive, spark, oozie, impala, MapReduce, Kafka, YARN, Solr. Преподаватель

  • Артем Токачев

    Закончил БГУИР по специальности "Программист. Бизнес-аналитик". Опыт промышленной разработки - 4.5 года. Программировал на Ruby, Elixir, JavaScript, Python. Начинал как веб-разработчик, потом перешёл в работу с данными. Занимался инжинирингом данных в сфере страхования и гэмблинга. Преподаватель