Постер курса

OTUS

Spark Developer

  • Продвинутый уровень
  • Наставник: Есть
  • Сертификат: Есть
  • Формат: Online
  • Рассрочка: Нет
  • Язык: Русский
  • Осталось мест: Неограничено
Записаться

Spark Developer

Что даст вам этот курс


Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Выпускной проект


В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:- Загрузку данных из источников- Простой Data Lake на основе этих данных с использованием Hive- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения


Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Программа обучения
Scala
  • Тема 1. Основы Scala
  • Тема 2. Сборка проектов на Scala
  • Тема 3. Сборка проектов на Scala. Практика
Hadoop
  • Тема 4. Hadoop
  • Тема 5. HDFS
  • Тема 6. YARN
  • Тема 7. Форматы данных
  • Тема 8. Q&A
Spark
  • Тема 9. Архитектура приложения Spark
  • Тема 10. RDD/Dataframe/Dataset
  • Тема 11. Методы оптимизации приложений Spark
  • Тема 12. Написание коннекторов для Spark
  • Тема 13. Тестирование приложений Spark
  • Тема 14. Spark ML
Streaming
  • Тема 15. Kafka
  • Тема 16. Spark Streaming
  • Тема 17. Structured Streaming
  • Тема 18. Flink - часть 1
  • Тема 19. Flink - часть 2
  • Тема 20. Q&A
Apache Hive
  • Тема 21. Обзор Hive
  • Тема 22. HiveQL
Обслуживающие системы
  • Тема 23. Оркестрация процессов обработки данных
  • Тема 24. Мониторинг и логирование для Spark-приложений
  • Тема 25. CI/CD для Spark и Hive
  • Тема 26. Q&A
Проектная работа
  • Тема 27. Выбор темы и организация проектной работы
  • Тема 28. Консультация по проектам и домашним заданиям
  • Тема 29. Защита проектных работ
Что нужно знать?
  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala Базовое знание SQL и опыт работы с любой реляционной базой данных Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Знания и навыки, которые приобретете
  • Получите сертификат о прохождении курса
  • Получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты)
  • Заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на GitHub и другие дополнительные материалы
Партнеры

Преподаватели

  • Вадим Опольский

    Luxoft DXC Technology, Scala Big Data разработчик

    В IT более 15 лет.Сейчас интересуется технологиями больших данных и функциональным программированием.Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.Некоторые из главных достижений:- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов- получил сертификат Big Data от mail.ru в 2019 году- контрибъютор Apache Ignite- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистовУвлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

  • Егор Матешук

    CDO AdTech-компании Квант

    Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений. До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика. Руководитель программы

  • Артемий Козырь

    Analytics Engineer, Wheely

    7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.Blogging: Technology Enthusiast and Habr2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst Преподаватель

  • Максим Мигутин

    Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета Преподаватель

  • Вадим Заигрин

    Software Engineering Team Lead, Teradata

    Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.Образование: МИЭМ, специальность: прикладная математика.Otus Certified Educator Преподаватель

  • Михаил Юрченков

    АО "Максимателеком", Lead Data Engineer

    Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

  • Руслан Сабитов

    Mail.Ru Group, Senior Developer

    Работал на Московской бирже, в департаменте информационных технологий Национального клирингового центра, занимался внедрением системы обязательной и налоговой отчётности на базе Hadoop. Разработал архитектуру системы и успешно внедрил в промышленную эксплуатацию несколько кластеров Hadoop.В Mail.ru занимается поддержкой нескольких промышленных кластеров Hadoop. Самый крупный из них состоит из почти 700 нод общим объёмом более 50 Пб. Основной сервис — HBase, на базе которого строятся вспомогательные индексы для работы Поиска Mail.ru. Разработал систему мониторинга задач MapReduce, которая позволила анализировать производительность отдельных задач на протяжении времени.В 2017 году прошёл обучение в Лондоне и стал сертифицированным администратором Hortonworks https://bcert.me/bc/html/show-badge.html?b=rgeppkg

  • Виталий Монастырев

    Otus Certified EducatorБолее 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д. Open source: принятые pull-request'ы в репозиторий Apache Phoenix.Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).