Geekbrains

Факультет Data Engineering

  • Начальный уровень
  • Наставник: Есть
  • Сертификат: Есть
  • Формат: Online
  • Рассрочка: Есть
  • Язык: Русский
  • Осталось мест: Неограничено
Записаться

Факультет Data Engineering

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

Дата-инженер (Data Engineer) — это специалист, который собирает и обрабатывает большие данные, загружает их в модель для анализа, а затем организовывает их хранение и дальнейшее использование в бизнесе. Это представитель самой быстрорастущей профессии на рынке Data Science

Для кого этот курс?
  • Новичкам
    С нуля освоите язык C# и движок Unity. На практике научитесь создавать продукты с VR/AR-технологиями.
  • Начинающим разработчикам
    Систематизируете знания и усовершенствуете практические навыки до уровня junior+, а теоретические до middle. Получите профессию VR/AR-разработчика и добавите в портфолио 14 реализованных проектов.
  • Практикующим IT-специалистам
    Освоите новые технологии и язык программирования. Сможете больше зарабатывать и выполнять более сложные задачи.
Программа обучения
Подготовительный блок
  • Git. Базовый курс
    • Введение в Git
    • Установка и настройка Git
    • Основные команды терминала
    • Работа с репозиториями в Git
    • Управление файлами репозитория
    • История изменений
    • Работа с ветками репозитория
    • Публикация репозитория
    • Слияния веток
    • Управление версиями
    • Создание pull-request
    • Сложные операции
    • Работа с Fork-репозиториями
    13 видео-уроков
    2 часа обучающего контента
I четверть. Сбор и хранение данных
  • Основы реляционных баз данных. MySQL
    • Вебинар. Установка окружения. DDL-команды
    • Видеоурок. Управление базами данных. Язык запросов SQL
    • Вебинар. Введение в проектирование баз данных
    • Вебинар. CRUD-операции
    • Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
    • Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
    • Видеоурок. Сложные запросы
    • Вебинар. Сложные запросы
    • Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
    • Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
    • Видеоурок. Оптимизация запросов. NoSQL
    • Вебинар. Оптимизация запросов
    1 месяц — 12 уроков
    18 часов контента, 36 часов практики
  • Основы Python
    • Знакомство с Python
    • Некоторые встроенные типы и операции с ними
    • Функции. Словари
    • Функции. Словари
    • Генераторы и comprehensions. Множества
    • Работа с файлами
    • Работа с файловой системой. Исключения в Python
    • Регулярные выражения и декораторы в Python
    • Объектно-ориентированное программирование (ООП). Введение
    • Объектно-ориентированное программирование (ООП). Продвинутый уровень
    • Объектно-ориентированное программирование (ООП). Полезные дополнения
    1 месяц — 11 уроков
    17 часов контента, 34 часа практики
  • Методы сбора и обработки данных из интернета
    • Основы клиент-серверного взаимодействия. Парсинг API
    • Парсинг HTML. Beautiful Soup, MongoDB
    • Системы управления базами данных MongoDB и SQLite в Python
    • Парсинг HTML. XPath
    • Фреймворк Scrapy
    • Scrapy. Парсинг фото и файлов
    • Selenium в Python
    • Работа с данными
    1 месяц — 8 уроков
    12 часов контента, 24 часа практики
II четверть. Построение хранилищ данных для систем аналитики
  • Построение хранилища данных и основы ETL-процессов
    • Введение
    • Архитектура хранилищ
    • Проектирование хранилища, часть 1
    • Проектирование хранилища, часть 2
    • Создание ETL-процесса, часть 1
    • Создание ETL-процесса, часть 2
    • Управление качеством данных
    • Курсовой проект
    1 месяц — 8 уроков
    12 часов контента, 24 часа практики
  • Технологии OLAP + BI
    • Почему OLAP. Готовим ETL и DWH
    • Многомерное хранилище. Работа с измерениями
    • Создание мер. Процессинг и его оптимизация
    • Работа в MDX. Автопроцессинг
    • Подключение BI-системы
    1 месяц — 4 урока
    13 часов контента, 27 часов практики
  • Введение в NoSQL баз данных. Tarantool
    • Подходы к организации NoSQL данных
    • Redis
    • MongoDB. Часть 1
    • MongoDB. Часть 2
    • MongoDB. Часть 3
    • Tarantool. Часть 1
    • Tarantool. Часть 2
    1 месяц — 7 уроков
    14 часов контента, 12 часов практики
III четверть. Распределенные базы данных
  • Big Data. Экосистема Hadoop
    • Введение в Hadoop
    • HDFS
    • YARN, MR
    • Hive, HUE
    • Форматы хранения
    • ETL
    • NoSQL
    • DWH
    1 месяц – 8 уроков
    12 часов контента, 24 часа практики
  • Big Data. Фреймворк Apache Spark
    • Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
    • Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
    • Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
    • Машинное обучение на PySpark на примере линейной регрессии
    1 месяц — 4 урока
    6 часов контента, 12 часов практики
  • Настройка потоков данных. Apache Airflow
    • Планирование задач. Введение Apache AirFlow
    • Установка Airflow. Создание и основные параметры DAG
    • Разработка потоков данных
    • Airflow в production. Примеры реальных задач
    1 месяц — 4 урока
    8 часов контента, 18 часов практики
IV четверть. Real-time обработка данных и инфраструктура
  • Потоковая обработка данных
    • Архитектура Kafka, Kafka Workflow
    • Kafka Producer и Kafka Consumer
    • Kafka Broadcasting and Groups
    • Kafka Stream
    • Processor API
    • Динамические запросы в Apache Kafka
    1 месяц — 8 уроков
    9 часов контента, 18 часов практики
  • Микросервисная архитектура и контейнеризация
    • Микросервисы и контейнеры
    • Docker
    • Введение в Kubernetes
    • Хранение данных и ресурсы
    • Сетевые абстракции Kubernetes
    • Устройство кластера
    • Продвинутые абстракции
    • Деплой тестового приложения в кластер, CI/CD
    1 месяц — 8 уроков
    12 часов контента, 24 часов практики
Курсы вне четверти. Предметы с индивидуальным выбором даты старта
  • JVM в экосистеме Hadoop
    • JVM & Apache Hadoop
    • Введение в Scala
    • Spark Core DSL
    • Spark Core техники
    • Преобразование структурированных данных в Spark SQL
    • Потоковая обработка данных Spark Streaming
    • Введение в машинное обучение на Spark ML
    • Интерактивный анализ данных в Apache Zeppelin
    1 месяц – 8 уроков
    16 часов контента, 8 часов практики
  • Linux. Рабочая станция
    • Введение. Установка ОС
    • Настройка и знакомство с интерфейсом командной строки
    • Пользователи. Управление пользователями и группами
    • Загрузка ОС и процессы
    • Устройство файловой системы Linux. Понятия файла и каталога
    • Введение в скрипты Bash. Планировщики задач crontab и at
    • Управление пакетами и репозиториями. Основы сетевой безопасности
    • Введение в Docker
    1 месяц — 8 уроков
    12 часов контента, 24 часа практики
Преимущества
  • Студентнаставник
    Во время обучения вам может понадобиться поддержка и помощь с домашним заданием. Вашим наставником станет выпускник или студент, который получил такой же опыт обучения на курсе и успешно справился со всеми практическими работами.
  • Сопровождаем на всех этапах
    Менеджеры GeekBrains помогают записаться на курс, освоиться в личном кабинете и решить технические проблемы. Если попалось сложное задание, можете обратиться за помощью к личному наставнику.
  • Куратор
    Поможет вам освоиться в личном кабинете, в процессе обучения всегда будет на связи и поможет найти ответы на вопросы.
  • Постоянно обновляем программу
    Вы получаете актуальные навыки и знания программа учитывает требования работодателей по компетенциям датаинженера.
  • Доступ к сообществу GeekBrains
    Вы найдёте полезные контакты и единомышленников в вашем городе, сможете делиться опытом в базе знаний GeekBrains. Будете посещать закрытые митапы, хакатоны и другие онлайн и офлайнмероприятия как слушатели и спикеры.
  • Даём обратную связь
    Обучение на 70% состоит из вебинаров преподаватели разбирают практические задания, отвечают на вопросы и делятся кейсами. Все вебинары можно пересмотреть в записи.
Инструменты и программы
  • Python
  • SQL
  • NoSQL
  • Hadoop
  • Kafka
  • Scrapy
  • Selenium
  • OLAP
  • ML