Скачать Apache Iceberg для Data Engineer [Stepik] [Александр Озерцов]

Турбина · Вчера в 09:00

Складчина: Apache Iceberg для Data Engineer [Stepik] [Александр Озерцов]

Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS. Забудьте про битые файлы в S3 и медленные запросы в Hive. Пришло время строить архитектуру Lakehouse, которая сочетает в себе гибкость Data Lake и мощь классических SQL-баз.

Чему вы научитесь

Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).
О курсе

Всем привет! Меня зовут Александр Озерцов, и я рад приветствовать вас на курсе «Apache Iceberg для Data Engineer».

Этот курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное Lakehouse хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.

В рамках курса мы не просто разберем теорию, а пройдем путь от настройки окружения до продвинутого управления данными. Мы изучим:

Архитектуру и транзакции: поймем, как работают манифесты и почему ваши данные больше никогда не «развалятся» при одновременной записи.

Гибкие схемы: научимся менять структуру таблиц и партиционирование без перезаписи петабайт данных.

Оптимизации: разберем стратегии удаления старых данных, различные подходы к ведению таблиц, а также Deletion Vectors.

Branch model: освоим работу с ветками данных (WAP — Write-Audit-Publish), чтобы тестировать изменения в изоляции, как в Git.
Для кого этот курс

Этот курс идеально подойдет специалистам, которые устали от ограничений классического Hive-подхода и готовы перевести свои данные на новый уровень управления. Несмотря на то, что в курсе практика ведется на Apache Spark, я намеренно использовал преимущественно SQL синтаксис, чтобы курс был понятен как Data engineer, так и Data аналитикам.

Начальные требования

Что нужно знать и иметь перед стартом:

SQL (базовый/средний уровень): свободное владение SELECT, JOIN, GROUP BY и понимание DDL-операций.

Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.

Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.

Docker: умение запустить контейнер через docker-compose.
Как проходит обучение

Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:

Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.

Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.

Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.
Программа курса

1. Введение

От DWH до LakeHouse pt1
От DWH до LakeHouse pt2
Принципы Iceberg2. Настройка окружения

Minio
PySpark notebook
Rest Catalog3. Архитектура Apashe Iceberg

Общее устройство таблицы
Time travel4. Транзакции

Транзакции Iceberg5. Схема данных

Схема таблицы
Партиции6. Оптимизация таблиц

CoW vs MoR
Слой данных
Слой метаданных7. Branch model

Основы
WAP patternЦена 4980 руб.

СКАЧАТЬ СКЛАДЧИНЫ

Для просмотра скрытого содержимого вы должны зарегистрироваться

Поиск

Поиск

Скачать Apache Iceberg для Data Engineer [Stepik] [Александр Озерцов]

Турбина

Возможно, Вас ещё заинтересует: