
BI-005 Основы Apache Superset
Начало: В любое время
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Освойте Apache Superset — мощный инструмент для визуализации и анализа данных.
Темы:
- Что такое BI, роль Apache Superset в экосистеме (сравнение с Power BI, Tableau, Grafana).
- Архитектура Superset (метаданные, кеширование, движки запросов).
- Когда Superset не подходит (границы применимости).
- Кейсы из практики: Как компании уже используют Superset.
- Практика: Установка Superset (локально + Docker). Первый взгляд на интерфейс: навигация, роли, каталог дашбордов. Разбор демо-дашборда (что внутри: слои, фильтры, связи).
- Источники данных: базы SQL (PostgreSQL, MySQL), CSV, Google Sheets, API. ETL vs ELT: как Superset работает с данными. Практики оптимизации запросов (SQL-запросы, индексы, семплирование).
- Практика: Подключаем 3 разных источника: БД (например, PostgreSQL), CSV, API (например, тестовый JSON). Объединение данных (JOIN в Superset). Настройка расписания обновлений (инкрементальная загрузка). Очистка данных средствами Superset (регулярные выражения, замена NULL).
- Лучшие практики визуализации. Виды графиков в Superset и их применимость (bar, line, heatmap, treemap и др.). Вычисления на лету: метрики, KPI, агрегаты (SUM, AVG, Percentile).
- Практика: Построение разных графиков на тестовом датасете. Добавление вычисляемых полей. Фильтры: базовая настройка (по дате, категории, тексту).
- UX/UI для дашбордов (расположение виджетов, единый стиль). Публикация, шаринг, контроль версий дашбордов. Роли в Superset (Admin, Analyst, Viewer): как разграничить доступ.
- Практика: Собираем готовый дашборд из ранее созданных графиков. Drill-down (детализация). Групповая работа: 2–3 человека создают общий дашборд удалённо.
- Как связать с Airflow (автоматизация ETL). Как гонять данные из Superset в Excel/Power BI (экспорт API). Краткий обзор связки с Apache NiFi / Kafka (стриминг данных). Учимся смотреть SQL-запросы, которые генерит Superset. Как ускорить рендеринг (кеширование, материальные представления).
Это не просто практика, а СИМУЛЯЦИЯ РЕАЛЬНОГО ПРОЕКТА: Выдаём кейс: "Анализ эффективности розничной сети" (готовый датасет). Задача студентов: за 4 часа сделать:
- Подключить 2–3 источника.
- Построить 4–5 разных визуализаций.
- Собрать интерактивный дашборд.
- Настроить фильтры и экспорт.
Защита проектов (5 минут каждый студент объясняет логику).