description

Описание вакансии

Инженер данных

Требования

Инженер по данным Middle Apache Spark Apache Airflow ETL Apache Hadoop Apache NiFi

Условия

Можно удалённо Москва АктивБизнесТехнологии Мы создаем современные ИТ-продукты и технологичные решения, которые помогают бизнесу сокращать расходы на коммуникации с клиентами, повышают эффективность рабочих процессов и легко адаптируются под любые его направления. Решения ООО "АБТ" применяются в банковской сфере, телекоммуникациях, страховании, ритейле, здравоохранении, ЖКХ и многом другом.

О проекте

Мы строим платформу данных для финансовой компании.
Мигрируем данные и ETL-логику с SQL Server на современный стек: Iceberg + Spark + Trino + Airflow на Kubernetes. Обрабатываем сотни миллионов записей: агентские данные, платежи, кейсы, обещания, результаты работы. Миссия команды: обеспечить бизнес надежными, актуальными и качественными данными для аналитики и принятия решений. Мы строим ETL-пайплайны, витрины данных и системы контроля качества данных.

Стек платформы

Apache Spark (PySpark / Spark SQL),**** Apache Airflow (DAGs, операторы),Trino,Apache Iceberg (S3/MinIO),SQL Server (legacy), JDBC, REST API,PostgreSQL, SQL Server,Kubernetes, Docker,**** OpenMetadata,Git, GitLab Чем предстоит заниматься?

Разрабатывать и оптимизировать ETL/ELT пайплайны на Apache Spark (PySpark / Spark SQL)
Писать DAGs в Apache Airflow: оркестрация, мониторинг, обработка ошибок, retry-стратегии
Проектировать и создавать витрины данных (data marts) на Iceberg tables
Мигрировать данные и бизнес-логику из SQL Server в новый стек
Писать и оптимизировать SQL-запросы в Trino и Spark SQL
Обеспечивать качество данных: валидация, сверка, мониторинг расхождений
Реализовывать инкрементальные загрузки: дельты по ID, по дате, CDC
Оптимизировать Spark-джобы: память, партиционирование, кэширование
Документировать пайплайны, модели данных и бизнес-логику
Работать с аналитиками и бизнесом для понимания требований к данным

Мы ищем сотрудника, у которого:

Опыт работы инженером данных от 1-3 лет
Уверенный SQL: сложные запросы, оконные функции, оптимизация на больших объемах данных
Apache Spark: опыт с PySpark или Spark SQL (чтение, трансформация, запись данных)
Apache Airflow: написание DAGs, операторы, сенсоры
Python: уверенный уровень для ETL-скриптов и автоматизации
Понимание архитектуры Data Lake / Data Warehouse / Lakehouse
Опыт работы с реляционными БД (PostgreSQL и/или SQL Server)
Git: версионирование кода, ветвление, merge requests
Опыт работы с Apache Iceberg / Delta Lake / Hudi
Опыт работы с Trino / Presto

Что мы предлагаем?

Конкурентную зарплату с годовой премией (обсудим ваши ожидания на собеседовании)
Официальное оформление в российскую ИТ-компанию с аккредитацией
Привлекательные бонусы: ДМС, бесплатная подписка «СберПрайм+», скидки на изучение английского языка, бесплатный фитнес в офисе или скидки на покупку абонемента себе и близким, скидки от партнёров Сбера, корпоративная пенсионная программа
Льготная ипотека в Сбере
Удобный формат работы: удалённо или в гибридном формате, «короткая» пятница

%contact_placeholder%

tips_and_updates

Как откликнуться эффективно