description

Описание вакансии

Data Engineer
#гибрид
Локация: Москва
Компания: Сбер
🔹Обязанности
· Анализ структур данных в разных источниках и форматов, оценка их пригодности для конкретных бизнес-задач;
· Загрузка, обработка и преобразование больших объемов данных из разнородных хранилищ (Oracle, Teradata, MS SQL, GreenPlum) в рабочие среды (GreenPlum, Hadoop);
· Проектирование и создание аналитических витрин данных;
· Подготовка и препроцессинг данных для обучения моделей машинного обучения;
· Мониторинг и оптимизация рабочих процессов обработки и загрузки данных
· Контроль качества входных данных и автоматизация проверки качества данных;
· Разработка инфраструктуры и внутренних сервисов для эффективной обработки больших объемов данных;
· Автоматизация повторяющихся операций с данными;
· Создание технической документации и поддержка баз знаний по работе с данными;
· Консультация пользователей внутри компании по вопросам использования данных.

🔹Требования
· Опыт работы от 1 года в роли Data Engineer, Data Analyst или ETL-разработчика;
· Продвинутый уровень владения SQL (аналитические функции, подзапросы, хранимые процедуры, производительность запросов);
· Практический опыт работы с большими объемами данных в реляционных СУБД (Oracle, Teradata, MS SQL, GreenPlum);
· Понимание концепции и принципов организации хранилища данных (DWH);
· Преимуществом будет наличие опыта проектирования витрин данных;
· Полезным будет знакомство с технологиями экосистемы Big Data (Hadoop, Spark, Hive/Impala);
· Базовые знания банковской сферы будут дополнительным плюсом;
· Приветствуется опыт работы в гибких методологиях управления проектами (Agile, SCRUM, Kanban).

🔹Дополнительные ожидания:
· Желаемый опыт работы от 2-х лет в смежных ролях (DE, DS, Python-разработчик);
· Хорошее знание SQL, включая работу с аналитическими функциями, подзапросами, процедурами и функциями, оптимизацию производительности запросов;
· Работа с технологическим стеком Hadoop (HDFS, YARN, Hive) и Apache Spark;
· Опыт программирования на Java/Scala;
· Готовность глубоко погружаться в изучение архитектуры существующих баз данных и документации по структурам данных;
· Понимание базовых принципов построения распределенных систем хранения и обработки данных.

🔹Будет плюсом:
· Опыт переноса и интеграции больших объемов данных между разными источниками;
· Владение инструментами системы контроля версий (например Git);
· Начальные знания и интерес к развитию в области Machine Learning и Data Analysis;
· Осведомленность в процессах ETL и технологиях хранилищ данных (DWH).
Контакты:

🔥 / @best_itjob / @it_rab

tips_and_updates

Как откликнуться эффективно