description
Описание вакансии
Senior Data Engineer
#офис #senior
Локация: Москва
Компания: Сбер
🔹Обязанности
-разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
-создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
-обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
-построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
-оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
-масштабирование пайплайнов на распределенных кластерах.
🔹Требования
-экспертиза в построении data pipelines (Python, SQL)
-опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
-уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
-опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
-знание практик data versioning (DVC) и управления метаданными
-навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.
Контакты:
🔥 / @best_itjob / @it_rab
#офис #senior
Локация: Москва
Компания: Сбер
🔹Обязанности
-разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
-создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
-обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
-построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
-оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
-масштабирование пайплайнов на распределенных кластерах.
🔹Требования
-экспертиза в построении data pipelines (Python, SQL)
-опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
-уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
-опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
-знание практик data versioning (DVC) и управления метаданными
-навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.
Контакты:
🔥 / @best_itjob / @it_rab
tips_and_updates
Как откликнуться эффективно
- arrow_right1–2 релевантных кейса (ссылки/скриншоты)
- arrow_rightСроки и формат работы (когда на связи)
- arrow_right2–3 уточняющих вопроса по задаче
handshake
Рекомендации работодателю
- arrow_rightОпишите результат и критерии приёмки
- arrow_rightУкажите бюджет/вилку — это повышает качество откликов
- arrow_rightСразу обозначьте сроки и доступность по коммуникациям
lists
Ещё вакансии
Руководитель продукта чаты
МТС Линк
Не указан
Гибрид
Полная занятость
Senior Java Developer, AWS
Comtek
5 000 ₽ — 6 000 ₽
Удалённо
Полная занятость
PHP Разработчик
FUN&SUN
Не указан
Удалённо
Полная занятость
Продуктовый дизайнер
Lagrange Labs
4 000 ₽ — 6 000 ₽
Удалённо
Полная занятость
Наставник в онлайн-школу "10 соток"
Tolstikhina Invest
30 000 ₽ — 50 000 ₽
Удалённо
Полная занятость
DevOps Инженер
Юпитер
250 000 ₽ — 400 000 ₽
Удалённо
Полная занятость