description
Описание вакансии
Мы развиваем внутреннее контейнерное облако (Runtime Cloud — RTC), в котором запущены все сервисы, создаваемые тысячами разработчиков Яндекса. Мы не только позволяем настраивать и запускать сервисы, но и даём пользователю всё, что нужно, чтобы их эксплуатировать: настраиваем балансировку, предоставляем мониторинг поднятых сервисов, собираем логи и не только. Группа GPU-инфраструктуры отвечает за разработку сервисов для работоспособности GPU-инфраструктуры всего Яндекса, ML/HPC-компонентов для распределённого инференса и обучения, которые позволяют эффективно использовать современные ускорители и RDMA-сеть. Мы активно участвуем не только в разработке системного ПО и фреймворков распределённых вычислений для тренировки и инференса ML-моделей, но и в дизайне наших RDMA-кластеров, их конфигурировании, мониторинге, оптимизации на протяжении всего жизненного цикла.
Какие задачи вас ждут:
• Поддерживать и развивать системное программное обеспечение, которое отвечает за конфигурирование, мониторинг, выделение в пользовательские контейнеры GPU- и RDMA-устройств на серверах
• Поддерживать и развивать fleet-wide GPU-профилирование для всех сервисов Яндекса
• Развивать сервисы автоматизированного управления GPU-инфраструктурой
• Развивать и оптимизировать инфраструктуру распределённого disaggregated-инференса и обучений
• Участвовать в дизайне и внедрении нового оборудования в нашем облаке
Мы ждём, что вы:
• Знаете Go, C/C++ или Python
• Умеете писать поддерживаемый и эффективный код
• Хорошо понимаете принципы работы компьютерных сетей, операционных систем, контейнеризации и виртуализации
• Умеете работать с K8s
• Интересуетесь R&D-работой и умеете решать нетипичные задачи
Будет плюсом, если вы:
• Знаете Rust
• Занимались проектами, связанными с распределёнными вычислениями на GPU
• Разрабатывали или использовали рантаймы для параллельных вычислений, для P2P или коллективных сетевых коммуникаций
• Разрабатывали или использовали инференс-фреймворки
• Разрабатывали ядро Linux и его модули
📩 на нашем сайте
#GPU #cloud #golang #CPP #python #нижнийновгород #белград
tips_and_updates
Как откликнуться эффективно
- arrow_right1–2 релевантных кейса (ссылки/скриншоты)
- arrow_rightСроки и формат работы (когда на связи)
- arrow_right2–3 уточняющих вопроса по задаче
handshake
Рекомендации работодателю
- arrow_rightОпишите результат и критерии приёмки
- arrow_rightУкажите бюджет/вилку — это повышает качество откликов
- arrow_rightСразу обозначьте сроки и доступность по коммуникациям
lists
Ещё вакансии
Fullstack/Infra Engineer (Tech Lead)
Private SEO / Crypto team
от 4 800 ₽
Удалённо
Полная занятость
Старший разработчик в инфраструктуру Облака
VK
Не указан
Офис
Полная занятость
Редактор Telegram-канала
TelegaWork.org
от 70 000 ₽
Удалённо
Полная занятость
MLOps/DevOps
KTS
Не указан
Удалённо
Полная занятость
Стажер в оптимизацию процессов
Лаборатория Касперского
Не указан
Офис
Полная занятость
Senior Testing Engineer (Traveltech)
Yandex
Не указан
Офис
Полная занятость