description
Описание вакансии
TL;DR
Developer (ML Infrastructure): Developing and improving distributed ML training infrastructure and reliability tools with an accent on distributed systems, error detection, and GPU usage optimization. Focus on building automated error detection and recovery systems, monitoring, and profiling for long-running GPU-based ML training jobs.
Что делать(ru)
- Разработка единой библиотеки распределённых обучений, интегрированной с системами запуска, анализа логов, профилирования и мониторинга.
- Автоматизация обнаружения и устранения ошибок в распределённых ML-обучениях, включая перезапуск на другом оборудовании и рекомендации пользователям.
- Разработка инструментов мониторинга, профилирования и оптимизации использования GPU для повышения эффективности.
- Работа преимущественно с Python, а также с C++ и Go для решения специфических задач.
Требования(ru)
- Уверенное владение Python
- Опыт работы с распределёнными системами и сложным кодом
- Способность быстро разбираться в новых задачах и находить оптимальные решения
Хорошо, если есть(ru)
- Опыт взаимодействия с пользователями и диагностики проблем
- Знание C++ на уровне чтения и внесения изменений
- Понимание принципов ML-обучения
Культура и преимущества(ru)
- Расширенная медицинская страховка с первого месяца, включая стоматологию, чекапы и лечение за рубежом
- Психотерапия, лазерная коррекция зрения и поддержка беременности
- Страховка для родственников по системе 80/20
- Внутренняя образовательная платформа, менторство и оплата участия в конференциях
- Спортзалы в офисах, корпоративные спортивные клубы и скидки на фитнес
- Гибкий график без фиксированного начала и конца рабочего дня
- Льготные жилищные займы для сотрудников в российских офисах
- Поддержка для сотрудников с детьми: страхование, детские дни и подарки
tips_and_updates
Как откликнуться эффективно
- arrow_right1–2 релевантных кейса (ссылки/скриншоты)
- arrow_rightСроки и формат работы (когда на связи)
- arrow_right2–3 уточняющих вопроса по задаче
handshake
Рекомендации работодателю
- arrow_rightОпишите результат и критерии приёмки
- arrow_rightУкажите бюджет/вилку — это повышает качество откликов
- arrow_rightСразу обозначьте сроки и доступность по коммуникациям
lists
Ещё вакансии
Системный аналитик
ITVolna.tech
160 000 ₽ — 205 000 ₽
Гибрид
Полная занятость
Системный аналитик
MIA Dev
250 000 ₽ — 300 000 ₽
Удалённо
Полная занятость
Системный аналитик 1С
EGAR
250 000 ₽ — 300 000 ₽
Удалённо
Полная занятость
Стажёр-разработчик Frontend
Ozon
Не указан
Удалённо
Полная занятость
Bitrix Разработчик
itWit
170 000 ₽ — 260 000 ₽
Удалённо
Полная занятость
2D Artist
Clever Apps
Не указан
Удалённо
Полная занятость