description
Описание вакансии
Разработчик на Java в команду Alerting & Notifications
#удаленка #офис
Компания: Яндекс
☑️Какие задачи вас ждут
-Масштабировать системы в соответствии с ростом нагрузок
Стабильный рост нагрузки (порядка 30% в год) требует проводить регулярное масштабирование: искать узкие места, заниматься RnD вариантов решения, реализовывать горизонтальное масштабирование.
-Внедрять отказоустойчивость
Если алертинг не работает — пользователи остаются без приборов по своему продакшену и могут пропустить проблему, которая приведёт к серьёзному инциденту. Поэтому необходимо, чтобы алертинг успевал просчитывать все алерты и был отказоустойчив. Вам предстоит реализовать режим работы hot-standby в балансировщике, причём так, чтобы во время отказа стойки или модуля в дата-центре мы не потеряли обе реплики. Помимо этого, нужно изолировать проекты, чтобы проблемы одного не влияли на другие.
-Прорабатывать технические и продуктовые решения для пользовательских сценариев
Наши пользователи — это такие же разработчики, как и мы сами. Проблемы, с которыми сталкиваются пользователи, актуальны и для нас. Поэтому разработчики всегда участвуют в обсуждении и проработке и технических, и продуктовых решений. Например, как должны выглядеть SLO-алерты; как сделать так, чтобы пользователю было понятно, что такое good events и bad events; как в этой парадигме создать SLO-алерт на тайминги.
-Упрощать пользовательские сценарии работы с алертами
Первое, с чем сталкивается пользователь, — как завести алерт для конкретного сценария. Тут мы хотим предоставлять типовые алерты: на отклонение, тренд, резкие взлёты и падения, SLO. Затем пользователю предстоит понять, что алерт отловил проблему. Алерты нужно уметь просчитывать в прошлом, чтобы создать не сильно чувствительный алерт, который ловит реальные проблемы. А после того как алерт создан, важно понять причину его срабатывания: это одна из реплик не ответила, это лаг поставки данных или же реальная проблема.
-Разрабатывать общую платформу
Понадобится адаптировать существующую функциональность для запуска в Yandex Cloud с доступом внешних пользователей, а также для создания единой observability platform для других сотрудников компании.
☑️Мы ждем, что вы
-Умеете писать и понимаете многопоточный код: весь алертинг работает асинхронно с использованием акторной модели
-Готовы писать код на Java и Go (соотношение 80% на 20%)
-Понимаете ключевые аспекты построения отказоустойчивых распределённых систем
Контакты: %contact_placeholder%
🔥 / @best_itjob / @it_rab
#удаленка #офис
Компания: Яндекс
☑️Какие задачи вас ждут
-Масштабировать системы в соответствии с ростом нагрузок
Стабильный рост нагрузки (порядка 30% в год) требует проводить регулярное масштабирование: искать узкие места, заниматься RnD вариантов решения, реализовывать горизонтальное масштабирование.
-Внедрять отказоустойчивость
Если алертинг не работает — пользователи остаются без приборов по своему продакшену и могут пропустить проблему, которая приведёт к серьёзному инциденту. Поэтому необходимо, чтобы алертинг успевал просчитывать все алерты и был отказоустойчив. Вам предстоит реализовать режим работы hot-standby в балансировщике, причём так, чтобы во время отказа стойки или модуля в дата-центре мы не потеряли обе реплики. Помимо этого, нужно изолировать проекты, чтобы проблемы одного не влияли на другие.
-Прорабатывать технические и продуктовые решения для пользовательских сценариев
Наши пользователи — это такие же разработчики, как и мы сами. Проблемы, с которыми сталкиваются пользователи, актуальны и для нас. Поэтому разработчики всегда участвуют в обсуждении и проработке и технических, и продуктовых решений. Например, как должны выглядеть SLO-алерты; как сделать так, чтобы пользователю было понятно, что такое good events и bad events; как в этой парадигме создать SLO-алерт на тайминги.
-Упрощать пользовательские сценарии работы с алертами
Первое, с чем сталкивается пользователь, — как завести алерт для конкретного сценария. Тут мы хотим предоставлять типовые алерты: на отклонение, тренд, резкие взлёты и падения, SLO. Затем пользователю предстоит понять, что алерт отловил проблему. Алерты нужно уметь просчитывать в прошлом, чтобы создать не сильно чувствительный алерт, который ловит реальные проблемы. А после того как алерт создан, важно понять причину его срабатывания: это одна из реплик не ответила, это лаг поставки данных или же реальная проблема.
-Разрабатывать общую платформу
Понадобится адаптировать существующую функциональность для запуска в Yandex Cloud с доступом внешних пользователей, а также для создания единой observability platform для других сотрудников компании.
☑️Мы ждем, что вы
-Умеете писать и понимаете многопоточный код: весь алертинг работает асинхронно с использованием акторной модели
-Готовы писать код на Java и Go (соотношение 80% на 20%)
-Понимаете ключевые аспекты построения отказоустойчивых распределённых систем
Контакты: %contact_placeholder%
🔥 / @best_itjob / @it_rab
tips_and_updates
Как откликнуться эффективно
- arrow_right1–2 релевантных кейса (ссылки/скриншоты)
- arrow_rightСроки и формат работы (когда на связи)
- arrow_right2–3 уточняющих вопроса по задаче
handshake
Рекомендации работодателю
- arrow_rightОпишите результат и критерии приёмки
- arrow_rightУкажите бюджет/вилку — это повышает качество откликов
- arrow_rightСразу обозначьте сроки и доступность по коммуникациям
lists
Ещё вакансии
Директор по информационным технологиям
ПСБ Бизнес
Не указан
Офис
Полная занятость
Операционный директор
Феникс Транс Логистик
Не указан
Офис
Полная занятость
Директор по сделкам с коммерческой недвижимостью и проектного финансирования
ПАО ВТБ
Не указан
Офис
Полная занятость
Middle Тестировщик
Контур
Не указан
Гибрид
Полная занятость
Системный аналитик Middle/Senior
Контур
Не указан
Удалённо
Полная занятость
Инженер ИБ
Банк России
Не указан
Офис
Полная занятость