Перейти к содержимому
search
work Вакансия на FreelanceSpace опубликовано 1 ч назад

RL Environments Engineer

apartmentPreference Model scheduleПолная занятость publicУдалённо
send Откликнуться

Публичная страница вакансии: прозрачные условия, быстрый отклик, понятный следующий шаг. Для работодателя — качественный воронко-трафик, для исполнителя — ясные требования без “воды”.

description

Описание вакансии

tl;dr: RL environments engineer, $50-150/hour, part-time/full-time, remote

У нас тут новые клиенты — нам кажется, идеальные, а вот вы скажите, что думаете!

Смотрите сами:
💫 $16M инвестиций от Andreessen Horowitz и SignalFire;
😍 работают с Anthropic и другими топовыми лабами;
🌼 female-led! Одна фаундерка — ранняя сотрудница Anthropic, вторая — ещё более ранняя из DatologyAI, стартапа про data curation;
🗓 удалёнка с почасовой оплатой и возможностью парттайма;
ищут не одного человека, а сразу много — можно наконец и самому податься, и друга посоветовать!

Ну, а главное, как обычно, продукт. Агентные системы типа Codex или Claude Code — во многом подвиг пост-трейн команд. Они запихивают чатового агента в сложный скаффолд, и вдалбливают в него все особенности работы в этой среде, пока он сопротивляется — ревард-хакает, галлюцинирует и в целом делает всё, чтобы от него отстали ☹️

Preference Model делают RL-окружения, где агенты учатся всяким сложным штукам, а потом начинают работать в реальных скаффолдах лучше и сопротивляться поменьше 👾

И хотят больше новых сред от экспертов — поэтому ищут RL Environments Engineer'ов: людей, которые разбираются в чём-то сложном и ML-related.

Вакансия похожа на сэндвич, который вы собираете сами. Главный ингредиент — ваше профильное образование, публикации или опыт c ML-инфрой по теме:

🍖 внутренности трансформеров;
🐟 CUDA или Pallas kernel-разработка;
🦐 ML-архитектуры и генеративные модели (тут все от KAN до диффузионок);
🥚 geometric/topological DL, optimal transport;
🧀 mechanistic interpretability;
🥑 ML в науке и численные методы (от биоинформатики до fluid dynamics);

Дальше — основа:
🍞 опыт разработки на Python + Docker;
🍅 хорошее понимание, что умеют и не умеют нынешние LLM;
🍞 английский C1+.

Заправьте форматом работы на ваш вкус: от 3 месяцев до бесконечности и от 20 часов в неделю до фуллтайма 🥫

Платят $50-150/час в зависимости от опыта и специализации. Полная удалёнка, нужно только пересекаться с PST-таймзоной хотя бы часа на 4. Если понравитесь команде, есть возможность перейти в штат и обсудить переезд в SF.

Пишите Феде %contact_placeholder% 🍴
tips_and_updates
Как откликнуться эффективно
  • arrow_right1–2 релевантных кейса (ссылки/скриншоты)
  • arrow_rightСроки и формат работы (когда на связи)
  • arrow_right2–3 уточняющих вопроса по задаче
handshake
Рекомендации работодателю
  • arrow_rightОпишите результат и критерии приёмки
  • arrow_rightУкажите бюджет/вилку — это повышает качество откликов
  • arrow_rightСразу обозначьте сроки и доступность по коммуникациям