Пошук роботи на robota.uaukraine
Віддалена робота

Провідний фахівець з експлуатації рішень ШІ (Lead MLOps)

1 день тому
09 грудня 2025
Київ
Віддалена робота
Гібридна
Повна зайнятість
Бронювання співробітників

Запрошуємо приєднатися до нашої команди Провідного фахівця з експлуатації рішень ШІ (Lead MLOps)

Обов’язки:

Перетворити напрацювання DS у надійні сервіси з прогнозованою продуктивністю, прозорим моніторингом і безпечними релізами (центральний та edge-рівні).

Зони відповідальності: 

  • ML-платформа: реєстр артефактів/моделей, політики версій/доступів, шаблони сервісів; 
  • CI/CD для моделей: data/model tests, canary/blue-green/shadow, rollback, feature-flags; 
  • Observability: якість/дрейф/стабільність, p95 latency/ресурси, інциденти, фідбек-петлі у тренування; 
  • Безпека: secrets/IAM/RBAC, аудит інференсу, керування конфігами, мережеві політики/ingress; 
  • Edge-сценарії: синхронізація моделей/кешів, стійкість до збоїв/відключень, телеметрія; 
  • Capacity-планування CPU/GPU, error-budgets для пікових вікон (вечори/п’ятниця); 
  • Автоматизований реплей inference-логів для аудиту/донавчання; zero-downtime оновлення; 

OKR приклади: 

  1. Uptime ML-сервісів 99.5%; p95 latency <150 мс на критичних шляхах; 
  2. TtM моделі від approve до продакшну <30 хв; 95% релізів - без простоїв; 
  3. Автоматичне виявлення дрейфу даних/моделей із частотою перевірки 24 год; 

Вимоги (must-have): 

  • 5+ років у MLOps/SRE/DevOps; промислова експлуатація ML-сервісів on-prem;
  • Глибоке розуміння життєвого циклу моделей, ризиків і спостережуваності; 
  • Впевнене володіння Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI; 
  • Продакшн-досвід з MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe або Seldon Core; 
  • Моніторинг/логування: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry; 
  • Безпека/конфіги: Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress (Traefik/Kong/Nginx);
  • Автоматизація тестів даних/моделей, інцидент-менеджмент, runbooks.

Буде плюсом: 

  • Edge-інференс у ритейлі (POS/SCO/відео/планограми); GPU-профілювання, TensorRT/quantization/batch-policy;
  • Мультиверсійні моделі з швидким roll-forward/back; cost-/energy-aware планування;
  • Практика cost-aware планування ресурсів і energy-ефективності; 

Технічний стек (on-prem):

  • Інфраструктура/оркестрація: Kubernetes/OpenShift, Docker/Containerd, Helm, Argo CD/Workflows, Terraform, Ansible, GitLab CI.
  • Serving: MLflow (Registry/Serving), NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe/Seldon Core або Ray Serve.
  • Observability: Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-якість - Evidently/whylogs.
  • Безпека: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress-контролери.

Компанія пропонує:

  • дистанційний або гібридний формат роботи;
  • працевлаштування на умовах гіг-контракту або в штат (є можливість бронювання);
  • оплачувану щорічну відпустку 24 календарних дня, оплачуваний лікарняний;
  • регулярну виплату заробітної плати без затримок та в обумовлених обсягах, регулярний перегляд заробітної плати;
  • можливість професійного та кар'єрного росту;
  • курси підвищення кваліфікації.


Контактна особа: Катерина, тел. Показати контакти 0984567857  (t.me/KaterynaB_HR)

Національна роздрібна мережа продуктових магазинів

більше 500  співробітників

з 1993 року  на ринку

  • Регулярний перегляд зарплатиРегулярний перегляд зарплати
  • Офіційне працевлаштування згідно КЗпП УкраїниОфіційне працевлаштування згідно КЗпП України
  • Повний соціальний пакетПовний соціальний пакет
  • Корпоративне навчанняКорпоративне навчання
  • Повністю офіційна зарплатаПовністю офіційна зарплата