Віддалена робота
Гібридна
Повна зайнятість
Бронювання співробітників
Запрошуємо приєднатися до нашої команди Провідного фахівця з експлуатації рішень ШІ (Lead MLOps)
Обов’язки:
Перетворити напрацювання DS у надійні сервіси з прогнозованою продуктивністю, прозорим моніторингом і безпечними релізами (центральний та edge-рівні).
Зони відповідальності:
- ML-платформа: реєстр артефактів/моделей, політики версій/доступів, шаблони сервісів;
- CI/CD для моделей: data/model tests, canary/blue-green/shadow, rollback, feature-flags;
- Observability: якість/дрейф/стабільність, p95 latency/ресурси, інциденти, фідбек-петлі у тренування;
- Безпека: secrets/IAM/RBAC, аудит інференсу, керування конфігами, мережеві політики/ingress;
- Edge-сценарії: синхронізація моделей/кешів, стійкість до збоїв/відключень, телеметрія;
- Capacity-планування CPU/GPU, error-budgets для пікових вікон (вечори/п’ятниця);
- Автоматизований реплей inference-логів для аудиту/донавчання; zero-downtime оновлення;
OKR приклади:
- Uptime ML-сервісів 99.5%; p95 latency <150 мс на критичних шляхах;
- TtM моделі від approve до продакшну <30 хв; 95% релізів - без простоїв;
- Автоматичне виявлення дрейфу даних/моделей із частотою перевірки 24 год;
Вимоги (must-have):
- 5+ років у MLOps/SRE/DevOps; промислова експлуатація ML-сервісів on-prem;
- Глибоке розуміння життєвого циклу моделей, ризиків і спостережуваності;
- Впевнене володіння Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
- Продакшн-досвід з MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe або Seldon Core;
- Моніторинг/логування: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
- Безпека/конфіги: Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress (Traefik/Kong/Nginx);
- Автоматизація тестів даних/моделей, інцидент-менеджмент, runbooks.
Буде плюсом:
- Edge-інференс у ритейлі (POS/SCO/відео/планограми); GPU-профілювання, TensorRT/quantization/batch-policy;
- Мультиверсійні моделі з швидким roll-forward/back; cost-/energy-aware планування;
- Практика cost-aware планування ресурсів і energy-ефективності;
Технічний стек (on-prem):
- Інфраструктура/оркестрація: Kubernetes/OpenShift, Docker/Containerd, Helm, Argo CD/Workflows, Terraform, Ansible, GitLab CI.
- Serving: MLflow (Registry/Serving), NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe/Seldon Core або Ray Serve.
- Observability: Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-якість - Evidently/whylogs.
- Безпека: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress-контролери.
Компанія пропонує:
- дистанційний або гібридний формат роботи;
- працевлаштування на умовах гіг-контракту або в штат (є можливість бронювання);
- оплачувану щорічну відпустку 24 календарних дня, оплачуваний лікарняний;
- регулярну виплату заробітної плати без затримок та в обумовлених обсягах, регулярний перегляд заробітної плати;
- можливість професійного та кар'єрного росту;
- курси підвищення кваліфікації.
Контактна особа: Катерина, тел.
Показати контакти
0984567857
(t.me/KaterynaB_HR)
АТБ-маркет Перевірена
Торгівля роздрібна / Retail Сайт компанії
Національна роздрібна мережа продуктових магазинів
більше 500 співробітників
з 1993 року на ринку
Регулярний перегляд зарплати
Офіційне працевлаштування згідно КЗпП України
Повний соціальний пакет
Корпоративне навчання
Повністю офіційна зарплата
