← Назад к кейсамКейс: DevOps и hybrid cloud infrastructure для medical AI-платформы Diagnocat
Diagnocat - AI-платформа для цифровой стоматологии, которая анализирует 2D и 3D-снимки, помогает врачам в диагностике и работает на международном рынке. Для медицинского продукта такого класса инфраструктура должна быть одновременно гибкой, отказоустойчивой и аккуратной с точки зрения безопасности.
В проекте поддерживалась гибридная и мультирегиональная инфраструктура: собственные мощности, GCP и Яндекс Облако. Для США, Канады, Австралии, Европы и России поддерживались отдельные региональные контуры со своими ресурсами, настройками, доступами, dev/stage/prod-окружениями и эксплуатационными процессами. Отдельный фокус - CI/CD, автоматизация развертывания, мониторинг, доступность сервисов и требования ИТ-безопасности для медицинского ПО.
Стек и тип задач
- • DevOps и MLOps для AI-сервиса в production: инфраструктура инференса, окружения разработки и поставка изменений
- • Мультирегиональная инфраструктура: отдельные контуры для США, Канады, Австралии, Европы и России
- • GCP для международных окружений и Yandex Cloud для российского контура с самой большой нагрузкой
- • Kubernetes, Docker, GitLab CI/CD, Terraform/Terragrunt-подход, MongoDB и связанные инфраструктурные сервисы
- • Три кластера AI-пайплайнов для GPU-нагрузки: HPA и динамическое расширение за счет spot-инстансов с GPU
- • Масштабирование GPU-мощностей с учетом доступности зон, квот и стоимости вычислений
- • Dev/stage/prod для каждого регионального контура, а не одна общая среда на все направления
- • Мониторинг, логирование, алертинг и эксплуатация сервисов с высокой ценой простоя
- • Работа с требованиями безопасности, доступами, сетевыми контурами и чувствительными медицинскими данными
Ключевые направления работ
- • Поддержка гибридной инфраструктуры: собственные мощности, GCP, Yandex Cloud и повторяемая структура окружений
- • Развитие CI/CD и автоматизация поставки изменений в production
- • Сопровождение Kubernetes-контуров, MongoDB и связанных сервисов для разных эксплуатационных сценариев
- • Настройка GPU autoscaling для трех AI-кластеров пайплайнов: HPA, spot-инстансы, учет зональных ограничений и облачных квот
- • Повышение доступности и отказоустойчивости ключевых сервисов
- • Настройка мониторинга, логирования и процессов наблюдаемости
- • Инфраструктурная поддержка AI-продукта с учётом требований безопасности и чувствительности медицинских данных
- • Сопровождение среды, в которой важны стабильность, скорость изменений и доверие конечных пользователей