Кейс: DevOps и hybrid cloud infrastructure для medical AI-платформы Diagnocat

Diagnocat - AI-платформа для цифровой стоматологии, которая анализирует 2D и 3D-снимки, помогает врачам в диагностике и работает на международном рынке. Для медицинского продукта такого класса инфраструктура должна быть одновременно гибкой, отказоустойчивой и аккуратной с точки зрения безопасности.

В проекте поддерживалась гибридная и мультирегиональная инфраструктура: собственные мощности, GCP и Яндекс Облако. Для США, Канады, Австралии, Европы и России поддерживались отдельные региональные контуры со своими ресурсами, настройками, доступами, dev/stage/prod-окружениями и эксплуатационными процессами. Отдельный фокус - CI/CD, автоматизация развертывания, мониторинг, доступность сервисов и требования ИТ-безопасности для медицинского ПО.

Зона ответственности и SLA-фокус

• Мультирегиональные контуры medical AI-продукта с отдельными dev/stage/prod окружениями
• GPU-инфраструктура для AI-пайплайнов: autoscaling, spot-инстансы, квоты и стоимость вычислений
• CI/CD, monitoring, logging, доступность сервисов и эксплуатационная поддержка production
• Аккуратная работа с доступами, сетями и требованиями безопасности для медицинского ПО

Стек и тип задач

• DevOps и MLOps для AI-сервиса в production: инфраструктура инференса, окружения разработки и поставка изменений
• Мультирегиональная инфраструктура: отдельные контуры для США, Канады, Австралии, Европы и России
• GCP для международных окружений и Yandex Cloud для российского контура с самой большой нагрузкой
• Kubernetes, Docker, GitLab CI/CD, Terraform/Terragrunt-подход, MongoDB и связанные инфраструктурные сервисы
• Три кластера AI-пайплайнов для GPU-нагрузки: HPA и динамическое расширение за счет spot-инстансов с GPU
• Масштабирование GPU-мощностей с учетом доступности зон, квот и стоимости вычислений
• Dev/stage/prod для каждого регионального контура, а не одна общая среда на все направления
• Мониторинг, логирование, алертинг и эксплуатация сервисов с высокой ценой простоя
• Работа с требованиями безопасности, доступами, сетевыми контурами и чувствительными медицинскими данными

Ключевые направления работ

• Поддержка гибридной инфраструктуры: собственные мощности, GCP, Yandex Cloud и повторяемая структура окружений
• Развитие CI/CD и автоматизация поставки изменений в production
• Сопровождение Kubernetes-контуров, MongoDB и связанных сервисов для разных эксплуатационных сценариев
• Настройка GPU autoscaling для трех AI-кластеров пайплайнов: HPA, spot-инстансы, учет зональных ограничений и облачных квот
• Повышение доступности и отказоустойчивости ключевых сервисов
• Настройка мониторинга, логирования и процессов наблюдаемости
• Инфраструктурная поддержка AI-продукта с учётом требований безопасности и чувствительности медицинских данных
• Сопровождение среды, в которой важны стабильность, скорость изменений и доверие конечных пользователей

← Вернуться к кейсам