Что лучше: Prometheus или Zabbix?
Зависит от контура. Prometheus чаще удобен для cloud-native и Kubernetes, Zabbix - для серверов, сети и legacy. Иногда уместна связка обоих инструментов.

Настраиваю мониторинг, логи и алерты так, чтобы команда видела состояние production, быстро понимала причину сбоев и не просыпалась от бесполезного шума.
Мониторинг должен отвечать на практические вопросы: жив ли сервис, где деградация, что изменилось перед инцидентом, кого уведомить и как восстановиться. Для этого нужны не только графики, но и правильные сигналы.
Prometheus, Grafana, Alertmanager, exporters и dashboard для сервисов и серверов
Zabbix для инфраструктуры, сетевого оборудования, офисных и legacy-контуров
Loki, ELK Stack, централизованные логи, поиск ошибок и retention-политики
Sentry и error tracking для приложений, API, backend и frontend
Алерты по SLO, доступности, latency, ошибкам, ресурсам, очередям и базам данных
Runbook, правила эскалации, дежурства и разбор повторяющихся инцидентов
Если о проблеме первым сообщает клиент, мониторинг уже не выполняет свою работу. Сильная observability-схема помогает увидеть деградацию до аварии и быстро отделить симптомы от причины.
Хороший мониторинг не заменяет инженеров, но резко сокращает время диагностики. Команда получает единую картину production и меньше спорит о том, что именно сломалось.
Зависит от контура. Prometheus чаще удобен для cloud-native и Kubernetes, Zabbix - для серверов, сети и legacy. Иногда уместна связка обоих инструментов.
Можно, но dashboard без правильных метрик и алертов редко решает проблему. Обычно начинаем с целей мониторинга и критичных сигналов.
Да. Настраиваю Loki или ELK Stack, сбор логов из приложений, контейнеров и серверов, retention, поиск ошибок и привязку к релизам.
Да. Для этого пересматриваются thresholds, группировка, маршрутизация, severity, silence-правила и runbook для типовых ситуаций.
Опишите текущий контур, критичные сервисы и проблему. По этому можно выбрать формат: аудит, разовая работа, сопровождение или подключение команды под объём.
Написать в Infra LAB