Мониторинг IT-инфраструктуры — это не просто наблюдение за серверами, а комплексная система раннего предупреждения проблем, которая позволяет предотвращать сбои до того, как они повлияют на бизнес. Без грамотного мониторинга системный администратор работает вслепую: узнаёт о проблемах от пользователей, когда уже слишком поздно.
Этот раздел — ваш практический справочник по системам мониторинга, где собраны инструкции от действующих специалистов по развертыванию и настройке профессиональных инструментов наблюдения. Независимо от того, используете ли вы корпоративный Microsoft SCOM, open-source Zabbix или легкие SNMP-решения, ниже вы найдете проверенные конфигурации и лучшие практики.
Что вы найдете в этом разделе:
- 🏢 Microsoft SCOM (System Center Operations Manager): Развертывание и настройка пакетов управления, мониторинг Windows Server, СХД (EMC, Hitachi), создание кастомных правил и мониторов, настройка оповещений через Email с внешней аутентификацией.
- 🐧 Zabbix: Установка и настройка мощной open-source системы мониторинга, работа с агентами и SNMP, создание триггеров и шаблонов, настройка прокси-серверов для распределенных инфраструктур.
- 📡 SNMP и специализированные решения: Мониторинг температуры серверных (Sensatronics), использование MIB-браузеров, интеграция с SCOM, настройка оповещений при критических изменениях параметров.
- 🔧 Практические кейсы: Мониторинг служб Windows, отслеживание производительности СХД, ping-мониторинг сетевого оборудования, автоматизация оповещений.
- Microsoft System Center Operations Manager (SCOM)
- Настройка мониторинга служб Windows в SCOM
- Настройка мониторинга СХД Dell EMC в SCOM
- Как настроить мониторинг температуры в серверной по SNMP в SCOM
- Не завершается процесс обнаружения устройств в консоли SCOM: причины и решение
- Настройка мониторинга СХД Hitachi Data Systems в SCOM
- Новые возможности System Center 2016 Operations Manager
- Обзор функции MP Updates and Recommendations в Microsoft SCOM 2016
- Настройка оповещений в SCOM 2016: External Email Authentication
- Как установить и настроить пакет управления Opslogix Ping в SCOM
- Что нового в System Center 1801
- Zabbix: система мониторинга с открытым кодом
- SNMP и другие инструменты мониторинга
- Связанные разделы
- Часто задаваемые вопросы(FAQ)
- Что такое мониторинг IT-инфраструктуры и зачем он нужен?
- Какие объекты охватывает мониторинг инфраструктуры?
- Чем мониторинг отличается от observability (наблюдаемости)?
- Zabbix или Prometheus + Grafana — что выбрать?
- Для чего используется SCOM (System Center Operations Manager)?
- Что такое SNMP и когда его достаточно для мониторинга?
- Какую роль выполняет Grafana в стеке мониторинга?
- Как правильно настроить пороги алертов, чтобы не утонуть в ложных срабатываниях?
- Как организовать мониторинг в территориально распределённой инфраструктуре?
- Как мониторить СХД и дисковые массивы?
- Нужен ли отдельный инструмент для мониторинга ЦОД (температура, питание, физические параметры)?
- Как интегрировать систему мониторинга с ITSM / Service Desk?
- Как мониторинг вписывается в концепцию GitOps и Infrastructure as Code?
- Как долго нужно хранить исторические метрики?
Microsoft System Center Operations Manager (SCOM)
Полные руководства по настройке корпоративной системы мониторинга Microsoft SCOM. Инструкции по установке пакетов управления для СХД EMC и Hitachi, настройке мониторинга служб Windows, созданию кастомных SNMP-правил и мониторов, интеграции с внешними SMTP-серверами для оповещений через External Email Authentication. Практические примеры использования Ping Management Pack от OpsLogix для мониторинга доступности сетевого оборудования.

Настройка мониторинга служб Windows в SCOM

Настройка мониторинга СХД Dell EMC в SCOM

Как настроить мониторинг температуры в серверной по SNMP в SCOM

Не завершается процесс обнаружения устройств в консоли SCOM: причины и решение

Настройка мониторинга СХД Hitachi Data Systems в SCOM

Новые возможности System Center 2016 Operations Manager

Обзор функции MP Updates and Recommendations в Microsoft SCOM 2016

Настройка оповещений в SCOM 2016: External Email Authentication

Как установить и настроить пакет управления Opslogix Ping в SCOM

Что нового в System Center 1801
Zabbix: система мониторинга с открытым кодом
Zabbix — мощная open-source платформа для мониторинга IT-инфраструктуры любого масштаба. В этом разделе: обзор архитектуры (сервер, прокси, агенты), настройка триггеров и шаблонов, работа с SNMP и JMX, низкоуровневое обнаружение устройств, прогнозирование проблем на основе исторических данных. Zabbix подходит как для небольших сетей, так и для enterprise-инфраструктур с тысячами хостов.

Zabbix — система мониторинга IT-инфраструктуры: полный обзор, настройка и возможности
SNMP и другие инструменты мониторинга
Решения для специфических задач мониторинга. Настройка SNMP-агентов, мониторинг СХД и серверных.

Как настроить контроллер температуры Sensatronics Model E4

Обзор и установка пакета Hitachi Command Suite

Как собрать логи для HP EVA в Command View
Связанные разделы
- База знаний по Windows Server — настройка, администрирование, решение проблем в ОС Windows Server
- База знаний по Windows 10 — установка, настройка и тюнинг ОС Windows 10
- База знаний по Windows 11 — настройка, оптимизация и тюнинг ОС Windows 11
Часто задаваемые вопросы(FAQ)
Что такое мониторинг IT-инфраструктуры и зачем он нужен?
Мониторинг IT-инфраструктуры — это непрерывный сбор, анализ и визуализация данных о состоянии серверов, сетевого оборудования, систем хранения данных (СХД), центров обработки данных (ЦОД) и приложений. Его цель — обнаруживать сбои и деградацию производительности до того, как они скажутся на бизнесе. Правильно выстроенный мониторинг сокращает MTTR (среднее время восстановления), снижает риск простоев и помогает планировать ресурсы.
Какие объекты охватывает мониторинг инфраструктуры?
Типичный периметр мониторинга включает серверы, сети и коммутаторы, ЦОД и гипервизоры, СХД и SAN, базы данных, приложения (APM) и облачные ресурсы. Для каждого слоя собираются свои метрики: для серверов — CPU, RAM, disk I/O; для сети — latency, packet loss, bandwidth; для СХД — IOPS, throughput, свободное место.
Чем мониторинг отличается от observability (наблюдаемости)?
Мониторинг — это сбор заранее определённых метрик и срабатывание алертов при пересечении порогов. Observability — более широкая концепция: она предполагает, что состояние системы можно понять по её «выходным сигналам» — метрикам (metrics), логам (logs) и трассировкам (traces), даже если вы заранее не знали, что именно искать. Инструменты вроде Prometheus + Grafana или OpenTelemetry закрывают оба подхода.
Zabbix или Prometheus + Grafana — что выбрать?
Zabbix — монолитная платформа «всё-в-одном»: агент, сервер, база данных и веб-интерфейс идут в комплекте. Хорошо подходит для мониторинга классической on-premise инфраструктуры с минимальным порогом входа.
Prometheus + Grafana — стек pull-модели, ориентированный на динамичные облачные среды и Kubernetes. Требует больше настройки, зато даёт гибкость запросов через PromQL и отлично масштабируется. Если у вас микросервисы или контейнеры — выбор очевиден.
Для чего используется SCOM (System Center Operations Manager)?
SCOM — корпоративная платформа Microsoft для мониторинга Windows-инфраструктуры: серверов, AD, SQL Server, Exchange, IIS и других компонентов экосистемы. Её ключевая ценность — Management Packs: готовые пакеты правил, метрик и алертов для конкретных продуктов Microsoft. SCOM хорошо интегрируется с Azure, SCOM MI и ITSM-системами (ServiceNow, System Center). Оправдан, если в организации большой парк Windows-серверов и развитая экосистема Microsoft.
Что такое SNMP и когда его достаточно для мониторинга?
SNMP (Simple Network Management Protocol) — стандартный протокол опроса сетевых устройств: маршрутизаторов, коммутаторов, принтеров, ИБП, промышленного оборудования. Устройство возвращает значения из своей MIB-базы (Management Information Base). SNMP v1/v2c достаточно для базового мониторинга сети; v3 добавляет шифрование и аутентификацию. Для серверов и приложений SNMP обычно дополняют агентами (Zabbix Agent, NRPE, WMI), которые дают более детальные метрики.
Какую роль выполняет Grafana в стеке мониторинга?
Grafana — платформа визуализации и аналитики, которая сама по себе не хранит метрики. Она подключается к источникам данных: Prometheus, InfluxDB, Elasticsearch, Loki, Zabbix, Datadog и многим другим через плагины. В Grafana создаются дашборды с графиками, таблицами, тепловыми картами и алертами. Часто используется как единая «стеклянная панель» поверх нескольких систем мониторинга, что позволяет видеть инфраструктуру целиком на одном экране.
Как правильно настроить пороги алертов, чтобы не утонуть в ложных срабатываниях?
Несколько принципов для борьбы с «alert fatigue»:
Используйте скользящие окна вместо мгновенных порогов — например, CPU > 90% на протяжении 5 минут, а не разовый всплеск.
Разделяйте алерты по приоритету: critical (немедленное действие), warning (наблюдение), info (информация).
Добавляйте контекст в уведомление: хост, метрика, текущее значение, ссылка на дашборд и runbook.
Регулярно ревьюйте алерты — удаляйте те, по которым никто не предпринимает действий.
Как организовать мониторинг в территориально распределённой инфраструктуре?
Типовая архитектура — иерархическая. В каждом удалённом офисе или ЦОД устанавливается локальный прокси или агрегатор (Zabbix Proxy, Prometheus remote_write, Victoria Metrics agent), который собирает данные и передаёт их в центральный сервер мониторинга. Это снижает нагрузку на WAN-каналы и обеспечивает локальную работоспособность сбора данных даже при потере связи с центром
Как мониторить СХД и дисковые массивы?
Для мониторинга СХД используют несколько подходов одновременно: опрос по SNMP для получения базового статуса устройства, vendor API (REST или proprietary) для детальных метрик конкретного массива (EMC, NetApp, HPE 3PAR, Pure Storage), а также агенты или exporters для Prometheus. Ключевые метрики: IOPS, throughput (MB/s), latency (мс на операцию), утилизация томов, статус RAID-групп и состояние дисков (S.M.A.R.T.).
Нужен ли отдельный инструмент для мониторинга ЦОД (температура, питание, физические параметры)?
Физические параметры ЦОД — температура, влажность, ИБП, ПДУ (Power Distribution Unit), системы кондиционирования — обычно мониторятся отдельно через DCIM-системы (Data Center Infrastructure Management) или SNMP-опрос соответствующего оборудования. Данные можно интегрировать в единый стек (например, через Zabbix или Grafana), чтобы коррелировать физические события с деградацией производительности серверов.
Как интегрировать систему мониторинга с ITSM / Service Desk?
Большинство зрелых платформ (Zabbix, SCOM, Nagios, Datadog) поддерживают webhook-уведомления и прямые интеграции с ServiceNow, Jira Service Management, Freshservice. При срабатывании критичного алерта автоматически создаётся инцидент с заполненными полями (хост, описание, приоритет, ссылка на дашборд). Это ускоряет эскалацию и сохраняет контекст для постмортема.
Как мониторинг вписывается в концепцию GitOps и Infrastructure as Code?
Конфигурации мониторинга хранятся в Git и применяются через CI/CD — это называют «Monitoring as Code». Prometheus правила алертов описываются в YAML, Grafana-дашборды экспортируются в JSON и версионируются, Zabbix шаблоны экспортируются через API. Инструменты: Terraform (для облачных мониторинговых ресурсов), Ansible (для развёртывания агентов), Jsonnet/Grafonnet (для генерации Grafana-дашбордов программно).
Как долго нужно хранить исторические метрики?
Зависит от целей. Для оперативного реагирования достаточно 15–30 дней с высоким разрешением (1–10 сек). Для анализа трендов и планирования мощностей — 12–18 месяцев с агрегацией (1–5 мин). Prometheus хранит данные локально с ограниченным retention; для долгосрочного хранения используют удалённые хранилища: Thanos, VictoriaMetrics, Cortex. Zabbix поддерживает настройку housekeeping прямо в интерфейсе.
