Мониторинг IT-инфраструктуры: SCOM, Zabbix и SNMP-решения

Мониторинг IT-инфраструктуры — это не просто наблюдение за серверами, а комплексная система раннего предупреждения проблем, которая позволяет предотвращать сбои до того, как они повлияют на бизнес. Без грамотного мониторинга системный администратор работает вслепую: узнаёт о проблемах от пользователей, когда уже слишком поздно.

Этот раздел — ваш практический справочник по системам мониторинга, где собраны инструкции от действующих специалистов по развертыванию и настройке профессиональных инструментов наблюдения. Независимо от того, используете ли вы корпоративный Microsoft SCOM, open-source Zabbix или легкие SNMP-решения, ниже вы найдете проверенные конфигурации и лучшие практики.

Что вы найдете в этом разделе:

  • 🏢 Microsoft SCOM (System Center Operations Manager): Развертывание и настройка пакетов управления, мониторинг Windows Server, СХД (EMC, Hitachi), создание кастомных правил и мониторов, настройка оповещений через Email с внешней аутентификацией.
  • 🐧 Zabbix: Установка и настройка мощной open-source системы мониторинга, работа с агентами и SNMP, создание триггеров и шаблонов, настройка прокси-серверов для распределенных инфраструктур.
  • 📡 SNMP и специализированные решения: Мониторинг температуры серверных (Sensatronics), использование MIB-браузеров, интеграция с SCOM, настройка оповещений при критических изменениях параметров.
  • 🔧 Практические кейсы: Мониторинг служб Windows, отслеживание производительности СХД, ping-мониторинг сетевого оборудования, автоматизация оповещений.
Содержание скрыть
  1. Microsoft System Center Operations Manager (SCOM)
    1. Настройка мониторинга служб Windows в SCOM
    2. Настройка мониторинга СХД Dell EMC в SCOM
    3. Как настроить мониторинг температуры в серверной по SNMP в SCOM
    4. Не завершается процесс обнаружения устройств в консоли SCOM: причины и решение
    5. Настройка мониторинга СХД Hitachi Data Systems в SCOM
    6. Новые возможности System Center 2016 Operations Manager
    7. Обзор функции MP Updates and Recommendations в Microsoft SCOM 2016
    8. Настройка оповещений в SCOM 2016: External Email Authentication
    9. Как установить и настроить пакет управления Opslogix Ping в SCOM
    10. Что нового в System Center 1801
  2. Zabbix: система мониторинга с открытым кодом
    1. Zabbix — система мониторинга IT-инфраструктуры: полный обзор, настройка и возможности
  3. SNMP и другие инструменты мониторинга
    1. Как настроить контроллер температуры Sensatronics Model E4
    2. Обзор и установка пакета Hitachi Command Suite
    3. Как собрать логи для HP EVA в Command View
  4. Связанные разделы
  5. Часто задаваемые вопросы(FAQ)
    1. Что такое мониторинг IT-инфраструктуры и зачем он нужен?
    2. Какие объекты охватывает мониторинг инфраструктуры?
    3. Чем мониторинг отличается от observability (наблюдаемости)?
    4. Zabbix или Prometheus + Grafana — что выбрать?
    5. Для чего используется SCOM (System Center Operations Manager)?
    6. Что такое SNMP и когда его достаточно для мониторинга?
    7. Какую роль выполняет Grafana в стеке мониторинга?
    8. Как правильно настроить пороги алертов, чтобы не утонуть в ложных срабатываниях?
    9. Как организовать мониторинг в территориально распределённой инфраструктуре?
    10. Как мониторить СХД и дисковые массивы?
    11. Нужен ли отдельный инструмент для мониторинга ЦОД (температура, питание, физические параметры)?
    12. Как интегрировать систему мониторинга с ITSM / Service Desk?
    13. Как мониторинг вписывается в концепцию GitOps и Infrastructure as Code?
    14. Как долго нужно хранить исторические метрики?

Microsoft System Center Operations Manager (SCOM)

Полные руководства по настройке корпоративной системы мониторинга Microsoft SCOM. Инструкции по установке пакетов управления для СХД EMC и Hitachi, настройке мониторинга служб Windows, созданию кастомных SNMP-правил и мониторов, интеграции с внешними SMTP-серверами для оповещений через External Email Authentication. Практические примеры использования Ping Management Pack от OpsLogix для мониторинга доступности сетевого оборудования.

Инструкция по настройке мониторинга служб Windows в SCOM

Настройка мониторинга служб Windows в SCOM

Критический SQL-сервис или банальный диспетчер печати «упали» в три часа ночи, а вы узнали об этом только утром от разгневанных пользователей? Знакомая ситуация. Наблюдение за ...
Мониторинг систем хранения данных EMC в Operations Manager

Настройка мониторинга СХД Dell EMC в SCOM

Любой системный администратор знает золотое правило: если элемент ИТ-инфраструктуры не мониторится, значит он сломается в самый неподходящий момент в пятницу вечером. Интеграция корпоративных систем хранения ...
Как настроить мониторинг температуры в серверных и ЦОД с помощью монитора температуры Sensatronics и SCOM

Как настроить мониторинг температуры в серверной по SNMP в SCOM

Контроль микроклимата в серверной — задача, которую нельзя оставлять «на потом». Перегрев оборудования может привести к отказу дисков, зависанию серверов и потере данных. И если ...
Не завершается процесс Discovery в консоли SCOM

Не завершается процесс обнаружения устройств в консоли SCOM: причины и решение

Проблема: В консоли Microsoft Operations Manager долго не завершается процесс обнаружения новых устройств (discovery). Симптомы Допустим вы хотите установить новых агентов мониторинга на серверы Windows ...
Как настроить мониторинг дисковых массивов HDS в SCOM

Настройка мониторинга СХД Hitachi Data Systems в SCOM

В этой статье будет рассмотрен мониторинг систем хранения данных Hitachi Data Systems (HDS) в SCOM 2012. В качестве примера будет использована СХД AMS 2100. Для настройки ...
Новые возможности SCOM 2016

Новые возможности System Center 2016 Operations Manager

Обзор новых возможностей системы мониторинга MS SCOM 2016 Улучшенная производительность консоли SCOM В консоли SCOM 2016 была оптимизирована производительность представлений состояний, диаграмм и оповещений. Благодаря ...
Статья про новою функцию «Updates and Recommendations» в Microsoft Operations Manager 2016

Обзор функции MP Updates and Recommendations в Microsoft SCOM 2016

Как уже нами упоминалось ранее, в SCOM 2016 команда разработчиков Microsoft добавила новую интересную фичу «Management Pack Updates and Recommendations», позволяющую автоматически обнаруживать на агентах ...
Настройка External Email Authentication в SCOM 2016

Настройка оповещений в SCOM 2016: External Email Authentication

В SCOM 2016 появилась новая возможность - уведомление по Email с внешней аутентификацией (External Email Authentication). В этой статье будут рассмотрены основные шаги по настройке ...
Статья о OpsLogix Ping Management Pack для MS Operations Manager

Как установить и настроить пакет управления Opslogix Ping в SCOM

Сегодня я хочу рассказать об установке и настройке пакета управления OpsLogix Ping Management Pack в System Center Operations Manager. Описание пакета OpsLogix Ping Management Pack ...
Что нового в System Center 1801?

Что нового в System Center 1801

8 февраля Microsoft анонсировала выход System Center 1801. Как вы наверное уже знаете, компания перешла на модель выпуска Semi-Annual Channel (SAC) и для продуктовой линейки ...

Zabbix: система мониторинга с открытым кодом

Zabbix — мощная open-source платформа для мониторинга IT-инфраструктуры любого масштаба. В этом разделе: обзор архитектуры (сервер, прокси, агенты), настройка триггеров и шаблонов, работа с SNMP и JMX, низкоуровневое обнаружение устройств, прогнозирование проблем на основе исторических данных. Zabbix подходит как для небольших сетей, так и для enterprise-инфраструктур с тысячами хостов.

Статья Zabbix — мощный инструмент для мониторинга ИТ-инфраструктуры

Zabbix — система мониторинга IT-инфраструктуры: полный обзор, настройка и возможности

Zabbix — это enterprise-уровня система мониторинга IT-инфраструктуры с открытым исходным кодом, которая позволяет отслеживать состояние серверов, сетевого оборудования, приложений и облачных сервисов в реальном времени ...

SNMP и другие инструменты мониторинга

Решения для специфических задач мониторинга. Настройка SNMP-агентов, мониторинг СХД и серверных.

Temperature monitor Model E4 Sensatronics

Как настроить контроллер температуры Sensatronics Model E4

Сегодня мы расскажем о контроллере (мониторе) температуры окружающей среды Temperature Monitor Model E4 компании Sensatronics. Необходимость осуществлять мониторинг температуры в серверных помещениях и ЦОД сегодня не ...
Установка Hitachi Command Suite 8

Обзор и установка пакета Hitachi Command Suite

В этой статье будет рассмотрен вопрос установки программного продукта Hitachi Command Suite (HCS) компании Hitachi Data Systems (HDS). Компания HDS является одним из мировых лидеров в ...
Статья - Как собрать логи на СХД HP EVA через Command View

Как собрать логи для HP EVA в Command View

В этой статье рассмотрим тему сбора логов и диагностической информации с дисковой системы хранения данных HP Enterprise Virtual Array (EVA), на примере модели EVA 4400, ...

Связанные разделы

Часто задаваемые вопросы(FAQ)

Что такое мониторинг IT-инфраструктуры и зачем он нужен?

Мониторинг IT-инфраструктуры — это непрерывный сбор, анализ и визуализация данных о состоянии серверов, сетевого оборудования, систем хранения данных (СХД), центров обработки данных (ЦОД) и приложений. Его цель — обнаруживать сбои и деградацию производительности до того, как они скажутся на бизнесе. Правильно выстроенный мониторинг сокращает MTTR (среднее время восстановления), снижает риск простоев и помогает планировать ресурсы.

Какие объекты охватывает мониторинг инфраструктуры?

Типичный периметр мониторинга включает серверы, сети и коммутаторы, ЦОД и гипервизоры, СХД и SAN, базы данных, приложения (APM) и облачные ресурсы. Для каждого слоя собираются свои метрики: для серверов — CPU, RAM, disk I/O; для сети — latency, packet loss, bandwidth; для СХД — IOPS, throughput, свободное место.

Чем мониторинг отличается от observability (наблюдаемости)?

Мониторинг — это сбор заранее определённых метрик и срабатывание алертов при пересечении порогов. Observability — более широкая концепция: она предполагает, что состояние системы можно понять по её «выходным сигналам» — метрикам (metrics), логам (logs) и трассировкам (traces), даже если вы заранее не знали, что именно искать. Инструменты вроде Prometheus + Grafana или OpenTelemetry закрывают оба подхода.

Zabbix или Prometheus + Grafana — что выбрать?

Zabbix — монолитная платформа «всё-в-одном»: агент, сервер, база данных и веб-интерфейс идут в комплекте. Хорошо подходит для мониторинга классической on-premise инфраструктуры с минимальным порогом входа.
Prometheus + Grafana — стек pull-модели, ориентированный на динамичные облачные среды и Kubernetes. Требует больше настройки, зато даёт гибкость запросов через PromQL и отлично масштабируется. Если у вас микросервисы или контейнеры — выбор очевиден.

Для чего используется SCOM (System Center Operations Manager)?

SCOM — корпоративная платформа Microsoft для мониторинга Windows-инфраструктуры: серверов, AD, SQL Server, Exchange, IIS и других компонентов экосистемы. Её ключевая ценность — Management Packs: готовые пакеты правил, метрик и алертов для конкретных продуктов Microsoft. SCOM хорошо интегрируется с Azure, SCOM MI и ITSM-системами (ServiceNow, System Center). Оправдан, если в организации большой парк Windows-серверов и развитая экосистема Microsoft.

Что такое SNMP и когда его достаточно для мониторинга?

SNMP (Simple Network Management Protocol) — стандартный протокол опроса сетевых устройств: маршрутизаторов, коммутаторов, принтеров, ИБП, промышленного оборудования. Устройство возвращает значения из своей MIB-базы (Management Information Base). SNMP v1/v2c достаточно для базового мониторинга сети; v3 добавляет шифрование и аутентификацию. Для серверов и приложений SNMP обычно дополняют агентами (Zabbix Agent, NRPE, WMI), которые дают более детальные метрики.

Какую роль выполняет Grafana в стеке мониторинга?

Grafana — платформа визуализации и аналитики, которая сама по себе не хранит метрики. Она подключается к источникам данных: Prometheus, InfluxDB, Elasticsearch, Loki, Zabbix, Datadog и многим другим через плагины. В Grafana создаются дашборды с графиками, таблицами, тепловыми картами и алертами. Часто используется как единая «стеклянная панель» поверх нескольких систем мониторинга, что позволяет видеть инфраструктуру целиком на одном экране.

Как правильно настроить пороги алертов, чтобы не утонуть в ложных срабатываниях?

Несколько принципов для борьбы с «alert fatigue»:
Используйте скользящие окна вместо мгновенных порогов — например, CPU > 90% на протяжении 5 минут, а не разовый всплеск.
Разделяйте алерты по приоритету: critical (немедленное действие), warning (наблюдение), info (информация).
Добавляйте контекст в уведомление: хост, метрика, текущее значение, ссылка на дашборд и runbook.
Регулярно ревьюйте алерты — удаляйте те, по которым никто не предпринимает действий.

Как организовать мониторинг в территориально распределённой инфраструктуре?

Типовая архитектура — иерархическая. В каждом удалённом офисе или ЦОД устанавливается локальный прокси или агрегатор (Zabbix Proxy, Prometheus remote_write, Victoria Metrics agent), который собирает данные и передаёт их в центральный сервер мониторинга. Это снижает нагрузку на WAN-каналы и обеспечивает локальную работоспособность сбора данных даже при потере связи с центром

Как мониторить СХД и дисковые массивы?

Для мониторинга СХД используют несколько подходов одновременно: опрос по SNMP для получения базового статуса устройства, vendor API (REST или proprietary) для детальных метрик конкретного массива (EMC, NetApp, HPE 3PAR, Pure Storage), а также агенты или exporters для Prometheus. Ключевые метрики: IOPS, throughput (MB/s), latency (мс на операцию), утилизация томов, статус RAID-групп и состояние дисков (S.M.A.R.T.).

Нужен ли отдельный инструмент для мониторинга ЦОД (температура, питание, физические параметры)?

Физические параметры ЦОД — температура, влажность, ИБП, ПДУ (Power Distribution Unit), системы кондиционирования — обычно мониторятся отдельно через DCIM-системы (Data Center Infrastructure Management) или SNMP-опрос соответствующего оборудования. Данные можно интегрировать в единый стек (например, через Zabbix или Grafana), чтобы коррелировать физические события с деградацией производительности серверов.

Как интегрировать систему мониторинга с ITSM / Service Desk?

Большинство зрелых платформ (Zabbix, SCOM, Nagios, Datadog) поддерживают webhook-уведомления и прямые интеграции с ServiceNow, Jira Service Management, Freshservice. При срабатывании критичного алерта автоматически создаётся инцидент с заполненными полями (хост, описание, приоритет, ссылка на дашборд). Это ускоряет эскалацию и сохраняет контекст для постмортема.

Как мониторинг вписывается в концепцию GitOps и Infrastructure as Code?

Конфигурации мониторинга хранятся в Git и применяются через CI/CD — это называют «Monitoring as Code». Prometheus правила алертов описываются в YAML, Grafana-дашборды экспортируются в JSON и версионируются, Zabbix шаблоны экспортируются через API. Инструменты: Terraform (для облачных мониторинговых ресурсов), Ansible (для развёртывания агентов), Jsonnet/Grafonnet (для генерации Grafana-дашбордов программно).

Как долго нужно хранить исторические метрики?

Зависит от целей. Для оперативного реагирования достаточно 15–30 дней с высоким разрешением (1–10 сек). Для анализа трендов и планирования мощностей — 12–18 месяцев с агрегацией (1–5 мин). Prometheus хранит данные локально с ограниченным retention; для долгосрочного хранения используют удалённые хранилища: Thanos, VictoriaMetrics, Cortex. Zabbix поддерживает настройку housekeeping прямо в интерфейсе.