Какой инструмент вы используете для мониторинга своих серверов?
Для получения более полного списка инструментов мониторинга и их функций посетите эту страницу в Википедии .
Как говорится в вопросе, какие наиболее часто используемые инструменты используются для этой задачи и каковы их сильные и слабые стороны?
30 ответов
Я использовал Nagios в прошлом с успехом. Он очень расширяемый (более 200 дополнений), относительно прост в использовании и множество отчетов. Отрицательной будет первоначальная настройка.
Кактусы - очень хороший веб-интерфейс для RRDTool , предоставляя очень удобные графики и статистику. RRDTool - это часть, которая собирает данные из нескольких систем и контролирует широкий спектр технических данных.
Мы используем это решение cacti /RRDTool для мониторинга систем Unix и Windows. Мы получаем множество полезных показателей, включая загрузку, использование CPU /RAM, пространство HD, вход в систему, сетевой трафик, запущенные процессы и т. Д.
Дополнительную информацию о кактусах можно найти на странице Что такое сайт Cacti? . р>
Лично я люблю Munin , который очень прост в установке и писать плагины, поскольку он имеет очень простую архитектуру. Есть много плагинов уже вокруг для всех целей, которые вы могли себе представить, поэтому вам, вероятно, даже не придется писать плагины в первую очередь.
Он также предоставляет красивые графики и возможность настраивать (очень простые) оповещения.
Zabbix . Это с открытым исходным кодом и достаточно прост в настройке и настройке. У нас есть много настраиваемых сценариев мониторинга, которые подаются на сервер zabbix, но он заботится о централизации этих данных, их надлежащим образом отображать, уведомлений (электронная почта, IM, SMS, твиттер и т. Д.) И т. Д.
Я занимаюсь раскруткой Spiceworks в нашей компании, и мы находим, что это отличный инструмент не просто для мониторинга серверов, но все остальное в сети.
Он делает такие вещи, как автоматическая инвентаризация и пользовательский мониторинг, для отправки вам сообщений электронной почты, когда есть проблема (EG: принтер имеет до 10% чернил или жесткий диск этого сервера имеет 20%).
Его недостатком, вероятно, будет плотность информации на один компьютер, не ошибетесь, у нее много данных на машину, но для таких вещей, как серверы, где вам может понадобиться много статистики, вам может понадобиться использовать другой инструмент.
EDIT: О, я упоминал, что его бизнес-модель основана на том, что она свободна навсегда.
Smokeping не только проверяет наличие различных серверов и сервисов, но и отслеживает их задержку, обеспечивая при этом удобство использования , приятный внешний вид и быстрый просмотр графиков .
Широкий диапазон плагинов для измерения задержки доступен из коробки. Если вы знаете какой-то Perl, легко создавать свои собственные для любых экзотических потребностей.
Большие установки выиграют от системы Master /Slave для распределенных измерений.
Высоко настраиваемая система оповещения поможет вам заметить проблемы до того, как они начнут влиять на пользователей или будут развиваться в основном отключении.
Smokeping является бесплатным и OpenSource Software, написанным на Perl Тоби Отейкером, создателем MRTG и RRDtool
OpenNMS используется там, где я работаю, чтобы отслеживать более тысячи машин Linux. Мы отслеживаем аппаратное обеспечение каждой машины и приложений, работающих на них.
Zenoss Core используется, мы его используем (примерно для год) для легкого мониторинга серверов, сетевых коммутаторов и ИБП.
Zenoss Core - это удостоенный наград продукт для мониторинга ИТ с открытым исходным кодом, который эффективно управляет конфигурацией, здоровьем и производительностью сетей, серверов и приложений с помощью единого интегрированного программного пакета.
Nagios отлично работает, так как это бесплатно, и для него много плагинов. Однако пользовательский интерфейс и конфигурация очень сложны.
Совершенно противоположно в pro /con, что тоже отлично, это Microsoft System Center Operations Manager (SCOM), который не является бесплатным, имеет меньше плагинов, но настройка и конфигурация являются блестящими и легкими.
Я должен признать, что, если бы я был в основном в компании Microsoft, у меня были очень высокие требования к надежности (т. е. не могли позволить себе контролировать мониторинг) или приходилось думать о том, чтобы заставить разработчиков работать с ним, тогда SCOM была бы моей рекомендацией по Nagios ,
Я использовал:
- Nagios - требуется некоторая устаревшая настройка командной строки, а не красивая, но прочная и функциональная. Он был заменен:
- Zenoss - требует гораздо меньше усилий для создания, имеет коммерческий вариант. После запуска остальные управляются через браузер. Очень мощный, но требует некоторой работы MIB, если вы используете бесплатную версию.
- Intermapper - коммерческая программа, потраченная, если у вас много узлов для мониторинга. Появляется, чтобы быть написанным на Java (лучше или хуже).
- Spiceworks - не пробовали последнюю версию. Старые версии нуждались в немного больше umph под капотом, чтобы заставить его ответить, но в остальном он работает красиво. Бесплатная версия поставляется с объявлениями nag.
Мы используем AlertFox с нескольких недель и очень рады этому. Он не только проверяет работоспособность и производительность, но также отслеживает корзину покупок, логин пользователя и другие важные части веб-сайта с помощью сценариев транзакций (на основе iMacros).
Для нашего внутреннего мониторинга (дискового пространства и т. д.) мы используем Nagios .
PRTG Network Monitor - не может сказать об этом достаточно много. Удивительный веб-интерфейс и особенно отлично подходит для мониторинга маршрутизаторов (пропускная способность и т. Д.) И других устройств через SNMP и измерения времени безотказной работы для SLA и т. Д.
www.paessler.com
Как человек Windows, MOM. Мы стремимся к обновлению до System Center Operations Manager (SCOM), но не нужно, пока мы не начнем развертывание Windows 2008.
Я являюсь частью проекта по обновлению оперативного мониторинга. У нас были разные поставщики, которые представили несколько крупных долларовых систем и смешались в некоторых более дешевых альтернативах для сравнения.
Один из них Hyperic , который также доступен как бесплатное решение с открытым исходным кодом. Я был впечатлен его доступными возможностями и расширяемостью для настраиваемых агентов.
Для мониторинга статистики (использование памяти, загрузка, активность mysql, активность apache и т. д.) Я использую Munin . Из коробки он уже отслеживает множество вещей и графиков графиков для разных временных интервалов (последние 24 часа, последние 7 дней, последний месяц, последний год). Через плагины можно отслеживать еще больше вещей. Это вывод HTML-страниц с красивыми графиками.
Munin имеет архитектуру master /node: узлы собирают статистику на сервере, а мастер хранит данные и создает HTML и графики.
Я использую Monit , чтобы отслеживать запущенные процессы и перезапускать или предупреждать меня, когда возникают определенные настраиваемые условия (высокая загрузка процессора, высокая загрузка памяти, отсутствие ответа HTTP и т. д.) Monit также может контролировать более общие вещи о сервере, такие как загрузка процессора, использование памяти, состояние жесткого диска или использование диска.
Монит должен быть настроен для каждой службы или оборудования, которое вы хотите контролировать, и как реагировать, когда что-то пойдет не так. Самые используемые опции - ничего не делать, отправлять оповещение по электронной почте или перезапускать службу.
Monit отлично работает, но иногда ему не удается запустить, остановить или перезапустить службу, и нет никакой доступной диагностической информации, чтобы рассказать вам, что пошло не так. Это означает, что вы не знаете, была ли проблема с вашей службой или с конфигурацией Monit, которая работает с минимальной средой, подобной cron.
Оба инструмента доступны по умолчанию для большинства дистрибутивов Linux.
Я удивлен, что никто не упомянул logwatch или logcheck для Linux-серверов - экономит тонны журналов времени!
Я использую Pingdom для мониторинга моего сервера. Он отправляет мне SMS-сообщение, когда сервер недоступен.
Наш проект использует Ganglia для наших кластеров с более чем 100 кластерами. Одна из причин, по которой мы его используем, заключается в том, что это инструмент мониторинга, который поставляется с Rocks .
Для нас важно иметь очень низкие накладные расходы для каждого узла, так что для вычисления доступно как можно больше ресурсов. Ganglia дает нам хороший обзор кластера и позволяет нам развернуть отдельные узлы, если это необходимо. Кроме того, знаете, что происходит прямо сейчас, мы можем очень хорошо посмотреть, что произошло за последний час, день, неделю, месяц и год. Графики различных статистических данных являются базовыми и функциональными.
Все зависит от того, что вы подразумеваете под «монитором»!
- Доступен ли он (система или услуга)? Мы используем nagios .
- Что он делает? Мы используем munin для Linux-серверов и cacti для всего остального, хотя иногда бывает больно настраивать ...
- Что он сделал? Мы используем syslog-ng для концентрации syslogs в одном месте, а затем ежедневно запускаем индивидуальный скрипт проверки, чтобы отправлять отчеты по электронной почте. Мы ищем что-то подобное для серверов Windows.
Новый участник на сцене, чтобы проверить, как конкурировать с Cacti и решениями на основе RRDTool, является Graphite ( http: //graphite.wikidot.com/)
RRDTool заменяется хранилищем под названием Whisper. Документы дают довольно хороший обзор того, почему он отличается, и мне очень нравится CLI для графического отображения ad hoc при исследовании чего-то.
Мы используем (и вроде) WhatsUp из Ipswitch для нашей относительно небольшой сети Windows. Он легко настраивается и относительно прост в управлении, а также знает, как работать с серверами Windows, а также с обычными файлами.
Для больших сетей, не ориентированных на Windows сетей или сетей с большим количеством разнообразных материалов, я сердечно рекомендую OpenNMS . Программное обеспечение OpenNMS, если оно бесплатное, и компания более чем счастлива продать услуги поддержки и внедрения. Кроме того, он управляется очень резким другом моего колледжа!
Для тех, кому не нравится веб-интерфейс Nagios, есть NPC , плагин для кактусов что делает пользовательский интерфейс Nagios доступным изнутри кактусов, но с лучшим внешним видом (ajax и т. д.).
Он читает из базы данных, предоставленной NDO2DB , что является отличным способом ваша инфраструктура доступна из базы данных для использования в скриптах и других инструментах.
В настоящее время мы используем PRTG из Paessler . Это отлично. Никаких агентов не требуется, отличный веб-интерфейс Ajax, историческое ведение журнала, графическое оформление, WMI и т. Д. Есть версия для 10 датчиков, доступная бесплатно, но мы разработали пару крупных версий для корпоративной версии. Деньги хорошо потрачены.
Хоббит - это более быстрая версия Big Brother (которая в наши дни кажется тревожной рекламой).
Если вы спешите и хотите быстрый инструмент для мониторинга вашего сервера MS, используйте монитор производительности для Windows, настройте журнал счетчиков с настраиваемым шаблоном мониторинга и расписанием custome (например: собирайте данные в течение 5 минут каждый час ). Затем загрузите инструмент LogParser и анализатор производительности Loglog (PAL) компании Microsoft ( http://pal.codeplex.com/), чтобы хрустит ваш счетчик. PAL создаст отличный документальный отчет со ссылками на возможные документы /инструменты для решения проблем.
Я использую комбинацию вкладок производительности Solarwinds, VMware и настраиваемых скриптов.
Solarwinds Orion Network Performance Monitor - это то, что я использую для наших систем Windows. администраторы на моих веб-серверах. Все еще получая некоторые полезные показатели приложения, работающие на нем, но у него есть хорошая информация о базовых элементах ящика (диск, сеть, процессор).
Для моих гостей VMware мне нравятся вкладки производительности.
Для моих серверов Sun, когда мне нужно что-то, что недоступно в Solarwinds (потому что наш администратор не добавил его или что), я пишу собственные скрипты (обычно в Perl) для наблюдения за такими вещами, как зеркальное здоровье, использование подкачки , и т. д.
Я бы хотел получить больше на Solarwinds, но есть только 26 часов в день (или, как мне кажется, мой босс), поэтому я считаю, что это может быть чуть-чуть ...
Мы используем OpsView , который работает поверх Nagios. WebUI помогает нам развертывать новые определения монитора хоста без необходимости доступа к SSH, предоставляет общедоступные представления и записывает исторические значения. Это удобно для обеспечения и определения подходящих исходных условий.
Zabbix ( http://www.zabbix.com ) тоже хорошо и проще настроить, чем Nagios ,
Извините, но я закончил использование множества пользовательских скриптов. В то время как далеко от идеала я сомневаюсь, что существует более распространенное решение.
Мы создали собственное программное обеспечение для мониторинга. Наш код не настолько сложный, как коммерческий пакет, но нам не нужно было много функциональности. Нам было проще писать сами, чем исследовать другие пакеты и научиться их использовать. Код делает то, что мы хотим, и его легко расширить.