Cliffhanger: Резервные копии правы ... здесь ... правильно?

В моей работе резервные копии имеют удивительно низкий приоритет. Стратегия резервного копирования была реализована некоторое время назад, и с тех пор считается, что резервные копии в порядке. Если вы спросите системных администраторов, они скажут, что все подкреплено.

Но тогда, когда вы запрашиваете СПЕЦИФИЧЕСКАЯ резервная копия, половина времени их не существует:

  • Диск получил полную версию
  • Ошибка ленты
  • Похоже, кто-то отключил задание резервного копирования.
  • Сетевое соединение имело время простоя
  • Мы заказали этот диск несколько лет назад, но финансы не одобрили заказ на поставку
  • Файлы повреждены
  • Файл содержит неправильную базу данных
  • Резервное копирование только журналов транзакций (бесполезно без полного)

Несколько недель назад катастрофа стала реальной, так как один из серверов потерял слишком много рейдовых дисков. К счастью, один диск был достаточно добр, чтобы копировать данные, если вы много раз пробовали.

Но даже после этого почти катастрофы я не могу убедить системных администраторов улучшить ситуацию. Так что мне интересно, какие советы открывают людям? Мне кажется, мы идем по краю утеса.

28 голосов | спросил Andomar 16 Maypm09 2009, 17:18:03

7 ответов


24

Вам всегда нужно фиксировать эти вещи сверху.

Является ли текущая стратегия резервного копирования подкрепленной и понимаемой руководством? Если нет, это бесполезно.

Исполнительный менеджмент должен знать о проблемах и рисках (потерять финансовые данные, которые необходимо вывести на законных основаниях для выживания, или данные о клиентах, которые потребовались годы для сбора?) и взвесить это при принятии решений о действиях, или принятие решения о том, чтобы позволить кому-то (как вы) принять меры.

Если вы не можете обратиться к руководству, попробуйте бизнес-контроллеры или другие финансовые позиции, где извлечение данных и их целостность имеют большое значение для отчетов компании. Они, в свою очередь, могут «начать шторм» при необходимости ...

ответил Oskar Duveborn 16 Maypm09 2009, 17:32:33
14

С чего начать? Это катастрофа в ожидании. Основная функция задания Sysadmins - обеспечить резервное копирование и восстановление данных. Все остальное является вторичным. Нет, если нет, но.

Вот несколько вещей, которые вы можете сделать:

  1. Отслеживать KPI для восстановления. Должно быть возможно создать отчет, показывающий, сколько запросов на восстановление было успешным. Все, что менее 100%, следует тщательно изучить. Управление любовью, и это убедительные доказательства.

  2. Должны быть документированы процедуры для всех операций резервного копирования и восстановления, включая все системы и их стратегию резервного копирования, поворот ленты, расписания, пути эскалации, восстановление тестов и т. д. Попросите их увидеть.

  3. Поговорите с менеджером администраторов системы и сообщите о своих проблемах. Идите вооруженными доказательствами, что восстановительные работы не работают. Если радость не повышается.

Серьезно - поднимайте суету. Подобные вещи могут уничтожить компанию.

ответил PowerApp101 16 Maypm09 2009, 18:09:14
5

Предложить (как минимум) ежегодные тесты аварийного восстановления. Работа, необходимая для успешного выполнения теста, должна выявлять недостатки.

ответил aharden 16 Maypm09 2009, 21:27:45
5

Там, где я работаю, у нас очень хороший ИТ-отдел, каждый год они собираются вместе со всех офисов по всей Европе и «восстанавливают праздник» на арендованных серверах в центрах обработки данных, эффективно имитируя, что произойдет, если сотрудники придут на работу в один прекрасный день и обнаружил, что офис сгорел ночью.

Возьмите с собой большого босса, напомните ему, что если ударит беда, он будет бонус в этом году (или даже хуже!), и, возможно, было бы разумно организовать аналогичное упражнение по восстановлению после аварии. Это не должно занять много времени или стоить много - админы отправляются с помощью своих резервных лент и сообщают о том, чтобы создать из них идентичную офисную среду.

Затем отсиживайтесь и смотрите, как IT становится лучше - когда руководство осознает, что данные компании опасно близки к тому, чтобы быть постоянно потерянными, искры будут летать (из ракет, которые будут стратегически размещены в админах)

ответил gbjbaanb 3 J0000006Europe/Moscow 2009, 23:42:06
4

Легко обвинить админов, однако Оскар прав: эти вещи изгнаны из верха. Если менеджмент не будет тратить доллары, чтобы сделать резервные копии приоритетными, тогда системные администраторы обычно не повезло и делают все возможное с ресурсами, которые у них есть.

Ключ, если вы один из тех неудачливых администраторов, и я был в этой лодке для некоторых клиентов, - это то, что вы гарантируете, что руководство будет кратко информировано, многократно и в соответствии с бумажной проверкой, что это риск для бизнеса.

Моя стратегия - постоянно забивать проблемы. Если вы это сделаете, иногда проблемы будут исправлены, но это в основном так, что кто бы я ни сообщил, не может спрятаться за оправданием «Я никогда не был проинструктирован». Как консультант, я обычно могу пойти лучше. Я могу заставить своих боссов высказать больше старшего руководства, чем я могу, что есть уязвимость. Это распространяет вину вокруг или, по крайней мере, фокусирует ее на уровне выше, чем я.

В то же время вы должны быть изобретательными и упорно трудиться, чтобы свести к минимуму риски с любыми ресурсами клиент может предоставить.

Хотя в некоторых случаях админы могут быть виновными, руководство всегда несет ответственность: либо за знание риска, либо за недостаточное выполнение его действий, либо за привлечение людей, которые не предупреждают их об этих рисках.

ответил David Mackintosh 7 J0000006Europe/Moscow 2009, 07:40:26
3

Я отвечаю за около 200 серверов, расположенных на северо-западе Великобритании, и этого, очевидно, слишком много, чтобы проверить вручную.

Я настраиваю резервное копирование, чтобы при завершении он запускал сценарий (VBScript), который просматривал журнал резервного копирования, выясняет, работает ли резервная копия или нет, и записывает запись в центральную базу данных с результатом резервного копирования. Затем в головном офисе я запускаю скрипт, который запрашивает эту базу данных, и представляет мне список сайтов, на которых либо резервная копия сообщила об ошибке, либо не было отчета с сайта.

В конечном итоге, когда я сажусь за свой рабочий стол, у меня есть список всех сайтов, где мне нужно проверить резервную копию.

Дело в том, что предположение по умолчанию заключается в том, что резервное копирование не удалось, и резервная копия считается выполненной только в том случае, если мой VBScript не обнаружил ошибок и написал это заключение I в мою базу данных. Это гарантирует, что резервные копии не останутся незамеченными.

Некоторые из серверов используют Backup Exec, некоторые NTBackup, а некоторые просто копируют свои файлы на другой сервер по сети. Неважно, какой тип резервного копирования выполняет сервер, так как легко настроить VBScript для проверки ошибок. Мой сценарий на самом деле довольно простой, он просто открывает отчет о резервном копировании в виде текстового файла и greps для таких фраз, как «не смонтирован», «полная лента», «ошибка CRC» и т. Д. И т. Д. Я уверен, что профессиональный программист slicker job. Однако все это просто и надежно, и оно проактивно в том смысле, что я вижу отчет о сбое резервного копирования, хочу ли я этого или нет, и я бы не заметил ошибку, если бы сознательно решил проигнорировать отчет.

JR

PS 99% ошибок резервного копирования происходит потому, что пользователи забыли изменить резервную ленту. Разве вы просто не любите lusers: -)

ответил John Rennie 17 Mayam09 2009, 11:51:09
2

Резервная копия, которая не проверена, не является резервной.

ответил Dave Cheney 17 Maypm09 2009, 12:12:19

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132