Восстановление потерянного веб-сайта без резервного копирования?

К сожалению, наш хостинг-провайдер испытал 100% потерю данных, поэтому я потерял весь контент для двух размещенных веб-сайтов блога:

(Да, да, я абсолютно должен сделать полные резервные копии на удаленном сервере. К сожалению, все мои резервные копии были на самом сервере. Сохраните лекцию, вы на 100% абсолютно правы, но это не помогает мне в данный момент. Давайте сосредоточимся на этом вопросе!)

Я начинаю медленный, болезненный процесс восстановления веб-сайта из кэшей веб-искателя.

Существует несколько автоматических инструментов для восстановления веб-сайта из интернет-пауков (Yahoo, Bing, Google и т. д.), например Warrick , но я имел некоторые плохие результаты, используя это:

  • Мой IP-адрес был быстро запрещен Google для его использования.
  • Я получаю много 500 и 503 ошибок и «жду 5 минут»
  • В конечном итоге я могу быстрее восстановить текстовый контент

Мне повезло больше, используя список всех сообщений в блоге, перейдя в кеш Google и сохраняя каждый отдельный файл как HTML. Хотя есть много сообщений в блоге, не существует , которые , и я полагаю, что я заслуживаю самообладания, не имея лучшей стратегии резервного копирования. Во всяком случае, важно то, что мне посчастливилось получить текст сообщения в блоге таким образом, и я определенно могу получить текст веб-страниц из интернет-кэшей. Основываясь на том, что я сделал до сих пор, , я уверен, что могу восстановить all потерянный текст и комментарии в блоге .

Однако изображения , которые идут с каждым сообщением в блоге, более сложны.

Любые общие советы по восстановлению страниц веб-сайта из интернет-кешей и, в частности, места для восстановления архивных изображений с веб-страниц ?

(И, опять же, пожалуйста, никаких резервных лекций. Вы полностью, полностью, совершенно правы! Но быть прав, не решает мою непосредственную проблему ... Если у вас нет машины времени ...

259 голосов | спросил 4 revs, 2 users 98%
Jeff Atwood
1 Jam1000000amThu, 01 Jan 1970 03:00:00 +030070 1970, 03:00:00

30 ответов


216

Вот мой дикий удар в темноте: настройте свой веб-сервер, чтобы вернуть 304 для каждого запроса изображения, а затем толпите источник восстановления, разместив где-то список URL-адресов и попросив подкаст для всех ваших читателей загрузить каждый URL-адрес и собирать любые изображения, которые загружаются из их локальных кешей. (Это может работать только после восстановления самих HTML-страниц, в комплекте с тегами <img ...>, которые, по-видимому, предполагают ваш вопрос).

Это в основном причудливый способ сказать: «Получите это от кэшей веб-браузера ваших читателей». У вас много читателей и слушателей подкастов, поэтому вы можете эффективно мобилизовать большое количество людей, которые, вероятно, недавно просмотрели ваш веб-сайт. Но поиск вручную и извлечение изображений из кешей различных веб-браузеров затруднен, и весь подход работает лучше всего, если достаточно легко, чтобы многие люди его пробовали и добились успеха. Таким образом, подход 304. Все, что требуется от читателей, это то, что они нажимают на ряд ссылок и перетаскивают любые изображения, которые загружаются в их веб-браузере (или щелкните правой кнопкой мыши и сохраните-как и т. Д.), А затем отправьте их по электронной почте или загрузите их в центральное местоположение, которое вы создали, или что-то еще. Основным недостатком такого подхода является то, что кэши веб-браузера не возвращаются так далеко. Но только одному читателю приходилось загружать почту с 2006 года в последние несколько дней, чтобы спасти даже очень старый образ. С достаточно большой аудиторией все возможно.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
64

Некоторые из нас следуют за вами с помощью RSS-ридера и не очищают кеши. У меня есть сообщения в блогах, которые, как представляется, возвращаются к 2006 году. Никаких изображений из того, что я могу видеть, но может быть лучше, чем то, что вы делаете сейчас.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
61

(1) Извлеките список имен файлов всех отсутствующих изображений из резервных копий HTML. У вас будет что-то вроде:

  • оставать-puft-зефир-man.jpg
  • Интернет-свойства-dialog.png
  • Yahoo-страница-small.png
  • пароль шоу-animated.gif
  • tivo2.jpg
  • майкл-Abrash-график-программа

(2) Сделайте поиск изображений Google для этих имен файлов. Кажется, что многие из них были «зеркалированы» другими блоггерами и созрели для принятия, потому что у них одинаковое имя файла .

(3) Вы можете сделать это автоматическим способом, если это окажется успешным, например, для 10+ изображений.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
50

Перейдя в поиск изображений Google и набрав site:codinghorror.com вы можете, по крайней мере, найти миниатюрные версии всех ваших изображений. Нет, это не обязательно поможет, но это дает вам отправную точку для извлечения этих тысяч изображений.

Codinghorror images

Похоже, Google хранит более крупный значок в некоторых случаях:

Google против Bing

Google находится слева, Bing справа.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
40

Извините, что слышал о блогах. Не собираюсь читать лекции. Но я нашел то, что кажется вашими изображениями на Imageshack. Они действительно ваши или кто-то хранит их копию.

http://profile.imageshack.us/user/codinghorror

Кажется, у них есть то, что выглядит как 456 изображений, которые имеют полный размер. Это может быть лучшим выбором для восстановления всего. Возможно, они могут даже предоставить вам свалку.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
37

Джефф, я написал что-то для вас здесь

Короче говоря, я предлагаю вам:

  1. Настройте веб-сервер для возврата 304 для каждого запроса изображения. 304 означает, что файл не изменяется, и это означает, что браузер будет извлекать файл из своего кеша, если он там присутствует. (кредит: этот ответ SuperUser )

  2. На каждой странице веб-сайта добавьте небольшой скрипт для сбора данных изображения и отправки его на сервер.

  3. Сохраните данные изображения на сервере.

  4. Voila!

Вы можете получить скрипты из данной ссылки.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
28

Попробуйте этот запрос на машине Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/* пред>

Это даст вам все изображения из codinghorror.com, заархивированные архивом. Это возвращает 3878 изображений, некоторые из которых являются дубликатами. Это не будет полным, но хороший старт тем не менее.

Для остальных изображений вы можете использовать эскизы из кеша поисковой системы, а затем выполнить обратный поиск, используя их на http: //www.tineye.com/. Вы дадите ему уменьшенное изображение, и оно предоставит вам предварительный просмотр и указатель на близкое соответствие изображениям, найденным в Интернете.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
26

+1 в рекомендации dd, если (1) необработанный диск доступен где-то; и (2) изображения были простыми файлами. Затем вы можете использовать криминалистический инструмент для обработки данных (например), чтобы вытащить все заслуживающие доверия диапазоны, которые выглядят как JPG /PNG /GIF. Я восстановил 95% + фотографий на iPhone, который был уничтожен таким образом.

Для этого можно использовать «первопроходцы» с открытым исходным кодом и его «скальпель» преемника:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
26

К счастью, будущие поколения будут в порядке.

Даже с некоторыми из этого большого камня ученые /лингвисты выяснили много.

Rosetta Stone

Если несколько фотографий отсутствуют, оставьте это кому-то, чтобы выяснить, через пару тысяч лет.

Надеюсь, ты немного смеешься. :)

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
21

Вы всегда можете попробовать archive.org. Используйте машину обратного пути. Я использовал это для восстановления изображений с моих сайтов.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
14

Итак, абсолютный худший случай, вы не можете восстановить вещь. Черт.

Попробуйте захватить мини-сайты Google и поместите их через TinEye , поисковую систему обратного изображения. Надеюсь, он должен захватить любые дубликаты или ревности, которые сделали люди.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
14

Это длинный выстрел, но вы могли бы подумать:

  • Проводка точного списка отсутствующего изображения
  • толпа - поиск процесса поиска через интернет-кеш всех ваших читателей.

Например, см. Nirsoft Mozilla Cache Viewer :

alt text http://www.nirsoft.net/utils/mozillacacheview.gif

Он может быстро выкопать любое изображение «blog.stackoverflow.com», которое все еще может иметь простую командную строку:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Примечание. У них есть тот же проводник кешей для Chrome .

alt text http://www.nirsoft.net/utils/chromecacheview.gif

(у меня должно быть 15-дневная версия фотографий blog.stackoverflow.com)

И Internet Explorer или Opera .


Затем обновите общедоступный список, чтобы отразить то, что читатели сообщают в своем кеше.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
12

В прошлом я использовал http://www.archive.org/, чтобы вытащить кешированные изображения. Это своего рода удар или промах, но это сработало для меня.
Кроме того, при попытке восстановить фотографии на складе, которые я использовал на старом сайте, www.tineye.com отлично работает, когда у меня есть только миниатюры, и мне нужны полноразмерные изображения.

Надеюсь, это поможет вам. Удачи.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
10

Это, вероятно, не самое простое или полнофункциональное решение, но службы, такие как Evernote, обычно сохраняют как текст, так и изображения, когда они хранятся внутри приложения. Возможно, некоторые полезные читатели, которые сохранили ваши статьи, могут сохранять изображения и отправлять их к вам?

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
10

У меня был большой опыт работы с archive.org . Даже если вы не можете извлечь все своих сообщений в блоге с сайта, они сохраняют периодические снимки:

alt text http://i49.tinypic.com/2w3ngrc.png

Таким образом, вы можете просмотреть каждую страницу и просмотреть записи в блоге. С именами всех сообщений вы можете легко найти их в кеше Google, если у archive.org нет его. Архив пытается сохранить изображения, кэш Google будет иметь изображения, и я недавно не очистил свой кеш, чтобы я мог помочь вам в более поздних сообщениях в блоге:)

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
8

Вы пробовали свой собственный кеш локального браузера? Довольно хороший шанс, что некоторые из последних вещей все еще существуют. http://lifehacker.com/385883/resurrect-images-from-my-web- браузер кэш

(Или вы можете скомпилировать список всех отсутствующих изображений, и каждый может проверить их кеш, чтобы увидеть, можем ли мы заполнить пробелы)

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
8

Предложение на будущее: я использую Windows Live Writer для ведения блога и сохраняет локальные копии сообщений на моей машине, в дополнение к публикации их в блог.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
7

Примерно пять лет назад раннее воплощение внешнего жесткого диска, на котором я хранили все мои цифровые фотографии, сильно сработало. Я сделал образ жесткого диска с помощью dd и написал рудиментарный инструмент для восстановления всего, что было похоже на изображение в формате JPEG. Из этого вышло большинство моих фотографий.

Итак, вопрос в том, можете ли вы получить копию образа диска виртуальной машины, на котором были сохранены изображения?

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
7

Веб-архив кэширует изображения. Сейчас он находится под большой нагрузкой, вы должны быть в порядке до 2008 года.

http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
7

Я предлагаю комбинацию archive.org и анонимайзера запроса, например [Tor] [2]. Я предлагаю использовать анонимайзер, потому что каждый из ваших запросов будет иметь случайный IP-адрес и местоположение, и таким образом вы можете избежать запрета на archive.org (например, Google) для необычно большого количества запросов.

Удачи, в этом блоге много драгоценных камней.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
6

Машина обратного пути будет иметь некоторые. Кэш Google и подобные кеши будут иметь некоторые.

Одна из самых эффективных вещей, которые вы сможете сделать, - это отправить оригиналы по электронной почте, обратившись за помощью.

У меня действительно есть некоторые инфраструктурные рекомендации, потому что после этого все будет очищено. Основная проблема - это не резервное копирование, отсутствие репликации сайта и отсутствие аудита. Если вы напишите мне по электронной почте на личном почтовом ящике, позже, когда вы снова окажетесь на ногах, я бы хотел обсудить этот вопрос с вами.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
6

Если ваши изображения были сохранены во внешней службе, такой как Flickr или CDN (как указано в одном из ваших подкастов), у вас все еще могут быть ресурсы изображения.

Некоторые изображения можно найти на странице Картинки Google и нажмите «Найти похожие изображения» , возможно, на других сайтах есть копии.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
5

archive.org иногда скрывает изображения. Получите каждый URL вручную (или напишите короткий скрипт) и запросите их для него следующим образом:

string.Format ("GET /* /{0}", nextUri)

Конечно, это будет большая проблема для поиска.

В моем кеше браузера могут быть некоторые. Если я это сделаю, я найду их где-нибудь.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
4

Если вы надеетесь попытаться очистить кэши пользователей, вы можете настроить сервер для ответа 304 Not Modified на все условные-GET ('If-Modified-Since' или ' If-None-Match '), которые браузеры используют для проверки своего кэшированного материала.

Если ваши начальные заголовки кэширования на статичном контенте, таком как изображения, были довольно либеральными - позволяя кэшировать вещи в течение нескольких дней или месяцев - вы могли бы продолжать получать повторные заявки на некоторое время. Установите cookie на эти запросы и попросите этих пользователей запустить скрипт против своего кеша, чтобы извлечь изображения, которые у них все еще есть.

Остерегайтесь, однако: в тот момент, когда вы начинаете размещать текстовый контент с встроенными ресурсами, которые еще не присутствуют, вы можете уничтожить эти кешированные версии, поскольку ревагиналы попадают на 404s.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
4

Вы можете использовать TinEye для найти дубликаты ваших изображений на странице поиск эскизов с кешем google . Это поможет только с изображениями, которые вы взяли с других сайтов.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
4

Если вы заметили очевидное, попробуйте выполнить поиск резервных копий собственного компьютера для изображений. Я знаю, что моя стратегия резервного копирования настолько бессистемна, что у меня есть несколько копий большого количества файлов, висящих на внешних дисках, сжигаемых дисках и в файлах zip /tar. Удачи!

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
4

Мне удалось восстановить эти файлы из моего кеша Safari на Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Если кто-то еще захочет попробовать, я написал сценарий Python, чтобы извлечь их в ~ /codinghorror /filename, который Я разместил здесь онлайн .

Надеюсь, это поможет.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
3

У вас была возможность узнать, есть ли у вашего хостинг-провайдера какая-либо резервная копия (некоторые более старые версии)?

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
2

Сколько стоят эти данные для вас? Если стоит значительная сумма (в тысячах долларов), подумайте о том, чтобы спросить своего хостинг-провайдера на жестком диске, используемом для хранения данных для вашего сайта (в случае потери данных из-за сбоя оборудования). Затем вы можете взять диск в ontrack или какую-либо другую службу восстановления данных, чтобы увидеть, что вы можете отключить от диска. Это может быть затруднительным для ведения переговоров из-за возможности других невосстановленных данных на диске, а также, но если вы действительно заботитесь об этом, вы, вероятно, сможете это решить.

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57
2

Очень жаль слышать это, и я очень досадуюсь за вас, и время - мне нужна автономная копия нескольких ваших сообщений и HTTrack на вашем сайте, но мне пришлось выйти (это была пара недель назад), и я остановил его.

Если хост имеет половину спуска - и по тому факту, что я думаю, что вы хороший клиент ... Я бы попросил их либо отправить вам жесткие диски (поскольку я предполагаю, что они должны использовать RAID), либо сделать некоторые самовосстановление.

Хотя это может быть не быстрый процесс, я сделал это с одним хостом для клиента и смог восстановить целые базы данных без изменений (... в основном, хост попробовал обновление для панели управления, которую они использовали, и испортил ее но ничего не было переписано).

Что бы ни случилось - удачи всем вашим поклонникам на сайтах SO!

ответил Alexander 30 Jpm1000000pmFri, 30 Jan 2015 15:43:57 +030015 2015, 15:43:57

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132