Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode [закрыто]

Нам нужно сканировать большое количество (~ 1,5 миллиарда) веб-страниц каждые две недели.Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов.Есть ли данные о том, какой сканер лучше всего работает в распределенной среде?
4 голоса | спросил Anakin 10 +03002017-10-10T21:41:57+03:00312017bEurope/MoscowTue, 10 Oct 2017 21:41:57 +0300 2017, 21:41:57

2 ответа


0
Мы пробовали только Nutch, Stormcrawler и MixNode.В конечном итоге мы использовали mixnode для сканирования ~ 300 миллионов страниц по 5k доменам.Мои 0,02 доллара: mixnode - лучший выбор для сканирования больших масштабов (более 1 миллиона URL).Для меньших сканирований это излишнее, так как вам придется анализировать получившиеся файлы warc, и если вы делаете только несколько тысяч страниц, проще запустить собственный сценарий или использовать альтернативу с открытым исходным кодом, например, nutch или stormcrawler (или даже scrapy),Mixnode теперь является «альтернативой» сканированию в Интернете , поэтому он совершенно не похож на мой старый ответ.
ответил Sunil Kumbhar 11 PMpWed, 11 Apr 2018 17:39:54 +030039Wednesday 2018, 17:39:54
0
Для сравнения между Nutch и StormCrawler, смотрите мою статью о dzone .Heritrix можно использовать в распределенном режиме, но в документации не очень ясно, как это сделать.Предыдущие 2 полагаются на хорошо зарекомендовавшие себя платформы для распределения вычислений (Apache Hadoop и Apache Storm соответственно), но это не относится к Heritrix.Heritrix также используется в основном сообществом архиваторов, тогда как Nutch и StormCrawler используются для более широкого круга случаев (например, индексация, очистка) и имеют больше ресурсов для извлечения данных.Я не знаком с упомянутыми вами двумя размещенными сервисами, так как использую только программное обеспечение с открытым исходным кодом.
ответил Julien Nioche 11 +03002017-10-11T00:52:42+03:00312017bEurope/MoscowWed, 11 Oct 2017 00:52:42 +0300 2017, 00:52:42

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132