Сканирование других сайтов - Могу ли я это сделать?

Я хочу создать мета-поисковую систему, поэтому я хочу сканировать другие сайты и фильтровать /упорядочивать информацию, которую я получаю, и представлять их пользователю.

Мои вопросы:

  1. Могу ли я сделать это (сканирование) без учета других веб-сайтов? Имеет ли значение, где размещается другой веб-сайт? Я имею в виду, Google делает в основном то же самое.

  2. Если мне разрешат сканировать другие сайты: могу ли я продавать премиальные аккаунты на своем веб-сайте? Чтобы получить новейшие данные, например. Я не уверен, так как я работаю с данными других.

3 голоса | спросил Evo_x 26 +03002016-10-26T20:30:12+03:00312016bEurope/MoscowWed, 26 Oct 2016 20:30:12 +0300 2016, 20:30:12

1 ответ


2

Есть несколько проблем, с которыми вы столкнетесь здесь, и они становятся все более сложными, когда вы идете ...

Как отмечает @closetnoc в своем комментарии, фактическое обход сайта очень дорогостоящий ресурс, поскольку вы загружаете целые веб-страницы, часто параллельно, а затем вам нужно написать сканер для извлечения данных, которые вы используете. Чтобы обходить Интернет и поддерживать разумно обновленный индекс, Google поддерживает огромное количество серверов в центрах обработки данных по всему миру, и, хотя Google не рекламирует количество серверов, они используют консервативные оценки, основанные на данных о потреблении энергии, выпущенных Google разместите номер где-то от 900 000 до более миллиона серверов.

Вы также столкнетесь с проблемами, связанными с авторским правом, и хотя можно было бы аргументировать, что контент был извлечен под честное использование, это не помешает кому-либо попытаться подать в суд на вас за нарушение авторских прав, и вам необходимо установить дорогостоящую юридическую защиту. Это также будет еще более сложным, если вы планируете продавать подписки на ваш сайт премиум-класса, чтобы предоставлять доступ к данным раньше, чем свободным пользователям, поскольку вы эффективно извлекаете выгоду из чужих авторских работ.

Для управления таким endevour потребуется очень большая команда инженеров баз данных, администраторов баз данных, администраторов серверов, техников серверов, сетевых инженеров, программистов, дизайнеров, аналитиков данных и т. д.

Это лишь некоторые из проблем, которые могут вызывать проблемы на ранних этапах вашего проекта, и эти проблемы будут значительно расширяться по мере продолжения проекта.

ответил Chris Rutherfurd 27 +03002016-10-27T10:34:10+03:00312016bEurope/MoscowThu, 27 Oct 2016 10:34:10 +0300 2016, 10:34:10

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132