web-crawler — все вопросы

4ответа
4 голоса
Сканеры и Google App Engine Размещенные приложения
Нельзя ли запустить веб-сканер на GAE вместе с моим приложением, учитывая, что у меня запущена бесплатная загрузочная версия?
2ответа
4 голоса
Подготовьте изображения своего сайта для индексации поиска картинок Google
Я пытаюсь понять, как я могу сделать так, чтобы мой сайт был доступен из пауков поиска картинок Google. Мне нравится, как last.fm решение, и я подумал, чтобы использовать технику, как его сотрудни
1ответ
4 голоса
Имитация человеческого клика в JavaScript
У меня есть небольшой скребок, где мне нужно щелкнуть ссылку привязки с помощью JavaScript. Я пробовал несколько способов: jQuery.click(), document.createEvent('MouseEvents') и т. д. Все они вроде р
3ответа
4 голоса
Python 3.2 Красивая альтернатива супу
Мне нужно создать веб-сканер для извлечения информации из веб-страниц. Я провел исследование и обнаружил, что Beautiful Soup был превосходным, поскольку я мог разобрать весь документ и создать дом
2ответа
4 голоса
Сканирование /Соскребание в Интернете - построить или купить? [закрыто]
Мне кажется, что на данный момент один инструмент мог бы стать доминирующим, потому что процесс кажется достаточно общим: указывать на начальный URL, взаимодействовать с его формами и сценариями, пе
2ответа
4 голоса
Безопасно ли использовать один и тот же CookieContainer для нескольких запросов HttpWebRequest?
Я выполняю своего рода WebCrawler, и мне нужно сохранять состояние Cookies между запросами. Я загружаю все страницы асинхронно, создавая новые экземпляры HttpWebRequest, но устанавливая тот же Co
1ответ
4 голоса
Как использовать сопоставление с образцом для двух или более регулярных выражений в Scala
Я не понимаю, как использовать сопоставление с образцом для двух или более регулярных выражений. Например, я написал следующую программу: import scala.io.Source.{fromInputStream} import java.io._
2ответа
4 голоса
Веб-сканер в автономном файле Python
Я нашел много Scrapy учебных пособий (таких как это хорошее руководство ), для которого необходимо выполнить все шаги, перечисленные ниже В результате получается проект с большим количеством файл
2ответа
4 голоса
Как можно отсканировать все отзывы о приложении в Google Play Store?
Когда я сканирую страницу приложения в Google Play Store, я могу сканировать только первые несколько страниц обзора приложения. (Следующая страница обзора приложения появляется, когда я нажимаю к
1ответ
4 голоса
как возобновить зеркалирование сайта wget?
Я использую wget для загрузки всего сайта. Я использовал следующую команду (в Windows 7): wget ^ --recursive ^ -A "*thread*, *label*" ^ --no-clobber ^ --page-requisites ^ --html-extension ^
2ответа
4 голоса
Веб-сканер, сохраняющий посещенные URL в файле
У меня возникли проблемы с выяснением того, как я могу хранить и сканировать большое количество посещенных URL-адресов из веб-сканера. Идея состоит в том, что количество посещенных URL-адресов в кон
1ответ
4 голоса
Scrapy получить сайт с ошибкой «DNS-поиск не удался»
Я пытаюсь использовать Scrapy, чтобы получить все ссылки на веб-сайтах, где «поиск DNS не удался». Проблема в том, что каждый веб-сайт без каких-либо ошибок печатается с помощью метода parse_obj
3ответа
4 голоса
Можно ли запретить поисковым роботам бесконечно сканировать ссылки на страницы в результатах поиска?
Наша команда SEO хотела бы открыть нашу главную страницу результатов динамического поиска для пауков и убрать nofollow из мета-тегов. В настоящее время он доступен для пауков, разрешив путь в robots
4ответа
4 голоса
возможен ли поиск в ширину или в обход в ширину без использования очереди?
Как я помню и проверял, обычный способ обхода дерева или обхода ширины веб-страниц (BFS) - это использование очереди. Есть ли способ реализовать это, не используя очередь?
2ответа
4 голоса
как сделать файловую систему Nutch Crawl?
не основано на http, например http: //localhost: 81 и т. д., но непосредственно сканировать определенный каталог в локальной файловой системе, есть ли выход?
3ответа
4 голоса
Как сканер обеспечивает максимальный охват?
Я прочитал несколько статей о сканировании в Интернете и изучил основы сканирования. По их словам, веб-сканеры просто используют URL-адреса, извлеченные другими веб-страницами и проходящие через дер
2ответа
4 голоса
сделать дружественный многоязычный сайт
Просто чтобы прояснить ситуацию. Я пытаюсь выяснить, как создать сайт с выбором языка. Выбор языка просто обновляет текущую страницу, но изменяет переменную сеанса "language" (если пользовател
4ответа
4 голоса
Есть ли способ или инструмент для автоматического посещения всех страниц моего сайта?
Я хочу автоматически посещать /сканировать все страницы на моем сайте, чтобы создать файл кэша. Есть ли способ или инструмент для этого?
2ответа
4 голоса
Переговоры по контенту нарушены?
Недавно я заинтересовался веб-сканерами, но одна вещь мне не совсем понятна. Представьте себе простой сканер, который получит страницу, извлечет из нее ссылки и поставит их в очередь для последующей
3ответа
4 голоса
Использование ExecutorService для параллельной обработки заданий
Я пишу Java-программу, которая должна обрабатывать много URL-адресов. Каждый URL будет выполнять следующие задания в порядке: скачать, проанализировать, сжать Вместо того, чтобы один поток выпол
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132