web-scraping — все вопросы

1ответ
4 голоса
R - Использование цикла в списке маркеров Twitter для извлечения твитов и создания нескольких фреймов данных
У меня есть df, состоящий из маркеров Twitter, которые я хочу регулярно просматривать. df=data.frame(twitter_handles=c("@katyperry","@justinbieber","@Cristiano","@BarackObama")) Моя методологи
2ответа
4 голоса
Как извлечь цену за безопасность в виде текста с сайта через Python Selenium BeautifulSoup
Я пытаюсь просто узнать цену за безопасность, указанную по адресу https: //investor.vanguard.com/529-plan/profile/4514 . Я запускаю этот код: from selenium import webdriver from bs4 import Beauti
1ответ
4 голоса
Скрипт VBA WebScraping возвращает нижний индекс OutOf Range
Проблема: Я пытался удалить данные с веб-сайта, но он всегда выдает ошибку Диапазон выходных данных индекса . Не знаю почему, я использую точно такой же код для другого веб-сайта, и он отлично р
1ответ
4 голоса
Имитация человеческого клика в JavaScript
У меня есть небольшой скребок, где мне нужно щелкнуть ссылку привязки с помощью JavaScript. Я пробовал несколько способов: jQuery.click(), document.createEvent('MouseEvents') и т. д. Все они вроде р
2ответа
4 голоса
Сканирование /Соскребание в Интернете - построить или купить? [закрыто]
Мне кажется, что на данный момент один инструмент мог бы стать доминирующим, потому что процесс кажется достаточно общим: указывать на начальный URL, взаимодействовать с его формами и сценариями, пе
2ответа
4 голоса
urllib2 не возвращает полную веб-страницу
Я только начинаю работать с Python и пытаюсь запросить html исходный код сайта, используя urllib2. Однако, когда я пытаюсь получить html-контент с сайта, я не получаю полный html-контент - отсутству
2ответа
4 голоса
Использование Jsoup для POST данных для входа
Я пытаюсь войти на этот сайт: http://deeproute.com Это мой код. Connection.Response res = null; Connection homeConnection = null; Document homePage = null;
2ответа
4 голоса
Предотвращение соскабливания сайта
Существует сайт WordPress, размещенный по адресу http://www.vibrantneo.org и в настоящее время клонируется по адресу http://vibrantneo.123productpages.com/ каким-либо образом . Очень странно, чт
2ответа
4 голоса
Как сказать Python Scrapy, чтобы перейти к следующему начальному URL
Я написал паука-скрапа, который имеет много start_urls и извлекает адреса электронной почты в этих URL. Выполнение сценария занимает много времени, поэтому я хочу сказать Scrapy, чтобы он прекратил
1ответ
4 голоса
Python Scrapy - вывод файла CSV пуст
Мой основной код паука: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from Belray_oil.items import BelrayOilItem class BelraySpider(BaseSpider): name
2ответа
4 голоса
Автоматизация браузера с помощью Selenium: отпечатки пальцев, узнаваемость и отслеживаемость?
Я хочу использовать селен /вебдрайвер для имитации браузера и очистки содержимого веб-сайта. Даже если это не самый быстрый метод, для меня он имеет много преимуществ, таких как выполнение скриптов
2ответа
4 голоса
Очистка с помощью CasperJS: страница загружается без включенного JavaScript
Я пытаюсь получить информацию о жанре книги в Google. Как и при подсчете /преобразовании в Google, результат отображается в поле над результатами поиска. Я могу довольно легко очистить данные в э
1ответ
4 голоса
Scrapy: следующая кнопка использует JavaScript
Я пытаюсь соскрести с этого сайта http://saintbarnabas.hodesiq.com/joblist .asp? user_id = и я хочу получить все RN в нем ... Я могу очистить данные, но не могу перейти к следующей странице из-за
1ответ
4 голоса
Scrapy: следующая кнопка использует JavaScript
Я пытаюсь соскрести с этого сайта http://saintbarnabas.hodesiq.com/joblist .asp? user_id = и я хочу получить все RN в нем ... Я могу очистить данные, но не могу перейти к следующей странице из-за
1ответ
4 голоса
Scrapy: следующая кнопка использует JavaScript
Я пытаюсь соскрести с этого сайта http://saintbarnabas.hodesiq.com/joblist .asp? user_id = и я хочу получить все RN в нем ... Я могу очистить данные, но не могу перейти к следующей странице из-за
1ответ
4 голоса
Как автоматически получать содержимое фреймов, если браузер не поддерживает фреймы + не может напрямую получить фрейм
Я пытаюсь автоматически загружать PDF-файлы с таких URL-адресов, как это , чтобы создать библиотеку резолюций ООН. Если я использую красивый суп или механизировал, чтобы открыть этот URL, я полу
1ответ
4 голоса
Итерация по всем строкам таблицы с использованием Python lxml xpath
Это исходный код HTML-страницы, с которой я хочу извлечь данные. Веб-страница: http://gbgfotboll.se/information/?scr=table&amp ; ftid = 51168 Таблица находится внизу страницы <htm
2ответа
4 голоса
Веб-сканер в автономном файле Python
Я нашел много Scrapy учебных пособий (таких как это хорошее руководство ), для которого необходимо выполнить все шаги, перечисленные ниже В результате получается проект с большим количеством файл
1ответ
4 голоса
Как я могу повторно использовать метод синтаксического анализа моего паука Scrapy на основе Spider в наследующем CrawlSpider?
В настоящее время у меня есть паук на основе Spider, который я написал для сканирования входного JSON-массива start_urls: from scrapy.spider import Spider from scrapy.contrib.spiders import CrawlS
2ответа
4 голоса
Есть ли способ изменить формат сообщения журнала в scrapy?
Я хотел бы изменить сообщения журнала Scrapy, чтобы они содержали идентификатор пользователя в начале. например, вместо этого 2015-03-03 17:09:34+0530 [scrapy] INFO: Enabled spider middlewares: Ht
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132