Как я могу получить список всех проиндексированных страниц для моего домена?

Мы переносим устаревшую корзину электронной торговли в Magento. Часть этого процесса потребует настройки правильных 301 переадресаций. Я собираюсь получить список всех проиндексированных страниц, чтобы бросить наше решение против и решить как можно больше потенциальных проблем, прежде чем отправиться жить.

В идеале мне просто нужен CSV, содержащий URI, индексированные поисковыми системами для нашего домена.

Рассмотрение аналогичного вопроса здесь , похоже, нет простого способа экспортировать эти данные из инструментов Google или Bing для веб-мастеров, учитывая, что у этой тележки есть десятки тысяч продуктов (и, следовательно, десятки тысяч индексированных страниц).

Я столкнулся с несколькими другими сторонними утилитами, такими как Screaming Frog и веб-сайтами, такими как searchenginegenie и internetmarketingninjas, но я никогда не использовал их, и я не решаюсь начать бросать дополнительный трафик на нашем сайте, если только я знайте, что мы получим от него все, что нам нужно.

Кто-нибудь использовал эти инструменты, чтобы сделать что-то подобное, или нашел какой-то способ получить более 1000 записей из GWT (или что-то похожее на Bing)?

5 голосов | спросил JR.XYZA 12 J000000Friday13 2013, 03:34:22

6 ответов


3

Я использовал Screaming Frog, сегодня на самом деле, и мне действительно нравится этот инструмент. Вы получаете много информации за довольно короткий промежуток времени. Вы получите метаданные в csv, и вы можете легко манипулировать им в Excel. Экспортируйте все, а затем используйте фильтры для каждого столбца, чтобы отображать только текст /html, а не изображения или файлы CSS.

Я делаю это для миграции сайта прямо сейчас и использовал его для одного в прошлом. Сколько страниц вы говорите? Вот сравнение с Moz Xenu vs SF .

ответил user29555 12 J000000Friday13 2013, 06:19:41
1

Независимо от устаревшей корзины электронной коммерции, которую вы используете сейчас, если вы можете программно генерировать все URL-адреса продуктов и категорий на старой платформе, вам не нужно использовать 301-редирект. Вы можете использовать те же URL-адреса в Magento (обновляя таблицу core_url_rewrite). Это особенность Magento.

Раньше я использовал SEO для веб-сайта Magento, который ранее использовал устаревшую электронную коммерческую тележку, как и ваш. Миграция была выполнена для Magento, сохраняя одни и те же старые URL-адреса.

Слово предостережения о Мадженто. В Magento слишком много шумихи. Хотя он использует архитектуру MVC, это одна из худших платформ электронной коммерции. Это особенно верно для больших каталогов (правда в вашем случае, как вы говорите, у вас есть десятки тысяч продуктов и категорий). Если вы не используете Enterprise Edition, которая использует расширенное кеширование для ускорения работы (и это очень дорого), издание сообщества не поможет вашему делу.

Говорят, что Magento оптимизирован для SEO. Ничто не может быть дальше от истины. Собственные URL Magento (связанные с продуктами и отзывами продуктов) являются полным беспорядком в отношении SEO. Он генерирует несколько URL-адресов (путей) для одного и того же продукта, если он присваивается нескольким категориям. В этом случае вам все равно нужно использовать управление URL-адресами каталога, что может стать головной болью.

Проблемы с URL-адресом Magneto были исключительно ответственны за причинение большого ущерба бизнесу веб-сайта, о котором я говорю, причиняя вред их рейтингам в поисковых системах.

В любом случае вам не следует слишком беспокоиться о том, какие страницы находятся в индексе Google (который многоуровневый). Предположим, что все они проиндексированы и 301 перенаправляют все из них, если вы решили использовать 301-редирект.

Спасибо,
Сатьябрата Дас

ответил Satyabrata Das 12 J000000Friday13 2013, 12:01:53
1

Вы также можете найти в Google site:mydomain.com, чтобы получить список всех своих проиндексированных страниц из вашего домена, включая субдомены.

ответил Ivar 20 PM00000020000005531 2013, 14:20:55
1

Поскольку Google никогда не вернет более 1000 результатов, мой ключ был от автономного скрипта Perl для запроса (с помощью Lynx --accept-cookies) нескольких сегментов для

site:myweb.xxx in the way https://www.google.es/search?q=site:www.955170000.com+%2B+"AA"&num=50&filter=0

Сценарий вычисляет строку для поиска, теперь это «AA», затем будет искать «AB» и так далее до «ZZ», но вы можете выбрать по своему пути, включить числа и другие символы.

Затем каждый результат поиска (в моем случае - только 50 возвращенных результатов) фильтруется для поиска по каждой ссылке для каждой проиндексированной страницы. Все они записываются в файл. Теперь нам нужно пройти хотя | сортировать | uniq этот файл, чтобы уничтожить повторяющиеся ссылки. Я добавил до 120 секунд между запросами, иначе Google потребует повторного использования робота.

Это означает, что таким образом (форма от AA до AZ) и 100 результатов на страницу я могу собрать до 78 000 индексированных страниц за 26 часов обработки (работает с уникального IP-адреса, но вы можете разместить 2 или более машин с разными IP-адресами и сэкономьте время).

Если вам нужно собрать более 78 тыс. (как не более 100 результатов на запрос, а максимум - 1000 итоговых результатов для каждого поиска), конечно, вы можете попробовать до 1000 для каждой строки поиска, и теоретически вы сможете улавливайте более 7,8 миллионов страниц.

Обратите внимание, что многие могут быть дублированы, поэтому, как только вы получите все возможные результаты от Google, вам нужно отсортировать уникальные результаты фильтра nd (для этого я использовал команды sort и uniq * nix)

Следующий шаг, то есть обнаружение дублирующегося содержимого или других проблем, теперь легко, или поместить весь собранный url в следующий скрипт, чтобы удалить URL-адрес в GWT (опять же ограниченный примерно 1000 в день) или повторно подписаться на загрузку в re -index (ограничивается 30K ссылками Google)

ответил Joaquin Franco 31 Jpm1000000pmSun, 31 Jan 2016 23:27:58 +030016 2016, 23:27:58
0

Используйте эту функцию в электронной таблице:
=importXml("http://google.com/search?q=site:YOUR_SITE.com&num=100&start=1","//cite")

Это вернет индексированные страницы с 1 по 100 повторите с start = 101, чтобы получить следующие 100.

ответил katjam 8 thEurope/Moscowp30Europe/Moscow09bEurope/MoscowTue, 08 Sep 2015 16:33:08 +0300 2015, 16:33:08
-1

Вы можете скачать как .csv индексированные веб-страницы Google в своей учетной записи Google для веб-мастеров.

Просто просмотрите Загрузить данные диаграммы под диаграммой индексированных веб-страниц (Меню Google Index => Состояние индексирования ).

ответил Zistoloen 12 J000000Friday13 2013, 11:45:25

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132