Как получить текст страницы с помощью wget без html?

Если я попробую wget на веб-странице, я получаю страницу как html. Можно ли получить только текст файла без связанного html? (Это необходимо для меня, так как некоторые HTML-страницы содержат c-программу, которая загружается с помощью тегов html. Мне нужно открыть ее в браузере и вручную скопировать текст, чтобы сделать .c файл.)

16 голосов | спросил Lunar Mushrooms 9 J000000Monday12 2012, 12:25:26

2 ответа


4

Если у вас нет этих других инструментов, только wget, и на странице нет форматирования только обычного текста и ссылок, например. исходный код или список файлов, вы можете удалить HTML с помощью sed следующим образом:

wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'

Это использует wget, чтобы сбрасывать источник страницы в STDOUT и sed, чтобы удалить любую <> пары и что-то между ними.

Затем вы можете перенаправить вывод команды sed в файл, который хотите создать, используя>

wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt

NB: вы можете обнаружить, что в файле, который вам не нужен, есть лишние пробелы (например, строки имеют отступы в несколько столбцов)

Проще всего использовать текстовый редактор для упорядочивания файла (или исходного форматирования при загрузке исходного кода C).

Если вам нужно сделать одну и ту же простую вещь для каждой строки файла, вы можете включить команду для этого в команду sed (здесь удаление одного ведущего пространства):

wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
ответил JohnGH 22 AM00000080000004731 2016, 08:31:47
3

просто добавить другой инструмент. Я предпочитаю w3m, который является lynx как консольный браузер. Вы можете проверить, что уже доступно в вашей системе.

w3m -dump website.html
ответил McPeppr 26 Jpm1000000pmTue, 26 Jan 2016 15:39:55 +030016 2016, 15:39:55

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132