Анимация
JavaScript
|
Главная Библионтека 20.6. Удаление тегов HTML 713 или его сценарный эквивалент: { local $/; # Временный режим чтения всего файла Shtml = <FILE>; Shtml =~ s/<[">].> gs: Но даже этот вариант работает лишь для самого примитивного HTML-кода, не содержащего никаких «изюминок». В частности, ои пасует перед следующими примерами допустимого HTML-кода (не говоря о многих других): <IMG SRC = focgif ALT = "A > B"> <!- <Комментарий> -> <script>if (a<b && a>c)</script> <# Просто данные #> <UINCLUDE CDATA [ »»»»»» ]]> Проблемы возникают и в том случае, если комментарии HTML содержат другие теги: <!- Раздел закомментирован. <В>Меня не видно!</В> -> Единственное надежное рещение - использовать алгоритмы анализа HTML-кода из LWP. Эта методика продемонстрирована во втором фрагменте, приведенном в решении. Чтобы сделать анализ более гибким, субклассируйте HTML::Parser от LWP и записывайте только найденные текстовые элементы: package MyParser; use HTML::Parser; use HTML:;Entities qw(decode entities); ©ISA = qw(HTML::Parser); sub text { my($self, Stext) = © ; print decode entities(Stext); package main; MyParser->new->parse file(.p); Если вас интересуют лишь простые теги, ие содержащие вложенных тегов, возможно, вам подойдет другое решение. Следующий пример извлекает название несложного HTML-документа: (Stitle) = (Shtml m#<TITLE>\s.(. .?)\s.</TITLE>#is); Приведем пример вывода: % htitle http www ora com www.oreilly.com - Welcome to OReilly & Associates! % htitle http www perl com/ http www perl com/nullvoid http: www.perl.com/: The www.perl.com Home Page http: www.perl.com/nullvoid: 404 File Not Found > Смотри также- Документация по модулям HTML::TreeBuilder, HTML::Parser, HTML::Entities и LWP::UserAgent с CPAN; рецепт 20.5. 20.7. Поиск устаревших ссылок Проблема Требуется узнать, содержит ли документ устаревшие ссылки. Решение Воспользуйтесь методикой, описанной в рецепте 20.3, для получения всех ссылок и проверьте их существование функцией head модуля LWP::Simple. Комментарий Следующая программа является прикладным примером методики извлечения ссылок из HTML-документа. На этот раз мы не ограничиваемся простым выво- Как говорилось выше, подход с регулярными выражениями имеет свои недостатки. В примере 20.4 показано более полное решение, в котором HTML-код обрабатывается с использованием LWP. Пример 20.4. htitle #1/usr/bin/perl # htitle - Получить название HTML-документа для URL die usage $0 url \n unless ©ARGV, require LWP, foreach $url (©ARGV) { $ua = LWP UserAgent->new(), $res = $ua->request(HTTP Request->new(GET => $url)), print $url If ©ARGV > 1, If ($res->is success) { print $res->title, \n , } else { print $res->status line, \n , 20.8. Поиск свежих ссылок 715 дом ссылок и вызываем для нее функцию head модуля LWP::Simple. Метод HEAD получает метаданные удаленного документа и определяет его статус, не загружая самого документа. Если вызов закончился неудачно, значит, ссылка не работает, и мы выводим соответствующее сообщение. Поскольку программа использует функцию get из LWP::SimpIe, она должна получать URL, а не имя файла. Если вы хотите поддерживать обе возможности, воспользуйтесь модулем URI;:Heuristic (см. рецепт 20.1). Пример 20.5. churl #/usr/bin/perl -w # churl - проверка URL use HTML LinkExtor, use LWP Simple qw(get head), $base url = shift or die usage $0 <start url>\n , Sparser = HTML LinkExtor->new(undef, $base url). Sparser->parse(get($base url)), ©links = $parser->links, print $base url \n , foreach Slinkarray (©links) { my ©element = ©Slinkarray, my $elt type = shift ©element, while (©element) { my (Sattr name , $attr value) = splice(©element, 0, 2), if (Sattr value->scheme =" /\b(ftphttpsfile)\b/) { print Sattr value , head(Sattr value)? OK BAD , \n , Для программы действуют те же ограничения, что и для программы, использующей HTML::LinkExtor, из рецепта 20.3. t> Смотри также- Документация по модулям HTML::LinkExtor, LWP::Simple, LWP:: User Agent и HTTP::Response с CPAN; рецепт 20.8. 20.8. Поиск свежих ссылок Проблема Имеется список URL. Вы хотите узнать, какие из них изменялись позже других. Решение Программа из примера 20.6 читает URL из стандартного ввода, упорядочивает их по времени последней модификации и выводит в стандартный вывод с префиксами времени|