Анимация
JavaScript


Главная  Библионтека 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 [ 57 

Хотя метасимвол \Ъ выше был назван «границей слова», в действительности он определяется как позиция между двумя символами, по одну сторону которой распела! ается \w, а по другую - \W (в любом порядке) - Примеч перев

повысить точность идентификации слов в строке, можно указать то, что окружает слово. Как правило, указываются метасимволы границ, а не пропусков:

/\b([A-Za-2]+\b/ # Обычно наилучший вариант

/\s([A-Za-z]+)\s/ # Не работает в конце строки или без знаков препинания

В Perl существует метасимвол \w, который совпадает с одним символом, разрешенным в идентификаторах Perl. Однако идентификаторы Perl редко отвечают нашим представлениям о словах - обычно имеется в виду последовательность алфавитно-цифровых символов и подчеркиваний, но не двоеточий с апострофами. Поскольку метасимвол \Ь определяется через \w, он может преподнести сюрпризы при определении границ английских слов (и тем более - слов языка суахили).

И все же метасимволы \Ь и \В могут пригодиться. Например, шаблон /\Bis\B/ совпадает со строкой "is" только внутри слова, но не на его границах. Скажем, в thistle совпадение будет найдено, а в vis-a-vis -нет.

1> Смотри также-

Интерпретация \Ь, \w и \s в perlre(l); шаблоны для работы со словами из рецепта 6.23.

6.4. Комментирование регулярных выражений

Проблема

Требуется сделать ваше сложное регулярное выражение более понятным и упростить его изменение в будущем.

Решение

в вашем распоряжении четыре способа: внешние комментарии, внутренние комментарии с модификатором /х, внутренние комментарии в заменяющей части s / и альтернативные ограничители.

Комментарий

Во фрагменте из примера 6.1 использованы все четыре способа. Начальный комментарий описывает, для чего предназначено регулярное выражение. Для относительно простых шаблонов ничего больше не потребуется В сложных шаблонах (вроде приведенного) желательно привести дополнительные комментарии.

Пример 6.1. resname

#1/usr/bm/perl -р

# resname - заменить все имена в стиле foo bar com во входном потоке



6.4. Комментирование регулярных выражений 189

# на foo bar com [204 148 40 9] (или аналогичными)

use Socket, # Загрузить inet addr

s{ #

( й Сохранить имя хоста в $1

С? й Скобки только для группировки

С?! [- ] ) # Ни подчеркивание ни дефис [\w-] + # Компонент имени хоста

\ # и точка домена

) + # Повторяется несколько раз

[A-Za-z] # Следующий символ должен быть буквой

[\w-] + й Завершающая часть домена

) # Конец записи S1

]{ tt Заменить следующим

S1 # Исходная часть плюс пробел

( (Saddr = gethostbyname(Sl)) й Если имеется адрес [ inet ntoa(Saddr) ] # отформатировать

[>}}] tt иначе пометить как сомнительный

}дех й /д - глобальная замена

# /е - выполнение

# /х - улучшенное форматирование

Для эстетов в этом примере использованы альтернативные ограничители. Когда шаблон поиска или замены растягивается на несколько строк, наличие парных скобок делает его более понятным. Другая частая причина для использования альтернативных ограничителей - присутствие в шаблоне символов / (например, s/\/\ \/ \ g) Альтернативные ограничители упрощают чтение такого шаблона (например, si i / /ig или s{ }{/ /}д).

При наличии модификатора /х Perl игнорирует большинство пропусков в шаблоне (в символьных классах они учитываются) и интерпретирует символы # и следующий за ними текст как комментарий Такая возможность весьма полезна, однако у вас могут возникнуть проблемы, если пропуски или символы # являются частью шаблона В таких случаях снабдите символы префиксом \, как это сделано в следующем примере:

s/ # Заменить

\й # знак фунта

(\w+) # имя переменной

\# # еще один знак фунта

/${S1}/xg # значением глобальной переменной

Помните, комментарий должен пояснять программу, а не пересказывать ее. Комментарии типа $i++ # Увеличить $i на 1 станут причиной плохих оценок на курсах программирования или подорвут вашу репутацию среди коллег

Остается модификатор /е, при котором заменяющая строка вычисляется как полноценное выражение Perl, а не как (заключенная в кавычки и интерполированная) строка. Результат выполнения этого кода используется в качестве заменяю-



щей строки. Поскольку выражение будет интерпретировано как программный код, оно может содержать комментарии. Это несколько замедляет работу программы, но не так сильно, как может показаться (пока вы не начали писать собственные тесты, желательно представлять себе эффективность тех или иных конструкций). Дело в том, что правая сторона подстановки проверяется и компилируется на стадии компиляции вместе со всей программой. Для простой замены строк это, пожалуй, перебор, но в более сложных случаях работает просто замечательно.

Удвоение /е напоминает конструкцию aval STRING . Это позволит применить лексические переменные вместо глобальных в предыдущем примере с заменой.

S/ # Заменить

\# # знак фунта

(\w+) # имя переменной

\# # еще один знак фунта

/ $ $1/хеед # значением «любой* переменной

После подстановки /ее проверьте переменную $@ Она содержит сообщения об ошибках, полученные в результате работы вашего кода, - в отличие от /е, в дан-пом случае код деР1ствительно генерируется во время работы программы.

1> Смотри также-

Описание модификатора /х в perlre{i).

6.5. Поиск N-ro совпадения

Проблема

Требуется найти не первое, а N-e совпадение шаблона в строке. Допустим, вы хотите узнать, какое слово предшествует третьему экземпляру слова fish:

One fish two fish red fish blue fish

Решение

Воспользуйтесь модификатором /g и считайте совпадения в цикле while:

$WANT = 3, Scount = О

while (/(\w+)\s+fish\b/gi) { If (++$count == $WANT) {

print The third fish is a $1 one \n ,

tt Предупреждение не выходите из этого цикла с помощью last

The third fish is a red one.

Или воспользуйтесь счетчиком и шаблоном следующего вида:

/С \w+\s+fish\s+){2K\w+)\s+fish/i,



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 [ 57 