Анимация
JavaScript


Главная  Библионтека 

0 1 2 [ 3 

Строки

..и открыл легкомысленно уста свои, и безрассудно расточает слова.

Книга Иова, 35:10

Введение

Многие языки програмли1рова1И1я заставляют нас мыслить на неудобном низком уровне. Вам понадобилась строка, а язык хочет, чтобы вы работали с указателем или байтовым массивом. Впрочем, не отчаивайтесь - Perl не относится к языкам низкого уровня, и в нем удобно работать со строками.

Perl проектировался для обработки текста. В сущности, в Perl существует такое количество текстовых операций, что их невозможно описать в одной главе. Рецепты обработки текста встречаются и в других главах. В частности, обратитесь к главе 6 «Поиск по шаблону» и главе 8 «Содержимое файлов» - в них описаны интересные приемы, не рассмотренные в этой главе.

Фундаментально!! единицей для работы с да!И1ыми в Perl является скаляр (scalar), то есть отдельное значите, храгшщсеся в отдельпо11 (скалярной) неремсп-ной. В скалярных переменных хранятся строки, числа и ссылки. Массивы и хэпди представляют собой соответствеппо списки или ассоциативные массивы скашров. Ссылки используются для косвенных обращений к другим величинам; они отчасти похожи на указатели в языках низкого уровня. Числа обычно хранятся в формате веществишых чисел с двойной точностью. Строки в Perl могут иметь произвольную длину (ограниченную только объелюм виртумьпой памяти вашего компьютера) и содержат произвольные данные - даже двоичные последовательности с нулевыми байтами.

Строка не является массивом байт; к отдельному символу нельзя обратиться по индексу, как к элементу массива - для этого следует воспользоваться функцией substr. Строки, как и все типы данных Perl, увеличиваются и уменьшаются в размерах по мере необходимости. Неиспользуемые строки уничтожаются системой сборки мусора Perl (обычно при выходе переменной, содержащей строку, за пределы области действия или после вычисления выраже1шя, в которое входит стро-



ка), Иначе говоря, об управлении памятью можно ие беспокоиться - об этом уже позаботились до вас.

Сюшярпая величина может быть определенной пли пеоиределенпо1г Определенная величина может содержать строку, число или ссылку. Единственным неопределенным значением является undef, все остальные значения считаются определенными - даже О и пустая строка. Однако определенность не следует путать с логической истиной; чтобы проверить, определена ли некоторая величина, следует воспользоваться функций defined. Логическая истина имеет особое значение, которое проверяется логическими операторалт && и , а также в условии блока while.

Две определенные строки считаются ложными: пустая строка ("") и строка единичной длины, содержащая цифру «ноль» ( О"). Возможно, второе вас несколько удивит, но это связано с тем, что Perl выполняет преобразования между числами и строками по мере необходимости, Чнсла 0. 0.00 и 0.00000000 без кавычек считаются ложными значениями, по в строках они становятся истиипыми (так, строка О 00 считается истинной, а не лолаюй). Все остальные определенные значения (например, false", 15 и \$х) истинны.

В строковом контексте значение undef интерпретируется как пустая строка ( "). В числовом контексте undef интерпретируется как О, а в ссылочном - как нуль-ссылка. При этом во всех случаях оно считается ложным. Использование пеопре-делеппой величш1Ы там, где Perl ожидает получить определенную, приводит к записи в STDERR предупреждения времени выполнения (если был использован флаг -w). Для простого вопроса о том, является ли нечто истинным или ложным, предупреждение не выдается. Некоторые операции не выдают предупреждений при использовании переменных, содержащих пеонределенные значения. К их числу относятся операции автоматического увеличения и уменьщепия, ++ и --, а также сложение и конкатенация с ирисваиванием, += и =.

В программах строки записываются в апострофах или кавычках, в форме q или qq или «встроенных документов» (here-documents). Апострофы используются в простеГшей форме определения строк с минимальным количеством снециаль-ных символов: - завершает строку, \ - вставляет в иее апостроф, а \\ - обратную косую черту;

$string = An, й Два символа, \ и п

Sstring = Jon \Maddog\ Orwant й Внутренние апострофы

В строках, заключенных в кавычки, возможна интерполяция имен переменных (но не вызовов функций - о том, как это делается, см. рецепт 1.10). В них используется множество служебных символов; \п" - символ перевода строки, "\033" - символ с восьмерич1илм кодом 33, "\cJ" - Ctrl-i-J и т. д. Полный список приведен в странице руководства рег/ор(1).

Sstring = \п, # Символ перевода строки

Sstring = Jon \Maddog\ Orwant , » Внутренние кавычки

Операторы q и qq позволяют чередовать разделители строк с апострофами и кавычками. Например, строку с внутренними апострофами проще записать в следующем виде, вместо того чтобы использовать служебные символы \:



$string

= q[Jon

Maddog

Orwant];

Sstring

= q{Jon

Maddog

Orwant};

Sstring

= q{Jon

Maddog

Orwant);

Sstring

= q<Jon

Maddog

Orwant>;

Sstring = q/Jon Maddog Orwant/; # Внутренние апострофы

В качестве разделителей могут использоваться одинаковые символы, как в этом примере, или парные (для различных типов скобок):

(f Внутренние апострофы

it Внутренние апострофы

(f Внутренние апострофы

it Внутренние апострофы

Концепция «встроенных документов» позаимствована из командных интерпретаторов (shell) и позволяет определять строки, содержащие большое количество текста. Текст может интерпретироваться по правилам для строк, заключенных в апострофы или кавычки, и даже как перечень исполняемых команд - в зависимости от того, как задается завершающий идентификатор. Например, следующий встроенный документ будет интерпретироваться по правилам для строк, заключенных в кавычки:

$а = «"EOF";

This IS а multiline here document terminated by EOF on a line by itself EOF

Обратите внимание: после завершающего EOF точка с запятой не ставится. Встроенные документы более подробно рассматриваются в рецепте 1,11,

Предупреждение для программистов из других стран: в настоящее время Perl не обладает прямой поддержкой многобайтовых кодировок (в версии 5.006 ожидается поддержка Unicode), поэтому в тексте книги понятия байт и символ считаются идентичными.

1.1. Работа с подстроками

проблема

Требуется получить или модифицировать не целую строку, а лишь ее часть. Например, вы прочитали запись с фиксированной структурой и теперь хотите извлечь из нее отдельные поля.

Решение

Функция substr предназначена для чтения и записи отдельных байтов строки:

lvalue = substr{$string, Soffset, 4count); Svalue = substr($string, Soffset);

substr{$string, Soffset, $count) = Snewstring; substr{$string, Soffset) = Snewtail;

Функция unpack ограничивается доступом только для чтения, но при извлечении нескольких подстрок работает быстрее:



0 1 2 [ 3 