Анимация
JavaScript
|
Главная Библионтека 8.9. Обработка текстовых полей переменной длины 305 die "Oidnt find line $line number in $filename\n" print $lines[$line number-1]; # Легко, правда > Смотри также- Описание функции tie в peiifunc(iy, описание специальной переменной $. в perlvar{iy, документация по стандартному модулю DB File. 8.9. Обработка текстовых полей переменной длины Проблема Требуется извлечь из входных данных поля переменной длины. Решение Воспользуйтесь функцией split с шаблоном, совпадающим с разделителями полей: # Имеется $ЗАПИСЬ с полями, разделенными шаблоном ШАБЛОН. П Из записи извлекаются (ЭПОЛЯ. (ЭПОЛЯ = split (/ШАБЛОН/, $ЗАПИСЬ); Комментарий Функция split вызывается с тремя аргументами: шаблон, выражение и лимит (максимальное количество извлекаемых полей). Если количество полей во входных данных превышает лимит, лишние поля возвращаются неразделеи1[ыми в последнем элементе списка. Если лимит не указан, возвращаются все поля (кроме завершающих пустых полей). Выражение содержит разделяемую строковую величину. Если выражение не указано, разделяется переменная $ . Шаблон совпадает с разделителем полей. Если шаблон не указан, в качестве разделителей используются смежные последовательности пропусков, а начальные пустые поля отбрасываются. Если разделитель входных полей не является фиксированной строкой, можно вызвать split так, чтобы фу}псцня возвращала разделители полей вместе с данными, - для этого в шаблон включаются круглые скобки. Например: spiit(/([+-])/, -з+б-г-); возвращает список: (3, +, 5, 2) Поля, разделенные двоеточиями (в стиле файла /etc/passwd), извлекаются следующим образом: (afields = split(/:/, Srecord); Классическое применение функции split - извлечение данных, разделенных пропусками: (Bfields = split(/\s+/. Srecord); Если $ЗАПИСЬ начинается с пропуска, в последнем варианте первому элементу списка будет присвоена пустая строка, поскольку split сочтет, что запись имеет начальное пустое поле. Если это не подходит, используйте особую форму split: (5>fields = splitC $ЗАПИСЬ); В этом случае split ведет себя так же, как и с шаблоном /\s+/, но игнорирует начальный пропуск. Если разделитель может присутствовать внутри самих полей, возникает проблема. Стандартное решение - снабжать экземпляры разделителя в полях префиксом \. См. рецепт 1.13. О Смотри также- Описание функции split вperlfunc(l). 8.10. Удаление последней строки файла Проблема Требуется удалить из файла последнюю строку. Решение Читайте файл по одной строке и запоминайте байтовое смещение последней прочитанной строки. Когда файл будет исчерпан, обрежьте файл по последнему сохраненному смещению: open (FH, +< $file") or die "cant update $file: $!"; while ( <FH> ) { $addr = tell(FH) unless eof(FH)i truncate(FH, $addr) or die "cant truncate $file: $!"; Комментарий Такое решение намного эффективнее загрузки всего файла, поскольку в любой момент времени в памяти хранится всего одна строка. Хотя вам все равно приходится читать весь файл, программу можно использовать и для больших файлов, размер которых превышает объем доступной памяти. О Смотри также-- Описание функций open и binmode в perlfunc(l); шап-страницы ореп{2) и fopen{3) вашей системы. 8.11. Обработка двоичных файлов 307 8.11. Обработка двоичных файлов Проблема Операционная система отличает текстовые файлы от двоичных. Как это сделать в программе? Решение Вызовите функцию binmode для файлового манипулятора: Ыптос1е(МАНИПУЛЯТ0Р); Комментарий Не существует единого мнения по поводу того, что является строкой текстового файла; текстовые символы одного компьютера могут превратиться в двоичную белиберду на другом. Но даже если все станут пользоваться кодировкой ASCH вместо EBCDIC, Rad50 или Unicode, могут возникнуть затруднения. Как говорилось во введении, конкретного символа перевода строки не существует. Это чисто абстрактное понятие, которое поддерживается операционной системой, стандартными библиотеками, драйверами устройств и Perl. В Unix или Р1ап9 Лп" представляет физическую последовательность "\cJ" (служебная последовательность Perl, соответствующая Ctrl-bJ). Однако на терминале, не работающем в «чистом» (raw) режиме, нажатие на клавишу Enter генерирует код "\сМ" (возврат курсора), транслируемый в AcJ", а выходной код "\cJ " транслируется в "\cM\cJ". Подобные странности характерны не для обычных файлов, а лищь для терминальных устройств, и обрабатываются строго на уровне драйвера устройства. На Мае код "\п" обычно представляется "\сМ"; чтобы жизнь была интереснее (а также из-за стандартов, требующих различий между "\п" и "\г"), "\г" соответствует "\cJ". Такая интерпретация в точности противоположна стандартам UNIX, Р1ап9, VMS, СР/М... словом, почти всем. Следовательно, программисты Мае, которые пишут файлы для других систем или общаются с ними по сети, должны проявлять осторожность. Если отправить Лп", вы получите ЛсМ", а "VcJ" исчезнет. Многие сетевые службы предпочитают отправлять и принимать в качестве разделителя строк последовательность "\cM\cJ", однако большинство позволяет ограничиться простым "\cJ". В VMS, DOS и их производных "\п" также представляет "\cJ", по аналогии с Unix и Р1ап9. С терминальной точки зрения UNIX и DOS ведут себя одинаково: при нажатии пользователем клавиши Enter генерируется ЛсМ", однако в программу поступает уже "\п", то есть "\cJ", Код \п", переданный терминалу, превращается в "\cM\cJ". Эти странные преобразования выполняются и с файлами Windows. В текстовых файлах DOS каждая строка завершается двумя-символами, "VcMXcJ". Последний блок файла содержит код \cZ, определяющий окончание текста. В таких системах при записи строки "bad news\n" файл будет содержать "bad news\cM\cJ", как при выводе на терминал. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 [ 96 ] 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 |