Анимация
JavaScript


Главная  Библионтека 

0 1 2 3 4 5 6 7 8 9 10 11 12 [ 13 

базами данных поддерживают списки полей, разделенных запятыми, в качестве стандартного формата для обмена данными.

Решение

Воспользуйтесь следующей процедурой:

sub parse csv {

my $text = shift; # Запись со значениями, разделенными запятыми

ту (Snew = ();

push((anew, $+) while $text =" m{

# Первая часть группирует фразу в кавычках (["\Л\]*(.\\.["\Л\]0*)-, I (",]+), I ,

}дх;

push(@new, undef) if substr($text,-1,1) eq ,;

return @new, # Список значений, которые разделялись запятыми

Также можно воспользоваться стандартным модулем Text:ParseWords:

use Text:.ParseWords,

sub parse csv {

return quoteword(, , 0, $ [0],

Комментарий

Ввод данных, разделенных запятыми, - коварная и непростая задача. Все выглядит просто, но в действительности приходится использовать довольно сложную систему служебных символов, поскольку сами поля могут содержать внутренние запятые. В результате подстановка получается весьма сложной, а простая функция split /, / вообще исключается.

К счастью, модуль Text::ParseWords скрывает от вас все сложности. Передайте функции qoutewords два аргумента и строку разделенных данных. Первый аргумент определяет символ-разделитель (в данном случае - запятая), а второй - логический флаг, который показывает, должна ли возвращаемая строка содержать внутренние кавычки.

Если кавычки должны присутствовать внутри поля, также ограниченного кавычками, воспользуйтесь префиксом \: "like \"this\". Кавычки, апострофы и обратная косая черта - единственные символы, для которых этот префикс имеет специальное значение. Все остальные экземпляры \ остаются в итоговой строке.

Ниже показан пример использования процедуры parse csv. q<> - всего лишь хитроумный заменитель кавычек, благодаря которому нам не придется расставлять повсюду символы \.

$line = q<XYZZY, "",ОReilly, Inc,"Wall, Larry","а \"glug\" bit,",5,



1.16. Сравнение слов с похожим звучанием 57

"Error, Core Dumped">, (Sfields = parse csv($line), for ($1 = 0,$i < @fields; $i++) {

print "$i . $fields[$i]\n";

0 : XYZZY

2 : OReilly, Inc

3 : Wall, Larry

4 : a \"glug\" bit,

5 : 5

6 ; Error, Core Dumped

> Смотри также-

Описание синтаксиса регулярных выражений в perlre(l); документация по стандартному модулю Text::ParseWords.

1.16. Сравнение слов с похожим звучанием

Проблема

Имеются две английские фамилии. Требуется узнать, звучат ли они похожим образом (независимо от написания). Это позволит выполнять неформальный поиск в телефонной книге, в результатах которого наряду со Smith будут присутствовать и другие похожие имена - например, Smythe, Smite и Smote.

Решение

Воспользуйтесь стандартным модулем Text::Soundex:

use Text .Soundex;

SCODE = soundex($STRING); (SCODES = soundex((aLIST);

Комментарий

Алгоритм soundex хэширует слова (особенно английские фамилии) в небольшом пространстве с использованием простой модели, имитирующей произношение по правилам английского языка. Грубо говоря, каждое слово сокращается до че-тырехсимвольной строки. Первый символ является буквой верхнего регистра, а прочие - цифры. Сравнивая значения для двух строк, можно определить, звучат ли они похожим образом.

Следующая программа предлагает ввести имя и ищет в файле паролей имена с похожим звучанием. Аналогичный подход может использоваться для баз данных имен, поэтому при желании можно индексировать базу данных по ключам soundex. Конечно, такой индекс не будет уникальным.



1.17. Программа: fixstyle

Представьте себе таблицу с парами устаревших и новых слов.

Старые слова

Новые слова

bonnet

hood

rubber

eraser

lorrie

truck

trousers

pants

Программа из примера 1.4 представляет собой фильтр, который заменяет все встречаюшиеся в тексте слова из первого столбца соответствующими элементами второго столбца.

При вызове без файловых аргументов программа выполняет функции простого фильтра. Если в командной строке передаются имена файлов, то в них помещаются результаты, а прежние версии сохраняются в файлах с расширениями *.orig (см. рецепт 7.9). При наличии параметра командной строки -v сообщения обо всех изменениях записываются в STDERR.

Таблица пар «исходное слово/заменитель» хранится в основной программе, начиная с END (см. рецепт 7.6). Каждая пара преобразуется в подстановку и накапливается в переменной $code так же, как это делается в программе popgrep2 из рецепта 6.10.

use Text::Soundex; use User::pweht;

print "Lookup user: "; chomp($user = <STDIN>); exit unless defined $user; $name code = soundex($user);

while($uent = getpwentO) {

(Sfirstname, Slastname) = $uent->gecos =~ /(w+)[", ]Ab(\w+)/;

if ($name code eq soundex($uent->naffle) $name code eq soundex($$lastname) $naffle code eq soundex($firstname) )

printf "%s: %s %s\n", $uent->naffle, $firstname, $lastname;

> Смотри также-

Документация по стандартным модулям Text:;Soundex и User:;pwent; man-страница passwd(5) вашей системы; «Искусство программирования», том 3, глава 6.



0 1 2 3 4 5 6 7 8 9 10 11 12 [ 13 