Анимация
JavaScript


Главная  Библионтека 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 [ 26 ] 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

овооооовоооош

вООООвОйОООШП

ооовоювоооет

ЙООйЙОООЮОПП

eooeioooaaoQm ««Ойоооаюост ooieoaooQuoQin

OOOUUUIUtOoeill

ооовйшвеооат oooieuieaaeoiii goi00iouQiiooiii оооривйоооопо oa*»oiouooootio ооюоооооооош

000000061000111 000000000000 Ml

ооооооооооооооо

000000000000000

ооооооооооооооо ооооооооооооооо ооооооооооооооо оеороооооооооор

010100001000100 OinOOOD00,1iOO

oonoooooonioo

000100000011000 OOenODIODOIOOO

oooenoiooo tooo

OOOOtfllOOOlOOO OOOOItlloOOIOOO OOOOtlllOOOIOOO OOOOtinoOQIOOO 000011100001000

oooeitoioooiooo

OOOOI01IQ001000 OOOOtOIIOOOIOOO OOOOIOUIIIOtOOO

ooootoonoooooo

OOOOlOOtiOOOOOO OOOlOOOIIOOOOOO

ootioooniooooo

OOllOOOIlOOOOOO OOllOODIIOOOOOO 001100011000000 OOlOOODOlDOOOOO

omoBDoioooooo

OlnOOOOIOOODPD

ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо

000000000011100 OOtOOOlOOOOIlOO 011000001001100

-ooooooooooonio oooooooooeooioo

000000000000110 000000001000110 OOOOOOOOIOOIItl

ooooioooiooiin

OOOOOOOOIOOIliO 000000tOOOOO110 OOOOOOOOOOOOlPO OOOOOO0OOOO011O

ooooooooooonio

00000000)061111

ooooooooooootio

000000000000100

ооооооооооооооо ооооооооооооооо

000000000001100

оиюоооооооюо ooinoooioioioo

OOOOtOOOIOOMOO

oeooioooiootooo

000011000000000 OOOOIIOIOIOtOOO OOOOOIOtOOOiOOO

ooionnoootooo

OOtOllOtOOOIOOO 001011010101000 901011011101000 000011011001000 000011011001000 OOOOIOOIIOOlOOO 000010011000000 000110011000000

ootnooiioooooo oonooooioooooo

001110001000000

oetooooonooooo

011000001000000

ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо

000000000900000

ооооооооооооооо ооооооооооооооо

000000000090000 ООЮООЮОООИОО 011100000091100 OOtOOOOOOIOIlOO 001100000000100

-. 000000001001 1 19 990000000001110 009900000001100 00090100IOOIIQO

ооооооооюооюо

010900000001110 010000000000110 000191000000100 00010IOOOOOOMO 000909000000110 ОООООПОООООМО 000000001000110 000000001090110

000000001001 по ooooooooooonio ooooooootoonto

00909D001001111 990990990011100 990090000001000 999009991991000 990900000991000 000900990090990

ооооооооооооооо

«00000999990090 900909999900090 99000l90nn99D 90I09I99I9PI000

ooioooooioonoo

011190010091100 101190919001100 000110919001100

oounooi90oa<ou

090110109009100 000110100000100

ооооюооооооооо

009010100100000 090110190000100 009010000001100 000110090100000 000119110000000 OOOIIOOlOOOOOOO 099119011000000 009100911000000 090100011000 ООО 091190011000000 991109911099900 901990091000000 I0l9i000l900000 090090099900000 990PDOP90990900 090900900900099 990909900900999 000900900909999 009909000900000 009909000099909 000000990900090 990900900900090 000900000900900 ч 091011101001090 \ 001010001001109 091009001901100 \901009901100109 091019001101100

; tiiM:!!!!

Рис. 3.55. Пример функции принадлежности слова START.

функций принадлежности nij определить его степени принадлежности ко всем нечетким множествам, то можно узнать, какое это слово. Однако использование введенной выше функции принадлежности приводит к ряду проблем. Поясним это с помощью рис. 3.56.

На рис. 3.56,(2 показаны локальные выбросы некоторого голоса. Если выбросы есть для частот fi и/2, можно записать

>-(/) = 1(/-Л) + 1(/-Л), (3.33)

где 1 обозначает следующую функцию; г 1при/=0, I Опри 0.

На рис. 3.56,6 и в приведены функции принадлежности множеств образов слов J и к, причем на рис. 3.56,6 имеются


Рис. 3.56. Неизвестный образ и принадлежность голоса.

два локальных выброса, на рис. 3.56, е-один. Местоположение двух локальных выбросов в первом случае полностью совпадает с максимумами функции принадлежности, их степень принадлежности равна 1. Поэтому максимумы функции принадлежности нормализуются до значения 0,5. Степень принадлежности Dj образа у к Xj будет иметь вид

Dj-frnj{f)/\y{f)df. (3.34)

в случае рис. 3.56, а она почти равна 1 и показывает сходство со словом / с другой стороны, функция на рис. 3.56, в принадлежит к типу функций с одним локальным выбросом, что свойственно согласным звукам. Ее максимум равен 1. Если определить по формуле (3.34) степень принадлежности образа рис 3.56, а к образу х, определенному через функцию принадлежности на рис. 3.56, в, то также получим значение, почти равное 1. Возникает противоречие: образ на рис. 3.56, а обладает одинаковым сходством и с Xj, с л:. Поэтому определяем инверсную степень принадлежности

где Wj-функция принадлежности, представляющая известный образ дополнительного множества j. За счет введения формулы (3.35) инверсная степень принадлежности для рис. 3.56, а и в становится большой и появляется возможность выделить близость рис. 3.56, а к б.

В рассуждениях, представленных выше, мы ограничились только частотой, уменьшив для простоты размерность; фактически имеет место двумерное распределение. В этом случае не только трудно учесть число локальных выбросов и нормализовать значение выбросов функции принадлежности, но и нецелесообразно отводить четыре бита на каждый элемент. Для вычисления степени подобия без нормализации опреде-



лим ее как отношение формул (3.34) и (3.35):

Siy = Dj/Dj. (3.36)

В случае когда нормализация не производится, Dj, стоящее в числителе этой формулы, будет возрастать с увеличением числа локальных выбросов в у, но за счет того, что в знаменателе стоит величина Dj, которая, как и Dj, легко принимает большие значения при увеличении числа локальных выбросов, нормализация не требуется.

В реальном устройстве распознавания приходится оперировать с дискретными величинами. В этом случае исполь зуется следующее выражение для степени подобия:

"JO

Pji - P,n л, - P,

(3.37,

P = EEmj(/,0, / t

P, = -ELy(f,t), f t

Pjo = 5:Emj(/,0-y(/,0, / t

P =EZm(/,0.y(/,0-

Знак • обозначает произведение элементов mjH у, а ♦-логическое произведение rrij и у уровня а, т. е.

. г . , г . М» если т, а, у = 1, L О в противном случае.

Если значения элементов функции принадлежности представлены четырьмя битами, то чаще всего О < а < 3.

Формула (3.37) состоит из двух членов, причем оба по виду похожи на формулу (3.36). Числитель и знаменатель левого члена-это соответственно уДт,-, у/\т; правого-y*mj, y*mj.

3.7.3. СТРУКТУРА СИСТЕМЫ

С помощью описанного выше метода распознавания была создана реальная система распознавания. Блок-схема системы показана на рис. 3.57. Звук с помощью микрофона преобразуется в сигнал; на группе фильтров производится разложение сигнала по частотам, затем выполняется преобразование в двоичный код и составляется ДСВО. Блок, обозначенный на рисунке пунктиром, относится к упомянутому выше обучению, в обычном методе распознавания неопределенного говорящего он не используется. Работа остальных блоков осуществляется следующим образом.

1. Группа фильтров-это набор из нескольких полосовых фильтров, в данной системе их 15. Центральные частоты-

Группа фильтров

Линия наимеиьш.их Квадратов

Представление в деоичном коде

\ Наложение \ I ДСВО I

L--т-

Эталонные образы

Линейное растяжение и сжатие

Вычисление Они

Результат распознавания

Рис. 3.57. Блок-схема системы распознавания.



250 6300 Гц с шагом 1/3 октавы; острота резонанса фильтра Q равна 6. Выходные сигналы фильтров сглаживаются, квантуются выборками через 10 мс. В результате получаются 15-мерные векторы. Выходы фильтров на данном этапе представлены восемью битами.

2. Преобразование в ДСВО. Среди 15 данных из группы фильтров выделяются пиковые значения, их окрестности принимаются за 1, а остальные места за О, таким образом выполняется преобразование в двоичный код. При этом характеристики источника звука нормализуются. Звук, образующийся при колебаниях голосовых связок, за счет колебательных свойств связок ослабевает на высоких частотах. Поэтому перед преобразованием в двоичный код определяется линия наименьших квадратов для 15 значений данных, и ее наклон корректируется [31]. Затем в области над этой линией выделяются пиковые значегая и выполняется преобразование в двоичный код. В реальном устройстве вычисление линии наименьщих квадратов отсутствует; в нем используются фильтры, которые позволяют достичь почти такого же результата [32]. По наклону полученной линии можно узнать разновидность звука: отрицательный наклон-звонкий, положительный - глухой, и в ДСВО добавляется 16-й столбец данных с 1 и О соответственно.

3. Блок сравнения. Степень подобия между неизвестным входным образом и функцией принадлежности, зафиксированной как эталонный образ, вычисляется по формуле (3.37). Длительности обоих образов согласуются с помощью линейного сжатия/расширения аналогичного тому, которое выполняется при формировании функции принадлежности. Временные изменения фиксируются в функции принадлежности в виде изменений, нормированных линейным сжатием/рас-щирением. Иначе говоря, в эталонном образе появляются кроме О и 15 промежуточные значения, и блок сжатия/расширения ведет себя как нелинейный.

3.7.4 ЭКСПЕРИМЕНТЫ ПО РАСПОЗНАВАНИЮ

Ниже описаны результаты экспериментов по распознаванию неопределенного говорящего. Эксперименты проводились на японском, английском и немецком языках. Японский набор включал 110 команд управления аппаратурой для автоматизации учреждений, дополненный цифрами и обыч-

ными словами [33], английский и немецкий-120 слов такого же содержания, а также названия животных и цветов [34]. Особого внимания выбору слов не уделяли, поэтому попадались группы из нескольких трудноразличимых слов. Например, в японском языке-«року», «коку», «оку», в английском-"quick", "quit", в немецком - "nein", "neun" и др.

Эти слова записывались на ленту в звукоизолированном или почти звукоизолированном помещении, аналоговая запись преобразовывалась в цифровой код, который вводился в мини-компьютер, где формировались эталонные образы. (Для справки отметим, что английские слова собирались на западном побережье США, немецкие-в северных районах ФРГ.)

В табл. 3.12 приведены средние коэффициенты распознавания, полученные в экспериментах при описанных вьппе условиях. Как следует из таблицы, коэффициент распознавания для любого языка составляет примерно 93%.

Таблица 3.12. Коэффициент распознавания неопределенного говорящего

Язьпс

Японский

Английский

Немецкий

Коэффициент

93,2

92,8

93,7

распознавания, %

3.7.5. ГРУППОВОЕ ПРИМЕНЕНИЕ

Изложенный выше метод неопределенного говорящего позволяет, по идее, распознавать любой голос без обучения путем обработки речи многих людей и формирования эталонных образов. Однако на практике нет необходимости в распознавании любого голоса. Например, часто достаточно распознавать голоса ограниченного круга людей, сотрудников учреждения. Более того, целесообразно несколько повысить коэффициент распознавания, ограничивая число пользователей. Как уже говорилось выше, данный метод позволяет встраивать функции принадлежности в устройство. Это сделано для того, чтобы пользователи при обучении создавали собственные групповые функции принадлежности. Такой метод применения называется групповым.



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 [ 26 ] 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60