Анимация
JavaScript
|
Главная Библионтека овооооовоооош вООООвОйОООШП ооовоювоооет ЙООйЙОООЮОПП eooeioooaaoQm ««Ойоооаюост ooieoaooQuoQin OOOUUUIUtOoeill ооовйшвеооат oooieuieaaeoiii goi00iouQiiooiii оооривйоооопо oa*»oiouooootio ооюоооооооош 000000061000111 000000000000 Ml ооооооооооооооо 000000000000000 ооооооооооооооо ооооооооооооооо ооооооооооооооо оеороооооооооор 010100001000100 OinOOOD00,1iOO oonoooooonioo 000100000011000 OOenODIODOIOOO oooenoiooo tooo OOOOtfllOOOlOOO OOOOItlloOOIOOO OOOOtlllOOOIOOO OOOOtinoOQIOOO 000011100001000 oooeitoioooiooo OOOOI01IQ001000 OOOOtOIIOOOIOOO OOOOIOUIIIOtOOO ooootoonoooooo OOOOlOOtiOOOOOO OOOlOOOIIOOOOOO ootioooniooooo OOllOOOIlOOOOOO OOllOODIIOOOOOO 001100011000000 OOlOOODOlDOOOOO omoBDoioooooo OlnOOOOIOOODPD ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо 000000000011100 OOtOOOlOOOOIlOO 011000001001100 -ooooooooooonio oooooooooeooioo 000000000000110 000000001000110 OOOOOOOOIOOIItl ooooioooiooiin OOOOOOOOIOOIliO 000000tOOOOO110 OOOOOOOOOOOOlPO OOOOOO0OOOO011O ooooooooooonio 00000000)061111 ooooooooooootio 000000000000100 ооооооооооооооо ооооооооооооооо 000000000001100 оиюоооооооюо ooinoooioioioo OOOOtOOOIOOMOO oeooioooiootooo 000011000000000 OOOOIIOIOIOtOOO OOOOOIOtOOOiOOO ooionnoootooo OOtOllOtOOOIOOO 001011010101000 901011011101000 000011011001000 000011011001000 OOOOIOOIIOOlOOO 000010011000000 000110011000000 ootnooiioooooo oonooooioooooo 001110001000000 oetooooonooooo 011000001000000 ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо ооооооооооооооо 000000000900000 ооооооооооооооо ооооооооооооооо 000000000090000 ООЮООЮОООИОО 011100000091100 OOtOOOOOOIOIlOO 001100000000100 -. 000000001001 1 19 990000000001110 009900000001100 00090100IOOIIQO ооооооооюооюо 010900000001110 010000000000110 000191000000100 00010IOOOOOOMO 000909000000110 ОООООПОООООМО 000000001000110 000000001090110 000000001001 по ooooooooooonio ooooooootoonto 00909D001001111 990990990011100 990090000001000 999009991991000 990900000991000 000900990090990 ооооооооооооооо «00000999990090 900909999900090 99000l90nn99D 90I09I99I9PI000 ooioooooioonoo 011190010091100 101190919001100 000110919001100 oounooi90oa<ou 090110109009100 000110100000100 ооооюооооооооо 009010100100000 090110190000100 009010000001100 000110090100000 000119110000000 OOOIIOOlOOOOOOO 099119011000000 009100911000000 090100011000 ООО 091190011000000 991109911099900 901990091000000 I0l9i000l900000 090090099900000 990PDOP90990900 090900900900099 990909900900999 000900900909999 009909000900000 009909000099909 000000990900090 990900900900090 000900000900900 ч 091011101001090 \ 001010001001109 091009001901100 \901009901100109 091019001101100 ; tiiM:!!!! Рис. 3.55. Пример функции принадлежности слова START. функций принадлежности nij определить его степени принадлежности ко всем нечетким множествам, то можно узнать, какое это слово. Однако использование введенной выше функции принадлежности приводит к ряду проблем. Поясним это с помощью рис. 3.56. На рис. 3.56,(2 показаны локальные выбросы некоторого голоса. Если выбросы есть для частот fi и/2, можно записать >-(/) = 1(/-Л) + 1(/-Л), (3.33) где 1 обозначает следующую функцию; г 1при/=0, I Опри 0. На рис. 3.56,6 и в приведены функции принадлежности множеств образов слов J и к, причем на рис. 3.56,6 имеются Рис. 3.56. Неизвестный образ и принадлежность голоса. два локальных выброса, на рис. 3.56, е-один. Местоположение двух локальных выбросов в первом случае полностью совпадает с максимумами функции принадлежности, их степень принадлежности равна 1. Поэтому максимумы функции принадлежности нормализуются до значения 0,5. Степень принадлежности Dj образа у к Xj будет иметь вид Dj-frnj{f)/\y{f)df. (3.34) в случае рис. 3.56, а она почти равна 1 и показывает сходство со словом / с другой стороны, функция на рис. 3.56, в принадлежит к типу функций с одним локальным выбросом, что свойственно согласным звукам. Ее максимум равен 1. Если определить по формуле (3.34) степень принадлежности образа рис 3.56, а к образу х, определенному через функцию принадлежности на рис. 3.56, в, то также получим значение, почти равное 1. Возникает противоречие: образ на рис. 3.56, а обладает одинаковым сходством и с Xj, с л:. Поэтому определяем инверсную степень принадлежности где Wj-функция принадлежности, представляющая известный образ дополнительного множества j. За счет введения формулы (3.35) инверсная степень принадлежности для рис. 3.56, а и в становится большой и появляется возможность выделить близость рис. 3.56, а к б. В рассуждениях, представленных выше, мы ограничились только частотой, уменьшив для простоты размерность; фактически имеет место двумерное распределение. В этом случае не только трудно учесть число локальных выбросов и нормализовать значение выбросов функции принадлежности, но и нецелесообразно отводить четыре бита на каждый элемент. Для вычисления степени подобия без нормализации опреде- лим ее как отношение формул (3.34) и (3.35): Siy = Dj/Dj. (3.36) В случае когда нормализация не производится, Dj, стоящее в числителе этой формулы, будет возрастать с увеличением числа локальных выбросов в у, но за счет того, что в знаменателе стоит величина Dj, которая, как и Dj, легко принимает большие значения при увеличении числа локальных выбросов, нормализация не требуется. В реальном устройстве распознавания приходится оперировать с дискретными величинами. В этом случае исполь зуется следующее выражение для степени подобия: "JO Pji - P,n л, - P, (3.37, P = EEmj(/,0, / t P, = -ELy(f,t), f t Pjo = 5:Emj(/,0-y(/,0, / t P =EZm(/,0.y(/,0- Знак • обозначает произведение элементов mjH у, а ♦-логическое произведение rrij и у уровня а, т. е. . г . , г . М» если т, а, у = 1, L О в противном случае. Если значения элементов функции принадлежности представлены четырьмя битами, то чаще всего О < а < 3. Формула (3.37) состоит из двух членов, причем оба по виду похожи на формулу (3.36). Числитель и знаменатель левого члена-это соответственно уДт,-, у/\т; правого-y*mj, y*mj. 3.7.3. СТРУКТУРА СИСТЕМЫ С помощью описанного выше метода распознавания была создана реальная система распознавания. Блок-схема системы показана на рис. 3.57. Звук с помощью микрофона преобразуется в сигнал; на группе фильтров производится разложение сигнала по частотам, затем выполняется преобразование в двоичный код и составляется ДСВО. Блок, обозначенный на рисунке пунктиром, относится к упомянутому выше обучению, в обычном методе распознавания неопределенного говорящего он не используется. Работа остальных блоков осуществляется следующим образом. 1. Группа фильтров-это набор из нескольких полосовых фильтров, в данной системе их 15. Центральные частоты- Группа фильтров Линия наимеиьш.их Квадратов Представление в деоичном коде \ Наложение \ I ДСВО I L--т- Эталонные образы Линейное растяжение и сжатие Вычисление Они Результат распознавания Рис. 3.57. Блок-схема системы распознавания. 250 6300 Гц с шагом 1/3 октавы; острота резонанса фильтра Q равна 6. Выходные сигналы фильтров сглаживаются, квантуются выборками через 10 мс. В результате получаются 15-мерные векторы. Выходы фильтров на данном этапе представлены восемью битами. 2. Преобразование в ДСВО. Среди 15 данных из группы фильтров выделяются пиковые значения, их окрестности принимаются за 1, а остальные места за О, таким образом выполняется преобразование в двоичный код. При этом характеристики источника звука нормализуются. Звук, образующийся при колебаниях голосовых связок, за счет колебательных свойств связок ослабевает на высоких частотах. Поэтому перед преобразованием в двоичный код определяется линия наименьших квадратов для 15 значений данных, и ее наклон корректируется [31]. Затем в области над этой линией выделяются пиковые значегая и выполняется преобразование в двоичный код. В реальном устройстве вычисление линии наименьщих квадратов отсутствует; в нем используются фильтры, которые позволяют достичь почти такого же результата [32]. По наклону полученной линии можно узнать разновидность звука: отрицательный наклон-звонкий, положительный - глухой, и в ДСВО добавляется 16-й столбец данных с 1 и О соответственно. 3. Блок сравнения. Степень подобия между неизвестным входным образом и функцией принадлежности, зафиксированной как эталонный образ, вычисляется по формуле (3.37). Длительности обоих образов согласуются с помощью линейного сжатия/расширения аналогичного тому, которое выполняется при формировании функции принадлежности. Временные изменения фиксируются в функции принадлежности в виде изменений, нормированных линейным сжатием/рас-щирением. Иначе говоря, в эталонном образе появляются кроме О и 15 промежуточные значения, и блок сжатия/расширения ведет себя как нелинейный. 3.7.4 ЭКСПЕРИМЕНТЫ ПО РАСПОЗНАВАНИЮ Ниже описаны результаты экспериментов по распознаванию неопределенного говорящего. Эксперименты проводились на японском, английском и немецком языках. Японский набор включал 110 команд управления аппаратурой для автоматизации учреждений, дополненный цифрами и обыч- ными словами [33], английский и немецкий-120 слов такого же содержания, а также названия животных и цветов [34]. Особого внимания выбору слов не уделяли, поэтому попадались группы из нескольких трудноразличимых слов. Например, в японском языке-«року», «коку», «оку», в английском-"quick", "quit", в немецком - "nein", "neun" и др. Эти слова записывались на ленту в звукоизолированном или почти звукоизолированном помещении, аналоговая запись преобразовывалась в цифровой код, который вводился в мини-компьютер, где формировались эталонные образы. (Для справки отметим, что английские слова собирались на западном побережье США, немецкие-в северных районах ФРГ.) В табл. 3.12 приведены средние коэффициенты распознавания, полученные в экспериментах при описанных вьппе условиях. Как следует из таблицы, коэффициент распознавания для любого языка составляет примерно 93%. Таблица 3.12. Коэффициент распознавания неопределенного говорящего
3.7.5. ГРУППОВОЕ ПРИМЕНЕНИЕ Изложенный выше метод неопределенного говорящего позволяет, по идее, распознавать любой голос без обучения путем обработки речи многих людей и формирования эталонных образов. Однако на практике нет необходимости в распознавании любого голоса. Например, часто достаточно распознавать голоса ограниченного круга людей, сотрудников учреждения. Более того, целесообразно несколько повысить коэффициент распознавания, ограничивая число пользователей. Как уже говорилось выше, данный метод позволяет встраивать функции принадлежности в устройство. Это сделано для того, чтобы пользователи при обучении создавали собственные групповые функции принадлежности. Такой метод применения называется групповым. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 [ 26 ] 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |