Анимация
JavaScript
|
Главная Библионтека человек может воспользоваться несколькими средствами, но только не речью, хотя с теми, кто находится рядом, он издавна привык разговаривать, не испытывая необходимости осваивать ради этого новые правила и средства. В настоящее время, когда появилась необходимость диалога с роботами или компьютерами, вполне естественно использовать дружественый диалог с помощью слов. Для этого, однако, в будущем придется рещать многочисленные проблемы, а существующие сейчас средства имеют ряд ограничений, и им до диалога еще далеко, хотя практическое их применение так или иначе началось. В рассматриваемом ниже примере в процесс распознавания речи вводятся понятия нечетких множеств, благодаря чему появляется возможность справиться с различиями говорящих и изменениями речи во времени. 3.7.1. ПРОБЛЕМЫ РАСПОЗНАВАНИЯ РЕЧИ Рассмотрим механизм образования речи. Источником гласных звуков являются голосовые связки, изменение формы звукового пути в которых меняет условия их резонанса, преобразуя гласные звуки в звуковые колебания. Согласные звуки издаются не голосовыми связками-их источник располагается в другой части звукового пути. Распознавание речи-это процесс извлечения словесной информации, содержащейся в издаваемых таким образом звуках. Существуют различные методы распознавания речи, однако в последнее время основным стал метод сопоставления с эталоном. Это связано главным образом с прогрессом в области электронных компонентов, в частности с увеличением вычислительной могцности процессоров и объемов памяти. При сопоставлении с эталоном звуки преобразуются в характерные образы, которые сравниваются с заранее запасенными эталонными образами, и вычисляется степень их подобия. Результатом распознавания является наиболее похожий эталонный образ. При распознавании речи путем сопоставления с эталоном возникает несколько проблем, среди которых наиболее типичными являются следующие. 1. Временнь1е изменения характерных образов речи. Причиной изменений является различная скорость произнесения одних и тех же звуков, т.е. непостоянство длительности звуков. Даже одни и те же слова, произносимые человеком, каждый раз меняются по длительности. Если же одни и те же слова произносятся разными людьми, их длительности могут еще больще различаться. 2. Влияние размеров органа речи на образы. Как уже говорилось выще, размеры органов речи у людей различны. Поэтому, даже если слова произносятся органами одинаковой формы, их резонансные частоты могут различаться. На образах это проявляется как индивидуальная особенность человека. Кроме этого существуют проблема артикуляционного сопряжения, т. е. различия одного и того же звука, обусловленные влиянием различных звуков до и после него, проблема акцента, возникающая за счет различия в манере говорить и в условиях жизни говорящих, и другие проблемы. Ниже обсуждаются только первые две проблемы. Первая проблема связана с необходимостью подстраивать временные интервалы при сопоставлении образов (временная нормализация). Известен простой способ согласования длительностей образов-линейное сопоставление. Однако, поскольку изменение длительности образов не обязательно должно быть линейным, для рещения проблемы предлагается использовать ДП-сопоставление, вводящее в процедуру сопоставления образов принципы динамического про-фаммирования [26]. ДП-сопоставление, будучи нелинейным сопоставлением, устанавливает временное соответствие, обеспечивая при сопоставлении пары характерных образов минимальную ошибку или максимальную степень подобия. С этой целью используется метод динамического программирования, который позволяет повысить точность сопоставления и вносит существенный вклад в развитие распознавания речи, хотя и требует для своей реализации большого объема вьиислений. Что касается изменений, связанных с говорящим (вторая проблема), то задача на первый взгляд кажется простой, поскольку человек способен распознавать любой голос, но на самом деле она чрезвычайно сложна. В настоящее время эта задача решается с помощью метода статистической обработки изменений, связанных с говорящим, или метода большого числа шаблонов. В соответствии с последним методом в процессе сопоставления образов применяется большое число разнотипных эталонных образов, относящих- ся К ОДНОЙ категории, благодаря чему даже при наличии изменений во входном образе удается установить соответствие одному из многочисленных эталоннь1х образов. Число эталонных образов, подготовленных для каждой категории, не оговаривается; известно, что их число может быть 20-60 [27]. Вместе с тем следует отметить, что при большом числе образов объем вычислений в процессе сопоставления будет возрастать. Для того чтобы решить проблему артикуляционного сопряжения, часто применяют большие единицы распознавания типа слов, произносимые с паузой. Можно не принимать во внимание проблему частотных изменений (вторую проблему), если ограничиться одним пользователем. Распознавание в этом случае начинается после обучения по голосу этого человека. Такой метод называют распознаванием определенного говоряшего. Почти все известные в настоящее время устройства распознавания речи созданы на основе распознавания слов определенного говорящего, что объясняется изложенными выше пр1иинами. С другой стороны, распознавание без обучения для любого голоса называют распознаванием неопределенного говорящего. Создаются и устройства на основе этого метода, но число распознаваемых ими слов достигает всего нескольких десятков, а сами устройства довольно громоздки. Ниже рассматривается реализация устройства распознавания неопределенного говорящего на 100 и более слов с помощью простых вычислений с введением в процесс распознавания слов понятий нечетких множеств [28]. 3.7.2. НЕЧЕТКОЕ СОПОСТАВЛЕ1ШЕ ОБРАЗОВ Рассмотрим прежде всего характерные образы для распознавания речи. В качестве признаков, извлекаемых из речи, хорошо известны LPC (коэффициент линейного предсказания), кепстр спектр и др. Среди этих признаков авторы выбрали спектр, позволяюгций легко установить соответствие с физической величиной. На спектральном временном образе (СВО), по осям которого откладываются время и частоты. " Кепстр (cepstrum)-преобразование Фурье логарифма спектра мощности сигнала.- Прим. перев. получаемые в результате деления речи на короткие интервалы и спектрального анализа на этих интервалах, хорошо выражены особенности речи. Считывая спектр, человек может «читать» по СВО произносимые звуки. Как указывалось выше, человек произносит слова, изменяя органом речи резонансную частоту, поэтому особенно важными в СВО являются резонансные частоты, т. е. выбросы. Резонансные частоты для гласных звуков называют формантами, однако используют и название «локальный выброс» как расщирение понятия форманта на согласные звуки [29]. В рассматриваемом здесь методе распознавание произносимого слова осуществляется путем определения, какой локальный выброс присутствует и как он меняется во времени. Две проблемы, указанные в разд. 3.7.1, в данном случае проявляются как изменение длительности образа и изменение частоты локальных выбросов, обусловленные говорящим. Поскольку интерес представляет лишь местоположение локального выброса, данные можно представить в двоичном виде: 1-на месте локального выброса, О-в других местах, локализовав тем самым положение выброса и сократив объем данных. Полученный образ называют двоичным спектральным временным образом (ДСВО) и используют его как особенность речи. Применение ДСВО при сопоставлении образов заключается в том, что для слова, выраженного с помощью ДСВО, рассматривается функция принадлежности, учитывающая то, как проявляются на ДСВО изменения частоты для разных людей и как происходят изменения во времени. Этот метод называют нечетким сопоставлением образов [30]. На рис. 3.54 представлены примеры образов: а-СВО слова END, произнесенного мужчиной; б-ДСВО, полученный из СВО путем преобразования в двоичный код. По горизонтальной оси отложена частота, по вертикальной-время, на оси частот на каждые 10 мс приходится 15 выборок. На рис. 3.54, а значение каждого элемента представлено восемью битами, в ДСВО (рис. 3.54,6) данные по 15 выборкам можно представить двумя байтами, что очень удобно для ввода в компьютер. Обозначим число записанных слов через и, множество слов через I = {i, i, i, ..., i„} и множество образов этих слов через X = {х, ... , Xj}. Множество /-это обычное 11-6830
0000000000000100 0000000Q10000110 0000000011000100 0001100011000100 0100000011000100 1001110010000100 0001000010010000 00010000100 10000 000100.о 011010000 0001000011000100 0001000011010100 000100О01101О1О0 0001000011110100 0001000010010000 0001000011110000 0111000010100001 0111000 010100001 0111000010100101 1110000010100101 loooootoooiooioi 1110ООО0001ОО10 1 1110000Q00100101 1110000000100101 IIIOOOOOOOIOOIOI 1110000000100101 IIIOOOOOOOIOOIOI llOOOOOlOOiOOlOl 1100000100100101 11000001001001 О 1 110000000010010 1 1100000000100101 1000000000100101 1000010000100001 lOOOOlOQOOlOOOOl llOOOlOOOOlOOOOl 1100010000000001 IIOOOIOOOOOOOOOI 1000000000000001 lOOOOOOOOOOOOOOI 1000000000000001 1000000010010000 DOOOIIOOIOOIOOOO 0001100000011000 0010000000011000 0000000000011000 OOOOOOOOOQOIIOOO OOOOOOOOIOOLOOOO OOOOOOOOIOIIIOOO OOO.OOOOOlOOl 1000 0000000010011000 lOOOOOOOOOOOOOO Рис. 3.54. Пример звукового образа слова END. а-СВО; б-ДСВО. множество из и элементов, а множество X можно рассматривать как нечеткое множество, в котором Xj (J = 1, 2, 3,..., и) представляет различные образы слова ij. Таким образом можно определить множество функций принадлежности M = {mi, mj, т„} подобно тому, как определяется множество образов х;,. слова ij. Рассматриваемое здесь нечеткое сопоставление образов заключается в следующем. При вводе неизвестного образа у (уеХ) с использованием функции принадлежности М вычисляется степень сходства S образов Xj и у, и результатом распознавания является слово j, такое что у = шах {Sj}. (3.32) При использовании нечеткой логики часто возникает проблема определения функции принадлежности. В данном случае следует решить, как определить сходство образов слов Ху Функция принадлежности должна иметь какое-то отношение к человеку, однако по причинам, изложенным в разд. 3.7.5, ее целесообразно приписать устройству распознавания. Поэтому, считая сходство главной целью, приняли следующую последовательность построения функции принадлежности. Для всех слов, которые должны быть записаны, собираются голоса многих говорящих и преобразуются в ДСВО. Для каждого слова суммируются все образы и составляется двумерная функция принадлежности, в которой из этих данных выбраны изменения в представлении слова. В частности, определяется среднее арифметическое образов, отобранных в соответствии с некоторым критерием из ДСВО одного слова. При суммировании возникает одна трудность. Среди двух типов упомянутых ранее изменений частотные изменения вызывают лишь изменение на оси частот положений 1, которые являются элементами, показывающими резонансную частоту в образе, в то время как при временных изменениях происходит изменение длин образа, что затрудняет суммирование. В связи с этим перед суммированием с помощью линейного растяжения/сжатия осуществляется согласование длин образов. Эта процедура представляет собой простой способ выравнивания длин сравниваемых образов за счет прореживания и вставок. По сравнению с нелинейным растяжением/ сжатием он дает существенно меньший объем вычислений. Пример функции принадлежности, полученный в соответствии с этой процедурой, показан на рис. 3.55. Объектом распознавания является слово START. Прежде всего выполняется согласование по длине и совмещение левого ДСВО с соседним. Соответствующие элементы при этом суммируются. Затем прибавляется следующий ДСВО; такой процесс повторяется до получения образа справа, который используется как функция принадлежности. Обычная функция принадлежности принимает значения от О до 1, однако в данном случае она представлена в виде целых чисел со значениями от О до 15, т.е. по четыре бита на элемент. Определим теперь степень подобия. Пусть у (уеХ)-ДСВО неизвестного входного голоса. Если с помощью 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 [ 25 ] 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |