Анимация
JavaScript


Главная  Библионтека 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 [ 27 ] 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

В экспериментах по распознаванию при групповом применении регистрация и распознавание проводились в четырех группах по 10 мужчин и женщин в каждой. Использованы те же данные, что и в экспериментах по методу неопределенного говорящего, однако после обучения по десяти голосам из одной группы вводились голоса тех же людей, но при других обстоятельствах. В результате в среднем по четырем группам коэффициент распознавания составил 95,9%, т. е. по сравнению с методом неопределенного говорящего удалось повысить коэффициент распознавания на несколько процентов.

Естественно, если обучение ведется одним человеком, устройство можно использовать для реализации метода определенного говорящего. В этом случае изменения по частоте и длительности по сравнению с методом неопределенного говорящего незначительны, поэтому значения элементов функции принадлежности целесообразно представить двумя битами, а запись одного слова делать три раза. В результате можно получить средний коэффициент распознавания по трем указанным языкам 98-99%, точнее говоря, это значение, усредненное по 120 словам на японском и других языках по данным распознавания для десяти мужчин и женщин для каждого языка.

В данном разделе в качестве примера было рассмотрено применение нечеткой логики для распознавания речи. Известны другие попытки использования нечеткой логики в этих целях [35,36], однако все они отличаются от описанного здесь подхода, в котором использована идея нечеткого сопоставления образов. Этот метод сопоставления позволяет с помощью простых вычислений добиться высокого коэффициента распознавания и обеспечивает распознавание более 100 слов по методу неопределенного говорящего. Наряду с этим, используя процедуру обучения функции принадлежности, его можно адаптировать для метода определенного и неопределенного говорящего и для группового использования. На рис. 3.58 показан внешний вид устройства распознавания. В устройстве использован процессор 8086, обеспечивающий функции распознавания и обучения. Для связи с другой аппаратурой устройство оснащено интерфейсом RS232C; его можно использовать, подключив к персональному компьютеру.


Рис. 3.58. Внешний вид устройства распознавания.

3.8. РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ 3.8.1. ВВЕДЕНИЕ

Как тема исследований искусственного интеллекта распознавание изображений имеет давнюю историю и большое практическое значение. Впервые оно было использовано для машинного считывания рукописных цифр. В настоящее время область его применения существенно расширилась: начиная от измерений, контроля, сортировки и сборки в производственных процессах и кончая анализом изображений, считываемых на расстоянии, диагностикой по медицинским снимкам, количественной оценкой экспериментальных данных, идентификацией человека, автоматическим проектированием, пониманием изображений как функции технического зрения роботов и т.д. Процесс распознавания изображения человеком-не простая обработка зрительной информации, а сложный процесс, важную роль в котором играют психологические факторы. В частности, в процессе понимания изображения присутствует семантический вывод, однако для его реализации требуются сбор обширных знаний и интуитивные решения, выходящие за рамки логики, поэтому смоделировать такой процесс в компьютере чрезвычайно сложно.

В существующих средствах распознавания изображений используют различные методы в зависимости от того, является ли объект распознавания искусственным или естественным. В первом случае обычно имеют дело с отдельными предметами четкой формы, поэтому большое число исследо-



ваний посвящено сопоставлению образов путем обнаружения контуров и границ либо выводу трехмерной формы с использованием геометрических правил. Среди естественных объектов много объектов неправильной формы со светотенями, поэтому обычно с помощью кластерного анализа выполняют разбиение на однородные области, а затем по особенностям форм этих областей делают заключение об объекте. Кроме того, в последнее время проводится много исследований по воспроизведению двух- и трехмерных форм объектов на основе обработки большого числа изображений. В робототехнике возникает необходимость обработки подвижных изображений в реальном времени, т. е. большое значение приобретает скорость распознавания.

В общем случае процесс распознавания изображений с помощью компьютера заключается в следующем.

1. Получение с помощью камеры или другим способом информации об изображении и преобразование ее в цифровую информацию: в результате кадры делятся на большое число элементов, и каждому элементу приписывается цвет и контрастность.

2. Предварительная обработка. Удаление шумов, нормализация для сравнения с эталоном, сегментация (выделение локальной информации, необходимой для распознавания) и т. п.

3. Выделение признаков. Признаки изображения могут иметь различные уровни. Строго говоря, сегментация также является частью вьщеления признаков. Методы вьщеления признаков могут быть локальными и глобальными. Примером локального метода является обнаружение границ, глобального-кластеризация и метод расширения областей. Для обнаружения границ используются неоднородности между областями, в то время как кластеризация-это сегментация на основе обнаружения однородных областей. Поскольку в любом случае в информации об изображении содержится шум, не устраненный на этапе предварительной обработки, при сегментации необходима обработка нечеткой информации. Глобальное выделение признаков осуществляется по отношению к форме, свойствам, относительному положению и другим характеристикам вьщеленных областей. Эта процедура имеет большое значение для последующего этапа оценки.

4. Понимание и оценка. Процессом понимания изображе-

ния называют либо классификацию и отождествление путем сравнения полученных кластеров с известными моделями, либо построение трехмерного изображения исходного объекта с помощью выводов. Результат этого процесса является заключительной целью распознавания изображений.

В настоящее время проведено огромное число исследований процесса распознавания изображений, но результаты пока крайне неудовлетворительны. Например, практически не затрагивались такие вопросы, как понимание сложных изображений, взаимное преобразование словесной и видеоинформации, распознавание предметов криволинейных и неправильных форм, распознавание размытых изображений, высокоэффективное выделение признаков, семантический вывод и воображение и т. п.

Основными методологическими подходами, принятыми в настоящее время в распознавании, являются статистика, кластерный анализ, дедукция в двузначной логике и ряд других, однако все они весьма далеки от того процесса распознавания, который свойствен человеку. Выделение признаков-наиболее важный этап в распознавании изображения, но и исключительно сложный. Действительно, что такое признак изображения? Почему карикатура обладает ббльшим сходством с человеком, чем его фотография? По-видимому, важную роль в процессе распознавания человеком играет информация, которая для компьютера представляется не более чем шумом, но она каким-то образом вьщеляется и представляется. Выявить признаки такого рода можно чувствами человека, а не логикой. Кроме того, при распознавании размытых изображений работают скорее не аналитические способности, а способности к обобщению, т.е. это также интуитивный процесс. Для имитации таких процессов необходимы исследования методов обработки субъективной информации и приемов обращения с макроинформацией. Исследования по нечеткому распознаванию изображений еще только начинаются, но уже сейчас ожидают дальнейшего развития новой методологии, отвечающей изложенным выше требованиям.

Рассмотрим кратко состояние нечеткого распознавания изображений. Поскольку видеоинформация даже достаточно четкого объекта может нарушаться за счет шумов, для обнаружения контуров чаще всего применяется нечеткая логика. Типичным примером является классификация эле-



ментов изображения с помощью нечеткой кластеризации. Однако, поскольку абсолютно идентичные элементы встречаются редко, необходима «размытая» кластеризация. Аналогичные методы применяются и при классификации образов, имеющих разброс относительно эталонного образа (распознавание рукописных знаков, речи и т.п.).

При непосредственном обнаружении контуров возникает проблема шумов, не решаемая до конца с помощью фильтров. Кроме того, необходимы выводы для восполнения утраченных участков. Для этого применяют эвристические правила, имеющие, однако, нечеткий качественный характер. При переходе к этапу понимания изображения возникает проблема более эффективного нечеткого сопоставления образов, требующая для своего решения сопоставления не только по форме, но и по семантике. В частности, такая ситуация складывается в области диагностики по рентгеновским снимкам, где формирование правил невозможно.

Ниже приводится несколько типичных примеров исследований по распознаванию изображений с использованием нечеткой логики.

3.8.2. РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ НА ОСНОВЕ НЕЧЕТКОЙ КЛАСТЕРИЗАЦИИ ПО с-СРЕДНИМ [37]

Кластеризация представляет собой метод разбиения множества разбросанных данных на несколько групп. Разбиение осуществляется так, чтобы данные в одной группе обладали похожими свойствами, а свойства в среднем между группами максимально различались. Пусть х, х, х„-« данных, а Х-множество этих данных; .г-J-мерный вектор, тогда

Х = {х,х,...,х„], XjEB. (3.38)

Рассмотрим разбиение этого множества на с кластеров (2 < с < «). Степень принадлежности Xj и к-ълу кластеру обозначим через mj. При жесткой кластеризации uj принимает два значения: О или 1, при нечеткой - значение uj может быть произвольным от О до 1:

Mtje{0, 1}-при жесткой кластеризации.

Mtje[0, 1]-при нечеткой кластеризации.

(3.39)

В любом случае

Нечеткая кластеризация допускает принадлежность данных двум и более кластерам, но сумма степеней принадлежности составляет 1, а м является весом принадлежности к кластеру. Существует несколько алгоритмов нахождения и; для распознавания образов широко используется метод нечетких с-средних (НСС), предложенный Данном и обобщенный Д. К. Бездеком [38]. В этом методе для определения и применяют нечеткую логику.

Пусть М,.-множество (с х «)-матриц U (называемых матрицами разделения), элементами которых являются Mtj-, удовлетворяющие выражению (3.39). Л"* в выражении (3.38) называют пространством особенностей, а л: = (х, Xt2, Хи)-вектором признаков. Кластеризация-это процедура соединения множества данных X и матрицы разделения и. Результат соединения запишем как (7. В алгоритме НСС для определения оптимального Ux сумма квадратичных ошибок в обобщенной группе принимается за целевую функцию

J„,{U,v) Z Z (ujY

l<m<oo, (3.40)

где Xj-J-мерные измеренные данные, и--мерный вектор, центр к-го кластера, * -произвольная норма, отражающая подобие измеренных данных и центра кластера. При т = 1 и Mjj. = {О, 1} процедура минимизации (3.40) выполняется по обычному методу /с-средних, но когда m и Mtje[0, 1] имеют веса, эта процедура не применима. Чем больше т превышает 1, тем более нечеткой становится кластеризация. Таким образом, особенностью НСС является возможность произвольным образом адаптироваться к нечеткостям.

Значения му и , при которых формула (3.40) минимальна (обозначаются как Mjj, Uj), при т>1 удовлетворяют следующим условиям:

условие 1: му =

/ с

I Xj - Vk I

2/m- 1 \ - 1

, Vy.fc, (3.41)



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 [ 27 ] 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60