Алгоритмы распознавания состояния объекта по экспериментальным данным
Существует несколько методов распознание данных. Далее приведены основные методы распознавания данных. Основы статистической теории распознавания Математически постановка задачи распознавания двух объектов
Располагая этой априорной информацией об объектах, необходимо обосновать правило принятия решения, если получена выборка измерений признаков распознавания. Показателем эффективности распознавания может служить математическое ожидание стоимости принятия ошибочных решений. В рассматриваемом случае возможны два ошибочных решения: 1) принять решение «объект 2) принять решение «объект
Выделим в гиперпространстве признаков
т.е. вероятность того, что в область
Так как вероятность ошибки
Условие минимума математического ожидания стоимости ошибок при принятии решения "объект
Отношение условных многомерных законов распределения называется функцией отношения правдоподобия. Поэтому решающее правило распознавания объекта
и сравнить его с порогом
Логарифм отношения правдоподобия может оказаться очень сложной функцией. Представим ее в виде ряда Тейлора и ограничимся несколькими членами. Предположим, что известны математические ожидания признаков распознавания для объектов
Здесь Запишем ряд Тейлора с тремя членами окрестности вектора
В этом выражении первая производная есть вектор-строка (градиент), вторая производная– матрица Гесса
Если выполнить все операции над векторами и матрицами, то логарифм отношения правдоподобия приближенно можно представить в виде ограниченного ряда Колмогорова-Габора
где коэффициенты Как правило, многомерные законы распределения вероятностей признаков распознавания неизвестны, однако могут быть получены их измерения для некоторого множества объектов класса
Решающее правило распознавания на основе оценок параметров законов распределения
Предположим, что по результатам специально проведенного эксперимента для объектов класса Таблица 2.3.1
Если теоретические законы распределения известны, то их параметры можно оценить по данным табл. 2.3.1. Первичная обработка табличных данных включает оценку математических ожиданий и дисперсий признаков распознавания и коэффициентов корреляции
По результатам первичной обработки можно дать предварительную (качественную) оценку информативности признаков распознавания, выделив коррелированные (зависимые) признаки и признаки с близкими оценками математических ожиданий и дисперсий. Если их исключить из рассмотрения, то по оставшимся признакам можно сформировать функцию отношения правдоподобия и построить решающее правило распознавания. Из рассмотрения на первый взгляд простой задачи распознавания можно сделать важный практический вывод: аналитические возможности исследования эффективности решающих правил распознавания, построенных по экспериментальным данным, весьма ограниченны, особенно при небольших выборках исходных измерений. Построение решающих правил методом группового учета аргументов Рассмотрим задачу распознавания двух объектов Таблица 2.3.2 Исходные данные
По данным таблицы можно было бы восстановить многомерные законы распределения
и записать решающее правило распознавания объекта
Однако восстановление многомерных законов, особенно при небольших выборках– задача сложная. А.Г. Ивахненко предложил метод построения решающих правил распознавания без восстановления законов распределения, получивший название метода группового учета аргументов. Приведем исходные данные к одному масштабу измерений путем их нормировки. Определим по каждому столбцу общие средние значения и выборочные дисперсии
Нормированные данные рассчитаем по формулам
Неизвестный логарифм отношения правдоподобия
представим в виде ряда Колмогорова-Габора. Ряд Колмогорова-Габора – это конечный ряд Тейлора степени
Здесь число неизвестных коэффициентов равно 5, при
если
если Можно составить систему уравнений вида
и решить её относительно неизвестных коэффициентов ряда Колмогорова-Габора Рассмотрим задачу формирования решающей функции на примере четырех параметров
Запишем, используя нормированные данные таблиц
Эти переопределённые системы нормальных уравнений легко решаются. Просуммируем первое по
где Умножив исходные уравнения на
где Третье уравнение запишется в виде:
где Четвертое уравнение сформируем после умножения исходных уравнений на
где Решив систему полученных четырех линейных уравнений, будем иметь значения коэффициентов и оценку первого полинома
Совершенно аналогично определяются коэффициенты второго полинома. Его оценку запишем в виде
Подставив в (2.3.70) и (2.3.71) данные из таблиц исходных нормированных измерений Таблица 2.3.3 Промежуточные данные
Сформируем теперь третий полином Колмогорова-Габора относительно
и оценим его коэффициенты, используя таблицу промежуточных данных
Если теперь вместо
где Решающее правило распознавания объекта
Таким образом, группировка аргументов парами позволяет оценивать неизвестные коэффициенты полиномов при сравнительно небольших выборках измерений, решая однотипные системы линейных уравнений четвертого порядка. Естественным является вопрос о том, как выбирать пары измерений, почему
Вероятности ошибок распознавания можно оценить по экспериментальным данным, используя законы распределения, восстановленные методом сглаженных дельта-функций. В рассматриваемом случае возможны шесть начальных полиномов Колмогорова-Габора: Первая таблица промежуточных данных
Каждому полиному
Для оценки вероятностей воспользуемся восстановленными непосредственно по экспериментальным данным функциями распределения
В результате получим формулы для оценки
Аналогичные формулы записываются для двух других пар аргументов Таблица эффективностей
Прежде чем анализировать эти данные эффективности, проведем теоретическое исследование связей между вероятностями распознавания по каждому из параметров Предположим, что для распознавания используются два параметра:
где Если
Из анализа (4.3.10) можно сделать следующие выводы: 1) если 2) если Теперь вернемся к анализу таблицы эффективности: очевидно, что необходимо отбирать пары с наибольшей эффективностью с несовпадающими индексами. Пары с малой эффективностью имеет смысл исключать с рассмотрения
где Вероятность распознавания по двум параметрам
Рассмотрим числитель под знаком интеграла вероятности. Подкоренное выражение преобразуем к виду:
Так как ошибки оценивания
Если ошибки оценивания параметров нормальные независимые случайные величины с нулевым математическим ожиданием и дисперсией
где Закон распределения
Вероятность выполнения условия (4.3.12) равна
где Известен табличный интеграл
Для определения вероятности
где При больших значениях аргумента функция Бесселя
Следовательно, приближенно вероятность
Вероятность Если после первого отбора остается больше двух пар параметров, например,
Важным достоинством метода группового учёта аргументов является то, что на каждом этапе отбора используются одни и те же алгоритмы. При оценке эффективности алгоритмов распознавания необходимо иметь ввиду следующее обстоятельство. Исходные данные и промежуточные результаты используются дважды: 1) для оценки неизвестных коэффициентов рядов Колмогорова-Габора; 2) для оценки вероятностей распознавания. Как показали исследования, такие оценки завышены (занижены вероятности ошибок). Хотя это мало сказывается на правильности отбора пар признаков, но если исходные выборки данных большого размера (100 и более), то их следует разделить на две группы: 1) обучающие, используемые для оценки коэффициентов полиномов; 2) проверочные, используемые для оценки вероятностей и отбора параметров. Для обучения отбирается примерно 2/3 измерений, для контроля - 1/3. Гистограммный метод распознавания Предположим, что контролируемый объект может находится в двух состояниях и известны выборки измерений, полученные при состоянии
Заменим в (4.4.1)
и определим его логарифм
Для распознавания состояния объекта необходимо по измеренной выборке
Дисперсию
|