Дискриминантный анализ

⇐ Предыдущая 2 3 4 5 6 7 8910 11 Следующая ⇒

Если критериальный показатель z измерен в номинальной шкале или связь этого показателя с исходными признаками является нелинейной и носит неизвестный характер, для определения параметров диагностической модели используются методы дискриминантного анализа. В этом случае испытуемые, результаты обследования которых представлены в ТЭД, в соответствии с внешним критерием разбиваются на группы (классы), а эффективность диагностической модели рассматривается под углом зрения ее способности разделять (дискриминировать) диагностируемые классы.

Большая группа методов дискриминантного анализа в той или иной мере основана на байесовской схеме принятия решения о принадлежности объектов диагностическим классам. Байесовский подход базируется на предположении, что задача сформулирована в терминах теории вероятностей и известны все представляющие интерес величины: априорные вероятности P(ω_i) для классов ω_i(i=1,K) и условные плотности распределения значений вектора признаков Р(х/ω_i). Правило Байеса заключается в нахождении апостериорной вероятности Р(ω_i/х), которая вычисляется следующим образом

Решение о принадлежности объекта х_k к классу ω_jпринимается при выполнении условия, обеспечивающего минимум средней вероятности ошибки классификации.

Если рассматриваются два диагностических класса ω₁ и ω₂, то в соответствии с этим правилом принимается решение ω₁ при Р (ω₁/х)>Р(ω₂/х) и ω₂ при P(ω₂/x)>Р(ω₁/x). Величину Р(ω_i/х) в правиле Байеса часто называют правдоподобием ω_i при данном х и принятие решения осуществляется через отношение правдоподобия или через его логарифм

Для дихотомических признаков, с которыми во многих случаях приходится иметь дело при конструировании психодиагностических тестов, р-мерный вектор признаков х может принимать одно из n=2^р дискретных значений v₁,...,v_n. Функция плотности Р(х/ω_i) становится сингулярной и заменяется на Р(v_k/ω_i) — условную вероятность того, что х=v_k при условии класса ω_i.

На практике в дискретном случае, как и в непрерывном, когда число исходных признаков x_i велико, определение условных вероятностей встречает значительные трудности и зачастую не может быть осуществлено. Это связано, с одной стороны, с нереальностью даже простого просмотра всех точек дискретного пространства дихотомических признаков. Так, например, если использовать в качестве исходных признаков для построения диагностического правила утверждения тест-опросника MMPI, то р=550 и тем самым n=2550. С другой стороны, даже при гораздо меньшем количестве признаков для достоверной оценки условных вероятностей необходимо иметь результаты обследования весьма большого количества испытуемых.

Распространённым приемом преодоления указанных трудностей служит модель, в основе которой лежит допущение о независимости исходных дихотомических признаков. Пусть для определенности компоненты вектора х принимают значения 1 либо 0. Обозначим p_i=Р(x_i=1/ω_i) — вероятность того, что признак x_i равен 1 при условии извлечения объектов из диагностического класса ω₁, и q_i=Р(x_i=1/(ω₂) — вероятность равенства 1 признака x_i в классе ω₂. В случае p_i>q_i следует ожидать, что z-й признак будет чаще принимать значение 1 в классе ω₁, нежели в ω₂. В предположении о независимости признаков можно представить Р(х/ω_i) в виде произведения вероятностей

Логарифм отношения правдоподобия в этом случае определяется следующим образом

Видно, что данное уравнение линейно относительно признаков x_i. Поэтому можно записать

где весовые коэффициенты

а величина порога

Если L(x_k)>0, то принимается решение о принадлежности объекта х_k к диагностическому классу ω₁, а если L(x_k)<0, то ω₂.

Приведенный результат аналогичен рассмотренным выше схемам лцнейного регрессионного анализа для независимых признаков. Можно выразить значения р_i и q_i с помощью обозначений, принятых для элементов таблицы сопряженности дихотомических признаков (см. табл. 2) Здесь в качестве одного из двух дихотомических признаков будет выступать индекс диагностического класса ω_i. Подставив эти обозначения в логарифм, получим w_i=log(bc/ad). To есть выражение для вычисления весовых коэффициентов в байесовской решающей функции для независимых признаков дает значения w_i, монотонно связанные с коэффициентом Пирсона φ, который в ряде случаев может использоваться при определении коэффициентов уравнения линейной регрессии.

Результаты дискриминантного и регрессионного анализа для случая двух классов во многом совпадают. Различия проистекают в основном из-за применения разных критериев эффективности диагностической модели. Если интегральным показателем качества регрессионного уравнения служит квадрат коэффициента множественной корреляции с внешним критерием, то в дискриминантном анализе этот показатель, как правило, сформулирован относительно вероятности ошибочной классификации (ВОК) исследуемых объектов. В свою очередь, для вскрытия взаимосвязи ВОК со структурой экспериментальных данных в дискриминантном анализе широко используются геометрические представления о разделении диагностируемых классов в пространстве признаков. Воспользуемся этими представлениями для описания других, отличных от байесовского, подходов дискриминантного анализа.

Совокупность объектов, относящихся к одному классу ω_i, образует «облако» в р-мерном пространстве R^p, задаваемом исходными признаками. Для успешной классификации необходимо, чтобы /Енюков И. С., 1986/:

а) облако из ω_i в основном было сконцентрировано в некоторой области D_i пространства R^p;

б) в область D_i попала незначительная часть «облаков» объектов, соответствующих остальным классам.

Построение решающего правила можно рассматривать как задачу поиска К непересекающихся областей D_i(i=l,K), удовлетворяющих условиям а) и б). Дискриминантные функции (ДФ) дают определение этих областей путем задания их границ в многомерном пространстве R^p. Если объект х попадает в область D_i, то будем считать, что принимается решение о принадлежности объекта к ω_i. Обозначим Р (ω_i/ω_j) — вероятность того, что объект из класса ω_j ошибочно попадает в область D_i, соответствующую классу ω_i. Тогда критерием правильного определения областей А будет

где Р(ω_i — априорная вероятность появления объекта из ω_i. Критерий Q называется критерием средней вероятности ошибочной классификации. Минимум Q достигается при использовании, в частности, рассмотренного выше байесовского подхода, который, однако, может быть практически реализован только при справедливости очень сильного допущения о независимости исходных признаков и в этом случае дает оптимальную линейную диагностическую модель. Большое количество других подходов также использует линейные дискриминантные функции, но при этом на структуру данных накладываются менее жесткие ограничения. Рассмотрим основные из этих подходов.

Для случая двух классов ω₁ и ω₂ методы построения линейной дискриминантной функции (ЛДФ) опираются на два предположения. Первое состоит в том, что области D₁ и D₂, в которых концентрируются объекты из диагностируемых классов ω₁ и ω₂, могут быть разделены (р-1)-мерной гиперплоскостью у(х)+w_o=w₁x₁+w₂x₂+...+w_px_p+w₀=0. Коэффициенты w_i в данном случае интерпретируются как параметры, характеризующие наклон гиперплоскости к координатным осям, a w_o называется порогом и соответствует расстоянию от гиперплоскости до начала координат. Преимущественное расположение объектов одного класса, например ω₁, по одну сторону гиперплоскости выражается в том, что для них, большей частью, будет выполняться условие у(х)<0, а для объектов другого класса ω₂ — обратное условие у(х)>0. Второе предположение касается критерия качества разделения областей D₁ и D₂ гиперплоскостью у(х)+w_o=0. Наиболее часто предполагается, что разделение будет тем лучше, чем дальше отстоят друг от друга средние значения случайных величин m₁=Е{у(х)}, х є ω₁ и m₂=Е{у(х)},х є ω₂ где Е{ •} — оператор усреднения.

В простейшем случае полагают, что классы ω₁ и ω₂ имеют одинаковые ковариационные матрицы S₁=S₂=S. Тогда вектор оптимальных весовых коэффициентов w определяется следующим образом /Андерсон Т., 1963/

где μ_i— вектор средних значений признаков для класса ω_i. Весовые коэффициенты обеспечивают максимум критерия

где σ²_у — дисперсия у(х), полагаемая одинаковой для обоих классов. Максимальное значение h²(w) носит название расстояния Махаланобиса между классами ω₁ и ω₂ и равно

Для определения величины порога w_o вводят предположение о виде законов распределения объектов. Если объекты каждого класса имеют многомерное нормальное распределение с одинаковой ковариационной матрицей S и векторами средних значений μ_i, то пороговое значение w_o, минимизирующее критерий Q, будет

Верно следующее утверждение об оптимальности ЛДФ: если объекты из ω_i(i=l,2) распределены согласно многомерному нормальному закону с одинаковой ковариационной матрицей, то решающее правило w'x>w₀, параметры которого определены, является наилучшим в смысле критерия средней вероятности ошибочной классификации.

Для случая, когда число классов больше двух (К>2), обычно определяется К дискриминантных весовых векторов (направлений)

и пороговые величины

Объект х относится к классу ω_i, если выполняется условие

где g_j(x) = w_j'/x—w_oj.

В формулы вычисления пороговых значений w_o и w_oi входят величины априорных вероятностей Р(ω_i). Априорная вероятность Р(ω_i) соответствует доле объектов, относящихся к классу ω_i в большой серии наблюдений, проводящейся в некоторых стационарных условиях. Обычно Р(ω_i) неизвестны. Поэтому при решении практических задач, не меняя дискриминантных весовых векторов, эти значения задаются на основании субъективных оценок исследователя. Также нередко полагают эти значения равными или пропорциональными объемам обучающих выборок из рассматриваемых диагностических классов. Другой подход к определению параметров линейных дискриминантных функций использует в качестве критерия соотношение внутриклассовой дисперсии проекций объектов на направление у(х)=w'x с общей дисперсией проекций объединенной выборки. Обычно используются те же предположения, что и в предыдущем случае. А именно, классы ω_i(i=l,K) представлены совокупностями нормально распределенных в р-мерном пространстве объектов с одинаковыми ковариационными матрицами S и векторами средних значений μ_i. Обозначим С — ковариационную матрицу объединенной совокупности объектов объема , a μ₀ — вектор средних значений этой совокупности. Выражение С через S и дается следующей формулой:

Дисперсия проекций всей совокупности объектов на направление у(х) составит c²_у=w'Cw, а внутриклассовая дисперсия будет S²_y=w'Sw. Таким образом, критерий оптимальности выбранного направления у(х) для разделения классов ω_iзапишется в следующем виде:

Это отношение показывает, во сколько раз суммарная дисперсия, которая обусловлена как внутриклассовым разбросом, так и различиями между классами, больше дисперсии, обусловленной только внутриклассовым разбросом. Весовой вектор w, удовлетворяющий данному уравнению, исходя из рассмотренной ранее геометрической интерпретации линейной диагностической модели, задает новую координатную ось в р-мерном пространстве y(x)=w'x (||w||=1) с максимальной неоднородностью исследуемой совокупности объектов. Новой переменной у(х)=w'x соответствует, no-существу, первая главная компонента объединенной совокупности объектов, полученная с учетом дополнительной обучающей информации о принадлежности объектов диагностическим классам ω_i. Весовой вектор w, при котором достигается максимальное значение критерия оптимальности выбранного направления, определяется в результате решения обобщенной задачи на собственные значения

Всего существует р собственных векторов, удовлетворяющих приведенному уравнению. Эти векторы упорядочивают по величине собственных чисел l₁>l₂>...>l_p и получают систему ортогональных канонических направлений w1,..., wp.

Минимальное значение отношения

равно 1 и означает, что для выбранного направления w весь имеющийся разброс переменной у(х) объясняется только внутриклассовым разбросом и не несет никакой информации о различии между классами ω_i. Для случая К=2 оценка весового дискриминантного вектора w_F=S^-1(μ₁-μ₂) является собственным вектором для (C-1S)w=0 с собственным числом l_F=T²+1. Любой вектор, ортогональный w_F, будет также решением (C-1S)w=0 с собственным значением равным единице. Поэтому для ответа на вопрос, какое число n<р канонических направлений необходимо учесть при К>2, чтобы не потерять информацию о межклассовых различиях, проверяют гипотезу Hо о равенстве единице последних р-n собственных чисел. Процедура такой проверки изложена, например, в /Енюков И. С., 1986/. Там же достаточно подробно для практического применения рассматриваются некоторые другие аспекты дискриминантного анализа.

Рассмотренные выше методы определения дискриминантных весовых векторов приводят к оптимальным результатам при соблюдении достаточно жестких условий нормальности распределений объектов внутри классов и равенства ковариационных матриц S_i. В практике психодиагностических исследований эти условия, как правило. не выполняются. Но отклонения реальных распределений объектов от нормального и различия ковариационных матриц, которые в отдельных случаях хорошо теоретически изучены, не являются главными причинами ограниченного применения классических формул дискриминантного анализа. Здесь, как и при построении регрессионных психодиагностических моделей, качественный и дихотомический характер признаков, их большое количество и наличие групп связанных признаков обусловливают применение «грубых» алгоритмов нахождения дискриминантных функций. Данные алгоритмы также в основном сводятся к отбору информативных признаков с помощью эвристических процедур k — лучших признаков и последовательного увеличения и уменьшения группы признаков. Отличие указанных процедур заключается в иных критериях оптимальности признаков, чем при построении регрессионных моделей. Такие критерии в дискриминантном анализе формулируются относительно средней вероятности ошибочной классификации и часто мерой информативности признака при его добавлении в группу признаков или исключения из группы, не зависящей от объема группы, служит /Енюков И. С., 1986/

где Т² — расстояние Махаланобиса между двумя диагностируемыми классами ω₁ и ω₂; с^-1=N₁^-1+N₂^-1, В целом можно заключить, что для двух классов методы дискриминантного анализа во многом аналогичны методам регрессионного анализа. Расширением по отношению к регрессионной схеме в дискриминантном анализе служит представление о разделяющих границах диагностируемых классов, которое может приводить к более изощренным формам этих границ и процедурам их нахождения.

⇐ Предыдущая 2 3 4 5 6 7 8910 11 Следующая ⇒

Дата добавления: 2015-10-12; просмотров: 595. Нарушение авторских прав; Мы поможем в написании вашей работы!

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при которых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Интуитивное мышление Мышление — это психический процесс, обеспечивающий познание сущности предметов и явлений и самого субъекта...

Объект, субъект, предмет, цели и задачи управления персоналом Социальная система организации делится на две основные подсистемы: управляющую и управляемую...

Принципы и методы управления в таможенных органах Под принципами управления понимаются идеи, правила, основные положения и нормы поведения, которыми руководствуются общие, частные и организационно-технологические принципы...

ПРОФЕССИОНАЛЬНОЕ САМОВОСПИТАНИЕ И САМООБРАЗОВАНИЕ ПЕДАГОГА Воспитывать сегодня подрастающее поколение на современном уровне требований общества нельзя без постоянного обновления и обогащения своего профессионального педагогического потенциала...

Эффективность управления. Общие понятия о сущности и критериях эффективности. Эффективность управления – это экономическая категория, отражающая вклад управленческой деятельности в конечный результат работы организации...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия