Расчет мер связи для дихотомической шкалы наименований
2.2.1. Коэффициенты контингенции Q и ассоциации Ф
Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. При исследовании связи числовой материал располагают в виде таблиц сопряженности, например, табл. 5,6. В общем случае таблица для расчета коэффициентов Q и Ф может быть представлена следующим образом (табл. 5). Таблица 5 Таблица четырехклеточной сопряженности для расчета коэффициентов Q и Ф
Для вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т.е. состоящим из двух качественно отличных друг от друга значений признака (табл. 6)
Таблица 6
Коэффициенты контингенции и ассоциации, определяющие тесноту связи двух качественных признаков, вычисляются по формулам: Расчетная формула коэффициента контингенции Q: Q = . Коэффициент контингенции Q называют также по имени автора, предложившего его в 1900 г., коэффициентом связи Юла. Расчетная формула коэффициента ассоциации Ф: Ф = . Расчет коэффициентов контингенции и ассоциации для приведенной выше табл. 5 определяется следующим образом: . Коэффициент контингенции всегда меньше коэффициента ассоциации. .
Связь считается подтвержденной, если коэффициент ассоциации Ф ≥0,5, а коэффициент Юла Q >0,3. Область изменения Q и Ф лежит в диапазоне: –1< Q (Ф) < +1: при Q(Ф) ≈ –1 – сопряженность сильная, обратная (отрицательная); Q(Ф) ≈ +1 – сопряженность сильная, прямая (положительная); Q(Ф) ≈ 0,5 – сопряженность слабая; Q(Ф) ≈ 0 – сопряженность отсутствует. Необходимо помнить правило выбора при вычислениях коэффициента контингенции Q или коэффициента ассоциации Ф: Когда частоты (числовые значения) концентрируются преимущественно в трех клетках таблицы, желательно использовать коэффициент контингенции Q, во всех остальных случаях – коэффициент ассоциации Ф. Рассмотрим пример вычисления коэффициентов. Предположим, мы имеем данные наблюдения за 12 студентами второго курса колледжа по переменным «семейное положение» и «исключение из колледжа». Данные также можно представить в виде четырехклеточной таблицы, которая содержит частоты объектов (табл. 7).
Таблица 7 Распределение частоты объектов по двум признакам
Коэффициенты сопряженности и контингенции для данных, представленных в табл. 6, равны соответственно: Ф = 0,507, Q = 0,81. 2.2.2. Измерения связи в дихотомической шкале наименований в предположении
В случае когда обе переменные дихотомические и основаны на нормальных распределениях, используется мера связи – тетрахорический коэффициент корреляций – rtet. Иногда мы считаем, что нам многое известно об измеряемой переменной, хотя имеем лишь весьма грубые ее измерения. Например, составлена письменная контрольная работа для оценки способности силлогического мышления. При этом считается, что способность выводить правильные заключения из множества силлогизмов – нормально распределенная характеристика, однако использование одной этой контрольной группы позволит только определить группу тех, кто отвечает правильно (всем им будет приписана 1), и группу отвечающих неправильно (с оценкой 0). В качестве второго примера представьте себе, что значения роста 1000 мальчиков имеют нормальное распределение. Исследователь может присвоить 1 тем, кто выше 1 м 58 см, и 0 – тем, кто ниже (рис. 3). Исследователь, конечно, пренебрег информацией, но может пользоваться свободой в вычислениях, а потери информации могут оказаться допустимыми, особенно если n велико. Рис. 3. Преобразование нормально распределенных оценок в дихотомические оценки
При наличии данных, состоящих только из нулей и единиц, для исследователя все равно представляет интерес корреляция Х и Y, которую он получил бы, если бы собрал нормально распределенные измерения переменных Х и Y. Наблюдаемые данные представляют собой дихотомические измерения (0 или 1) для каждого объекта по Х и Y. На первом этапе данные существуют в том же виде, как и при вычислении коэффициента Ф. Подробная информация по всем данным сохраняется, когда они помещаются в таблицу сопряженности 2х2. Наиболее точная формула rtet использует частоты а, b, с и d в таблице сопряженности 2х2 для получения аппроксимации значения rxy, которое могло быть найдено, если бы были возможны более тонкие измерения Х и Y. К сожалению, она очень сложна, поэтому мы предложим более удобную, хотя и менее точную аппроксимацию: rtet = - cos . После вычисления выражения под знаком косинуса можно найти косинус угла, измеренного в градусах, по таблице тригонометрических функций. Рассмотрим пример, приведенный в табл. 8, и определим по ней rtet. 100 человек отвечали на вопросы двух тестов. Испытуемому человеку, если он правильно отвечал на вопрос, приписывалась 1, в случае неверного или пропущенного ответа присваивался 0.
Таблица 8 Частоты пар ответов на два вопроса теста
Неправильно на оба вопроса ответили 64 человека; 5 человек ответило верно на второй и неверно на первый вопрос. Величина (bc)/(ad) = 53,33. Так как это отношение больше 1, приближенная величина rtet составляет 0,93. Это аппроксимация коэффициента корреляции Пирсона между нормально распределенными переменными, для которых вопросы теста обеспечили только дихотомические измерения. В качестве второго примера представим себе, что для некоторой таблицы сопряженности 2х2 взяты следующие данные: a = 31, b = 10, с = 5 и d = 14. Если вы построите эту таблицу сопряженности, то заметите отрицательную связь двух переменных. Теперь (bc)/(ad) = 0,115, т.е. меньше 1, а величина rtet отрицательна. Мы видим, что значение rtet составляет 0,70.
2.3. Коэффициент корреляции Пирсона для дихотомических данных – φ (фи)
Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициента взаимной сопряженности Пирсона. Этот коэффициент вычисляется по следующей формуле: φ = , где: nxy – число пар значений x и y, имеющих одновременно “ 1 ”; nx – число значений, имеющих “ 1 ” по x; ny – число значений, имеющих “ 1 ” по y; n – общее число пар значений x и y. Обе переменные измеряются в дихотомических шкалах наименований. Данные можно представить в виде расположенных в два столбца нулей и единиц, где каждая строка соответствует каким-то двум отметкам некоторого объекта. Например, данные наблюдения за 12 студентами второго курса колледжа по переменным «семейное положение» и «исключение из колледжа» (см. табл. 7) приведены в форме табл. 9.
Таблица 9 Пример вычисления коэффициента φ
Пусть рх – доля людей, имеющих “1” по X; qx (доля людей, имеющих “0” по X) будет равна 1– рх. Доля тех, кто имеет “1” по Y, обозначается рy, а qy = 1– рy. Нужно еще одно определение: φ = . Данное уравнение дает удобный способ вычисления коэффициента φ (фи).
|