Мера Гудмена и Краскала
Коэффициенты корреляции для анализа данных порядкового (рангового) уровня. Для начала введем обозначения: количество категорий переменной A; количество категорий переменной B. Для примера возьмем какую-нибудь пару наблюдений, одно из которых принадлежит ячейке i1, j1, т.е. имеет категорию i1 переменной A и категорию j1 переменной B, а второе измерение – из ячейки i2, j2. Порядковые меры связи – это всегда простые функции от следующих четырех величин: S – общее число пар наблюдений, для которых либо одновременно i1 > i2 и j1 > j2, либо, наоборот, i1 < i2 и j1 < j2, т.е. когда ранги пар измерений совпадают; D – общее число пар наблюдений, для которых либо i1 > i2 и j1 < j2, либо i1 < i2 и j1 > j2, т.е. когда ранги пар измерений не совпадают; Та – общее число пар наблюдений, для которых i1 = i2; Tb – общее число пар наблюдений, для которых j1 = j2. Когда между переменными A и B существует сильная связь, число S становится большим, а число D – малым. Меры ранговой корреляции γ – Гудмена и Краскала, τ – Кендалла и d – Сомерса различаются только способом нормирования разности “S – D”. Мера γ Гудмена и Краскала (предложена в 1954 г.): Мера γ Гудмена и Краскала – это разность между вероятностями “правильного” и “неправильного” порядка для двух наблюдений, взятых наугад при условии, что совпадающих рангов нет.
γ Гудмена и Краскала изменяется в интервале от –1 до + 1: в общем случае при отсутствии зависимости между А и В, γ обращается в 0, однако, не всегда, если γ = 0, то А и В независимы. Пример вычислений приведен на рис. 4. Рис. 4. Пример таблицы для вычисления меры γ Гудмена и Краскала
Для вычисления S => последовательно перебираются все ячейки, с умножением их частоты на суммарную частоту того блока ячеек, которые лежат ниже и правее следующей выбранной ячейки. На рис. 4 частота “13” в ячейке (1,1) должна умножаться на частоту выделенного прямоугольника 2x3 (она равна: 24+28+34+8+15+24=133). Совокупность таких (i – 1)(j – 1) перекрестных произведений и есть S (рис. 5). Рис. 5. Таблицы для вычисления величины S
S = 13 х (24+28+34+8+15+24) + 13 х (28+34+15+24) + 12 х (34+24) + 4 х (8+15+24) + Величина D => вычисляется совершенно так же, только частота в каждой ячейке умножается на суммарную частоту блока, расположенного ниже и слева (рис. 6). Рис. 6. Таблицы для вычисления величины D
Отсюда D = 22 х (4+24+28+3+8+15) + 12 х (4+24+3+8) + 13 х (4+3) + 34 х (3+8+15) + Итак: γ = 5534 – 3627 = 0,208. 5534 + 3627 3.3. Проблема связанных рангов. Коэффициент τ (тау) Кендалла Если значения признака имеют одинаковую оценку, то ранги, присваиваемые этим значениям, называются связанными. В таких случаях действует особое правило приписывания рангов. Например, если 12-й и 13-й сверху ранги 245 учащихся выпускного класса имеют средний балл 4,76, то обоим учащимся надо присвоить ранг, равный среднему двух рангов (12 + 13)/2 = 12,5. Или когда эксперт не может установить разницу в достоинствах почерка трех первых учащихся, он присваивает им всем среднее первых трех рангов, 2 = (1+2+3)/3. Когда мы имеем дело со связанными рангами, ни уравнение rs, ни уравнение γне пригодны для вычисления тесноты связи между рангами. Но способ вычислить корреляцию между изучаемыми признаками существует. Ранговый коэффициент корреляции Кендалла τ может использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты и ранжированные по одному принципу. Коэффициент ранговой корреляции Кенделла – мера связи, основанная на числе совпадений или инверсий в ранжировках статистических признаков Х и Y. Расчет данного коэффициента выполняется в следующей последовательности: 1) значения Х ранжируются в порядке возрастания или убывания; 2) значения У располагаются в порядке, соответствующем значениям Х; 3) для каждого ранга У определяется число следующих за ним значений рангов, превышающих его величину. Суммируя, таким образом, числа, определяют величину Р как меру соответствия последовательности рангов по Х и У. Она учитывается со знаком плюс; 4) для каждого ранга У определяется число следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком “–”; 5) определяется сумма баллов по всем членам ряда. Ранговый коэффициент Кендалла определяется по формуле
,
где n – число наблюдений; S – сумма разностей между числом последовательностей и числом инверсий по второму признаку S = P – Q. Пусть восьми испытуемым присвоены разные ранги по признакам Х и Y. Расчет данного коэффициента выполняется следующим образом. 1. Значения Х ранжируются в порядке возрастания или убывания. 2. Значения Y располагаются в порядке, соответствующем значениям Х. 3. Для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа, определяем величину Р как меру соответствия последовательностей рангов по Х и Y и учитываем со знаком +. 4. Для каждого ранга Y определяется число следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком –. 5. Определяется сумма баллов по всем членам ряда. Пример вычисления коэффициента тау Кендалла – τ (1 обозначает наивысший ранг) приведен в табл. 13.
Таблица 13 Пример вычисления коэффициента тау Кендалла
Р = 5+6+5+3+1+0+1+1+0=21 Q = 2+0+0+1+2+2+0+0=7
.
Как правило, коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения коэффициентов Спирмена и Кендалла имеют следующую зависимость
τ = 2/3 rs.
3.4. Множественный коэффициент ранговой корреляции (коэффициент конкордации) – W Множественная (общая, совокупная) корреляция – корреляционная зависимость переменной от ряда факторов (варьирующих признаков). Множественный коэффициент ранговой корреляции W (коэффициент конкордации) – определение тесноты связи между произвольным числом ранжированных признаков. Он используется для измерения степени согласованности двух или нескольких рядов проранжированных значений переменных.
W = ,
где К – число переменных, N – число ранжируемых объектов, S – отклонение суммы квадратов рангов от средней квадратов рангов , а – среднее суммы рангов (табл. 14).
Таблица 14 Пример вычисления множественного коэффициента W
|