Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости
Допустим, что объекты генеральной совокупности обладают двумя качественными признаками. Под качественным подразумевается признак, который невозможно измерить точно, но он позволяет сравнивать объекты между собой и, следовательно, расположить их в порядке убывания или возрастания качества. Для определенности будем всегда располагать объекты в порядке ухудшения качества. При таком «ранжировании» на первом месте находится объект наилучшего качества по сравнению с остальными; на втором месте окажется объект «хуже» первого, но «лучше» других, и т. д. Пусть выборка объема п содержит независимые объекты, которые обладают двумя качественными признаками Л и Б. Для оценки степени связи признаков вводят, в частности, коэффициенты ранговой корреляции Спирмена (изложен в настоящем параграфе) и Кендалла (см. § 26). Для практических целей использование ранговой корреляции весьма полезно. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то достаточно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль. Расположим сначала объекты выборки в порядке ухудшения качества по признаку А при допущении, что все объекты умеют различное качество по обоим признакам (случай, когда это допущение не выполняется, рассмотрим ниже). Припишем объекту, стоящему на х'-м месте, число—ранг х,-, равный порядковому номеру объекта. Например, ранг объекта, занимающего первое место, xt = 1; объект, расположенный на втором месте, имеет ранг х2 = 2, и т. д. В итоге получим последовательность рангов по признаку А: хг=1, ха = 2,...,х„~п. Расположим теперь объекты в порядке убывания качества по признаку В и припишем каждому из них ранг yit однако (для удобства сравнения рангов) индекс i при у будет по-прежнему равен порядковому номеру объекта по признаку А. Например, запись уг = Ъ означает, что по признаку А объект стоит на втором месте, а по признаку В — на пятом. В итоге получим две последовательности рангов: по признаку А... хг, х 2,..., хп по признаку В ... у1г у2,. у„ Заметим, что в первой строке индекс i совпадает с порядковым номером объекта, а во второй, вообще говоря, не совпадает. Итак, в общем случае Х(Фу(. Рассмотрим два «крайних случая». Пусть ранги по признакам Л и В совпадают при всех значениях индекса t: X/ = В этом случае ухудшение качества по одному признаку влечет ухудшение качества по другому. Очевидно, признаки связаны: имеет место «полная прямая зависимость». > 2. Пусть ранги по признакам А и В противоположны в том смысле, что если х1=1, то у1 = п\ если ха = 2, то уг = п —1;..., если х„ = п, то уп = 1. В этом случае ухудшение качества по одному признаку влечет улучшение по другому. Очевидно, признаки связаны — имеет место «противоположная зависимость». На практике чаще будет встречаться промежуточный случай, когда ухудшение качества по одному признаку влечет для некоторых объектов ухудшение, а для других— улучшение качества. Задача состоит в том, чтобы случайной величины X, а уг, угуп — как возможные значения случайной величины Y. Таким образом, о связи между качественными признаками Л и В можно судить по связи между случайными величинами X и Y, для оценки которой используем коэффициент корреляции. Вычислим выборочный коэффициент корреляции случайных величин X и Y в условных вариантах (см. гл. XVIII, §8): nuvtiv— tiuv Г — в noaov приняв в качестве условных вариант отклонения и,- — = х,- — х, Vj — yi — у. Каждому рангу х( соответствует только один ранг у,-, поэтому частота любой пары рангов с одинаковыми индексами, а следовательно, и любой пары условных вариант с одинаковыми индексами равна единице: nu,v =1. Очевидно, что частота любой пары I вариант с разными индексами равна нулю. Учитывая, кроме того, что среднее значение отклонения равно нулю (см. гл. XVI, § 7, следствие), т. е. и = и — 0, получим более простую формулу вычисления выборочного коэффициента корреляции: Х Г В =. (*) в nouav ' ’ Таким образом, надо найти а» и Выразим чеРез известные числа — объем выбор ки л и разности рангов di = Xi — yt. Заметим, что поскольку средние значения рангов х = (1 -J- 2 -J-... +п)/п и у = (1+2+...+ п)/п равны между собой, то у—х = 0. Используем последнее равенство: d. = Xj — yt = Xt — у( + (у — X) = (Х(X) (у,- у) = Uf Vt. Следовательно, df = (Ut-Vi)\
|