Статистическая связь. Корреляционный анализ
Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Отсюда возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Исследования показывают, что вариация каждого изучаемого признака находится в тесной связи с вариациями других признаков, характеризующих исследуемую совокупность единиц. По своему значению для изучения взаимосвязи признаки подразделяются на: 1. Результативные признаки. Признаки, которые изменяются под действием других, связанных с ними признаков. 2. Факторные признаки. Признаки, обуславливающие изменение результативных признаков. Под статистической связью мы будем понимать зависимость, при которой изменение одной из величин влечёт изменение распределения другой. По характеру зависимости признаков различают: 1. Функциональная (полная) связь. Вид связи, при которой определённому значению факторного признака соответствует одно и только одно значение факторного признака. 2. Корреляционная (неполная) связь. Вид связи, при которой статистическая зависимость проявляется в том, что определённому значению факторного признака соответствует лишь среднее значение результативного признака. Задачей корреляционного анализа является количественное определение степени связности между признаками (при парной связи) и между результативными и факторными признаками (при многофакторном анализе). Корреляционный анализ предваряет различные сложные методы статистического анализа и проявляется в основном в расчёте коэффициентов корреляции. Термин «корреляция» был введён Ф. Гальтоном в 1886 году. Однако точную формулу для подсчёта коэффициента корреляции предложил его ученик К. Пирсон. Коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчёта коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, то коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому данный коэффициент ещё называют коэффициентом линейной корреляции Пирсона. Если же связь не линейна, то Пирсоном предлагается использовать, так называемое, корреляционное отношение. Предполагается, что переменные X и Y распределены нормально. В общем виде коэффициент корреляции можно представить следующим образом: , где (если при расчётах получается величина вне пределов диапазона, то следует искать ошибку в вычислениях); Xi – значения выборки X; Yi – значения выборки Y; – средняя по X; – средняя по Y. Знак коэффициента корреляции очень важен для интерпретации полученной связи. Если корреляция положительная, то связь между признаками такова, что увеличению значения первого признака соответствует увеличение значения второго признака. Обратным данному виду связи будет отрицательная корреляция, при которой увеличению значения первого признака соответствует уменьшение значения второго признака. Если взять значения из числителя коэффициента корреляции и разделить его на n (число значений одной из переменных), то мы получим коэффициент ковариации. Когда требуется сравнить несколько выборок, то данные собирают в таблицы корреляции или ковариации:
Корреляционная связь между признаками может осуществляться не непосредственно, а косвенно – за счет связи каждого из них в отдельности с каким-либо третьим (четвертым и т.д.) признаком. Например, размеры вегетативных органов обычно сильно коррелируют с высотой растения, и для изучения связи между ними в «чистом» виде необходимо найти способ исключить влияние на эту связь высоты растения. Если рассчитаны парные коэффициенты корреляции rxy, rxz,, ryz между тремя признаками (x,y,z), то исключить влияние признака z на связь между признаками х и у можно, рассчитав коэффициент частной корреляции: . В случае когда вы имеем дело с ранжированными данными, то есть по сути со значениями порядковой шкалы, то целесообразно использовать коэффициенты ранговой корреляции. Наиболее часто используются коэффициент Кенделла (τ;) и коэффициент Спирмена (ρ;): Коэффициент ранговой корреляции Спирмена используется в случае когда определяется фактическая степень связи между двумя количественными рядами изучаемых признаков и дается оценка близости установленной связи с помощью количественно выраженного коэффициента. Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы: 1) сопоставление для каждого из признаков его порядкового номера (ранга) по возрастанию (или убыванию); 2) определение разности рангов каждой пары сопоставляемых значений; 3) возведение в квадрат каждой разности и суммирование полученных результатов. Вычисляется ро-Спирмена по формуле: где ri – ранг среди ряда чисел (xi, …, xn); si – ранг среди ряда чисел (yi, …, yn); – число парных наблюдений. Тау-Кенделла определяется как: , где n – общее число рангов; K – число инверсий, т.е. перестановок элементов ряда si относительно упорядоченного ri. Например, ri = 1, 2, 3, 4, а si = 3, 2, 1, 4 (m = 4). Потребуется 3 инверсии: 3-2, 3-1, 2-1, чтобы сопоставить эти два ряда. При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее, показателями слабой тесноты связи; значения более 0,4, но менее 0,7 - показателями умеренной тесноты связи, а значения 0,7 и более - показателями высокой тесноты связи. Рассмотрим пример. Группу из 10 студентов протестировали двумя разными тестами. Рассчитаем коэффициент Спирмена:
Для нашего случая . Следовательно: . Рассмотрим ещё один пример. Определим степень связи итогов чемпионата России по футболу в премьер-лиге и результаты первого круга 2002 года.
Решение. Определим степень связи по выборочному коэффициенту ранговой корреляции Кендалла. Определим количество итераций: 6-4, 10-4, 7-8, 10-6, 10-7, 10-8, 10-5, 10-9, 5-8, 5-7, 5-6 – всего 11 итераций. K = 11; n = 10. . Следовательно, между итогом чемпионата и результатом первого круга существует прямая средней силы связь. Задача №15. Спортсмены, ранги которых при построении по росту были 1, …, 10 заняли на состязаниях соответственно следующие места: 6, 5, 1, 4, 2, 7, 8, 10, 3, 9. Как велика ранговая корреляция между ростом и быстротой бега? Задача №16. Определите связь между урожайностью пшеницы и картофеля:
Задача №17. Измерения длины головы (x) и длины грудного плавника (y) у 16 окуней дали результаты (в мм.): х = 66, 61, 67, 73, 51, 59, 48, 47, 58, 44, 41, 54, 52, 47, 51, 45 и y = 38, 31, 36, 43, 29, 33, 28, 25, 36, 26, 21, 30, 20, 27, 28, 26. Найдите коэффициенты ранговой корреляции. Найдите коэффициент корреляции Пирсона (исходим из предположения о нормальном распределении). Задача №18. Связь между массой тела (x) и количеством гемоглобина в крови (y) у павианов характеризуется следующими данными: х = 18, 17, 19, 18, 19, 22, 21, 21, 20, 30 и y = 70, 74, 72, 80, 77, 80, 80, 89, 76, 86. Найдите коэффициенты ранговой корреляции. Найдите коэффициент корреляции Пирсона (исходим из предположения о нормальном распределении).
|