Коэффициент линейной корреляции Пирсона для несгруппированных и сгруппированных данных. Формулы для вычисления
Коэффициент линейной корреляции Пирсона rxy используется для двух случаев представления данных: а) данные не сгруппированы; б) данные сгруппированы. Исследователей часто интересует, как связаны между собой две переменные в данной группе лиц (классы, школы, нации и т. д.). Например, имеют ли ученики, научившиеся читать раньше других, тенденцию к более высокой успеваемости в шестом классе? Связана ли средняя продолжительность работы педагогов в школе непосредственно со средней заработной платой? Очевидно, для ответа на такие вопросы мы должны провести наблюдения по каждой переменной для группы объектов (типичных представителей, которыми могут быть классы, школы, районы и т.д.). Данные, собранные для ответа на один из подобных вопросов, могут выглядеть как на приведенной ниже групповой таблице (табл. 17). Таблица 17 Вариант групповой таблицы
Групповая таблица (или корреляционная решетка) – таблица с результатами совместной группировки двух варьирующих рядов, которые исследуются на корреляцию. Полезным дополнением корреляционной решетки является вычисление средних арифметических значений одного из варьирующих признаков при неизменности другого (и наоборот). В рассматриваемом примере переменными, которые изучались у 12 шестикласников, были оценки IQ, определенные с помощью шкалы интеллекта Стенфорда-Бине, и успеваемость по химии, оцененная на основе теста, состоящего из 35 вопросов. Выявлению корреляционной зависимости способствуют и определенные табличные и графические методы. Последние могут оказаться полезными и как приемы, предваряющие непосредственное вычисление коэффициента корреляции, как выявление общего направления рассматриваемой связи двух признаков. Связь между двумя переменными можно выразить графически диаграммой рассеивания. На диаграмме рассеивания каждый ученик изображается точкой. Точка, или метка, располагается в месте пересечения прямых линий, проведенных через оценку IQ перпендикулярно оси Х и через оценку теста по химии перпендикулярно оси Y для каждого ученика. Совокупность точек составляет корреляционное поле. Диаграмма на рис. 7 показывает слабую положительную связь Х и Y. Однако мы пока не имеем обобщенной меры этой связи. Корреляционное поле – совокупность точек на плоскости, у которой оси абсцисс и ординат есть значения двух сопоставляемых статистических признаков. Наглядным показателем тесноты связи, существующей между двумя сопоставляемыми признаками, выступает форма расположения точек на корреляционном поле.
Рис. 7. Диаграмма рассеивания, показывающая связь IQ (X) с успеваемостью
Взаимосвязь между переменными можно вычислить, рассчитав коэффициент линейной корреляции Пирсона или ковариацию. Распространенная форма коэффициента линейной корреляции сопоставляет величины признаков. Она основана на вычислении “совместной дисперсии” двух переменных Хi и Уi и делении ее на произведение отдельных среднеквадратических отклонений. Формулой коэффициента линейной корреляции является следующая:
Эта формула сопоставляет величины признаков и в конечном счете основана на вычислении “совместной дисперсии” σxσy двух переменных xi и yi. Пример вычисления. Десять испытуемых (А, Б, В, и т.д.) в эксперименте по заучиванию двузначных чисел дали по первой пробе такие результаты: 3, 4, 4, 5, 3, 4, 5, 2, 3, 5 (пример № 1-Х). Эти же испытуемые при непроизвольном запоминании слов имели такие показатели: 5, 9, 8, 6, 4, 5, 8, 7, 5, 6 (пример № 2-Y). Посмотрим, коррелируют ли между собой два этих показателя эффективности запоминания. Вычисления удобнее вести в специальной таблице (табл. 18).
Таблица 18 Таблица с результатами вычислений зависимости заполнения испытуемыми чисел и слов
|