Понятие корреляции в статистике и психологии
В практике экспериментальных психологических исследований нередки случаи, когда предполагается наличие связанных изменений каких-либо двух статистических признаков. В ряде случаев во время психологических исследований измеряют значения нескольких признаков:
Таблица 1 Вариант таблицы связанных изменений признаков
Например, представляются взаимозависимыми вариации величины роста Х и веса тела людей Y, силы мышц Х и их подвижности Y и т.д. Величины Х и Y могут быть функционально зависимы, но на процесс измерения их значений влияют случайные факторы. Установить по результатам измерений вид фактической зависимости не так просто. Такого рода связи и закономерности не являются строго однозначными или функциональными. Как и сами вариации признаков, они являются вероятностными (стохастическими), т.е. статистическими. Динамические закономерности – форма причинной связи, при которой данное состояние системы определяет все ее последующие состояния, а знание начального состояния системы позволяет точно предсказывать ее развитие. Статистические закономерности – форма причинной связи, при которой данное состояние системы определяет все ее последующие состояния не однозначно, а с определенной вероятностью. Вероятностная (стохастическая) связь – связь, которая проявляется не в каждом отдельном случае, а в общем, среднем или большом числе наблюдений. Различных интерпретаций понятия “связь” много. И даже в рамках одного и того же понимания связи существуют различные способы ее математической формализации. Отдельно взятый коэффициент – математическая формализация некоторого понимания связи. Коротко поясним содержательный смысл некоторых пар понятий: 1) функциональная связь – корреляционная связь. Функциональной связью между двумя признаками называется такая связь, когда одному и тому же значению одного признака соответствует одно или несколько значений другого. Геометрически – это красивые плавные кривые (прямая, парабола, синусоида и т.д.) или кривые с точкой разрыва (гипербола). При рассмотрении связи между двумя признаками в рамках других типов информации наблюдается другая картина – одному и тому же значению признака соответствует распределение значений по другому признаку. Такая связь называется корреляционной. Эти связи между двумя признаками геометрически могут быть изображены в виде облаков точек в двумерном пространстве, т.е. на плоскости. Корреляционная связь может быть сильной и слабой. В первом случае облако точек имеет четкую конфигурацию. Если признаки имеют метрический уровень измерения, то можно сказать, что с ростом значений одного признака растет в среднем и значение другого. Это линейная связь. Такая закономерность может быть описана посредством прямой линии, которая называется линией регрессии. Корреляционная связь может быть и нелинейной, т.е. описываться непрямыми линиями; 2) симметричная связь – асимметричная связь. При вычислении направленных коэффициентов связи между признаками Х и Y, как правило, оказывается, что значение коэффициента для Х → Y не равно для Х ← Y. Два признака неравноправны, их нельзя формально поменять местами. Отсюда возникают асимметричные коэффициенты; 3) непосредственная связь → опосредованная, истинное (значение коэффициента) → ложное. Первая пара понятий важна при интерпретации количественного значения коэффициента связи. Если по конкретному значению коэффициента мы видим, что связь есть, то это вовсе не означает существования в реальности непосредственной связи между двумя изучаемыми признаками, а может означать наличие опосредованной связи. Отсюда вторая пара понятий: истинное значение → ложное. Например, в США за 1870-1910 гг. было установлено наличие связи между заработной платой учителей и потреблением вина. Это пример ложной связи. Она опосредована тем, что в эти годы наблюдался промышленный бум и рост заработной платы, и как следствие рост потребления вина всеми группами населения. Коэффициенты связи, меры связи бывают не только парные, но и частные, множественные. Различаются коэффициенты для номинального, порядкового, метрического уровня измерения. Случайные величины Х и Y независимы в вероятностном смысле лишь тогда, когда все условные распределения тождественно равны безусловным. Таким образом, стохастическая связь существует тогда, когда каждому из значений одной случайной величины соответствует специфическое (условное) распределение вероятностей значений другой величины и, наоборот, когда каждому из значений этой другой величины соответствует специфическое (условное) распределение вероятностей значений первой случайной величины. Связь в математической статистике обычно называют корреляцией (от лат. correlatio – соотношение) или сопряженностью. Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. В статистике принято различать следующие варианты зависимостей. 1. Парная корреляция – связь между двумя признаками (результативными и факторными или двумя факторными). 2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков. 3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование. Представим результаты измерений на координатной плоскости, называемой в статистике корреляционным полем, в виде точек, координаты которых являются значениями признаков Х и Y одного студента (Х1, Х2, Х3, … Хn;, Y1, Y2, Y3, … Yn) (рис. 1). Рис. 1. Варианты обозначения корреляций
Из рис. 1 видно, что в случае а) следует искать линейную зависимость, в случае б) – нелинейную зависимость, а в случае в) вряд ли существует какая-либо зависимость. Конкретный вид функциональной зависимости между величинами Х и Y, установленный по двумерной выборке называют уравнением линейной регрессии. Изучение зависимости психологических признаков определяется целями исследований. Наиболее часто целями исследований являются: - установление факта связи между психологическими признаками и оценка их статистической значимости; - измерение тесноты связи; - анализ изменения одного признака при изменении других; - выявлений тенденций и побочных эффектов в изучаемых признаках для их интерпретации. Перечисленные цели применяются к анализу связей между величинами как в количественном, так и в качественном выражении. При этом применяются математические методы формализации фрагмента реальности. Психологические переменные могут быть измерены в ранговой шкале, шкалах интервалов или отношений. Если мы ищем связь между психологическими переменными, которые измерены в номинальной шкале, то такая связь называется сопряженностью. Сопряженность – стохастическая (вероятностная) связь между классифицированными событиями. Степень стохастической связи между психологическими переменными (явлениями) анализируют с помощью определения меры связи посредством корреляционного анализа. Корреляционный анализ - математические процедуры для изучения статистических связей между признаками изучаемых объектов. Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторов признаков (при многофакторной связи). Теснота связи количественно выражается величиной коэффициентов корреляции. Корреляционный анализ изучает взаимосвязи показателей и позволяет решить следующие задачи: 1) оценку тесноты связи между показателями с помощью парных, частных и множественных коэффициентов корреляции; 2) оценку уравнения регрессии. Меру связи выражает коэффициент корреляции. В корреляционном анализе предполагается, что чем выше коэффициент корреляции между двумя психологическими переменными, тем полнее можно предсказать значения одной из них по значениям другой. Коэффициент корреляции – математический показатель тесноты и направления связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Например, можно обнаружить статистическую связь между увеличением количества телевизоров у населения, ростом количества нервно-психических расстройств и ростом числа разводов. Но можно ли утверждать, что одно из этих явлений является причиной других, либо все эти три явления есть следствия некоторой неизвестной величины? Этот вопрос решается исследователем на основе содержательных знаний о структуре и динамике изучаемых психологических объектов и на основе изучения корреляций между всеми изучаемыми признаками. Из указанного вытекают следующие два важных ограничения корреляционного анализа. Во-первых, коэффициент корреляции указывает лишь на “прямолинейную” связь, а зависимости непрямолинейного типа могут давать значения коэффициента корреляции близкие к нулю. В качестве примера можно привести зависимость длительности светового дня от времени года (рис. 2). Рис. 2. Зависимость длительности светового дня от времени года
Во-вторых, даже большой коэффициент корреляции необязательно указывает на причину и следствие. Коэффициентов корреляций очень много и выбор их определен применяемыми шкалами измерения психологических переменных, зависимость между которыми мы хотим оценить. В этом отличие корреляции в психологии от понятия корреляции в статистике, где в последнем случае используются количественные данные. В психологических исследованиях используются в основном четыре разновидности коэффициентов корреляции, тесно связанных с применяемыми измерительными шкалами: 1. Коэффициенты корреляции для анализа зависимости переменных, измеренных на уровне номинальной шкалы (наименований): а) коэффициенты 2 х 2 (четырехклеточной) сопряженности: - коэффициент контингенции Q, - коэффициент ассоциации Ф; б) коэффициенты m x n (многоклеточной) сопряженности: - коэффициент взаимной сопряженности Пирсона (С), - коэффициент взаимной сопряженности Чупрова (К). 2. Коэффициенты корреляции для анализа зависимости переменных, измеренных на уровне порядковых (ранговых) шкал измерения: а) коэффициенты взаимосвязи двух переменных: - коэффициент корреляции Спирмена – rs; - мера γ Гудмена и Краскала; - мера τ Кендалла; - мера d Сомерса; б) коэффициент взаимосвязи нескольких переменных – коэффициент конкордации W. 3. Коэффициенты корреляции для анализа зависимости переменных, измеренных на уровне количественных шкал (шкал интервалов и шкал отношений): - COV-ковариация; - коэффициент линейной корреляции Пирсона – rxy. 4. Коэффициенты корреляции для анализа зависимости данных “смешанного” типа, т.е. когда переменные измерены в разных шкалах: - бисериальный коэффициент корреляции – rbis; - точечный бисериальный коэффициент корреляции – rpb; - ранговый бисериальный коэффициент корреляции – rb. Наиболее часто в психологии применяются коэффициенты 2 х 2 (четырехклеточной) сопряженности, коэффициенты ранговой корреляции Спирмена rs и линейной корреляции Пирсона rxy.
|