Доказательство. По определению
Пример 50. Вычислить выборочный коэффициент корреляции по следующим данным:
Решение. Вычислим
.
56. Метод вычисления выборочного коэффициента корреляции для вариационных рядов Для вычисления выборочного коэффициента корреляции строят корреляционную таблицу. Для этого разбиваем каждый вариационный ряд на интервальный. Затем находятся входящие в формулу для вычисления выборочного коэффициента корреляции параметры. Пример 51. По данным наблюдений над случайными величинами X и Y получена выборка, приведённая в таблице
Найдём оптимальные длины интервалов и количество интервалов, используя формулу Стэрджеса. Для переменной Х наименьшее значение - 7,1 наибольшее - 22,3, тогда оптимальное число интервалов равно 7 с шагом, равным 2,2, при этом получаем такие интервалы: . Для переменной У минимальное значение - 6,7 наибольшее - 44,5, тогда оптимальное число интервалов 6 с шагом, равным 6,3. Получаем интервалы . Распределим наблюдения по полученным интервалам получим корреляционную таблицу. В таблицу вместо интервалов запишем их середины
Для упрощения расчётов перейдём к условным вариантам и . Составим расчётную таблицу.
Для вычисления выборочного коэффициента корреляции используем формулу , где .
57. Проверка гипотезы о значимости коэффициента корреляции На практике коэффициент корреляции r обычно неизвестен. По результатам выборки может быть найдена его точечная оценка – выборочный коэффициент корреляции . Равенство нулю выборочного коэффициента корреляции ещё не свидетельствует о равенстве нулю самого коэффициента корреляции, а следовательно, о некоррелированности случайных величин Х и У. Чтобы выяснить, находятся ли случайные величины в корреляционной зависимости, нужно проверить значимость выборочного коэффициента корреляции , то есть установить, достаточна ли его величина для обоснованного вывода о наличии корреляционной связи. Для этого проверяют нулевую гипотезу . Предполагается наличие двухмерного нормального распределения случайных переменных; объём выборки может быть любым. Вычисляют статистику , которая имеет распределение Стьюдента с степенями свободы. Для проверки нулевой гипотезы по уровню значимости и числу степеней свободы находят по таблице распределения Стьюдента критическое значение . Если , то нулевую гипотезу об отсутствии корреляционной связи между переменными Х и У следует отвергнуть. Переменные считают зависимыми. При , нет оснований отвергнуть нулевую гипотезу. В случае значимого выборочного коэффициента корреляции есть смысл построить доверительный интервал для коэффициента корреляции . Однако для этого нужно знать закон распределения выборочного коэффициента корреляции . Плотность вероятности выборочного коэффициента корреляции имеет сложный вид, поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся к хорошо изученным распределениям, например к нормальному или Стьюдента. Чаще всего для подбора функции применяют преобразование Фишера. Вычисляют статистику , где - гиперболический тангенс от . Распределение статистики хорошо аппроксимируется нормальным распределением с параметрами . В этом случае доверительный интервал для имеет вид . Величины и находятся по формулам , где . Пример 52. Проверить значимость выборочного коэффициента корреляции из примера 51 и найти доверительный интервал с надёжностью 0,95 для него. Решение. Для проверки значимости найдём статистику . По уровню значимости и числу степеней свободы найдём (см. приложение табл.3). Так как , то нулевую гипотезу об отсутствии корреляционной связи между переменными Х и У следует отвергнуть. Следовательно, выборочный коэффициент корреляции значим. Найдём доверительный интервал для выборочного коэффициента корреляции, вычислим , , тогда и . Следовательно, доверительный интервал для выборочного коэффициента корреляции имеет вид .
58. Эмпирическая и теоретическая линии регрессии Определить форму связи – значит выявить механизм получения зависимой случайной величины. Кривой регрессии У по Х (или Х по У) называют условное среднее значение случайной величины У, рассматриваемое как функция определённого класса, параметры которой находятся методом наименьших квадратов по наблюдённым значениям двухмерной случайной величины. То есть уравнение линейной регрессии имеет вид . Оценке в этом случае подлежат параметры и , называемые коэффициентами регрессии, а также - остаточная дисперсия. Остаточной дисперсией называется та часть рассеивания результативного признака, которую нельзя объяснить действием наблюдаемого признака. Пример 53. Построить эмпирическую и теоретическую линии регрессии по данным примера 51. Решение. Уравнение теоретической линии регрессии имеет вид , где: , , , . Тогда уравнение регрессии имеет вид или . Для построения возьмём точки и . При построении эмпирической линии регрессии используем точки вида , где значения находятся по формуле . Получаем , , , , , , . Построим на плоскости точки с координатами , и, соединив их в порядке возрастания х, получим эмпирическую линию регрессии. Значимость коэффициентов регрессии Проверить значимость оценок коэффициентов регрессии – значит установить, достаточна ли величина оценки для статистически обоснованного вывода о том, что коэффициенты регрессии отличны от нуля. Для этого проверяют гипотезу о равенстве нулю коэффициентов регрессии, соблюдая предпосылки нормальной регрессии. Для заданной выборки методом наименьших квадратов находим уравнение линии регрессии Вычисляем статистику , которая имеет степеней свободы, b – оценка коэффициента регрессии, - оценка среднего квадратического отклонения коэффициента, иначе стандартная ошибка оценки. По уровню значимости и числу степеней свободы по таблице находят . Если , то гипотезу о равенстве нулю коэффициента регрессии отвергают, следовательно, при заданном уровне значимости коэффициент регрессии значим. Оценки среднего квадратического отклонения находятся по формулам , , где и . Доверительные интервалы для коэффициентов регрессии находятся по формулам . Пример 54. Проверить значимость коэффициентов регрессии и найти доверительные интервалы для них при уровне значимости по данным предыдущей задачи. Решение. Уравнение регрессии имеет вид . Найдём остаточную дисперсию , для этого составим таблицу:
Следовательно, остаточная дисперсия равна тогда , , , . По таблице (см. приложение табл. 5) находим . Так как и , то оба коэффициента значимы. Доверительный интервал для имеет вид или . Доверительный интервал для имеет вид или . Пример 55. Найти коэффициенты уравнения регрессии, проверить их значимость и построить доверительные интервалы при уровне значимости по данной выборке Решение. Найдём коэффициенты регрессии по формулам и . Вычислим значения входящих в формулы величин: , , , , Тогда и , следовательно, уравнение регрессии имеет вид . Проверим значимость коэффициентов регрессии. Для этого вычислим . Найдём , используя уравнение регрессии . Найдём остаточную дисперсию по формуле Вычислим , тогда и . Статистики равны и . По таблице (см. приложение табл. 5) находим . Так как и , то оба коэффициента значимы. Доверительный интервал для имеет вид или . Доверительный интервал для имеет вид или .
60. Корреляционное отношение На практике часто предпосылки корреляционного анализа нарушаются: один из признаков оказывается неслучайным, или признаки не имеют нормального распределения. Для изучения связи между ними в этом случае существует показатель зависимости признаков, основанный на показателе изменчивости общей (или полной) дисперсии. Полной называется дисперсия признака относительно его математического ожидания. Так для признака У это . Дисперсию можно разложить на две составляющие, одна из которых характеризует влияние фактора Х на У, другая - влияние прочих факторов. Очевидно, чем меньше влияние прочих факторов, тем теснее связь, тем более приближается она к функциональной. По выборочным данным рассчитываем выборочное корреляционное отношение , где и . Значения лежащие в интервале , являются показателями тесноты группировки точек около кривой регрессии независимо от её вида (формы связи). Если зависимость является линейной то корреляционное отношение совпадает с коэффициентом корреляции: . Если зависимость является нелинейной то . Пример 56. Вычислить корреляционное отношение по выборке Предполагая что, зависимость между переменными имеет вид: . Решение. Согласно методу наименьших квадратов для определения коэффициентов имеем систему уравнений Составим расчетную таблицу для расчётов параметров зависимости
Получаем систему уравнений Следовательно, зависимость имеет вид . Найдём значение корреляционного отношения, для этого составим таблицу
Тогда корреляционное отношение равно . Коэффициент корреляции равен и
|