Линейная парная регрессия. Коэффициент корреляции
Ответ: Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. В случае линейной парной связи уравнение регрессии примет вид: . Параметры данного уравнения а и b оцениваются по данным статистического наблюдения x и y. Результатом такой оценки является уравнение: , где , - оценки параметров a и b, - значение результативного признака (переменной), полученное по уравнению регрессии (расчетное значение). Наиболее часто для оценки параметров используют метод наименьших квадратов (МНК). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (u) и независимой переменной (x). Задача оценивания параметров линейного парного уравнения методом наименьших квадратов состоит в следующем: получить такие оценки параметров , , при которых сумма квадратов отклонений фактических значений результативного признака - yi от расчетных значений – минимальна. Формально критерий МНК можно записать так: . В результате получим систему из 2-ух нормальных линейных уравнений:
Решая данную систему, найдем искомые оценки параметров:
Знак коэффициента регрессии b указывает направление связи (если b >0, связь прямая, если b <0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат (y) при изменении признака-фактора (х) на 1 единицу своего измерения.
Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - rx,y. Он может быть рассчитан по формуле: . Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b: . Область допустимых значений линейного коэффициента парной корреляции от –1 до +1. Знак коэффициента корреляции указывает направление связи. Если rx,y>0, то связь прямая; если rx,y<0, то связь обратная. Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице êrx,y ê=1, то связь между признаками функциональная линейная. Если признаки х и y линейно независимы, то rx,y близок к 0. Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R2yx: , где d2 – объясненная уравнением регрессии дисперсия y; e2- остаточная (необъясненная уравнением регрессии) дисперсия y; s2 y - общая (полная) дисперсия y.
Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1- R2yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации. При парной линейной регрессии R2yx=r2yx.
|