Основные теоретические сведения. В общем случае регрессия – функциональная зависимость между объясняющими переменными Хj и объясняемой переменной Y
В общем случае регрессия – функциональная зависимость между объясняющими переменными Хj и объясняемой переменной Y, которая строится с целью прогнозирования среднего значения Y при заданных значениях Хj =xj, или для анализа влияния отдельных переменных Хj, на зависимую переменную. Различают уравнения регрессии I и II рода. Уравнением регрессии первого рода называют уравнение вида: . (1.1)
Если уравнение (1.1) представляет собой уравнение связи двух случайных величин Y и Х, то это уравнение представляет собой уравнение парной регрессии. В предположении нормального распределения случайной величины (Y, Х) парную регрессию называют линейной парной регрессией, т.к. в этом случае условное математическое ожидание (1.1) представляет собой уравнение прямой линии Y = M (Y / x) = 0 + 1 Х. (1.2) Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х. В связи с тем, что реальные значения переменной Y не всегда совпадают с ее средним значением M (Y / x), то в уравнение регрессии вводится случайная составляющая . Тогда уравнение (1.2) можно записать в виде: Y* = M (Y / x) + (1.3)
или для конкретных наблюдений (у i, x i): = 0 + 1 xi + i, . (1.4) Уравнение (1.4) называют теоретической линейной моделью. Возмущения i, должны удовлетворять основным предпосылкам регрессионного анализа: 1. Математическое ожидание возмущения i равно нулю или 0 + 1 xi. 2. Дисперсия возмущения i постоянна для любого i, т.е. , . 3. Возмущения i и j являются независимыми друг от друга, что влечет за собой отсутствие автокорреляции . 4. Возмущения i представляет собой нормально распределенную случайную величину. Обычно исследователь имеет дело с исходными данными выборки объемом n, где каждое наблюдение – есть точка (Y, Х) в (m +1) – мерном пространстве. Здесь m – число объясняющих переменных. В случае парной регрессии имеется выборка объемом n двумерной случайной величины (Y, Х). Уравнением регрессии второго рода называют эмпирическое уравнение регрессии, которое строится на основе данных выборки. Рассматривается парная линейная регрессия, когда уравнение регрессии второго рода имеет вид i = М [ Y/X=x ] = b 0 + b 1 xi, . (1.5) С учетом уравнения (1.3) эмпирическую линейную модель связи переменных Y и Х запишем в виде: yi = b 0 + b 1 xi + ei, (1.6)
где i, b 0, b 1, e i – оценки соответственно yi, 0, 1, i. Построение уравнения регрессии начинается с построения корреляционного поля, представляющего собой графическую зависимость в виде точек случайной величины (Y, Х) на плоскости y 0 x. По расположению эмпирических точек делается вывод о наличии линейной корреляционной зависимости между переменными Y и Х. Дальнейшее построение уравнения регрессии сводится к оценке ее параметров, используя метод наименьших квадратов (МНК). В этом случае неизвестные параметры b 0 и b 1 выбираются так, чтобы сумма квадратов отклонений эмпирических значений yi от значений i, найденных по уравнению регрессии (1.5), была минимальной min. Применение МНК обусловлено тем, что он позволяет получить несмещенные оценки с минимальной дисперсией, в условиях, когда i удовлетворяют всем предпосылкам регрессионного анализа. В результате операции МНК оценка выборочного коэффициента регрессии b 1 определяется выражением: b 1 = Cov (X, Y) / , (1.7) а коэффициента b 0: b 0 = , (1.8) где = уi / n; = хi / n; Cov (X, Y) = ; = .
Точность оценок коэффициентов линейного уравнения регрессии первого рода характеризуется их выборочными дисперсиями, которые вычисляются по формулам:
, (1.9) . (1.10) Здесь S 2 – дисперсия регрессии – оценка дисперсии , определяемая по формулам: S 2 = еi 2 /(n – 2), еi = yi - b 0 - b 1 xi. Проверка качества уравнения регрессии осуществляется по ряду позиций. Оценка статистической значимости коэффициентов регрессии заключается в проверке основной гипотезы Н0 о значимости отличия коэффициентов b0 и b1 от нуля. С этой целью используется критерий Стьюдента. Вычисляются, и сравниваются с tкрит. Результатом сравнения является вывод о значимости коэффициентов b0 и b1. 2. Интервальные оценки коэффициентов уравнения регрессии. Так как объем выборки ограничен, то b 0 и b 1 – случайные величины, поэтому желательно найти доверительные интервалы для истинных значений 0, 1. Для этого также используется статистика , i = 0, 1, которая имеет t – распределение Стьюдента с степенями свободы. Интервальные оценки параметров i при заданном уровне значимости имеют вид , i = 0, 1, с надежностью р = 1- . Здесь tкрит – критическое значение распределения Стьюдента, взятое из таблицы с параметрами и /2. 3. Проверка значимости уравнения регрессии в целом. Позволяет установить, соответствует ли математическая модель экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной. Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Мерой общего качества уравнения регрессии является коэффициент детерминации R2: R 2 = 1 - еi 2 / (yi - )2. (1.11) Выражение (1.11) вытекает из соотношения:
(yi - )2 = ki 2 + ei 2, (1.12) где ki 2 = ( i - )2 – объясненная регрессией сумма квадратов. Характеризует разброс, обусловленный регрессией; ei 2 = (yi - i)2 – остаточная (необъясненная) сумма квадратов – характеризует случайную составляющую разброса yi относительно линии регрессии . Из соотношений (1.11) и (1.12) следует, что коэффициент детерминации R 2 есть не что иное, как:
R 2 = ki 2 / (yi - )2. (1.13)
Таким образом, коэффициент детерминации можно вычислить по (1.11) или по (1.13). Основная цель использования уравнения регрессии - прогноз значений зависимой переменной. Здесь речь идет о возможных значениях Yр при определенных значениях объясняющей переменной Хр. Так как задача решается в условиях неопределенности то прогноз удобнее всего давать на основе интервальных оценок, построенных с заданной надежностью . Причем здесь возможно два подхода: 1) предсказание среднего значения, т.е. M (Y / Х = xр); 2) предсказание индивидуальных значений Y / Х = xр. Интервальный прогноз для среднего значения вычисляется следующим образом: р tкр S , (1.14) где р = b 0 + b 1 xр; t кр – критическое значение, полученное по распределению Стьюдента при количестве степеней свободы = n – 2 и заданной вероятности /2. Интервальный прогноз для индивидуального значения вычисляется по формуле: р tкр S . (1.15)
|