Методические указания. Значение статистик Дарбина – Уотсона иТема 1. МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ Методические указания Парная регрессия — уравнение связи между двумя переменными — и y = , где — зависимая переменная (результативный фактор); — независимая, или объясняющая, переменная (фактор). Различают линейные и нелинейные уравнения регрессии. Линейное уравнение регрессии: , где и — параметры уравнения регрессии, — случайная величина, характеризующая отклонение от уравнения регрессии и включающая влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения. Нелинейные регрессии делятся на два класса: 1) регрессии, нелинейныепо объясняющим переменным: · многочлены различных степеней ; · дробно-линейная регрессия ; 2) регрессии, нелинейные по оцениваемым параметрам: · степенная регрессия ; · показательная регрессия ; · экспоненциальная регрессия . Выбор вида уравнения регрессии может быть осуществлен, например, графическим методом, который основан на построении диаграммы рассеяния (поля корреляции). Для получения диаграммы в прямоугольной системе координат отмечают точки , , где n — количество наблюдаемых пар значений переменных и . Нахождение уравнения регрессии сводится к оценке его параметров. По выборке ограниченного объема можно построить так называемое эмпирическое уравнение регрессии: = a + b x, (1) где a и b — коэффициенты уравнения являются оценками параметров Для определения коэффициентов моделей применяется метод наименьших квадратов (МНК). Для линейных и нелинейных уравнений, приводимых к линейным, получают систему уравнений относительно коэффициентов и : (2) Для вычисления и можно воспользоваться готовыми формулами, которые следуют непосредственно из решения системы, например по методу Крамера: , (3)
, (4) где , , , , — средние значения: ; ; ; ; , (5) — дисперсия независимого фактора , которая может быть вычислена по формуле . (6) В расчетах используют , дисперсию результативного фактора , которую вычисляют аналогично . (7) Показателем тесноты связи при использовании линейной регрессии является линейный коэффициент парной корреляции (): . (8) При нелинейной регрессии находят индекс корреляции (0 ≤ ρ xy ≤ 1): = , (9) где — общая дисперсия результативного фактора , определяемая как var (y) = , (10) (формула (7) для вычисления является упрощением формулы (10)); var () — дисперсия расчетных значений : var () = , (11) — дисперсия остатков: var (e) = . (12) О качестве построенной модели регрессии можно судить: 1) по средней ошибке аппроксимации . (13) Допустимый предел значений — не более 8 – 10%; 2) по коэффициенту детерминации R2 (0 ≤ R 2 ≤ 1): R 2 = . (14) Чем лучше уравнение регрессии соответствует наблюдениям, тем меньше var(e) и тем ближе R 2 к единице, и наоборот, чем «хуже» подгонка линии регрессии к данным, тем ближе значение R 2 к нулю. Оценивание качества уравнения регрессии в целом состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии. Для этого выполняется сравнение наблюдаемого (эмпирического, фактического) и критического (табличного) Fкрит значений критерия Фишера. рассчитывается по формуле . (15) Вычисленное значение сравнивается с критическим значением Fкрит, найденным по таблицам распределения Фишера по двум степеням свободы: ν 1 = 1, ν 2 = n – 2, уровню значимости . Если Fфакт < Fкрит, то гипотеза Н0 принимается и признается статистическая незначимость, ненадежность уравнения регрессии. Если Fфакт ≥ Fкрит, то гипотеза Н0 отвергается, признается статистическая значимость уравнения. Полученная модель может быть использована для объяснения изменения переменной y под влиянием изменения переменной x. Для оценки статистической значимости коэффициентов регрессии выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Для оценки существенности каждого из коэффициентов а и b его величина сравнивается с его стандартной ошибкой, т.е. определяются фактические значения – критерия Стьюдента: , (16) которые затем сравниваются с табличным значением при заданном уровне значимости и числе степеней свободы . Стандартные ошибки коэффициентов регрессии определяются по формулам: = ; (17) = , (18) где = ·var(e) = — остаточная дисперсия регрессии. Если , то Н0 принимается и признаётся случайная природа формирования коэффициентов (а, b); если , то Н0 отвергается, т.е. коэффициенты (а, b) не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора . Доверительные интервалы для параметров регрессии определяются с помощью неравенств: (19) и с надежностью покрывают определяемые параметры α и β. Если нижняя граница интервала отрицательна, а верхняя – положительна, то оцениваемый параметр полагается равным нулю. Прогнозное значение вычисляется при подстановке в эмпирическое уравнение регрессии соответствующего (прогнозного) значения : = a + b xр. (20) Стандартная ошибка предсказания может быть рассчитана по формуле , (21) где Se = — стандартная ошибка регрессии. Доверительный интервал для действительного значения yр зависимой переменной определяется выражением – tкрит ∙ S Δ p < yр < + tкрит ∙ S Δ p ,. (22) Средний коэффициент эластичности показывает, на сколько процентов отклонится в среднем результат от своей средней величины, если фактор изменится на 1% от своего среднего значения: . (23)
|