Результирующая (зависимая, эндогенная) переменная Y.
Множественная регрессия
Она характеризует результат или эффективность функционирования экономической системы. Значения ее формируются в процессе и внутри функционирования этой системы под воздействием ряда других переменных и факторов, часть из которых поддается регистрации, управлению и планированию. В регрессионном анализе результирующая переменная играет роль функции, значение которой определяется значениями объясняющих переменных, выполняющих роль аргументов. По своей природе результирующая переменная всегда случайна (стохастична). Объясняющие (независимые, экзогенные) переменные X - это переменные, которые поддаются регистрации и описывают условия функционирования реальной экономической системы. Они в значительной мере определяют значения результирующих переменных. Обычно часть из них поддается регулированию и управлению. Еще их называют факторными признаками. В регрессионном анализе это аргументы результирующей функции Y. По своей природе они могут быть как случайными, так и неслучайными. В то время как зависимая переменная должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как «пол» или «тип применяемого препарата». Если все независимые переменные являются категориальными (или большинство из них являются категориальными), то в этом случае лучше использовать дисперсионный анализ. Функция В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции Модель множественной линейной регрессии имеет вид: y i = a0 + a1x i 1 +a2x i 2 +…+ ak x i k + ei
коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признак Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи:
a — подлежащий оцениванию вектор неизвестных параметров размерности (k+1) ´ 1;
Таким образом, Y =
Уравнение (2) содержит значения неизвестных параметров a0,a1,a2,…,ak
где A — вектор оценок параметров; е — вектор «оцененных» отклонений регрессии, остатки регрессии е = Y - ХА; Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:
Формулу для вычисления параметров регрессионного уравнения по методу наименьших квадратов приведем без вывода
Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, должны выполняться следующие условия, известные как условия Гаусса – Маркова. Первое условие. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю. Иногда случайная составляющая будет положительной, иногда отрицательной, но она не должна иметь систематического смещения ни в одном из двух возможных направлений Фактически если уравнение регрессии включает свободный член, то обычно это условие выполняется автоматически, так как роль константы состоит в определении любой систематической составляющей Второе условие означает, что дисперсия случайной составляющей должна быть постоянна для всех наблюдений. Иногда случайная составляющая будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы она порождала большую ошибку в одних наблюдениях, чем в других. Эта постоянная дисперсия обычно обозначается
Выполнимость данного условия называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью, (непостоянством дисперсии отклонений). Условие независимости. Третье условие предполагает отсутствие систематической связи между значениями случайной составляющейв любых двух наблюдениях. Например, если случайная составляющая велика и положительна в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что она будет большой и положительной в следующем наблюдении. Случайные составляющие должны быть независимы друг от друга. Данное условие можно записать следующим образом:
Возмущения Четвертое условие состоит в том, что в модели (1) возмущение Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю. Наряду с условиями Гаусса — Маркова обычно также предполагается нормальность распределения случайного члена. В тех случаях, когда выполняются перечисленные предпосылки, оценки, полученные по МНК, будут обладать свойствами несмещенности, состоятельности и эффективности. Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков - Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины. При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:
где
Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов, включенных в модель. Чем ближе Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции) R R = Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров. Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с n1= k и n2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины (
значимость отдельных коэффициентов регрессии проверяется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):
где где Если расчетное значение t-критерия с (n - k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится). Уравнение регрессии применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции. Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для того чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной Для линейной модели регрессии при прогнозировании индивидуальных значений доверительный интервал рассчитывается по формуле (10) для этого оценивается величина отклонения от линии регрессии (обозначим ее U):
|