ОРЛОВА И. В.
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ Кафедра экономико-метематических моделей ЭКОНОМЕТРИКА Конспект лекции 2 ОРЛОВА И. В. Тема 4. Множественная регрессия. Вопросы 1. Модель множественной регрессии. Оценка параметров множественной регрессии методом наименьших квадратов (МНК). 2. Предпосылки применения метода наименьших квадратов (МНК). 3. Свойства оценок метода наименьших квадратов (МНК). 4. Проверка качества многофакторных регрессионных моделей 5. Оценка существенности параметров линейной регрессии. 6. Мультиколлинеарность. Последствия мультиколлинеарности. Способы обнаружения мультиколлинеарности. Способы избавления от мультиколлинеарности. 7. Отбор факторов при построении множественной регрессии. Процедура пошагового отбора переменных. 8. Оценка влияния факторов на зависимую переменную (коэффициенты эластичности, бета коэффициенты). 9.Анализ экономических объектов и прогнозирование с помощью модели множественной регрессии. Материал к этой лекции изложен в учебном пособии [1] на стр. 207 – 241. Функция В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции Модель множественной линейной регрессии имеет вид: y i = a0 + a1x i 1 +a2x i 2 +…+ ak x i k + ei (2.1)
коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признак Коэффициент Анализ уравнения (2.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи:
Где
a — подлежащий оцениванию вектор неизвестных параметров размерности (k+1) ´ 1;
Таким образом, Y = Уравнение (2.2) содержит значения неизвестных параметров a0,a1,a2,…,ak , (2.3) где A — вектор оценок параметров; е — вектор «оцененных» отклонений регрессии, остатки регрессии е = Y - ХА; —оценка значений Y, равная ХА. Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т. е.:
Формулу для вычисления параметров регрессионного уравнения по методу наименьших квадратов приведем без вывода
Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, должны выполняться следующие условия, известные как условия Гаусса – Маркова. Первое условие. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю. Иногда случайная составляющая будет положительной, иногда отрицательной, но она не должна иметь систематического смещения ни в одном из двух возможных направлений. Фактически если уравнение регрессии включает постоянный член, то обычно это условие выполняется автоматически, так как роль константы состоит в определении любой систематической тенденции Второе условие означает, что дисперсия случайной составляющей должна быть постоянна для всех наблюдений. Иногда случайная составляющая будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы она порождала большую ошибку в одних наблюдениях, чем в других. Эта постоянная дисперсия обычно обозначается
Выполнимость данного условия называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью, (непостоянством дисперсии отклонений). Третье условие предполагает отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях. Например, если случайная составляющая велика и положительна в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что она будет большой и положительной в следующем наблюдении. Случайные составляющие должны быть независимы друг от друга. В силу того, что
Возмущения Это условие означает, что отклонения регрессии (а значит, и сама зависимая переменная) не коррелируют. Условие некоррелируемости ограничительно, например, в случае временного ряда Четвертое условие состоит в том, что в модели (2.1) возмущение Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю. Наряду с условиями Гаусса— Маркова обычно также предполагается нормальность распределения случайного члена. В тех случаях, когда выполняются предпосылки, оценки, полученные по МНК, будут обладать свойствами несмещенности, состоятельности и эффективности. Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков -. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины. Качество модели регрессии оценивается по следующим направлениям: 1) проверка качества всего уравнения регрессии; 2) проверка значимости всего уравнения регрессии; 3) проверка статистической значимости коэффициентов уравнения регрессии; 4) проверка выполнения предпосылок МНК. При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:
где
Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов. Чем ближе Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции) R R = Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров. Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с n1= k и n2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n - k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины (
значимость отдельных коэффициентов регрессии проверяется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):
где S aj — это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj. Величина Saj представляет собой квадратный корень из произведения несмещенной оценки дисперсии где Если расчетное значение t-критерия с (n - k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится). Проверка выполнения предпосылок МНК. Рассмотрим выполнение предпосылки гомоскедастичности, или равноизменчивости случайной составляющей (возмущения). Невыполнение этой предпосылки, т. е. нарушение условия гомоскедастичности возмущений означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений. Обнаружение гетероскедастичности Для обнаружения гетероскедастичности обычно используют тесты, в которых делаются различные предположения о зависимости между дисперсией случайного члена и объясняющей переменной: тест ранговой корреляции Спирмена, тест Голдфельда - Квандта, тест Глейзера, двусторонний критерий Фишера и другие [ 2 ]. При малом объеме выборки для оценки гетероскедастичности может использоваться метод Голдфельда — Квандта. Данный тест используется для проверки такого типа гетероскедастичности, когда дисперсия остатков возрастает пропорционально квадрату фактора. При этом делается предположение, что, случайная составляющая Чтобы оценить нарушение гомоскедастичности по тесту Голдфельда - Квандта необходимо выполнить следующие шаги. 1. Упорядочение п наблюдений по мере возрастания переменной х. 2. Исключение 3. Разделение совокупности на две группы (соответственно с малыми и большими значениями фактора 4. Определение остаточной суммы квадратов для первой регрессии 5. Вычисление отношений Полученное отношение имеет F распределение со степенями свободы k1=n1-k и k2=n-n1-k, (k– число оцениваемых параметров в уравнении регрессии). Если Чем больше величина F превышает табличное значение F - критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин. Оценка влияния отдельных факторов на зависимую переменную на основе модели (коэффициенты эластичности, b - коэффициенты). Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности Э(j) и бета-коэффициенты b(j). Эластичность Y по отношению к Х(j) определяется как процентное изменение Y, отнесенное к соответствующему процентному изменению Х. В общем случае эластичности не постоянны, они различаются, если измерены для различных точек на линии регрессии. По умолчанию стандартные программы, оценивающие эластичность, вычисляют ее в точках средних значений: Эластичность ненормирована и может изменяться от - Высокий уровень эластичности означает сильное влияние независимой переменной на объясняемую переменную. где Sx j — среднеквадратическое отклонение фактора j где Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора j на один процент. Однако он не учитывает степень колеблемости факторов. Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy изменится зависимая переменная Y с изменением соответствующей независимой переменной Хj на величину своего среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных. Указанные коэффициенты позволяют упорядочить факторы по степени влияния факторов на зависимую переменную. Долю влияния фактора в суммарном влиянии всех факторов можно оценить по величине дельта - коэффициентов D (j): где Прогнозирование с помощью модели множественной регрессии. Уравнение регрессии применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т. е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции. Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для того чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной Для линейной модели регрессии доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения от линии регрессии (обозначим ее U):.
Особенности практического применения регрессионных моделей. Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т. е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. Существует несколько способов для определения наличия или отсутствия мультиколлинеарности. Один из подходов заключается в анализе матрицы коэффициентов парной корреляции. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8. Другой подход состоит в исследовании матрицы Х'Х. Если определитель матрицы Х'Х близок к нулю, то это свидетельствует о наличии мультиколлинеарности. Для устранения или уменьшения мультиколлинеарности используется ряд методов. Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам. Самый простой из них (но не всегда самый эффективный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии. Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т. д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y. Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t - критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t - критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов. При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а Особым случаем мультиколлинеарности при использовании временных выборок является наличие в составе переменных линейных или нелинейных трендов. В этом случае рекомендуется сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам. Игнорирование наличия трендов в зависимой и независимой переменных ведет к завышению степени влияния независимых переменных на результирующий признак, что получило название ложной корреляции. Большим препятствием к применению регрессии является ограниченность исходной информации, при этом наряду с указанными выше затрудняющими обстоятельствами (мультиколлинеарность, зависимость остатков, небольшой объем выборки и т. п.) ценность информации может снижаться за счет ее «засоренности», т. е. проявления новых обстоятельств, которые ранее не были учтены. Резко отклоняющиеся наблюдения могут быть результатом действия большого числа сравнительно малых случайных факторов, которые в достаточно редких случаях приводят к большим отклонениям, либо это действительно случайные один или несколько выбросов, которые можно исключить как аномальные. Однако при наличии не менее трех аномальных отклонений на несколько десятков наблюдений приписывают это наличию одного или нескольких неучтенных факторов, которые проявляются только для аномальных наблюдений. Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам. Литература 1. Орлова И. В., Половников В. А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие – М.: Вузовский учебник, 2007. 2. Эконометрика: Учебник / Под ред. И. И.Елисеевой. - 2-е изд.; перераб. и доп. - М.: Финансы и статистика, 2005. - 576с. 3. Практикум по эконометрике: Учебное пособие / Под ред. Елисеевой И. И. - М.: Финансы и статистика, 2001,2002,2003,2004. - 192с 4. Орлова И. В. Экономико-математическое моделирование. Практическое пособие по решению задач / И. В. Орлова; ВЗФЭИ. - М.: Вузовский учебник, 2004. - 144с. 5. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 6. Орлов А. И. Эконометрика: Учеб. пособие для вузов – М.: «Экзамен», 2002. Компьютерные обучающие программы (Web-сайт ВЗФЭИ) КОПР3- Компьютерные обучающие программы для студентов 3-го курса: - Эконометрика (для специальностей 06.05, 06.04) Электронные материалы (Web-сайт ВЗФЭИ, сервер ВЗФЭИ) Образцы решения типовых задач. [1] Термин "регрессия" (regression (лат.) – отступление, возврат к чему-либо) ввел английский статистик Ф. Гальтон. Он исследовал влияние роста родителей и более отдаленных предков на рост детей. По его модели рост ребенка определяется наполовину родителями, на четверть – дедом с бабкой, на одну восьмую прадедом и прабабкой и т. д. Другими словами, такая модель характеризует движение назад по генеалогическому дереву. Ф. Гальтон назвал это явление регрессией как противоположное движению вперед – прогрессу. В настоящее время термин "регрессия" применяется в более широком плане – для описания статистической связи между случайными величинами.
|