Построение линейной модели множественной регрессии
Линейная модель множественной регрессии имеет вид:
Это уравнение содержит неизвестные параметры Эти коэффициенты регрессии есть случайные величины, так как их значения оцениваются на основе выборочных наблюдений. Поэтому полученные расчетные параметры не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрессии, в которой вместо истинных значений параметров присутствуют их оценки (а именно такие модели регрессии и применяются на практике), в матричном виде запишем следующим образом:
где
Таким образом, имеем:
Для регрессионной модели, линейной относительно коэффициентов регрессии (или приведенной к указанному виду), коэффициенты регрессии удобно находить методом наименьших квадратов. После определения коэффициентов регрессии можно рассчитать разности фактических и теоретических значений результативного признака в каждом наблюдении Для рассматриваемой линейной модели
Величина Следует заметить, что если при построении регрессионной модели будем добавлять новые наблюдения, то величины Каждый коэффициент регрессии является случайной величиной, свойства которой зависят от свойств остаточного члена Для того чтобы регрессионный анализ, основанный на методе наименьших квадратов, давал наилучшие результаты, а использование критериев Стьюдента и Фишера при проверке статистической достоверности коэффициентов регрессии и уравнения регрессии было обосновано, необходимо выполнение некоторых предположений относительно поведения остатков Для регрессионных моделей, линейных относительно объясняющих переменных 1. Остаток
2. Дисперсия остатков одинакова для всех наблюдений, то есть
3. Остатки в разных наблюдениях не зависят друг от друга, то есть ковариация
4. Остаток и каждая объясняющая переменная в любом наблюдении не зависят друг от друга, то есть
где Ковариация определяется формулой Наряду с условиями Гаусса–Маркова предполагается нормальность распределения остатков. Если остатки Предположение о нормальном распределении остатков основывается на центральной предельной теореме, согласно которой, если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не является доминирующей, то приближенно она будет иметь нормальное распределение, даже если отдельные случайные составляющие не имеют нормального распределения. Случайный член Отметим, что если уравнение регрессии включает постоянный член Используя формулу
Второе условие известно как гомоскедастичность, что означает «одинаковый разброс». Третье условие предполагает отсутствие систематической связи между остатками в любых двух наблюдениях. Учитывая, что по первому условию
Поэтому третье условие можно записать в виде
Аналогично четвертое условие Гаусса–Маркова может быть записано следующим образом:
Если выполнены условия Гаусса–Маркова, то метод наименьших квадратов дает несмещенные, эффективные и состоятельные оценки коэффициентов регрессии Возвращаясь к линейной регрессионной модели, записанной в матричном виде, необходимо отметить, что столбцы матрицы Линейная модель, для которой выполняются условия 1 – 4 и остатки нормально распределены, называется классической нормальной моделью множественной регрессии. Если не выполняется только условие нормального распределения остатков, то модель называют классической линейной моделью множественной регрессии. С использованием имеющихся исходных статистических данных Здесь Т – символ транспонирования матрицы. В матричном виде решение множественного регрессионного анализа определяется соотношением:
Для конкретного Коэффициент регрессии Обычно предполагается, что случайная величина Одним из условий построения регрессионной модели является предположение о линейной независимости объясняющих переменных, то есть столбцы и строки матрицы исходных данных должны быть линейно независимы. Для экономических показателей это условие выполняется не всегда. Линейная или близкая к ней связь между факторами называется мультиколлинеарностью и приводит к линейной зависимости уравнений в системе алгебраических уравнений, что делает вычисление параметров либо невозможным, либо затрудняет содержательную интерпретацию параметров модели. Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из линейно связанных между собой факторов, причем тот, который в большей степени связан с зависимой переменной. В качестве критерия отсутствия мультиколлинеарности может быть принято соблюдение следующих неравенств: Если приведенные неравенства (или хотя бы одно из них) не выполняются, то в модель включают тот фактор, который наиболее тесно связан с
|