Процедура последовательного присоединения элементов
Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных. Пусть - множественный коэффициент корреляции между зависимой переменной и набором объясняющих переменных . Он определяется как обычный парный коэффициент корреляции между и линейной функцией регрессии . Пусть - матрица обратная к матрице : (54) Тогда квадрат коэффициента может быть вычислен по формуле , (55) где - определитель матрицы . Подправленная на несмещенность оценка коэффициента детерминации имеет вид . (56) (Если по формуле (56) получают отрицательное число, то полагают ). Нижняя доверительная граница для определяется по формуле (57) На практике, при решении вопроса о том какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов. 1-й шаг . Выбирается наиболее информативная объясняющая переменная, которая максимизирует величину . При этом совпадает с квадратом обычного парного коэффициента корреляции . Пусть , тогда наиболее информативной будет переменная . Затем рассчитывают подправленный на несмещенность коэффициент и его нижнюю доверительную границу . 2-й шаг . Среди всевозможных пар объясняющих переменных выбирается та, которая максимизирует величину . Пусть , тогда наиболее информативной будет пара . Затем рассчитывают подправленный на несмещенность коэффициент и его нижнюю доверительную границу . Процедуру продолжают до тех пор, когда на шаге выполнится условие . (58) Тогда в модель включают наиболее информативные переменные, полученные на первых шагах. Отметим, что в расчетах используют формулы (56) и (57) в которых вместо берут соответствующее значение номера шага . Используют и другие методы устранения мультиколлинеарности. Рассмотрим пример 5. Имеются следующие условные данные (табл. 6). Таблица 6.
Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент = =0,602. Тогда , . Рассмотрим влияние на зависимую переменную пар переменных . Сначала рассмотрим влияние пары переменных . , . Затем рассмотрим влияние пары переменных . , . Таким образом, следует выбрать пару переменных . , . Рассмотрим влияние на зависимую переменную трех переменных . , , , . Таким образом, следуя рекомендациям метода последовательного присоединения переменных, в уравнение следует включить все три объясняющие переменные. Однако , поэтому введение в уравнение третьей переменной почти не изменяет коэффициента детерминации. Кроме того, переменные сильно коррелируют друг с другом, поэтому следует предпочесть модель .
|