Пример построения модели
Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в [7]. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию. Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного). COMPUTE v9_2 = v9**2. *квадрат возраста. REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2 /SAVE PRED MCIN ICIN. *регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений. В табл. 6.1 показано, что уравнение объясняет всего 4,5 % дисперсии зависимой переменной (коэффициент детерминации R 2=0,045), скорректированная величина коэффициента равна 0,042, а коэффициент множественной корреляции равен 0,211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно определить на основании табл. 6.2. Таблица6. 1 Общие характеристики уравнения
b) Dependent Variable: LNV14M логарифм промедианного дохода
Результаты дисперсионного анализа уравнения регрессии показывают, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена. Таблица6. 2 Дисперсионный анализ уравнения
Коэффициенты регрессии
Регрессионные коэффициенты представлены в табл. 6.3. В соответствии с ними уравнение регрессии имеет вид Лог. промед. дохода = –1,0569 + 0,0505 ´ возраст – 0,0006 ´ возраст2. Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения – t –статистики по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию – коэффициенты бета по абсолютной величине больше 1. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика. Рис. 6.1 показывает линию регрессии и доверительные границы для M (y) – математического ожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной – прогнозом, с переменными – доверительными границами: GRAPH /SCATTERPLOT(OVERLAY) = v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR). Границы для M (y)(матожидания y) значительно уже, чем для y, так как последние должны охватывать больше 95 % точек графика. На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной – возраста. Некоторое суживание рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения. 6.1.9. Можно ли в регрессии использовать неколичественные переменные? Определенно можно сказать, что неколичественные переменные не могут быть использованы в качестве зависимой переменной y. Это было бы грубейшей ошибкой; в таком случае уравнением регрессии может быть предсказан, к примеру, пол, имеющий код 1,5, или 0,5 при общепринятой кодировке пола 1 – мужчины, 2 – женщины.
Например, для семейного положения в данных Курильского обследования (женат, вдов, разведен, холост) стоит ввести три индикаторные переменные: t 1, t 2 и t 3 для выделения женатых, вдовых и разведенных. Эти переменные будут равны, соответственно, 1 или 0, в зависимости от того, принадлежит или не принадлежит респондент к соответствующей группе. Почему не 4, а 3 индексные переменные? Четвертая переменная определяется однозначно через первые три, поэтому введение ее вызвало бы коллинеарность, не позволяющую найти коэффициенты регрессии. Ниже приведена программа, позволяющая изучить зависимость душевого дохода от возраста и семейного положения: COMPUTE lnv14m = ln(v14/200). COMPUTE t1 = (v11 = 1). COMPUTE t2 = (v11 = 2). COMPUTE t3 = (v11 = 3). COMPUTE v9_2 = v9**2. *квадрат возраста. REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2 t1 t2 t3 /SAVE PRED. График связи возраста (V9) с предсказанным уравнением логарифмом доходов (переменная pre_2) получается командой GRAPH /SCATTERPLOT(BIVAR) = v9 WITH pre_2
Вероятно, полученное уравнение можно улучшить, исключив из него переменные с незначимыми коэффициентами. Поскольку индексные переменные должны быть в определенной степени взаимосвязаны, уровень наблюдаемой значимости может определяться здесь коллинеарностью, поэтому «ревизию» переменных нужно проводить осторожно, чтобы существенно не ухудшить полученного уравнения. Из-за взаимосвязи переменных здесь нет возможности говорить о том, какая переменная больше влияет на зависимую переменную. Обратите внимание на довольно редкий эффект: b-коэффициенты для возраста и его квадрата по абсолютной величине больше 1! Таблица6. 4 Коэффициенты регрессии с индексными переменными
Кроме того, модель с тремя «параллельными» параболами, вероятно, не полностью адекватна – каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. Вопросам их конструирования посвящен следующий раздел. |
Дата добавления: 2015-08-30; просмотров: 369. Нарушение авторских прав; Мы поможем в написании вашей работы! |
|
|
|
|
Типы конфликтных личностей (Дж. Скотт) Дж. Г. Скотт опирается на типологию Р. М. Брансом, но дополняет её. Они убеждены в своей абсолютной правоте и хотят, чтобы...
|
Потенциометрия. Потенциометрическое определение рН растворов Потенциометрия - это электрохимический метод исследования и анализа веществ, основанный на зависимости равновесного электродного потенциала Е от активности (концентрации) определяемого вещества в исследуемом растворе...
|