Студопедия — Пример построения модели
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника







Пример построения модели






Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в [7]. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию.

Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного).

COMPUTE v9_2 = v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2

/SAVE PRED MCIN ICIN.

*регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений.

В табл. 6.1 показано, что уравнение объясняет всего 4,5 % дисперсии зависимой переменной (коэффициент детерминации R 2=0,045), скорректированная величина коэффициента равна 0,042, а коэффициент множественной корреляции равен 0,211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно определить на основании табл. 6.2.

Таблица6. 1

Общие характеристики уравнения

 

 

R R Square Adjusted R Square Std. Error of the Estimate
.211
.045 .042 .5277
a) Predictors: (Constant), V9_2, V9 Возраст

b) Dependent Variable: LNV14M логарифм промедианного дохода

 

Результаты дисперсионного анализа уравнения регрессии показывают, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.

Таблица6. 2

Дисперсионный анализ уравнения

 

 

 

 

  Sum of Squares df Mean Square F Sig.
Regression
8,484   4,242 15,232 ,000
Residual
181,298   0,278    
Total
189,782        
Таблица6. 3

Коэффициенты регрессии

  Unstandardized Coefficients   Standardized Coefficients T Sig.
B Std. Error Beta
(Constant) –1,0569 0,1888   –5,5992 0,0000
V9 Возраст 0,0505 0,0093 1,1406 5,4267 0,0000
V9_2 –0,0006 0,0001 –1,0829 –5,1521 0,0000

Регрессионные коэффициенты представлены в табл. 6.3. В соответствии с ними уравнение регрессии имеет вид

Лог. промед. дохода = –1,0569 + 0,0505 ´ возраст – 0,0006 ´ возраст2.

Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения – t –статистики по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию – коэффициенты бета по абсолютной величине больше 1. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика.

Рис. 6.1 показывает линию регрессии и доверительные границы для M (y) – математического ожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной – прогнозом, с переменными – доверительными границами:

GRAPH /SCATTERPLOT(OVERLAY) = v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).

Границы для M (y)(матожидания y) значительно уже, чем для y, так как последние должны охватывать больше 95 % точек графика.

На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной – возраста. Некоторое суживание рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.

6.1.9. Можно ли в регрессии использовать неколичественные переменные?

Определенно можно сказать, что неколичественные переменные не могут быть использованы в качестве зависимой переменной y. Это было бы грубейшей ошибкой; в таком случае уравнением регрессии может быть предсказан, к примеру, пол, имеющий код 1,5, или 0,5 при общепринятой кодировке пола 1 – мужчины, 2 – женщины.

В качестве независимой переменной применяются индексные переменные (в англоязычной литературе dummy - variables).

Например, для семейного положения в данных Курильского обследования (женат, вдов, разведен, холост) стоит ввести три индикаторные переменные: t 1, t 2 и t 3 для выделения женатых, вдовых и разведенных. Эти переменные будут равны, соответственно, 1 или 0, в зависимости от того, принадлежит или не принадлежит респондент к соответствующей группе.

Почему не 4, а 3 индексные переменные? Четвертая переменная определяется однозначно через первые три, поэтому введение ее вызвало бы коллинеарность, не позволяющую найти коэффициенты регрессии.

Ниже приведена программа, позволяющая изучить зависимость душевого дохода от возраста и семейного положения:

COMPUTE lnv14m = ln(v14/200).

COMPUTE t1 = (v11 = 1).

COMPUTE t2 = (v11 = 2).

COMPUTE t3 = (v11 = 3).

COMPUTE v9_2 = v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2 t1 t2 t3 /SAVE PRED.

График связи возраста (V9) с предсказанным уравнением логарифмом доходов (переменная pre_2) получается командой

GRAPH /SCATTERPLOT(BIVAR) = v9 WITH pre_2
/MISSING = LISTWISE

Он представляет собой 4 параболы (рис. 6.2). В соответствии с коэффициентами перед t1,t2 и t3 (см. табл. 6.4), эти параболы соответствуют - сверху вниз - группам холостяков, разведенных, женатых и вдовцов (парабола холостяков получается при t1=t2=t3=0).

 

Вероятно, полученное уравнение можно улучшить, исключив из него переменные с незначимыми коэффициентами. Поскольку индексные переменные должны быть в определенной степени взаимосвязаны, уровень наблюдаемой значимости может определяться здесь коллинеарностью, поэтому «ревизию» переменных нужно проводить осторожно, чтобы существенно не ухудшить полученного уравнения.

Из-за взаимосвязи переменных здесь нет возможности говорить о том, какая переменная больше влияет на зависимую переменную. Обратите внимание на довольно редкий эффект: b-коэффициенты для возраста и его квадрата по абсолютной величине больше 1!

Таблица6. 4

Коэффициенты регрессии с индексными переменными

  B Std. Error Beta T Sig.
(Constant) –1,1721 0,1937   –6,0500 0,0000
V9 Возраст 0,0635 0,0105 1,4298 6,0299  
V9_2 –0,0007 0,0001 –1,3243 –5,7351  
T1 Женат –0,2030 0,0766 –0,1540 –2,6488 0,0000
T2 Вдовец –0,2471 0,1352 –0,0850 –1,8279 0,0000
T3 Разведен –0,1494 0,1134 –0,0661 –1,3176 0,1881

Кроме того, модель с тремя «параллельными» параболами, вероятно, не полностью адекватна – каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. Вопросам их конструирования посвящен следующий раздел.

Дата добавления: 2015-08-30; просмотров: 336. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Пункты решения командира взвода на организацию боя. уяснение полученной задачи; оценка обстановки; принятие решения; проведение рекогносцировки; отдача боевого приказа; организация взаимодействия...

Что такое пропорции? Это соотношение частей целого между собой. Что может являться частями в образе или в луке...

Растягивание костей и хрящей. Данные способы применимы в случае закрытых зон роста. Врачи-хирурги выяснили...

Этические проблемы проведения экспериментов на человеке и животных В настоящее время четко определены новые подходы и требования к биомедицинским исследованиям...

Классификация потерь населения в очагах поражения в военное время Ядерное, химическое и бактериологическое (биологическое) оружие является оружием массового поражения...

Факторы, влияющие на степень электролитической диссоциации Степень диссоциации зависит от природы электролита и растворителя, концентрации раствора, температуры, присутствия одноименного иона и других факторов...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия