⇐ Предыдущая 21 22 23 24 252627 28 29 30 Следующая ⇒

Пример построения модели

⇐ Предыдущая 21 22 23 24 252627 28 29 30 Следующая ⇒

Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в [7]. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию.

Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного).

COMPUTE v9_2 = v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2

/SAVE PRED MCIN ICIN.

*регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений.

В табл. 6.1 показано, что уравнение объясняет всего 4,5 % дисперсии зависимой переменной (коэффициент детерминации R ²=0,045), скорректированная величина коэффициента равна 0,042, а коэффициент множественной корреляции равен 0,211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно определить на основании табл. 6.2.

Таблица6. 1

Общие характеристики уравнения

R	R Square	Adjusted R Square	Std. Error of the Estimate
.211
.045	.042	.5277

a) Predictors: (Constant), V9_2, V9 Возраст

b) Dependent Variable: LNV14M логарифм промедианного дохода

Результаты дисперсионного анализа уравнения регрессии показывают, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.

Таблица6. 2

Дисперсионный анализ уравнения

	Sum of Squares	df	Mean Square	F	Sig.
Regression
8,484		4,242	15,232	,000
Residual
181,298		0,278
Total
189,782

Таблица6. 3

Коэффициенты регрессии

	Unstandardized Coefficients		Standardized Coefficients	T	Sig.
B	Std. Error	Beta
(Constant)	–1,0569	0,1888		–5,5992	0,0000
V9 Возраст	0,0505	0,0093	1,1406	5,4267	0,0000
V9_2	–0,0006	0,0001	–1,0829	–5,1521	0,0000

Регрессионные коэффициенты представлены в табл. 6.3. В соответствии с ними уравнение регрессии имеет вид

Лог. промед. дохода = –1,0569 + 0,0505 ´ возраст – 0,0006 ´ возраст².

Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения – t –статистики по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию – коэффициенты бета по абсолютной величине больше 1. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика.

Рис. 6.1 показывает линию регрессии и доверительные границы для M (y) – математического ожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной – прогнозом, с переменными – доверительными границами:

GRAPH /SCATTERPLOT(OVERLAY) = v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).

Границы для M (y)(матожидания y) значительно уже, чем для y, так как последние должны охватывать больше 95 % точек графика.

На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной – возраста. Некоторое суживание рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.

6.1.9. Можно ли в регрессии использовать неколичественные переменные?

Определенно можно сказать, что неколичественные переменные не могут быть использованы в качестве зависимой переменной y. Это было бы грубейшей ошибкой; в таком случае уравнением регрессии может быть предсказан, к примеру, пол, имеющий код 1,5, или 0,5 при общепринятой кодировке пола 1 – мужчины, 2 – женщины.

В качестве независимой переменной применяются индексные переменные (в англоязычной литературе dummy - variables).

Например, для семейного положения в данных Курильского обследования (женат, вдов, разведен, холост) стоит ввести три индикаторные переменные: t ₁, t ₂ и t ₃ для выделения женатых, вдовых и разведенных. Эти переменные будут равны, соответственно, 1 или 0, в зависимости от того, принадлежит или не принадлежит респондент к соответствующей группе.

Почему не 4, а 3 индексные переменные? Четвертая переменная определяется однозначно через первые три, поэтому введение ее вызвало бы коллинеарность, не позволяющую найти коэффициенты регрессии.

Ниже приведена программа, позволяющая изучить зависимость душевого дохода от возраста и семейного положения:

COMPUTE lnv14m = ln(v14/200).

COMPUTE t1 = (v11 = 1).

COMPUTE t2 = (v11 = 2).

COMPUTE t3 = (v11 = 3).

COMPUTE v9_2 = v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2 t1 t2 t3 /SAVE PRED.

График связи возраста (V9) с предсказанным уравнением логарифмом доходов (переменная pre_2) получается командой

GRAPH /SCATTERPLOT(BIVAR) = v9 WITH pre_2
/MISSING = LISTWISE

Он представляет собой 4 параболы (рис. 6.2). В соответствии с коэффициентами перед t1,t2 и t3 (см. табл. 6.4), эти параболы соответствуют - сверху вниз - группам холостяков, разведенных, женатых и вдовцов (парабола холостяков получается при t1=t2=t3=0).

Вероятно, полученное уравнение можно улучшить, исключив из него переменные с незначимыми коэффициентами. Поскольку индексные переменные должны быть в определенной степени взаимосвязаны, уровень наблюдаемой значимости может определяться здесь коллинеарностью, поэтому «ревизию» переменных нужно проводить осторожно, чтобы существенно не ухудшить полученного уравнения.

Из-за взаимосвязи переменных здесь нет возможности говорить о том, какая переменная больше влияет на зависимую переменную. Обратите внимание на довольно редкий эффект: b-коэффициенты для возраста и его квадрата по абсолютной величине больше 1!

Таблица6. 4

Коэффициенты регрессии с индексными переменными

	B	Std. Error	Beta	T	Sig.
(Constant)	–1,1721	0,1937		–6,0500	0,0000
V9 Возраст	0,0635	0,0105	1,4298	6,0299
V9_2	–0,0007	0,0001	–1,3243	–5,7351
T1 Женат	–0,2030	0,0766	–0,1540	–2,6488	0,0000
T2 Вдовец	–0,2471	0,1352	–0,0850	–1,8279	0,0000
T3 Разведен	–0,1494	0,1134	–0,0661	–1,3176	0,1881

Кроме того, модель с тремя «параллельными» параболами, вероятно, не полностью адекватна – каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. Вопросам их конструирования посвящен следующий раздел.

Дата добавления: 2015-08-30; просмотров: 369. Нарушение авторских прав; Мы поможем в написании вашей работы!

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при которых тело находится под действием заданной системы сил...

Меры безопасности при обращении с оружием и боеприпасами 64. Получение (сдача) оружия и боеприпасов для проведения стрельб осуществляется в установленном порядке[1]. 65. Безопасность при проведении стрельб обеспечивается...

Весы настольные циферблатные Весы настольные циферблатные РН-10Ц13 (рис.3.1) выпускаются с наибольшими пределами взвешивания 2...

Хронометражно-табличная методика определения суточного расхода энергии студента Цель: познакомиться с хронометражно-табличным методом определения суточного расхода энергии...

Мотивационная сфера личности, ее структура. Потребности и мотивы. Потребности и мотивы, их роль в организации деятельности...

Классификация ИС по признаку структурированности задач Так как основное назначение ИС – автоматизировать информационные процессы для решения определенных задач, то одна из основных классификаций – это классификация ИС по степени структурированности задач...

Внешняя политика России 1894- 1917 гг. Внешнюю политику Николая II и первый период его царствования определяли, по меньшей мере три важных фактора...