Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Виды дисперсионного анализа





 

ствах массовой информации и др.) на число посетителей в кинотеатре?

Пример постановки вопроса двухфакторного дисперсионного анализа (см. табл. 1.3): влияет ли регион и тип упаковки на объем продаж определенного товара?

Пример постановки вопроса многомерного дисперсионного анализа: влияют ли регион и тип упаковки на объем продаж и число жалоб потребителей определенного товара?

В основе техники проведения дисперсионного анализа лежит сравнение средних величин в разных группах. Например, для того чтобы определить, влияет ли пол студента на успеваемость, необходимо сравнить среднюю успеваемость юношей и девушек. Если средняя успеваемость девушек отличается от средней успеваемости юношей, то можно утверждать, что пол студента влияет на успеваемость, и наоборот.

Приведенный пример сравнения средних величин в двух группах (юношей и девушек) осуществляется при помощи Т-теста. Т-тест является частным случаем дисперсионного анализа, в ходе которого осуществляется сравнение средних величин в нескольких группах.

Свое название дисперсионный анализ получил благодаря одному из условий сравнения средних величин в разных группах: дисперсии исследуемых величин в разных группах должны быть равны.

Дисперсия — показатель, характеризующий рассеяние значений количественного признака вокруг своего среднего значения. Подробно техника сравнения средних величин будет рассмотрена в главе 3 «Сравнение средних величин в SPSS».

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Чем обусловливается необходимость использования статистической выборки при проведении масштабных маркетинговых исследований?

2. В чем заключается основное требование, предъявляемое к статистической выборке?

3. Назовите основные методы формирования статистической выборки, их достоинства и недостатки.

4. Какие виды статистической выборки отличаются наиболее высокой степенью репрезентативности и почему?

5. Назовите основные задачи, решаемые в ходе формирования статистической выборки.

6. Назовите основные методы статистического анализа, применяемые в маркетинговых исследованиях, и их виды.

7. Назовите методы статистического анализа, при помощи которых можно найти ответы на следующие вопросы:

а) влияет ли цвет упаковки товара и место его расположения в торговом зале на объем продаж;

б) возможно ли разделить постоянных клиентов магазина на группы, используя в качестве критериев разделения объемы совершаемых покупок и частоту посещения магазина;

в) насколько увеличится объем продаж товара при увеличении расходов на рекламу на 10% при условии постоянства цены на данный товар;

г) по каким социально-демографическим признакам отличаются люди, приобретающие и не приобретающие товар X.


2. ФОРМИРОВАНИЕ ИСХОДНОЙ БАЗЫ ДАННЫХ ВSPSS

2.1. СТРУКТУРА РЕДАКТОРА ДАННЫХ

Файл исходной базы данных для проведения статистического анализа в SPSS формируется в редакторе данных (Data Editor). Редактор данных имеет две вкладки: «Свойства переменных» (Variable View) и «Значения переменных» (Date View). Данные вкладки представляют собой таблицы, содержащие информацию о данных, собранных для проведения анализа.

Во вкладке «Variable View» представлена таблица с данными, описывающими свойства переменных. Каждая строка отображает переменную (вопрос анкеты), каждый столбец — ее свойства (рис. 2.1).

В столбце «Name» таблицы «Свойства переменных» указывается имя переменной — как правило, это номер вопроса в анкете. Например, в базе данных, представленной в табл. 2.1, переменная «пол» имеет название «s_l», поскольку в разделе анкеты «социально-демографические признаки» вопрос о поле респондента находился на первом месте.

Имена переменных могут содержать буквы латинского алфавита и цифры, а также некоторые символы: $, #. В сумме число знаков не должно превышать «8». Не допускаются пробелы и буквы других алфавитов. Имя переменной должно начинаться с буквы и не может заканчиваться знаком подчеркивания «__».

В столбце «Туре» таблицы «Свойства переменных» указывается тип переменной; новые, созданные, переменные по умолчанию являются числовыми (Numeric). Если требуется изменить тип переменной, следует подвести курсор в соответствующую ячейку таблицы, и при нажатии кнопки мыши на экране появится диалоговое окно «Тип переменной» (Van ible Type) (рис. 2.2).


Рис. 2.1. Редактор данных: вкладка «Свойства переменных» (Variable View)


Рис. 2.2. Диалоговое окно «Тип переменной»

 

В диалоговом окне «Тип переменной» возможен выбор формата записи значений переменной:

Comma (например: 43,675.67);

Dot (например: 43.675,67);

Scientific notation (например: 43Е+0,4);

Dollar (например: $43,675).

Аналогичным образом можно выбрать текстовую переменную (Stri ig). Однако применение текстовых переменных в SPSS практически невозможно, поскольку с ними нельзя производить никаких арифметических операций и рассчитывать какие-либо статистические показатели.

В поле «Width» диалогового окна «Тип переменной» (см. рис. 2.2) указывается число знаков, используемых для кодировки переменной. Например, для кодировки переменной «пол» используется только один знак («1» — «мужчины» или «2» — «женщины»).

Число знаков, используемых для кодировки переменной, можно также указать в столбце «Width» («Формат столбца») таблицы «Свойства переменных» (см. табл. 2.1).

В поле «Decimal Places» диалогового окна «Тип переменной» указывается число знаков после запятой при записи значений переменной. Например, для переменной «пол» в поле «Decimal Places» указывается значение 0. Ответы респондентов в данном случае заносятся в базу данных в виде целых чисел («1» — «мужчины» или «2» — «женщины»).

Число знаков после запятой при записи значений переменной можно также указать в столбце «Decimals» («Десятичные разряды») таблицы «Свойства переменных».

В столбце «Label» таблицы «Свойства переменных» указываются метки переменных. Метка — название, позволяющее описать переменную более подробно, чем имя переменной, она может содержать до 256 символов. В качестве этих символов могут выступагь также буквы русского алфавита.

При задании меток переменных часто используются формулировки вопросов, содержащихся в анкете. Например, в качестве метки переменной «пол» в редакторе данных может быть введена фраза: «Укажите, пожалуйста, свой пол». Однако следует помнить, что метка переменной будет отображаться во всех графиках и таблицах, представляющих результаты статистического анализа. Поэтому рекомендуется использовать более лаконичные метки для наглядности представления результатов анализа.

В столбце «Values» таблицы «Свойства переменных» (см. рис. 2.1) отображаются значения меток переменных. Если в поле «Label» указывается вопрос анкеты, то в поле «Values» указываются коды возможных вариантов ответа на этот вопрос.

Для заполнения поля «Values» необходимо произвести кодировку вариантов отьета. При подведении курсора к соответствующей ячейке таблицы и нажатии клавиши мыши на экране компьютера появляется диалоговое окно «Значение меток переменных» (Value Labels) (рис. 2.3). В диалоговом окне «Значение меток переменных» в поле «Value» указываются числовые коды вариантов ответа, а в поле « Value Label» — их вербальные форму- лировки.

При задании вербальных формулировок следует учитывать, что они будут фигурировать впоследствии в графиках и анапити-

 

ческих таблицах. Например, ответ на вопрос о половой принадлежности респондента должен быть не «мужской» («женский»), а «мужчины» («женщины»).

Процедура кодировки производится поэтапно по каждому варианту ответа. В рассматриваемом примере кодировки переменной «пол», сначала в поле «Value» указывается числовой код «1», а в поле «Value Label» — вербальный вариант ответа «мужчины». После нажатия кнопки «Ada» эти данные переносятся в большое поле диалогового окна «Значение меток переменных». Затем подобным образом кодируется вариант ответа «женщины». После нажатия кнопки «ОК» диалоговое окно «Значение меток переменных» закрывается, а указанные в нем данные заносятся в столбец « Values» таблицы «Свойства переменных».

В столбце «Missing»(«Пропущенные значения») рис. 2.1 «Свойства переменных» следует указать, какие коды вариантов ответов следует исключить из анализа.

В SPSS допускаются два вида пропущенных значений:

• Пропущенные значения, определяемые системой (System- defined m»ssirig values). Если в матрице данных есть незаполненные ячейки, система SPSS самостоятельно идент ифицирует их как пропущенные значения. Отсутствие ответа отражается в исходном файле данных в виде запятой.

• Пропущенные ответы, задаваемые пользователем (User-defined missing values). Например, среди вариантов ответа на поставленный вопрос можно закодировать отсутствие определенного ответа («98» — «не знаю», «99» — «нет данных») и затем в поле «Ми и ig» указать эти коды, чтобы исключить соответствующие варианты ответа из анализируемых данных.

При подведении курсора к соответствующей ячейке столбца «Мissing» и нажатии кнопки мыши открывается диалоговое окно «Пропущенные значения» (рис. 2.4).

По умолчанию в диалоговом окне «Пропущенные значения» отмечается команда «No missing values». Это означает, что пропущенных значений нет, а все варианты ответа на вопрос рассматриваются как допустимые.

Если бы нужно было указать коды вариантов ответа, исключаемых из процедуры анализа, то следовало бы выбрать команду «Discrete missing values» и в соответствующих ячейках указать коды «98» и «99» («98» — «не знаю», «99» — «нет данных»). Для одной переменной можно задать до трех пропущенных значений.


 

Существует еще один вариант задания пропущенных значений: «Range plus one optional discrete missing value» («Диапазон плюс единичное пропущенное значение»). Эта команда применялась бы в случае, если бы, например, при заданных значениях переменной «возраст» нужно было бы исключить из исследований респондентов от 20 до 40 лет, а также лиц в возрасте 55 лет.

В рассматриваемом примере описания свойств переменной «пол» достаточно сложно представить, чтобы кто-то из респондентов затруднился ответить или не захотел отвечать на вопрос о своей половой принадлежности. Поэтому в поле «Missing» таблицы «Свойства переменных» отсутствуют какие-либо коды вариантов ответа.

В столбце «Columns»(«Столбцы») таблицы «Свойства переменных» указывается ширина столбца, содержащего значения соответствующей переменной в таблице другой вкладки редактора данных: «Значения переменных» (Date View) (рис. 2.5). По умолчанию ширина столбца задается «8».

В столбце «Alignment» («Выравнивание») таблицы «Свойства переменных» задается положение кодов ответов в таблице «Значения переменных» во вкладке редактора данных «Date View». Они могут быть выровнены по правому краю (Right), по левому краю (Left) или по центру (Center). По умолчанию задается выравнивание по правому краю. Если нужно изменить порядок выравнивания, то следует подвести курсор к соответствующей ячейке столбца «Alignment», и при нажатии клавиши мыши на экране появится меню, содержащее три вышеперечисленных варианта выравнивания данных, из которых следует выбрать желаемый.


Рис. 2.5. Редактор данных: вкладка ^Значения переменных» (Data View)


В столбце «Measure» («Шкала измерения») таблицы «Свойства переменных» указывается тип шкалы, по которой измеряется переменная. По умолчанию задается метрическая шкала (Scale). В случае необходимости тип шкалы можно изменить. Для этого следует подвести курсор в соответствующую ячейку столбца «Measure» и нажать клавишу мыши, после чего на экране появится меню из трех типов шкалы измерения (рис. 2.6).


 

В зависимости от вида переменной следует выбрать один из трех типов шкалы измерения: метрическую (Scale), порядковую (Ordinal) или номинальную (Nominal). Поскольку переменная «пол» измеряется по номинальной шкале, то при заполнении таблицы «Свойства переменных» в строке этой переменной в столбце «Measure» выбирается тип шкалы измерения «Nominal». (Более подробно этот вопрос будет рассмотрен в подразделе 2.3 «Типы шкал измерения переменных».) После того как заполнена таблица «Свойства переменных» во вкладке редактора данных «Variable View», следует открыть другую вкладку редактора данных — «Date View».

Во вкладке редактора данных «Date View» представлена таблица с данными, описывающими значения переменных. Каждый столбец отображает переменную (вопрос анкеты), каждая строка — отдельное наблюдение (объект сбора информации) (см. рис. 2.5). В качестве объектов сбора информации могут выступать люди, предприятия, продукты, бренды и т.д.

На рис. 2.5 представлен фрагмент таблицы, содержащей значения переменных, описанных в таблице «Свойства переменных».

Из данных таблицы «Свойства переменных» (см. табл. 2.1) известно, что переменная с именем «s_l» имеет метку «Пол». Метка переменной «пол» имеет два значения: «мужчины» (код «1») и женщины (код «2»). В столбце «s _1» таблицы «Значения переменных» (см. рис. 2.5) содержатся закодированные ответы респондентов на вопрос об их половой принадлежности: «1» или «2». Так, по данным этой таблицы известно, что респондент в строке 1143 — мужчина, а респондент в строке 1144 — женщина.

Из данных таблицы «Свойства переменных» также известно, что переменная с именем «s _1а» имеет метку «Возраст». Эта переменная не имеет кодировки (в столбце «Values» отсутствуют значения меток переменных). В столбце «s ,1а» таблицы «Значения переменных» содержатся незакодированные ответы респондентов на вопрос об их возрасте. Так, по данным этой таблицы известно, что респондент в строке 1143 — мужчина в возрасте 31 года, а респондент в строке 1144 — женщина в возрасте 33 лет.

2.2. ВИДЫ КОДИРОВКИ

В SPSS существует два основных вида кодировки данных: категориальная и дихотомическая. Категориальная кодировка предполагает несколько вариантов ответа на поставленный вопрос, т.е. метка переменной может принимать несколько значений. Дихотомическая кодировка предполагает только два варианта ответа на поставленный вопрос, т.е. метка переменной может принимать только два значения («да» или «нет»).

Вид кодировки переменных определяется типом вопроса анкеты. Вопросы бывают открытые (без заданных вариантов ответа) и закрытые (с заданными вариантами ответа). Закрытые вопросы, в свою очередь, бывают одновариантные (альтернативные) и многовариантные (безальтернативные).

Одновариантные (альтернативные) вопросы предполагают возможность выбора только одного из предложенных вариантов ответа. Многовариантные (безальтернативные) вопросы предоставляют возможность выбрать несколько из предложенных вариантов ответа.

Основное правило создания исходного файла данных в SPSS состоит в том, что создаваемые переменные должны быть однова- риантными, т.е. одна переменная должна иметь одну метку. В этой связи при занесении в файл SPSS данных по ответам на один многовариантный вопрос создается несколько однояариантных переменных.

При занесении в файл SPSS данных по одновариантному вопросу создается одна пепеменная, имеющая одну метку. Метка создаваемой переменной может иметь несколько значений. В этом случае применяется категориальная кодировка данных (табл. 2.1).

 

При использовании категориальной кодировки данных все респонденты, участвующие в исследовании, могут быть поделены на категории относительно выбранного ими варианта ответа. Например, относительно приобретаемого продукта все респонденты могут быть поделены на три категории: «приобретающие продукт Л», «приобретающие продукт В» и «приобретающие продукт С».

При занесении в файл UPSS данных по многовариантному вопросу создается несколько переменных, каждая переменная имеет свою метку. Метки создаваемых переменных могут иметь только два значения. В этом случае применяется дихотомическая кодировка данных (табл. 2.2).

 

В рис. 2.7 и 2.8 представлены фрагменты вкладок редактора данных «Variable View» и «Data View», которые иллюстрируют представление в исходном файле данных SPSS одного многовариантного вопроса в виде нескольких одновариантных переменных.

 

В рассматриваемом примере (см. рис. 2.7,2.8) представлены данные о туристах, отдыхающих в курортной зоне Восточной Баварии «Баварский лес». Эти данные содержат ответы на вопрос анкеты № 33: «Каким спортом Вы занимаетесь на отдыхе?» В качестве возможных вариантов ответа на этот вопрос предлагаются 14 видов спортивных занятий, наиболее популярных в Восточной Баварии: «туристические походы», «велосипедный спорт», «плавание в природных водоемах», «плавание в бассейне» и т.д. Респонденты могут выбрать несколько из предлагаемых вариантов ответов.

Как видно из данных, представленных в табл. 2.S, вопрос анкеты № 33 представлен в файле данных SPSS в виде 14 одновари- антных переменных с именами «q_33_l», «q_33 2» ... «q_33_14». Каждая переменная имеет собственную метку, обозначающую вид спортивного занятия: «Походы», «Велосипедный спорт» ... «Ролики». Все 14 переменных имеют дихотомическую кодировку ответов.

Каждая мегха переменной имеет четыре значения (см. рис. 2.7). два их которых («98» — «не знаю», «99» — «нет данных») исключа

 

ются. Коды этих значений меток переменных указаны в столбце «Missing» как пропущенные данные. Значимыми для проведения исследования являются только два варианта ответа: «да» и «нет», которые указывают на то, занимается ли респондент соответствующим видом спорта.

По данным фрагмента вкладки редактора данных «Data View», представленного на рис. 2.8, респондент в строке 793 совершает туристические походы, плавает только в бассейне и делает пробежки, поскольку переменные «q_33__l», «q_334» и «q_33_8» имеют положительный ответ («1» — «да»).

Среди закодированных вариантов ответов встречаются цифры «98» и «99». Они обозначают, что респондент затруднился или не захотел отвечать на поставленный вопрос (см. рис. 2.8). Этим данным присваивается значение «user missing». Они исключаются из исследований по заданным условиям (столбец «Missing», рис. 2.7).

Некоторые ячейки таблицы, представленной на рис. 2.8, оказались пустыми. Данным вариантам ответа присваивается значение «system missing». Это данные, которые должны были присутствовать, но их не оказалось в базе данных в связи с причинами случайного характера. Такие данные автоматически исключаются из исследований.

Обобщая вышеизложенное, следует еще раз отметить, что многовариантные вопросы представляются в файле данных SPSS в виде нескольких переменных, каждая из которых представляет собой возможный вариант ответа. Однако возможны случаи, когда одновариантный вопрос представляется в виде двух переменных в файле данных SPSS. Такое возможно в случае применения так называемой двойной записи.

Применение двойной записи проиллюстрировано на рис. 2.9 и 2.10. В этих таблицах представлены фрагменты файла данных SPSS, содержащего информацию о туристах, отдыхающих в курортной зоне Восточной Баварии «Баварский лес». Ряд вопросов анкеты представлен в файле данных в виде двух переменных:

• Вопрос № 45: «Какую сумму Вы тратите в целом на отдых?»

• Вопрос № 46: «Какую сумму Вы тратите на крупные покупки одежда, обувь, спортивный инвентарь и т.п.) во время отдыха?»

• Вопрос № 47: «Какую сумму Вы тратите на проживание в гостинице/пансионе (включая обслуживание) во время отдыха?»

• Вопрос № 48: «Какую сумму Вы тратите на питание (посещение кафе и ресторанов, покупки продуктов в магазине) во время отдыха?»

Вопрос анкеты № 45 представлен в файле данных в виде двух переменных с именами «q_45_l» и «q_45_2» (см. рис. 2.9). Обе переменные имеют одинаковую метку «Общие расходы на отдых». Переменная с именем «q_4f _1» имеет три значения метки

 

 

переменной: «1» — «сумма в евро», «98» — «не знаю», «99» — нет данных. Переменная с именем «q_45_2» не имеет значений метки переменной (в столбце «Label» стоит отметка «None») (см. рис. 2.7).

На рис. 2.10 представлен фрагмент файла данных SPSS во вкладке редакгора данных «Data View». В столбцах таблицы «Значения переменных» (Data View) представлены ответы респондентов на вопросы анкеты № 45, 46, 47 и 48. Например, если в определенной строке в столбце «q_45_1» стоит числовой код «1», это означает, что респондент назвал определенную сумму, которую он тратит на проведение отдыха. В этой же строке в столбце «q_45_2» указывается названная сумма.

Двойная запись данных применяется в том случае, если необходима обработка очень большого объема информации. В рассматриваемом примере исходный файл данных SPSS был создан на базе проведения опроса туристов, отдыхающих в курортной зоне «Баварский лес», в ходе которого было опрошено 6396 респондентов. Каждый из респондентов в качестве ответа о размерах своих расходов во время проведения отпуска мог назвать шестизначное число (см рис. 2.9: в столбце «Width» отметка «6»).

Порядок кодировки переменных определяется типом шкалы их измерения. Типы шкал измерения переменных подробно рассматриваются в следующем разделе.

2.3. ТИПЫ ШКАЛ ИЗМЕРЕНИЯ ПЕРЕМЕННЫХ

Для работы с данными в SPSS важно знать, по шкале какого типа измеряются исследуемые переменные. Это необходимо для выбора метода анализа данных и определения возможности расчета статистических показателей (табл. 2.3).

Существует четыре типа шкал измерения переменных:

1. Номинальная шкала.

2. Порядковая шкала.

3. Интервальная шкала.

Примеры переменных, измеряемых по шкалам разных типов

4. Относительная шкала.

Таблица 2.3
Шкала Переменная Значения переменной
Номинальная Пол (дихотомическая переменная) • «1» = мужской • «2» = женский
Производитель продукта «X» • «1» = производитель А • «2» производитель В • «3» производитель С
Порядковая Класс полета • «1» = первый класс • «2» = бизнес-класс • «3» =эконом-класс
Категории потребителей по уровню дохода • «1» = до 1000 евро • «2» = от 1001 до 3000 евро • «3» = свыше 3000 евро
Интервальная Коэффициент интеллекта (IQ) ...«120»...
Относительная Уровень дохода ... «2100» евро...

 

Номинальная шкала характеризуется самым низким уровнем измерения переменных. Все значения переменной, измеряемой по номинальной шкале, находятся на одном уровне. По этой шкале измеряются, как правило, качественные характеристики объекта исследования. Между значениями переменной, измеряемой по номинальной шкале, не существует логического порядка. Например, в качестве ответа на вопрос анкеты: «Какого производителя продукта «X» вы предпочитаете?» — может быть предложено несколько вариантов: «Производитель А», «Производитель В», «Производитель С» и т.д. В этом случае, с точки зрения исследователей, все предложенные производители являются равнозначными. Числовые коды («1», «2», «3»...) могут присваиваться значениям метки переменной в любом порядке.

Переменные, измеряемые по номинальной шкале и имеющие всего два значения (например, «мужчины» и «женщины»), называются дихотомическими.

Порядковая шкала является второй по уровню измерения переменных. Значения переменной, измеряемой по порядковой шкале, не являются равнозначными, они находятся на равных уровнях по отношению друг к другу и подчиняются логическому числовому порядку.

Порядковая шкала характеризуется низким уровнем измерения переменных, поскольку является шкалой с неравными интервальными отрезками. Совершенно четко можно утверждать, что уровень обслуживания авиапассажиров первого класса выше, чем бизнес-класса, но насколько именно, неизвестно. Также разница в обслуживании между первым и бизнес-клас- сом, между бизнес- и эконом-классом может быть различной (см. табл. 2.3).

Низкий уровень измерения переменных по порядковой шкале можно проиллюстрировать на примере переменной «Категории потребителей по уровню дохода». Потребители примерно с одинаковым уровнем дохода (например, 950 и 1050 евро) оказываются в разных категориях, а потребители с существенной разницей по уровню дохода (например, 1050 и 2950 евро) оказываются в одной категории.

Интервальная шкала является третьей по уровню измерения переменных. В отличие от порядковой шкалы она является шкалой с равными интервальными отрезками. Это позволяет осуществлять количественное сравнение значений переменной, т.е. можно определить, насколько одно значение больше или меньше (лучше или хуже, длиннее или короче и т.д.) другого.

Характерной чертой интервальной шкалы является отсутствие «естественного нуля», т.е. исходная точка измерения является относительной. Примерами интервальной шкалы являются шкала Цельсия и календарь. По шкале Цельсия за «0» принята температура замерзания воды, однако за «0» можно было принять любую другую температуру. Существуют также различные календари с одинаковым количеством дней в году, но разным временем начала года.

В маркетинговых исследованиях очень часто используется рейтинговая шкала, когда респондентам предлагается оценить по балльной шкале (например, от 1 до 7 баллов) утверждение, продукт, бренд и т.п. Строго говоря, рейтинговая шкала является порядковой, поскольку балльные оценки субъективны. Одинаковые балльные оценки в действительности отображают разный уровень измеряемой переменной. Например, студенты, получившие одинаковые оценки на экзамене, в действительности могут иметь разный уровень знаний.

Очень часто при проведении исследований шкала бапльных оценок рассматривается как интервальная. В основе этого лежит предположение, что интервальные отрезки шкалы балльных оценок одинаковы. Это дает возможность рассчитать соеднее значение переменной (например, средний балл успеваемости студентов). Расчет средней величины (среднеарифметической) для показателя, измеряемого по порядковой шкале, невозможен. Например, не существует показателя «средний класс» полета (см. табл. 2.3).

Относительная шкала характеризуется самым высоким уровнем измерения переменных. Ее основное отличие от интервальной шкалы заключается в существовании «естественного нуля», который можно интерпретировать как отсутствие значения переменной. Например, если заработная плата равна нулю, это значит, что ее не выплачивают.

По относительной шкале измеряются количественные характеристики. Это могут быть как физические характеристики (объем, вес, скорость и пр.), так и экономические характеристики (доход, издержки, цена и пр.).

Относительная шкала получила свое название благодаря возможности сравнения значений переменной по отношению друг к другу, что невозможно при использовании интервальной шкалы измерения. Например, нельзя сказать, что человек, у которого коэффициент интеллекта (iQ) равен 160, в два раза умнее человека у которого этот показатель составляет 80. Но можно сказать, что заработная плата 1000 евро в два раза больше заработной платы 2000 евро.

При выборе типа шкалы измерения переменных в SPSS (столбец «Measure» во вкладке редактора данных «Variable View») интервальная шкала и шкала отношений объединяются в один вид — метрическую шкалу (Scale).

При построении в SPSS интерактивных графиков номинальная (Nominal) и порядковая (Ordinal) шкалы объединяются в «категориальный» тип (табл. 2.4).

Таблица 2.4
Шкала Характеристики
Категориаль-ная Номинальная {Nominal) Служит для классификации качественных показателей. Все значения измеряемой переменной равнозначны
Порядковая (Ordinal) Служит для построения значений измеряемой переменной в определенной последовательности. Шкала с неравными интервальными отрезками
Метрическая (Scale) Интервальная Шкала с равными интервальными отрезками и условной точкой отсчета
Относительная Шкала с равными интервальными отрезками и безусловной точкой отсчета

 

Чем выше уровень измерения переменной, тем богаче ее информационная содержательность и тем больше возможностей осуществления расчетов и определения статистических показателей.

Числовые коды («1», «2», «3»...) значений метки переменной, измеряемой по номинальной или порядковой шкале, не могут рассматриваться как числа, они представляют собой лишь некие числовые символы. Поскольку они не являются числами, с ними нельзя производить никаких арифметических операций (сложение, вычитание, деление, умножение).

Что касается статистических показателей, характеризующих распределение величины, измеряемой по номинальной шкале, можно провести частотный анализ (Frequencies) и определить моду (Mode). Частоты показывают, например, сколько респондентов предпочитают того или иного производителя продукта «Л». Мода обозначает самую многочисленную группу респондентов, предпочитающих определенного производителя продукта «Л».

Для переменных, измеряемых по порядковой шкале, кроме вышеуказанных статистических показателей можно определить медиану и средневзвешенное. Значения меток переменной, измеряемой по интервальной шкале, рассматриваются как числа. С ними можно производить такие арифметические операции, как сложение и вычитание.

Что касается возможности расчета статистических показателей, характеризующих распределение переменной, измеряемой по интервальной шкале, кроме моды и медианы можно также определить стандартное отклонение (Std. deviation) и среднеарифметическое (Mean). (Средневзвешенное значение переменных с интервальной шкалой равно среднему арифметическому.)

При расчете статистических показателей, характеризующих распределение переменной, измеряемой по интервальной шкале, не рассчитывается такой показатель, как сумма (Sum). Например, не рассчитывается «суммарный коэффициент интеллекта» для группы студентов, такого показателя не существует.

Значения меток переменной, измеряемой по шкале отношений, выражаются в числах, с ними можно производить любые арифметические операции. Также можно определять любые статистические показатели, характеризующие распределение переменной.

Возможна трансформация имеющихся данных, измеряемых по шкале более высокого уровня, в данные, измеряемые по шкале более низкого уровня, но не наоборот. Например, значения переменной «Уровень дохода», измеряемой по относительной шкале, можно трансформировать в значения переменной «Категории потребителей по уровню дохода», измеряемой по порядковой шкале (см. табл. 2.3). Подобная трансформация данных, производимая в целях упрощения процедуры анализа и наглядности представления результатов, неизбежно связана с частичной потерей информации и снижением точности расчетов.

На практике, в том числе при применении SPSS, различие между переменными, измеряемыми по интервальной и относительной шкалам, обычно несущественно.

Во многих учебниках по SPSS метрические переменные (Scale) определяются как интервальные.

ип шкалы измерения переменных определяет возможность применения того или иного метода анализа данных. Все методы статистического анализа делятся на две группы:

1) методы оценки связи между переменными;

2) методы выявления структуры данных.

Методы выявления структуры данных характеризуются тем, что исходные данные для проведения анализа не содержат информации (предположений) о существовании взаимосвязей между исследуемыми переменными. К таким методам относятся, например, кластерный и факторный анализ.

Методы оценки связи между переменными устанавливают влияние одной или нескольких независимых переменных на одну или несколько зависимых переменных. С точки зрения теории статистики существуют правила применения того или иного метода оценки связи между переменными в зависимости от типа шкалы их измерения (табл. 2.5).

Таблица 2.5 Методы оценки связи между переменными и типы шкал измерения переменных (Backhaus, Erichson, Ptinke, Weiber, 2000.S. Ш)
  Независимые переменные
Метрическая шкала Номинальная шкала
Зависимые переменные Метрическая шкала Регрессионный анализ Дисперсионный анализ
Номинальная шкала Дискриминантный анализ Таблицы сопряженности

 

Применение некоторых основных методов статистического анализа в SPSS будет более подробно рассмотрено в следующих подразделах.

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Что представляют собой таблицы, содержащиеся во вкладках редактора данных SPSS «Свойства переменных» (Variable View) и «Значения переменных» (Data View)?

2. Каким образом осуществляется процедура занесения в исходный файл данных SPSS меток переменных?

3. Чем отличаются пропущенные значения, определяемые системой (system-defined truss, ig values) от пропущенных значений, задаваемых пользователем программы {user-defined missing values)!

4. Какие три типа шкал измерения переменных используются в SPSS и каким образом задается тип шкалы измерения переменной при формировании исходного файла данных?

5. Чем отличаются дихотомическая и категориальная кодировка данных?

6. Почему при занесении в исходный файл данных SPSS ответов ка многовариантные (безальтернативные) вопросы необходимо использовать дихотомическую кодировку данных?

7. С какой целью и в каких случаях применяется двойная запись данных при создании исходного файла SPSS?

8. По шкале какого типа измеряются следующие переменные: а) частота приобретения товара «A»

• реже 1-го раза в неделю;

• 1—3 раза в неделю;

• чаще 3-х раз в неделю;

б) семейное положение

• замужем/женат;

• не замужем/ холост;

• разведена/разведен;

в) оценка уровня сервисного обслуживания

• очень высокая;

• высокая;

• средняя;

• низкая;

• очень низкая;

г) возраст (23 года, 24 года, 32 года, 57 лет)?

1. Как отличаются друг от друга переменные, измеряемые по разным типам шкал, относительно возможности произведения арифметических операций и расчета статистических показателей?


3. СРАВНЕНИЕ СРЕДНИХ ВЕЛИЧИН ВSPSS

Методы сравнения средних величин часто используются в маркетинговых исследованиях для выявления взаимосвязи между исследуемыми переменными. К таким методам относятся T-тесты и дисперсионный анализ.

В ходе проведения Т-теста или дисперсионного анализа проверяется исходная (нулевая) гипотеза о равенстве сравниваемых средних величин, которая представляет собой утверждение: «Взаимосвязи между исследуемыми величинами не существует». Например, исходная (нулевая) гипотеза предполагает равенство среднего балла успеваемости студентов — юношей и девушек, что свидетельствует о том, что пол студента не влияет на его успеваемость. По результатам проведения анализа данная гипотеза должна быть подтверждена или опровергнута.

Основным результатом T-теста или дисперсионного анализа, выдаваемого SPSS, является величина «Significance» («Значимость»). Она характеризует вероятность ошибки, с которой может быть отклонена исходная (нулевая) гипотеза. Если вероятность ошибки мала, исходная гипотеза может быгь отклонена, т.е. ее можно считать неверной (рис. 3.1).

Результаты проверки исходной (нулевой) гипотезы определяются доверительным интервалом (Confidence Interval), который задается при формировании задания на проведение Г-теста или дисперсионного анализа в SPSS. По умолчанию устанавливается доверительный интервал 95%.

SPSS предоставляет возможность сравнения средних величин (Compare Means) при помощи различных методов (рис. 3.2).

При запуске процедуры «Средние величины» (Means) (см. рис. 3.2) определяются средние величины зависимых переменных в разных группах, сформированных по разным признакам (независимым переменным), а также вычисляются различные статистические показатели распределения зависимых переменных в группах (например, дисперсия, стандартное отклонение и др.).

 

 


 

Сравнение двух средних величин осуществляется при помощи T-теста. При этом Т-тест для одной выборки (One-Sample T-test) используется для сравнения средней величины тестируемого признака в выборке с заданной стандартной величиной.

Например, с помощью этого теста можно определить, отличается ли средняя цена на определенный товар в заданной выборке предприятий торговли от средней цены, указанной каким-либо официальным источником.

Т-тест для независимых выборок (,Independent Samples T-test) (см. рис. 3.2) производится для сравнения средних величин тестируемого признака в двух группах. При этом каждый респондент может оказаться только в одной из двух групп, например: мужчины и женщины, семейные и несемейные, покупающие или не покупающие товар «X» и т.д.

Т-тест для спаренных выборок (Paired-Samples T-test) (см. рис. 3.2) применяется для сравнения средних величин в двух группах, но при этом один и тот же респондент может одновременно оказаться в разных группах. Например, респонденты, покупающие товар А и товар В.

Для сравнения средних величин в трех и более группах применяется однофакторныi дисперсионный анализ (One- Way-ANO VA) (см. рис. 3.2).

В данной работе подробно рассматривается Г-тест для независимых выборок и однофакторный дисперсионный анализ.

3.1. Т-ТЕСТ ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК

3.1.1. ПОСТАНОВКА ЦЕЛИ ИССЛЕДОВАНИЯ И ПРЕДСТАВЛЕНИЕ ИСХОДНЫХ ДАННЫХ В SPSS

Т-тест проводится с целью определения влияния одной (независимой) переменной на другую (зависимую) переменную. По типу шкалы измерения зависимая переменная должна быть метрической, а независимая, как правило, является дихотомической (см. подраздел 2.3 «Типы шкал измерения переменных»).

Переменная дихотомического типа может принимать только два значения; следовательно, при помощи этой переменной можно разбить все анализируемые данные на две группы. Именно поэтому независимая переменная называется группирующей, а зависимая переменная — тестируемой.

Например, следует определить, влияет ли пол туриста на его удовлетворенность местом отдыха (рис. 3.3).

Независимая переменная «пол» является дихотомической, она разделяет всех респондентов на две группы: «мужчины» и «жен щины». В файле данных SPSS, сформированном по результатам опроса туристов, отдыхающих в курортной зоне «Баварский лес», эта переменная имеет имя «s_l» и метку переменной «Пол» (см. рис. 2.1,2.3, 2.6).

 

В Качестве зависимой переменной выступает переменная, представляющая вопрос анкеты № 34 «Оцените по 5-балльной шкале степень своей удовлетворенности местом отдыха в целом». В файле данных SPSS, сформированном по результатам опроса туристов, отдыхающих в курортной зоне «Баварский лес», эта переменная имеет имя «q_34» и метку переменной «Удовлетворенность» (рис. 3.4).


В столбце «Values» таблицы «Свойства переменных» отображаются значения метки переменной «Удовлетворенность» и их числовые коды.

Числовые коды значений переменной «Удовлетворенность» содержатся в таблице «Значения переменных» вкладки редактора данных «Data View» (рис. 3.5).

Из данных, представленных на рис. 3.5, видно, что респондент в строке 3525 доволен местом отдыха, респондент в строке 3526 — очень доволен, респондент в строке 3529 — доволен и недоволен одновременно, а респондент в строке 3530 затруднился ответить на поставленный вопрос.

 

Для того чтобы выяснить, влияет ли пол туриста на степень его удовлетворенности местом отдыха, необходимо сравнить средний уровень удовлетворенности мужчин и женщин. Если данные показатели существенно отличаются друг от друга, то можно судить о наличии вышеуказанной взаимосвязи.

Т-тест позволяет проверить верность гипотезы, согласно которой средние величины тестируемого показателя в двух группах равны. В рассматриваемом примере исходная (нулевая) гипотеза формулируется следующим образом:

«Мужчины и женщины в одинаковой степени довольны (недовольны) местом отдыха, т.е. пол туриста не влияет на его удовлетворенность местом отдыха».

В ходе проведения T-теста исходная гипотеза должна быть подтверждена или опровергнута. Для выполнения этого задания последовательно решаются две задачи:

• Проверяются условия равенства дисперсий тестируемой переменной в двух сравниваемых группах.

* Выявляются взаимосвязи между исследуемыми переменными, т.е. проверяются неравенства средних значений тестируемой переменной в двух сравниваемых группах.

3.1.2. КОМАНДЫ SPSS НА ВЫПОЛНЕНИЕ Т-ТЕСТА ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК

При помощи выбора меню «Analyze > Compare Means > Independent Samples T-tesU (см. рис. 3.2) открывается диалоговое окно «T-тест для независимых выборок» (рис. 3.6).

 

В левом поле окна указываются метки всех переменных, занесенных в базу данных. Из данного списка выбирается метка тестируемой переменной (в рассматриваемом примере это «Удовлетворенность») и переносится в поле «Test Variable(s)». Далее из списка выбирается метка группирующей переменной (в рассматриваемом примере это «Пол») и переносится в поле «Group ng Vat able».

руппирующая переменная делит всех респондентов на две группы: мужчины («1») и женщины («2»). Кодировку этих групп необходимо указать во вспомогательном диалоговом окне «Обозначенные группы» (Define Groups), которое открывается нажатием одноименной кнопки в диалоговом окне «Г-тест для независимых выборок» (рис- 3.6 и 3.7).

 

 

Группирующая переменная может быть не только дихотомической (т.е. принимающей только два значения), но и метрической, например переменная «возраст». В этом случае группы обозначаются при помощи указания «точки разрыва» (Cut point), например старше или младше указанного возраста.

Путем нажатия кнопки «Продолжение» (Continue) (см. рис. 3.7) снова активируется главное диалоговое окно «T-teст для независимых выборок» (см. рис. 3.6). При нажатии в этом окне кнопки «Опции» (Options) открывается одноименное диалоговое окно (рис. 3.8.).

 

В данном окне устанавливается «доверительный интервал» (Confidence Interval), который по умолчанию задается в размере 95%. Доверительный интервал определяет допустимую вероятность ошибки в случае отклонения исходной (нулевой) гипотезы (см. рис. 3.1).

После того как задан доверительный интервал путем нажатия кнопки «Продолжение» (Continue) осуществляется возврат в главное диалоговое окно «Г-тест для независимых выборок» (см рис. 3.6.), где нажатием кнопки «ОК» запускается процедура проведения T-теста.

3.1.3. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ Г-ТЕСТА ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК

После запуска процедуры выполнения Г-теста в SPSS на экран компьютера выводятся результаты анализа, которые объединены в две таблицы. Результаты Т-теста для независимых выборок в рассматриваемом примере представлены в табл. 3.1 и 3.2. (Там, где данные в таблицах соответствуют пакету SPSS, ноль перед запятой не приводится — как в программном пакете. — Прим. ред.)

таолица 3.1 Результаты T-теста: статистические показатели в группах Group Statistics  
 
 
Пол N Mean Std. Deviation Std. Error Mean  
Удовлетворенность Мужчины 1,56 ,541 ,010  
Женщины 1,55 ,561 ,011  

 

Как видно из данных табл. 3.1, всего в исследованиях приняли участие 3140 мужчин и 2823 женщины. Средняя удовлетворенность местом отдыха (Mean) у мужчин составила 1,56, а у женщин — 1,55. На первый взгляд разница между средней удовлетворенностью местом отдыха у мужчин и женщин незначительная, однако неизвестно, является ли это отличие значимым с точки зрения статистики. На этот вопрос отвечают результаты T-теста, представленные в табл. 3.2.

 

В результирующей таблице (см. табл. 3.2) представлено два варианта результатов T-теста в зависимости от равенства дисперсий распределения тестируемой переменной в разных группах:

1) дисперсии равны (Equal variance assumed);

2) дисперсии не равны (Equal variance not assumed).

Дисперсия характеризует «рассеивание» значений тестируемой переменной вокруг ее среднего значения, что является важным показателем при сравнении средних величин.

В зависимости от выполнения условия равенства дисперсий в ходе анализа результатов T-теста следует выбрать одну из строк табл. 3.2. Равенство дисперсий проверяется при помощи теста Ливина (Levene's Test)[1].

При проведении теста Ливина проверяется следующая гипотеза: «Дисперсии распределения тестируемой величины в разных группах равны». Верность этой гипотезы определяется в зависимости от величины «Significance» («Значимость»), которая в данном примере составляет 0,007 (см. табл. 3.2). Это означает, что исходная гипотеза может быть отклонена с вероятностью ошибки 0,7%, что существенно ниже допустимого уровня (5%). Следовательно, исходная гипотеза может быть отклонена.

Результаты теста Ливина показывают, что распределение тестируемой переменной в сравниваемых группах имеет разную дисперсию. При выборе одного из двух вариантов результата Т-теста в табл. 3.2 следует выбрать вторую строку «Equal variance not assumed» («Равная вероятность не принимается»).

T-тест проверяет верность гипотезы: «Средние величины в двух группах равны». Верность этой гипотезы проверяется в зависимости от показателя «Significance (2-tailed)». В нашем примере этот показатель составляет 0,29 (см. табл. 3.2), что означает, что
исходная гипотеза может быть отклонена с вероятностью ошибки 29%, а это выше допустимого уровня (5%). Следовательно, исходная гипотеза не может быть отклонена, т.е. сравниваемые средние величины равны с точки зрения статистики.

Исходя из вышеизложенного можно сделать вывод о том, что разница между средним уровнем удовлетворенности местом отдыха у мужчин и женщин (1,56 и 1,55) не является статистически значимой.

Таким образом, в результате проведения Т-теста доказано отсутствие взаимосвязи между исследуемыми переменными, т.е. пол туриста не влияет на его удовлетворенность местом отдыха.


3.2. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

3.2.1. ПОСТАНОВКА ЦЕЛИ ИССЛЕДОВАНИЯ И ПРЕДСТАВЛЕНИЕ ИСХОДНЫХ ДАННЫХ В SPSS

Однофакторный дисперсионный анализ проводится с целью определения влияния одной (независимой) переменной на другую (зависимую) переменную. С точки зрения чистоты статистических расчетов независимая переменная должна быть номинальной или порядковой, а зависимая — метрической (см. раздел 2.3 «Типы шкал измерения переменных»).

Номинальная или порядковая переменная может принимать несколько значений (более двух); следовательно, при помощи этой переменной можно разделить все анализируемые данные на нескольхо групп (категорий). Именно поэтому независимая переменная называется категориальным фактором.

Например, следует определить, влияет ли удаленность места отдыха от места жительства туриста на выбоо транспорта для проезда до места отдыха.

Для проведения такого исследования из всех вопросов анкеты, которая была использована для опроса туристов, отдыхающих в курортной зоне «Баварский лес», выбираются два вопроса:

• Вопрос № 12: «Укажите, каким видом транспорта Вы пользовались, для того чтобы добраться до места отдыха». (В качестве вариантов ответа на выбор предлагается 10 видов транспорта.)

• Вопрос N° 14: «Укажите расстояние (в километрах), которое Вам пришлось преодолеть, чтобы добраться от места жительства до места отдыха».

51

Вопрос № 12 является номинальной переменной, а вопрос N° 14 — метрической (см. подраздел 2.3 «Типы шкал измерения переменных»). В соответствии с требованиями, предъявляемыми к переменным, участвующим в дисперсионном анализе, вопрос № 12 («Вид транспорта») должен выступать в качестве независимой переменной, а вопрос N° 14 («Удаленность места отдыха») — в качестве зависимой.

При указанном выше распределении ролей зависимой и независимой переменных должна поменяться формулировка вопроса исследования. Вместо исходной формулировки «Влияет ли удаленность места отдыха на выбор вида транспорта» следует использовать другую формулировку: «Существует ли взаимосвязь между удаленностью места отдыха и выбором вида транспорта» (рис. 3.9).

В файле данных SPSS, содержащем результаты опроса турис

 

тов, вопрос № 12 представлен в виде переменной с именем «q__12» и меткой «Вид транспорта». Вопрос № 14 представлен в виде переменной с именем «q__14» и меткой «Удаленность места отдыха» (рис. 3.10).

Поскольку переменная «Вид транспорта» является номинальной, в столбце « Values» таблицы «Свойства переменных» указываются значения метки переменной с их числовыми кодами. Переменная «Удаленность места отдыха» является метрической, поэтому значения метки переменной в столбце «Values» отсутствуют.

 

Фрагмент таблицы «Значения переменных» содержит данные об ответах респондентов на вопрос анкеты № 12 (столбец «q_12») и вопрос № 14 (столбец «q_l4»). Респондент в строке 1127 прибыл на место отдыха на автомобиле и преодолел расстояние 400 км. Респондент в строке 1128 приехал на поезде и при этом преодолел расстояние 600 км. Респондент в строке 1129 приехал к месту отдыха на автобусе за 440 км (рис. 3.11).

 

Для того чтобы выявить взаимосвязь между удаленностью места отдыха и выбором вида транспорта, необходимо сравнить среднее расстояние, преодолеваемое туристами при помощи различных видов транспорта. Если сравниваемые расстояния существенно отличаются друг от друга, то можно судить о наличии вышеуказанной взаимосвязи.

Однофакторный дисперсионный анализ проверяет верность гипотезы, согласно которой средние величины более чем в двух группах равны. В рассматриваемом примере исходная (нулевая) гипотеза принимает следующую формулировку: «Туристы, использующие различные виды транспорта, преодолевают в среднем одинаковое расстояние от места проживания до места отдыха». Иными словами: «Не существует связи между выбором вида транспорта и дальностью преодолеваемого расстояния».

В результате однофакторного дисперсионного анализа исходная (нулевая) гипотеза должна быть подтверждена или опровергнута. В ходе анализа последовательно решаются три задачи:

* Проверяются условия равенства дисперсий зависимой переменной в нескольких сравниваемых группах (категориях).

* Выявляются взаимосвязи между исследуемыми переменными, т.е. проверяются неравенства средних значений зависимой переменной в нескольких сравниваемых группах (категориях).

* В случае выявления взаимосвязи определяется, каким образом именно категории (группы) обусловливают данную взаимосвязь, т.е. в каких именно группах (категориях) средние значения зависимой переменной не равны.

3.2.2. КОМАНДЫ SPSS НА ВЫПОЛНЕНИЕ ОДНОФАКТОРНОГО ДИСПЕРСИОННОГО АНАЛИЗА

При выборе меню «Analyze > Compare Means > One-Way-ANOVA» (см. рис. 3.2) открывается диалоговое окно «Однофакторный дисперсионный анализ» (рис. 3.12).

В левом поле ок на указываются метки всех переменных, занесенных в базу данных. Из списка всех переменных выбирается категориальный фактор, т.е. переменная, разбивающая данные на группы (категории) (в рассматриваемом примере — «Вид транспорта»), и переносится в поле «Factor».

Далее из списка переменных выбирается другая исследуемая переменная — «зависимая переменная» (в рассматриваемом примере — «Удаленность места отдыха») — и переносится в поле «Dependent List».

 

Прежде чем нажать кнопку «ОК» и запустить процесс выполнения анализа, следует задать дополнительные команды во вспомогательном диалоговом окне «Опции», которое открывается путем нажатия одноименной кнопки в главном диалоговом окне «Однофакторный дисперсионный анализ» (рис. 3.12 и 3.13).


 

В диалоговом окне «Опции» путем отметки напротив команды «Descr ptive» (см. рис. 3.13) можно задать вывод на экран статистических показателей, описывающих распределение переменной «Удаленность места отдыха» в разных группах респондентов, сформированных в зависимости от используемого ими вида транспорта. Результат выполнения этой команды будет представлен далее в табл. 3.3.

В ходе выполнения однофакторного дисперсионного анализа следует проверить равенство дисперсий распределения зависимой переменной в сравниваемых группах. Равенство дисперсий проверяется при помощи теста Ливина. Для задания на выполнение данного теста в диалоговом окне «Опции» следует сделать отметку напротив команды «Homogenei у of variance test» (см. рис. 3.13). Результаты проведения теста Ливина будут представлены далее в табл. 3.4.

Также в рассматриваемом примере в диалоговом окне «Опции» поставлена отметка напротив команды «Means Plot». В результате выполнения этой команды на экран компьютера выводится график средних значений зависимой переменной в разных группах (категориях). Этот график будет представлен ниже в рассматриваемом примере среди результатов анализа (рис. 3.15).

При нажатии кнопки «Continue» в диалоговом окне «Опции» осуществляется возврат в главное диалоговое окно «Однофакторный дисперсионный анализ» (см. рис. 3.12).

В результате проведения однофакторного дисперсионного анализа согласно описанному выше заданию, т.е. перечню команд, решаются две задачи:

* Проверяются равенства дисперсий значений зависимой переменной в сравниваемых группах (категориях).

• Выявляются взаимосвязи между исследуемыми переменными, т.е. приводится доказательство неравенства средних значений зависимой переменной в сравниваемых группах (категориях). Решение этих задач не является окончательным результатом

однофакторного дисперсионного анализа. Если взаимосвязь между исследуемыми переменными существует, то следует выяснить, какие именно категории обусловливают существование этой связи. Иными словами, если выясняется, что средние значения зависимой переменной в сравниваемых группах (категориях) не равны, то необходимо выяснить — в каких именно. Для решения этой задачи проводятся дополнительные исследования (Post Нос).

Для выяснения того, в каких же именно группах (категориях) средние значения зависимой переменной в наибольшей степени отличаются друг от друга, проводится многовариантное сравнение этих значений (Multiple Comparison). Данный процесс осуществляется путем проведения так называемых апостериорных тестов.

Команда на проведение апостериорного теста задается в дополнительном диалоговом окне «Последующие многовариантные сравнения» (рис. 3.14), которое открывается путем нажатия кнопки «Post Нос» в главном диалоговом окне «Однофакторный дисперсионный анализ».

 

В диалоговом окне «Последующие многовариантные сравнения» представлены различные апостериорные тесты, позволяющие выявить группы, ответственные за результаты дисперсионного анализа.

Правильный выбор апостериорного теста возможен только после проведения теста Ливина на равенство дисперсий. Некоторые тесты могут применяться только в том случае, если дисперсии зависимой переменной в сравниваемых группах (категориях) равны (Equal Variances Assumed). Другие тесты, наоборот, применяются в том случае, если дисперсии значений зависимой переменной в разных группах (категориях) не равны (Equal Variances Not Assumed).

В целях сокоащения количества итераций рекомендуется задать команды на проведение сразу двух тестов: на случай равенства и неравенства дисперсий зависимой переменной в сравниваемых группах. При интерпретации результатов анализа будет выбран нужный вариант.

В рассматриваемом примере в диалоговом окне «Последующие многовариантные сравнения» заданы команды на проведение теста «Scheffe» и «Tamhane», которые наиболее часто используются на практике. После нажатия кнопки «Continue» в этом же диалоговом окне осуществляется возврат в главное диалоговое окно «Однофакторный дисперсионный анализ».

Путем нажатия кнопки «ОК» в главном диалоговом окне запускается процедура выполнения однофакторного дисперсионного анализа.

 

3.2.3. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ОДНОФАКТОРНОГО ДИСПЕРСИОННОГО АНАЛИЗА

Среди результатов выполнения задания (перечня команд), описанного выше, в первую очередь на экран компьютера выводится таблица «Descriptives». Она содержит различные статистические показатели, описывающие распределение зависимой переменной в разных группах (категориях). В рассматриваемом примере зависимой переменной является расстояние, преодолеваемое туристами от места проживания до места отдыха. Группами (категориями) являются группы туристов, пользующихся различными видами транспорта для проезда до места отдыха (табл. 3.3).


Статистические показатели, отображенные в таблице «Descriptives»:

• число наблюдений (респондентов) в одной группе (N);

• среднее значение (Mean);

• стандартное отклонение (Std. Deviation);

• стандартная ошибка (Std. Error);

• доверительный интервал (Confidence Interval);

• минимальное и максимальное значения, т.е. самое короткое и самое длинное рассгояние, преодолеваемое туристами с помощью определенного вида транспорта (Minimum, Maximum). Таблица «Descriptives» дает лишь общее представление о распределении значений зависимой переменной в разных группах (категориях). Основная задача данного этапа исследований — проверка практической значимости сформированных групп (категорий).

Как видно из данных табл. 3.3, из числа всех респондентов, давших ответы на вопросы анкеты № 12 и № 14 (5760 человек), только один воспользовался пароходом, чтобы добраться до места отдыха. Данная группа («туристы, выбирающие пароход») должна быть исключена из исследований, поскольку она состоит только из одного респондента и является практически незначимой.

Следующим шагом представления результатов однофактор- ного дисперсионного анализа является представление результатов проверки равенства дисперсий в сравниваемых группах (категориях), т е. результатов теста Ливина (табл. 3.4).

 

Тест Ливина позволяет проверить верность гипотезы: «Дисперсии в рассматриваемых группах равны». Значение расчетного показателя «Significance» в данном случае равно 0,000. Это означает, что исходная гипотеза может быть отклонена с вероятностью ошибки 0%, т.е. гипотеза неверна. Это доказывает, чго дисперсии зависимой величины «Удаленность места отдыха» в сравниваемых группах (категориях) туристов, воспользовавшихся разными ьидами транспорта, не равны.

После результатов проверки равенства дисперсий в сравниваемых группах на экран выводятся результаты однофакторного дисперсионного анализа (ANOVA: Analysis of Variance) (табл. 3.5).

Таблица 3.5

Результаты однофакторного дисперсионного анализа

ANOVA

  Sum of Squares df Mean Square F Sig.
Between Groups 177533022,851 19725891,43 253,245 ,000
Within Groups 447881263,272 77892,394    
Total 625414286,122      

 

Как отмечалось ранее, однофакторный дисперсионный анализ позволяет проверить вероятность исходной (нулевой) гипотезы о равенстве средних величин более чем в двух группах. В рассматриваемом примере нулевая гипотеза представляет собой утверждение: «Туристы, пользующиеся различными видами транспорта, в среднем преодолевают равные расстояния от места проживания до места отдыха».

Равенство средних значений зависимой переменной в разных группах (категориях) свидетельствует об отсутствии взаимосвязи между исследуемыми переменными. В рассматриваемом примере исходная (нулевая) гипотеза может также быть представлена в виде утверждения: «Не существует взаимосвязи между удаленностью места отдыха и выбором вида транспорта».







Дата добавления: 2015-08-30; просмотров: 1672. Нарушение авторских прав


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2019 год . (0.067 сек.) русская версия | украинская версия