Тема18. Факторный анализ
Команда Data Reduction ► Factor (Сокращение данных ► Факторный анализ) 1. Вычисление корреляционной матрицы для всех переменных, участвующих в анализе. 2. Извлечение факторов. 3. Вращение факторов для создания упрощенной структуры. 4. Интерпретация факторов. Для факторного анализа мы будем использовать данные реального тестирования интеллекта 46 школьников TestIQ.sav. Тест включал в себя 11 субтестов (переменные и1, и2, …, и11), наименования которых вы найдете в разделе «Представление результатов». Предполагалось, что эти 11 субтестов позволят измерить 3 и более обобщенные интеллектуальные характеристики: математические, вербальные и невербальные (образные). Факторный анализ должен был установить соотношение субтестов и факторов. ШАГ 1 Откройте файл данных, с которым вы намерены работать (в нашем случае - это файл TestIQ.sav).
В меню Analyze (Анализ) выберите команду Data Reduction ► Factor (Сокращение данных ► Фактор).
Окна: Описательные, Извлечение, Вращение, Оценки, Опции. В следующем примере иллюстрируется применение факторного анализа к 11-ти переменным и1, …, и11 файла TestIQ.sav с параметрами по умолчанию и вращением по методу Varimax.
ШАГ 2 Должно быть открыто диалоговое окно Factor Analysis (Факторный анализ). 1. Щелкните на переменной и1, нажмите клавишу Shift и, не отпуская ее, щелкните на переменной и11. В результате окажутся выделенными все промежуточные переменные, начиная от переменной и1 и заканчивая переменной и11. 2. Щелкните на верхней кнопке со стрелкой, чтобы переместить выделенные переменные в список Variables (Переменные). 3. Щелкните на кнопке Rotation (Вращение), чтобы открыть диалоговое окно Factor Analysis: Rotation (Факторный анализ: Вращение). 4. В группе Method (Метод) установите переключатель Varimax и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Factor Analysis (Факторный анализ). 5. Щелкните на кнопке ОК, чтобы открыть окно вывода.
При выполнении этого шага проводится факторный анализ, включающий следующие операции. 1. Вычисление корреляционной матрицы для 11-ти переменных, задействованных в анализе. 2. Извлечение 11-ти факторов методом главных компонентов. 3. Выбор для вращения всех факторов, чьи собственные значения не меньше 1. 4. Вращение факторов по методу Varimax. 5. Вывод матрицы преобразования факторов. В следующем примере проводится факторный анализ с участием тех же 11-ти переменных, что и в предыдущем случае, однако теперь задаются некоторые дополнительные параметры. Так, мы включим в вывод одномерные описательные статистики всех переменных, коэффициенты корреляции, а также применим критерии многомерной нормальности и адекватности выборки. Для извлечения факторов будет использоваться метод главных компонентов, а для отображения - график собственных значений. Вращение факторов будет производиться методом Varimax, а благодаря установке флажка Loading plot(s) (Диаграммы нагрузок), мы отобразим факторную структуру после вращения. Наконец, мы отсортируем переменные по величине их нагрузок по факторам.
ШАГ 5а Должно быть открыто диалоговое окно Factor Analysis (Факторный анализ). Если вы уже успели поработать с этим окном, щелкните на кнопке Reset (Сброс). 1. Щелкните на переменной и1, нажмите клавишу Shift и, не отпуская ее, щелкните на переменной и11. В результате окажутся выделенными все промежуточные переменные, начиная от переменной и1 и заканчивая переменной и11. 2. Щелкните на верхней кнопке со стрелкой, чтобы переместить выделенные переменные в список Variables (Переменные). 3. Щелкните на кнопке Descriptives (Описательные статистики), чтобы открыть диалоговое окно Factor Analysis: Descriptives (Факторный анализ: Описательные статистики), показанное на рис. 20.3. 4. В группе Statistics (Статистики) установите флажок Univariate Descriptives (Одномерные описательные статистики), в группе Correlation matrix (Корреляционная матрица) — флажки Coefficients (Коэффициенты) и КМО and Barlett's Test of sphericity (Критерии KMO и сферичности Барлетта) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Factor Analysis (Факторный анализ). 5. Щелкните на кнопке Extraction (Извлечение), чтобы открыть диалоговое окно Factor Analysis: Extraction (Факторный анализ: Извлечение). 6. Установите флажок Scree Plot (График собственных значений) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Factor Analysis (Факторный анализ). 7. Щелкните на кнопке Rotation (Вращение), чтобы открыть диалоговое окно Factor Analysis: Rotation (Факторный анализ: Вращение). 8. В группе Method (Метод) установите переключатель Varimax, в группе Display (Отображать) — флажок Loading plot(s) (Диаграммы нагрузок) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Factor Analysis (Факторный анализ). 9. Щелкните на кнопке Options (Параметры), чтобы открыть диалоговое окно Factor Analysis: Options (Факторный анализ: Параметры). 10. Установите флажок Sorted by size (Сортировать по величине) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Factor Analysis (Факторный анализ). 11. Щелкните на кнопке ОК, чтобы открыть окно вывода.
□ Kaiser-Meyer-Olkin Measure of Sampling Adequacy (Критерий адекватности выборки Кайзера-Мейера-Олкина) — величина, характеризующая степень применимости факторного анализа к данной выборке: более 0,9 — безусловная адекватность; более 0,7 — приемлемая адекватность; более 0,5 — низкая адекватность; менее 0,5 — факторный анализ неприменим к выборке. □ Barlett's Test of Sphericity (Критерий сферичности Барлетта) — критерий многомерной нормальности для распределения переменных. Критерии многомерной нормальности проверяет, отличаются ли корреляции от 0. Значение p -уровня, меньшее 0,05, указывает на то, что данные вполне приемлемы для проведения факторного анализа.
Тема 19. Кластерный анализ □ Команда Classify ► Hierarchical Cluster (Классификация ► Иерархическая кластеризация) Сначала мы продемонстрируем вариант использования кластерного анализа объектов с включением в вывод нескольких интересующих нас величин. Второй вариант проиллюстрирует кластерный анализ переменных. В нем мы вновь обратимся к файлу TestIQ.sav для того, чтобы вы имели возможность сравнить кластерный анализ переменных с факторным анализом, описанным в предыдущей главе.
ШАГ 1 Откройте файл данных, с которым вы намерены работать (файл cars.sav).
В меню Analyze (Анализ) выберите команду Classify ► Hierarchical Cluster (Классификация ► Иерархическая кластеризация).
В качестве идентификатора используется переменная марка. Все остальные переменные файла задействуются для вычисления расстояния между объектами. Мы включим в выводимые результаты последовательность слияния и дендрограмму, но исключим диаграмму накопления. Значения всех переменных нормализуем для того, чтобы придать им равные веса и привести к одной шкале. В качестве расстояния между объектами зададим квадрат Евклидова расстояния, а в качестве метода кластеризации — межгрупповое связывание. Кроме того, мы создадим новую переменную, в которой сохраним решение с тремя кластерами.
ШАГ 2 Должно быть открыто диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ). 1. Щелкните сначала на переменной марка, чтобы выделить ее, а затем — на нижней кнопке со стрелкой, чтобы переместить переменную в поле Label Cases by (Различать объекты по). 2. Нажмите кнопку мыши на переменной цена и, не отпуская кнопки, перетащите указатель на переменную пробег, затем кнопку мыши отпустите. В результате окажутся выделенными все оставшиеся в списке переменные. 3. Щелкните на верхней кнопке со стрелкой, чтобы переместить выделенные переменные в список Variable(s) (Переменные). 4. Щелкните на кнопке Plots (Диаграммы). Установите флажок Dendogram (Дендограмма) и переключатель None (Нет) в группе Icicle (Диаграмма накопления). Щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ). 6. Щелкните на кнопке Method (Метод). В списке Cluster Method (Метод кластеризации) оставьте выбранным пункт Between-groups linkage (Межгрупповое связывание), в списке Standardize (Стандартизация) выберите пункт Z score (z-шкала) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ). 8. Щелкните на кнопке Save (Сохранить). Установите переключатель Single Solution (Заданное число кластеров), введите в расположенное рядом поле значение 3 и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ).
10. Щелкните на кнопке ОК, чтобы открыть окно вывода.
Рассмотрим результаты таблицы последовательности агломерации, полученные на этапе 13.
□ На этапе 13 происходит объединение кластеров, содержащих объекты 1 и 3. Объект 1 был объединен с кластером, содержащим объект 2 на этапе 9, а объект 3 — с объектами 7 и 13 на этапе 10. Расстояние между объединяемыми на этом этапе кластерами равно 9,656. Образованный на этом этапе кластер появляется далее на следующем шаге. По таблице последовательности слияния можно предварительно оценить число кластеров. Оптимальному числу классов соответствует разность между числом объектов и порядковым номером шага, на котором был обнаружен заметный перепад различий. Так, в нашем примере резкое возрастание различий обнаруживается при переходе от шага 12 к шагу 13. Следовательно, наиболее оптимальное количество кластеров должно быть получено на шаге 12 или 13. Это количество равно численности объектов минус номер шага, то есть 15 - 12 = 3 или 15 - 13 = 2, то есть 3 или 2 кластера. Выбор того или иного решения зависит уже от содержательных соображений. В следующем примере проводится кластерный анализ, в котором вместо объектов участвуют переменные. Мы используем данные файла TestIQ.sav, содержащего 11 переменных и1, …, и11. Поскольку в нашем примере интерес представляют именно взаимосвязи между переменными, и мы хотим сравнить результаты с факторным анализом, то в качестве меры близости целесообразно выбрать корреляцию. При этом корреляции надо учитывать по абсолютной величине, так как большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные.
ШАГЗ Откройте файл данных, с которым вы намерены работать (в нашем случае— это файл TestIQ.sav).
ШАГ 4 В меню Analyze (Анализ) выберите команду Classify ► Hierarchical Cluster (Классификация ► Иерархическая кластеризация). 1. В группе Cluster (Кластеризация) установите переключатель Variables (Переменные). 2. Нажмите кнопку мыши на переменной и1 и, не отпуская кнопки, перетащите указатель на переменную и11, затем кнопку мыши отпустите. В результате окажутся выделенными все 11 переменных и1, и2, …, и11. Щелкните на верхней кнопке со стрелкой, чтобы переместить выделенные переменные в список Variable(s) (Переменные).
4. Щелкните на кнопке Statistics (Статистики) и установите переключатель Rang of Solution (Диапазон решений), задав значения от 2 до 4. 5. Щелкните на кнопке Plots (Диаграммы), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Plots (Иерархический кластерный анализ: Диаграммы). Установите флажок Dendogram (Дендограмма) и переключатель None (Нет) в группе Icicle (Диаграмма накопления). Щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ). 6. Щелкните на кнопке Method (Метод), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Method (Иерархический кластерный анализ: Метод). В списке Interval (Интервал) выберите пункт Pearson correlation (Корреляция Пирсона), а в группе Transofm Measures (Преобразование значений) установите флажок Absolute values (Абсолютные значения). Щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ).
8. Щелкните на кнопке ОК, чтобы открыть окно вывода.
Проинтерпретируйте полученные кластеры и сравните результаты кластерного и факторного анализа этих данных.
Тема 20. Дискриминантный анализ Для демонстрации дискриминантного анализа мы рассмотрим пример прогнозирования успешности обучения на основе предварительного тестирования. Файл class.sav содержит данные о 46 учащихся (объекты с 1 по 46), закончивших курс обучения, в отношении которых известны оценки успешности обучения - для этого используется переменная оценка (1 — низкая, 2— высокая). Кроме того, в файл включены данные предварительного тестирования этих учащихся до начала обучения (13 переменных): □ и1,..., и11 — 11 показателей теста интеллекта; □ э_и — показатель экстраверсии по тесту Г. Айзенка (H.Eysenck); □ н — показатель нейротизма по тесту Г. Айзенка. Еще для 10 претендентов на курс обучения (объекты с 47 по 56) известны лишь результаты их предварительного тестирования (13 перечисленных переменных).
ШАГ 1 Откройте файл данных, с которым вы намерены работать (в нашем случае - это файл class.sav). Если он расположен в текущей папке, то выполните следующие действия. 1. Выберите в меню File (Файл) команду Open ► Data (Открытие ► Данные) или щелкните на кнопке Open File (Открытие файла) панели инструментов. 2. В открывшемся диалоговом окне дважды щелкните на имени class.sav или введите его с клавиатуры и щелкните на кнопке ОК.
ШАГ 2 В меню Analyze (Анализ) выберите команду Classify ► Discriminant (Классификация ► Дискриминантный анализ). На экране появится диалоговое окно Discriminant Analysis (Дискриминантный анализ).
В следующем примере проводится дискриминантный анализ для зависимой переменной оценка, имеющей два уровня, и 13-ти предикторов. Предикторы добавляются в дискриминантное уравнение пошаговым методом (Уилкса) с установками, отличающимися от предлагаемых по умолчанию: для включения предикторов в уравнение служит значение F=1,25, а для исключения предикторов — значение F =1,00. Для анализа зависимости между предикторами выводятся все описательные статистики. Кроме того, мы включаем в вывод нестандартные коэффициенты дискриминантного уравнения, результаты для каждого объекта и итоговую таблицу.
ШАГ 5 После выполнения предыдущего шага у вас должно быть открыто диалоговое окно Discriminant Analysis (Дискриминантный анализ), показанное на рис. 23.1. Если вы уже успели поработать с этим окном, щелкните на кнопке Reset (Сброс). 1. Щелкните сначала на переменной оценка, чтобы выделить ее, а затем — на верхней кнопке со стрелкой, чтобы переместить переменную в поле Grouping Variable (Группирующая переменная). 2. Щелкните на кнопке Define Range (Задать диапазон), чтобы открыть диалоговое окно Discriminant Analysis: Define Range (Дискриминантный анализ: Задание диапазона). 3. В поле Minimum (Минимум) введите значение 1, нажмите клавишу Tab, чтобы переместить фокус ввода в поле Maximum (Максимум), введите значение 2 и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (Дискриминантный анализ). 4. Наведите указатель мыши на переменную и1, нажмите кнопку мыши и, не отпуская кнопки, перетащите указатель на последнюю переменную н, затем кнопку мыши отпустите. В результате окажутся выделенными все оставшиеся в списке переменные от и1 до н. 5. Щелкните на нижней кнопке со стрелкой, чтобы переместить выделенные переменные в список Independents (Независимые переменные), установите переключатель Use stepwise method (Использовать пошаговый метод) и щелкните на кнопке Statistics (Статистики), чтобы открыть диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики). 6. Установите флажки Means (Средние), Box's М (М Бокса), Univariate ANOVAs (Однофакторный дисперсионный анализ), Unstardardized (Нестандартизованные коэффициенты) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (Дискриминантный анализ). 7. Щелкните на кнопке Method (Метод), чтобы открыть диалоговое окно Discriminant Analysis: Stepwise Method (Дискриминантный анализ: Пошаговый метод). 8. Дважды нажмите клавишу Tab, чтобы переместить фокус ввода в поле Entry (Ввод), введите значение 1,125, нажмите клавишу Tab, чтобы переместить фокус ввода в поле Removal (Вывод), введите значение 1 и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (Дискриминантный анализ). 9. Щелкните на кнопке Classify (Классификация), чтобы открыть диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация). 10. Установите флажки Casewise results (Результаты для объектов), Summary table (Итоговая таблица) и щелкните на кнопке Continue (Продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (Дискриминантный анализ). 11. Щелкните на кнопке ОК, чтобы открыть окно вывода.
□ Wilks' Lambda (Лябда Уилкса) — отношение внутригрупповой суммы квадратов к общей сумме квадратов (λ). Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех групп оказываются равными, и уменьшается с ростом разностей средних значений. Уровни значимости характеризуют вероятность того, что различия между группами являются случайными. □ Ungrouped (Несгруппированный объект) — объект, для которого заранее неизвестна принадлежность к группе. □ Actual group (Фактическая группа) — группа, которой принадлежит данный объект. □ Predicted Group (Прогнозируемая группа) — группа, вычисленная для объекта с помощью уравнения дискриминантной функции. □ Р (D>d | G=g) — вероятность принадлежности объекта к группе (G) при данной величине дискриминантной функции (D). □ Р (G=g | D=d) — вероятность наблюдаемого значения дискриминантной функции (D), если задана принадлежность объекта к группе (G). □ Highest Group (Вероятная группа) — группа, имеющая наибольшую прогнозируемую вероятность включения данного объекта. □ Second Highest Group (Вторая вероятная группа) — группа, имеющая вторую по величине вероятность (после прогнозируемой) включения данного объекта. Поскольку число групп в данном случае равно 2, то такая группа для каждого объекта определена «заранее». □ Discriminant Scores (Значения дискриминантной функции) — величины, получаемые при подстановке значений переменных объекта в уравнение дискриминантной функции.
|