Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кластерный анализ при большом количестве наблюдений





(Кластерный анализ методом к-средних)

Процедура иерархического кластерного анализа эффективна для малого числа объектов. Ее преимущественно в том, что каждый объект можно рассмотреть в отдельности. Но эта процедура не годится для массивов большого объема

Поэтому при наличии большого количества наблюдений применяют другие методы. В такой ситуации наиболее приемлем алгоритм, носящий название «k-средних». Он реализуется в пакете командой меню K-means. Алгоритм заключается в следующем: выбирается заданное число k точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляют центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять распределяют объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.

В качестве примера расчёта по этому алгоритму, рассмотрим выборку из результатов опроса 1200 молодых респондентов, в котором задавался вопрос относительно их жизненных стратегий – «что важно для достижения успеха в жизни» с вариантами ответов[7]:

59. Происходить из материально обеспеченной семьи
60. Иметь хорошее образование
61. Иметь амбиции для продвижения по жизни
62. Иметь высокопоставленных родителей
63. Иметь связи в криминальном мире
64. Иметь везение, счастливый случай
65. Иметь природные задатки
66. Много работать
67. Иметь необходимые знакомства, связи
68. Иметь нравственные убеждения
69. Проживать в определенном регионе
70. Важно, каков твой пол

Ответы на эти вопросы хранятся в переменных v59-v70 в файле opros.sav. В этом файле также находятся и другие переменные, использовавшиеся при исследовании (пол, возраст, место жительства, профессия). На основании вопросов о жизненных стратегиях молодежи попытаемся определить группы (кластеры) респондентов. Для начала рекомендуется сократить количество переменных при помощи факторного анализа.

Откройте файл opros.sav.

Выберите в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

· Переменные v59-v70 внесите в список целевых переменных.

· Через выключатель Extraction... (Отбор) деактивируйте вывод неповёрнутого факторного решения.

· Через выключатель Rotation... (Вращение) для осуществления вращения активируйте метод варимакса.

· Минуя выключатель Options... (Опции) в разделе Coefficient Display Format (Формат отображения коэффициентов) (подразумеваются факторные нагрузки) активируйте Sorted by Size (Отсортированные по размеру). Затем активируйте опцию Suppress absolute values less then: (He выводить абсолютные значения меньше чем:) и введите значение,40.

· В заключение щёлкните по выключателю Scores... (Значения), чтобы значения факторов сохранить в виде новых переменных.

В результате расчёта было отобрано три фактора и добавлено в файл три переменные от (fac1_1 до fac3_1), которые и отображают эти три фактора. Среди результатов присутствует повёрнутая факторная матрица (см. следующую таблицу).

Факторная матрица красноречиво демонстрирует, что отобранные факторы могут быть расположены в следующей смысловой последовательности:

· группа «пассивных», для которых достижение успеха связано со статусом родителей, материальной обеспеченностью семьи, знакомствами с нужными людьми.

· группа «активных, самостоятельных», для которых важно много работать, иметь хорошее образование, нравственные убеждения, задатки и амбиции.

· группа «ориентированных на случай или на природные задатки»

Теперь используем сохранённые нами значения этих трех факторов для проведения кластерного анализа для респондентов. Так как количество наблюдений равное 1085 слишком велико для иерархического кластерного анализа, выберем метод анализа кластерных центров.

· Присвойте переменным fac1_1-fac3_1 метки: "пассивные", "активные", "ориентированные на случай" соответственно.

· Выберите в меню Analyze (Анализ) Classify (Классифицировать) K-Means Cluster... (Кластерный анализ методом к-средних)

Откроется диалоговое окно K-Means Cluster Analysis (Кластерный анализ методом к-средних).

 

 

· Переменные от fac1_1 до fac3_1 поместите в поле тестируемых переменных. Теперь нужно указать количество кластеров. Подходящим вариантом было бы сначала провести иерархический кластерный анализ для произвольно выбранных наблюдений и получившееся количество кластеров принять за оптимальное.Но можно провести и несколько опытных, пробных расчётов с различным количеством кластеров и после этого определиться с подходящим вариантом решения.

· Мы остановимся на трех кластерах; введите это значение в поле Number of Clusters (Количество кластеров).

· Через выключатель Iterate... (Итерации) укажите число итераций равное 99; установленное по умолчанию количество итераций равное 10, оказалось бы недостаточным.

· Щёлкните по выключателю Save... (Сохранить), чтобы при помощи дополнительных переменных зафиксировать принадлежность наблюдений к кластеру.

· Щёлкните на ОК, чтобы начать расчёт.

Сначала приводятся первичные кластерные центры и обобщённые данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.

При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идёт о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 - очень важно, 5 - не важно) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.

Если учесть всё вышесказанное, то наши три кластера можно интерпретировать следующим образом:

Кластер1: самостоятельные респонденты

Кластер2: пассивные респонденты

КластерЗ: ориентированные на случай

В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 1) наиболее многочисленна.

К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определённому кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией или отношением к политической деятельности (исходя из задач исследования).

Как видно из таблицы, среди тех, тех, кто считает политику бесполезной и относится к ней негативно большинство составляют респонденты с пассивной жизненной установкой (48,9%), не многим меньше (36,2%) респонденты ориентированные на случай. Такого же мнения придерживаются всего лишь 14,9% из числа активной молодежи.

 

Заключение.

Цель данного пособия - познакомить студентов с базовыми техниками и методиками программы SPSS, наиболее часто применяемыми в практической исследовательской работе. Кроме описанных в данном пособии статистических методов обработки данных, программа SPSS позволяет проводить кластерный анализ, дискриминантный анализ, многомерное шкалирование, логлинейный метод и метод логистической регрессии. Подробнее с этими методами можно познакомиться в специальной литературе (см. стр.3).

В заключении можно сказать, что программа SPSS, как и широко распространенные программы Exel и Statistica, является эффективным инструментом для практической работы в области социологического и политического анализа.

 







Дата добавления: 2015-08-30; просмотров: 816. Нарушение авторских прав; Мы поможем в написании вашей работы!




Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...


Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...


Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...


Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Виды сухожильных швов После выделения культи сухожилия и эвакуации гематомы приступают к восстановлению целостности сухожилия...

КОНСТРУКЦИЯ КОЛЕСНОЙ ПАРЫ ВАГОНА Тип колёсной пары определяется типом оси и диаметром колес. Согласно ГОСТ 4835-2006* устанавливаются типы колесных пар для грузовых вагонов с осями РУ1Ш и РВ2Ш и колесами диаметром по кругу катания 957 мм. Номинальный диаметр колеса – 950 мм...

Философские школы эпохи эллинизма (неоплатонизм, эпикуреизм, стоицизм, скептицизм). Эпоха эллинизма со времени походов Александра Македонского, в результате которых была образована гигантская империя от Индии на востоке до Греции и Македонии на западе...

Условия, необходимые для появления жизни История жизни и история Земли неотделимы друг от друга, так как именно в процессах развития нашей планеты как космического тела закладывались определенные физические и химические условия, необходимые для появления и развития жизни...

Метод архитекторов Этот метод является наиболее часто используемым и может применяться в трех модификациях: способ с двумя точками схода, способ с одной точкой схода, способ вертикальной плоскости и опущенного плана...

Примеры задач для самостоятельного решения. 1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P   1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P...

Studopedia.info - Студопедия - 2014-2025 год . (0.009 сек.) русская версия | украинская версия