Студопедия — Кластерный анализ при большом количестве наблюдений
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кластерный анализ при большом количестве наблюдений






(Кластерный анализ методом к-средних)

Процедура иерархического кластерного анализа эффективна для малого числа объектов. Ее преимущественно в том, что каждый объект можно рассмотреть в отдельности. Но эта процедура не годится для массивов большого объема

Поэтому при наличии большого количества наблюдений применяют другие методы. В такой ситуации наиболее приемлем алгоритм, носящий название «k-средних». Он реализуется в пакете командой меню K-means. Алгоритм заключается в следующем: выбирается заданное число k точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляют центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять распределяют объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.

В качестве примера расчёта по этому алгоритму, рассмотрим выборку из результатов опроса 1200 молодых респондентов, в котором задавался вопрос относительно их жизненных стратегий – «что важно для достижения успеха в жизни» с вариантами ответов[7]:

59. Происходить из материально обеспеченной семьи
60. Иметь хорошее образование
61. Иметь амбиции для продвижения по жизни
62. Иметь высокопоставленных родителей
63. Иметь связи в криминальном мире
64. Иметь везение, счастливый случай
65. Иметь природные задатки
66. Много работать
67. Иметь необходимые знакомства, связи
68. Иметь нравственные убеждения
69. Проживать в определенном регионе
70. Важно, каков твой пол

Ответы на эти вопросы хранятся в переменных v59-v70 в файле opros.sav. В этом файле также находятся и другие переменные, использовавшиеся при исследовании (пол, возраст, место жительства, профессия). На основании вопросов о жизненных стратегиях молодежи попытаемся определить группы (кластеры) респондентов. Для начала рекомендуется сократить количество переменных при помощи факторного анализа.

Откройте файл opros.sav.

Выберите в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

· Переменные v59-v70 внесите в список целевых переменных.

· Через выключатель Extraction... (Отбор) деактивируйте вывод неповёрнутого факторного решения.

· Через выключатель Rotation... (Вращение) для осуществления вращения активируйте метод варимакса.

· Минуя выключатель Options... (Опции) в разделе Coefficient Display Format (Формат отображения коэффициентов) (подразумеваются факторные нагрузки) активируйте Sorted by Size (Отсортированные по размеру). Затем активируйте опцию Suppress absolute values less then: (He выводить абсолютные значения меньше чем:) и введите значение,40.

· В заключение щёлкните по выключателю Scores... (Значения), чтобы значения факторов сохранить в виде новых переменных.

В результате расчёта было отобрано три фактора и добавлено в файл три переменные от (fac1_1 до fac3_1), которые и отображают эти три фактора. Среди результатов присутствует повёрнутая факторная матрица (см. следующую таблицу).

Факторная матрица красноречиво демонстрирует, что отобранные факторы могут быть расположены в следующей смысловой последовательности:

· группа «пассивных», для которых достижение успеха связано со статусом родителей, материальной обеспеченностью семьи, знакомствами с нужными людьми.

· группа «активных, самостоятельных», для которых важно много работать, иметь хорошее образование, нравственные убеждения, задатки и амбиции.

· группа «ориентированных на случай или на природные задатки»

Теперь используем сохранённые нами значения этих трех факторов для проведения кластерного анализа для респондентов. Так как количество наблюдений равное 1085 слишком велико для иерархического кластерного анализа, выберем метод анализа кластерных центров.

· Присвойте переменным fac1_1-fac3_1 метки: "пассивные", "активные", "ориентированные на случай" соответственно.

· Выберите в меню Analyze (Анализ) Classify (Классифицировать) K-Means Cluster... (Кластерный анализ методом к-средних)

Откроется диалоговое окно K-Means Cluster Analysis (Кластерный анализ методом к-средних).

 

 

· Переменные от fac1_1 до fac3_1 поместите в поле тестируемых переменных. Теперь нужно указать количество кластеров. Подходящим вариантом было бы сначала провести иерархический кластерный анализ для произвольно выбранных наблюдений и получившееся количество кластеров принять за оптимальное.Но можно провести и несколько опытных, пробных расчётов с различным количеством кластеров и после этого определиться с подходящим вариантом решения.

· Мы остановимся на трех кластерах; введите это значение в поле Number of Clusters (Количество кластеров).

· Через выключатель Iterate... (Итерации) укажите число итераций равное 99; установленное по умолчанию количество итераций равное 10, оказалось бы недостаточным.

· Щёлкните по выключателю Save... (Сохранить), чтобы при помощи дополнительных переменных зафиксировать принадлежность наблюдений к кластеру.

· Щёлкните на ОК, чтобы начать расчёт.

Сначала приводятся первичные кластерные центры и обобщённые данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.

При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идёт о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 - очень важно, 5 - не важно) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.

Если учесть всё вышесказанное, то наши три кластера можно интерпретировать следующим образом:

Кластер1: самостоятельные респонденты

Кластер2: пассивные респонденты

КластерЗ: ориентированные на случай

В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 1) наиболее многочисленна.

К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определённому кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией или отношением к политической деятельности (исходя из задач исследования).

Как видно из таблицы, среди тех, тех, кто считает политику бесполезной и относится к ней негативно большинство составляют респонденты с пассивной жизненной установкой (48,9%), не многим меньше (36,2%) респонденты ориентированные на случай. Такого же мнения придерживаются всего лишь 14,9% из числа активной молодежи.

 

Заключение.

Цель данного пособия - познакомить студентов с базовыми техниками и методиками программы SPSS, наиболее часто применяемыми в практической исследовательской работе. Кроме описанных в данном пособии статистических методов обработки данных, программа SPSS позволяет проводить кластерный анализ, дискриминантный анализ, многомерное шкалирование, логлинейный метод и метод логистической регрессии. Подробнее с этими методами можно познакомиться в специальной литературе (см. стр.3).

В заключении можно сказать, что программа SPSS, как и широко распространенные программы Exel и Statistica, является эффективным инструментом для практической работы в области социологического и политического анализа.

 







Дата добавления: 2015-08-30; просмотров: 789. Нарушение авторских прав; Мы поможем в написании вашей работы!



Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

ИГРЫ НА ТАКТИЛЬНОЕ ВЗАИМОДЕЙСТВИЕ Методические рекомендации по проведению игр на тактильное взаимодействие...

Реформы П.А.Столыпина Сегодня уже никто не сомневается в том, что экономическая политика П...

Виды нарушений опорно-двигательного аппарата у детей В общеупотребительном значении нарушение опорно-двигательного аппарата (ОДА) идентифицируется с нарушениями двигательных функций и определенными органическими поражениями (дефектами)...

СПИД: морально-этические проблемы Среди тысяч заболеваний совершенно особое, даже исключительное, место занимает ВИЧ-инфекция...

Понятие массовых мероприятий, их виды Под массовыми мероприятиями следует понимать совокупность действий или явлений социальной жизни с участием большого количества граждан...

Тактика действий нарядов полиции по предупреждению и пресечению правонарушений при проведении массовых мероприятий К особенностям проведения массовых мероприятий и факторам, влияющим на охрану общественного порядка и обеспечение общественной безопасности, можно отнести значительное количество субъектов, принимающих участие в их подготовке и проведении...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия