Студопедия — Кластерный анализ при большом количестве наблюдений
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кластерный анализ при большом количестве наблюдений






(Кластерный анализ методом к-средних)

Процедура иерархического кластерного анализа эффективна для малого числа объектов. Ее преимущественно в том, что каждый объект можно рассмотреть в отдельности. Но эта процедура не годится для массивов большого объема

Поэтому при наличии большого количества наблюдений применяют другие методы. В такой ситуации наиболее приемлем алгоритм, носящий название «k-средних». Он реализуется в пакете командой меню K-means. Алгоритм заключается в следующем: выбирается заданное число k точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляют центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять распределяют объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.

В качестве примера расчёта по этому алгоритму, рассмотрим выборку из результатов опроса 1200 молодых респондентов, в котором задавался вопрос относительно их жизненных стратегий – «что важно для достижения успеха в жизни» с вариантами ответов[7]:

59. Происходить из материально обеспеченной семьи
60. Иметь хорошее образование
61. Иметь амбиции для продвижения по жизни
62. Иметь высокопоставленных родителей
63. Иметь связи в криминальном мире
64. Иметь везение, счастливый случай
65. Иметь природные задатки
66. Много работать
67. Иметь необходимые знакомства, связи
68. Иметь нравственные убеждения
69. Проживать в определенном регионе
70. Важно, каков твой пол

Ответы на эти вопросы хранятся в переменных v59-v70 в файле opros.sav. В этом файле также находятся и другие переменные, использовавшиеся при исследовании (пол, возраст, место жительства, профессия). На основании вопросов о жизненных стратегиях молодежи попытаемся определить группы (кластеры) респондентов. Для начала рекомендуется сократить количество переменных при помощи факторного анализа.

Откройте файл opros.sav.

Выберите в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

· Переменные v59-v70 внесите в список целевых переменных.

· Через выключатель Extraction... (Отбор) деактивируйте вывод неповёрнутого факторного решения.

· Через выключатель Rotation... (Вращение) для осуществления вращения активируйте метод варимакса.

· Минуя выключатель Options... (Опции) в разделе Coefficient Display Format (Формат отображения коэффициентов) (подразумеваются факторные нагрузки) активируйте Sorted by Size (Отсортированные по размеру). Затем активируйте опцию Suppress absolute values less then: (He выводить абсолютные значения меньше чем:) и введите значение,40.

· В заключение щёлкните по выключателю Scores... (Значения), чтобы значения факторов сохранить в виде новых переменных.

В результате расчёта было отобрано три фактора и добавлено в файл три переменные от (fac1_1 до fac3_1), которые и отображают эти три фактора. Среди результатов присутствует повёрнутая факторная матрица (см. следующую таблицу).

Факторная матрица красноречиво демонстрирует, что отобранные факторы могут быть расположены в следующей смысловой последовательности:

· группа «пассивных», для которых достижение успеха связано со статусом родителей, материальной обеспеченностью семьи, знакомствами с нужными людьми.

· группа «активных, самостоятельных», для которых важно много работать, иметь хорошее образование, нравственные убеждения, задатки и амбиции.

· группа «ориентированных на случай или на природные задатки»

Теперь используем сохранённые нами значения этих трех факторов для проведения кластерного анализа для респондентов. Так как количество наблюдений равное 1085 слишком велико для иерархического кластерного анализа, выберем метод анализа кластерных центров.

· Присвойте переменным fac1_1-fac3_1 метки: "пассивные", "активные", "ориентированные на случай" соответственно.

· Выберите в меню Analyze (Анализ) Classify (Классифицировать) K-Means Cluster... (Кластерный анализ методом к-средних)

Откроется диалоговое окно K-Means Cluster Analysis (Кластерный анализ методом к-средних).

 

 

· Переменные от fac1_1 до fac3_1 поместите в поле тестируемых переменных. Теперь нужно указать количество кластеров. Подходящим вариантом было бы сначала провести иерархический кластерный анализ для произвольно выбранных наблюдений и получившееся количество кластеров принять за оптимальное.Но можно провести и несколько опытных, пробных расчётов с различным количеством кластеров и после этого определиться с подходящим вариантом решения.

· Мы остановимся на трех кластерах; введите это значение в поле Number of Clusters (Количество кластеров).

· Через выключатель Iterate... (Итерации) укажите число итераций равное 99; установленное по умолчанию количество итераций равное 10, оказалось бы недостаточным.

· Щёлкните по выключателю Save... (Сохранить), чтобы при помощи дополнительных переменных зафиксировать принадлежность наблюдений к кластеру.

· Щёлкните на ОК, чтобы начать расчёт.

Сначала приводятся первичные кластерные центры и обобщённые данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.

При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идёт о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 - очень важно, 5 - не важно) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.

Если учесть всё вышесказанное, то наши три кластера можно интерпретировать следующим образом:

Кластер1: самостоятельные респонденты

Кластер2: пассивные респонденты

КластерЗ: ориентированные на случай

В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 1) наиболее многочисленна.

К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определённому кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией или отношением к политической деятельности (исходя из задач исследования).

Как видно из таблицы, среди тех, тех, кто считает политику бесполезной и относится к ней негативно большинство составляют респонденты с пассивной жизненной установкой (48,9%), не многим меньше (36,2%) респонденты ориентированные на случай. Такого же мнения придерживаются всего лишь 14,9% из числа активной молодежи.

 

Заключение.

Цель данного пособия - познакомить студентов с базовыми техниками и методиками программы SPSS, наиболее часто применяемыми в практической исследовательской работе. Кроме описанных в данном пособии статистических методов обработки данных, программа SPSS позволяет проводить кластерный анализ, дискриминантный анализ, многомерное шкалирование, логлинейный метод и метод логистической регрессии. Подробнее с этими методами можно познакомиться в специальной литературе (см. стр.3).

В заключении можно сказать, что программа SPSS, как и широко распространенные программы Exel и Statistica, является эффективным инструментом для практической работы в области социологического и политического анализа.

 







Дата добавления: 2015-08-30; просмотров: 786. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Прием и регистрация больных Пути госпитализации больных в стационар могут быть различны. В цен­тральное приемное отделение больные могут быть доставлены: 1) машиной скорой медицинской помощи в случае возникновения остро­го или обострения хронического заболевания...

ПУНКЦИЯ И КАТЕТЕРИЗАЦИЯ ПОДКЛЮЧИЧНОЙ ВЕНЫ   Пункцию и катетеризацию подключичной вены обычно производит хирург или анестезиолог, иногда — специально обученный терапевт...

Ситуация 26. ПРОВЕРЕНО МИНЗДРАВОМ   Станислав Свердлов закончил российско-американский факультет менеджмента Томского государственного университета...

Травматическая окклюзия и ее клинические признаки При пародонтите и парадонтозе резистентность тканей пародонта падает...

Подкожное введение сывороток по методу Безредки. С целью предупреждения развития анафилактического шока и других аллергических реак­ций при введении иммунных сывороток используют метод Безредки для определения реакции больного на введение сыворотки...

Принципы и методы управления в таможенных органах Под принципами управления понимаются идеи, правила, основные положения и нормы поведения, которыми руководствуются общие, частные и организационно-технологические принципы...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия